基於樂符知識及雙投影法的樂符基元分割方法
2023-05-10 18:41:26
專利名稱:基於樂符知識及雙投影法的樂符基元分割方法
技術領域:
本發明涉及多媒體信號處理技術領域,尤其是在數位音樂圖書館等音樂樂譜數字 化應用開發的領域。
背景技術:
樂譜的發明是人類音樂史上的裡程碑,它的出現使人們可以在一個相對標準的平 臺上進行音樂的交流和傳承。但是,古往今來的優秀音樂作品大都以紙質樂譜的形式保留 下來,直至今天,紙質樂譜仍是表達和描述音樂作品的主要載體。紙質樂譜的存在使得音樂 的人們交流和保存音樂,但是紙質樂譜的保存需要佔用一定的存儲空間,不利於保存與交 流,特別是紙質狀樂譜無法實現高速查詢與檢索,而只能能以純手工的方式進行。紙質樂譜 的這些缺點,使得樂譜的交流與保存極為不便。光學樂譜識別技術(OMR)是近年來發展起來的實現紙質樂譜數位化的一種主流 技術,不同於傳統的圖像存儲格式(如JPG,TIF,GIF等)採用光學掃描壓縮存貯樂譜圖像, 而是記錄樂譜所表達的音樂內容,因此所需要的存儲空間更小,並且可以很方便的對其進 行編輯、加工、列印、傳播或者實時演奏。OMR技術為紙質樂譜的數位化提供了一個智能、高 效的新途徑,可以廣泛的應用在計算機輔助音樂教學、數位音樂圖書館建設、網際網路音樂搜 索、計算機音樂合成等領域。一個完整的OMR處理系統大致包括以下幾個組成模塊1)紙質樂譜圖像輸入及預 處理,2)樂譜譜線檢測定位及刪除,3)樂譜圖像分割,4)樂譜圖像識別,5)樂譜重建及音樂 語義解釋。樂譜的分割是識別的前提,關係到整個OMR系統的性能。目前廣泛採用的樂譜 分割方式主要有投影法,區域生長法,邊緣提取及連通域分析等方法。投影法方法簡單,但 往往只能實現對直線區域和非直線區域的有效分割,或者是進行直線的提取,無法實現對 各具體連通域進行分割;邊緣提取法,區域生長法以及傳統連通域方法雖能提取圖像中的 各個連通區域,但運行速度慢且複雜,往往需要對圖像進行多次掃描才能完成。國外有關OMR的研究起始於60年代後期,當時由於技術條件和硬體設備的限制, 所研究的內容也是非常有限的。到了 70年代,隨著光學掃描儀的出現和機器性能的提升, OMR才真正已經引起眾多學者的廣泛注意。進入80年代後,隨著計算機圖形圖像技術的不 斷髮展與成熟,研究內容越來越深入,部分研究成果也正逐步進入實用階段。在我國,一方面由於計算機音樂發展起步晚,計算機音樂只是少數音樂工作者的 「專利」,社會缺乏計算機識別樂譜的需要;另一方面,由於國內高校的學科設置綜合化程 度、學科交叉的跨度與國外有著相當大的差距,長期以來,從事計算機音樂研究的專業人才 嚴重缺乏。因此,OMR技術在國內的系統研究和實踐工作幾乎為空白。目前,西北工業大學 與西安音樂學院合作正在開展印刷體光學樂譜識別技術的研究,但目前國內外有關樂譜分 割技術的研究還很少,尤其是關於樂符基元的分割,傳統的投影法仍然佔有十分重要的地 位,但該方法對於基元的分割效率不高,有待進一步提高。
發明內容
本發明目的是針對現有技術存在的缺陷提供一種正確、有效的樂符基元分割方 法,從而提高基元的正確分割和識別率,提高整個OMR系統的性能。本發明為實現上述目的,採用如下技術方案本發明基於樂符知識及雙投影法的樂符基元分割方法,包括如下步驟c)符頭的寬度w通常為五線譜譜線距寬度xj的1.2倍,即w = 1.2 X xj ;d)高度參考值ν = 3Xxk+3Xxj,其中xk表示線寬,則符幹的高度h滿足h > ν,(1)高音譜號和二分休止符,節拍線以及大括號的垂直投影也滿足上式,按如下方法 來確定該連通域是否需要進一步分割I)出現兩個疑似符幹,連通域必然需要分割;II)如果某連通域出現單個疑似符幹,則計算包圍框寬度kd和高度gd以及最大垂 直黑色遊程的長度cd,如果滿足下式,則該連通域包含一個真正的符幹,需要進一步分割kd > xj&gd > v&cd ν則認為第j個連通域的第i列存在疑似符幹,但相鄰兩個疑似符幹之間距離要大於 1個xk,否則認為是一個疑似符幹;對每一個連通域的投影隊列進行如下判斷若疑似符幹的個數num > 1或者疑似符幹的個數num = 1且連通域的性質滿足公 式(2),則記Flagj = 1 ;否則Flagj = 0 ;進而得到需要分割的連通域像素表xltyxsb (u,v, w),u = 1,2,…M,v = l,2,v = 1,2,…N其中M為各連通域中像素的個數,N為需要進一 步分割的連通域數。設初始需分割連通域編號k = 1 ;(3)確定各基元的左右垂直分割線對找出第k個連通域的符幹位置,fgp0S(i),i =1,2, -η, η 為符幹的個數,若(fgpos (I)-Ityll(k)) < xj,其中 ltyll (k)為第 k 個連 通域邊框的最小列,則該連通域各基元外圍方框的垂直分割線對按下式確定(fgpos(i)-l, fgpos(i)+l) ;i = 1,2, ...η(fgpos(i), fgpos(i)+l. 2Xxj) ;i = 1,2, —η,(fgpos(i)-l. 2Xxj, fgpos(i)) ;i = 2,3—n(4)反之,各基元外圍方框的垂直分割線對按2. 5式確定(fgpos(i)-l, fgpos(i)+l) ;i = 1,2, ...η(ltyll, fgpos(l)) ; (fgpos (i) _1· 2 X χ j,fgpos (i)) ;i = 2,3...n,(fgpos(i), fgpos(i)+l. 2Xxj) ;i = 1,2, ...n_l(5)4)確定各基元的的水平分割線對每一個子區域進行水平投影,得到其水平投影圖Pimgh(i,j),h= 1,2,…N,其中N為基元區域的個數,並統計獲得各投影圖中第一列的 垂直黑色遊程信息表Yc (i,j),將每一個子區域的垂直黑色遊程的起始行和終止行,作為該 基元的水平分割線,作為包圍框的最小行和最大行,配合垂直分割線即包圍框的最小列和 最大列,得到各基元的包圍方框,將包圍框的信息放到分割信息表中,實現基元的分割;5)k = k+1,若k彡N則轉至第3步,否則繪製出分割後的圖像。本發明的優點和效果在於1.在樂符基元分割階段充分利用了樂符的結構知識,準確的判別出哪些連通域需 要進一步分割,提高基元分割的準確性。2.該發明將樂符結構知識和雙投影法相結合,能夠準確有效的實現樂符基元的分 割,相對於傳統的投影法,能有效的提高分割的正確率。
圖1 可能成為疑似符幹的幾種音樂符號a)高音譜號b) 二分休止符C)符頭疊加 造成符幹長度不等,d)長度不等的小節線e)大括號;圖2 經過前期處理後的二值圖像;圖3 譜線刪除後的樂譜圖像;圖4 樂譜圖像連通域分析的結果;圖5 需進一步分割圖像的各連通域;圖6 確定了基本樂符垂直分割線後的圖像分割情況;圖7 單個音符基元區域的垂直分割線;圖8 需進一步進行基元分割圖像的基元分割結果;圖9 整幅樂譜圖像的最終分割結果。
具體實施例方式對樂譜圖像進行連通域分析後儘管能夠獲得樂譜圖像的各個連通域,但由於樂譜 符號的空間多樣性,通常需要將樂譜對象分割成最基本的基元,以減輕樂譜識別的負擔並 提高識別率。傳統的投影法在進行基元分割時儘管運算速度快,但存在分割準確性不高,甚 至無法判別那些樂譜符號需要進一步分割。為此本發明根據需要分割的各種樂符的結構特 點,提出了基於樂符知識及雙投影法的基元分割算法。考慮到需要進一步分割的連通域通 常包含有符幹,因此首先對經過初步分割的所得到的各連通域進行垂直投影,並結合音符 結構知識判斷是否包含有符幹,從而確定哪些連通域需要進一步分割,然後再在此基礎上 採用水平投影法進行基元分割。這裡所需要利用的樂符知識主要有e)符頭的寬度w通常約為五線譜譜線距寬度xj的1. 2倍,即w = 1. 2Xxj ;f)若設高度參考值ν = 3Xxk+3Xxj,其中xk表示線寬,則符幹的高度h通常滿 足h > V。2. 1除了符幹的高度滿足2. 1式之外,高音譜號和二分休止符,節拍線以及大括號的 垂直投影也滿足此式,從而出現疑似符幹情況,見圖1,為此可以按如下原則來確定該連通 域是否需要進一步分割
6
I)出現兩個疑似符幹,連通域必然需要分割;II)如果某連通域出現單個疑似符幹,則計算包圍框寬度kd和高度gd以及最大 垂直黑色遊程的長度cd,如果滿足2. 2式,則該連通域包含一個真正的符幹,需要進一步分 割。kd > χ j&gd > v&cd < 3 X ν2.2利用這些知識並使用雙投影法即可實現樂符基元的分割,其實現的具體技術步驟
如下1)計算出原始二值圖像B (x,y)的五線譜的譜線距xj和譜線寬度xk,以及高度參
考值V。2)對所有連通域進行垂直投影,得到他們的垂直投影隊列Projv(i,j),i = 1, 2,…Wj, j = 1,2, —L,2. 3其中L為初步分割後連通域的個數,Wj為第j個連通域圖像的列數;若Projv(i, j) > ν則認為第j個連通域的第i列存在疑似符幹,但相鄰兩個疑似符幹之間距離要大於 1個xk,否則認為是一個疑似符幹。對每一個連通域的投影隊列進行如下判斷若疑似符幹的個數num > 1或者疑似符幹的個數num = 1且連通域的性質滿足公 式2. 2,則記Flagj = 1 ;否則Flagj = 0 ;進而得到需要分割的連通域像素表xltyxsb(u,v, w),u = 1,2,…Μ,ν = 1,2,ν = 1,2,…N其中M為各連通域中像素的個數,N為需 要進一步分割的連通域數。設初始需分割連通域編號k = 1。3)確定各基元的左右垂直分割線對找出第k個連通域的符幹位置fgpos(i), i = 1,2, "·η,η 為符幹的個數,若(fgpos ⑴-ltyll(k)) <xj,其中 ltyll (k)為第k個連通域邊框的最小列,則該連通域各基元外圍方框的垂直分割線對按 2. 4式確定(fgpos(i)-l, fgpos(i)+l) ;i = 1,2, ...η(fgpos(i), fgpos(i)+l. 2Xxj) ;i = 1,2, ...η(fgpos(i)-l. 2Xxj, fgpos(i)) ;i = 2,3—n2.4反之,各基元外圍方框的垂直分割線對按2. 5式確定(fgpos(i)-l, fgpos(i)+l) ;i = 1,2, ...η(ltyll, fgpos(l)) ; (fgpos (i) _1· 2 X χ j,fgpos (i)) ;i = 2,3...n,(fgpos(i), fgpos(i)+l. 2Xxj) ;i = 1,2, ...n_l2.54)確定各基元的的水平分割線對每一個子區域進行水平投影,得到其水平投影 圖Pimgh(i,j),h= 1,2,…N,其中N為基元區域的個數,並統計獲得各投影圖中第一列的 垂直黑色遊程信息表Yc (i,j),將每一個子區域的垂直黑色遊程的起始行和終止行,作為該 基元的水平分割線,作為包圍框的最小行和最大行,配合垂直分割線(即包圍框的最小列 和最大列),就可以得到各基元的包圍方框,將包圍框的信息放到分割信息表中,實現基元 的分割。5)k = k+1,若k≤N則轉至第3步,否則繪製出分割後的圖像。下面結合附圖,對本發明所述的技術方案作進一步的闡述。紙質樂譜圖像首先通過掃描儀或者數碼拍攝設備輸入到計算機,然後經過去噪,圖像格式變換等預處理操作,變成二值樂譜圖像;圖2即為一幅經過前期處理後所得到的 二值樂譜圖像。消除掉了在掃描過程中或者由於圖像本身所帶到的噪聲,並進行了格式變 換。由於樂譜圖像不同於普通的圖像,樂譜圖像中的很多樂符依賴於譜線,譜線在樂 譜圖像中具有非常重要的意義,不同高度的譜線代表的音度不一樣,因此,十分有必要進行 譜線的檢測定位和刪除工作,圖3即為對樂譜圖像進行譜線刪除後的結果,譜線刪除後消 除了其對樂譜分割以及樂符基元識別的幹擾。譜線刪除以後就是對樂譜圖像進行分割,以便提取出所有的音樂樂譜符號,在本 發明中首先需要對原始的樂譜圖像進行連通域分析,可以採用邊緣提取法,區域生長法以 及快速連通域分析等方法,圖4即為進行連通域分析後所獲得的樂譜圖像的連通域,該方 法可有效的避免投影法等方法一步實現基元分割所造成的分割正確率低下,甚至無法分割 的情況。獲得了樂譜圖像的連通域後,再根據樂符的結構知識判斷出哪些連通域需要進一 步分割成基元,圖5即為對圖4中需要進一步分割的基元所作判斷的結果,對於需要進一步 分割的基元,進行基元分割。基元分割的具體步驟按照前面的技術方案來逐步執行。在分割過程中需要找出各 連通域中所包含的各符幹的位置,以符幹為基準,將其左1. 2個譜線距和右1. 2個譜線矩的 位置(最左和最右以連通域的邊框為界)作為基本音符的垂直分割線,而水平分割線為連 通域的上下邊框線,即可得到圖6所示的結果,並對分割區域進一步細化,從而得到各基元 區域的垂直分割線,圖7即為對一個基本音符細化後得到基元區域垂直分割線的圖像分割 結果,然後再通過垂直投影並結合垂直黑色遊程段的信息找到每一個基元的水平邊界分割 線,從而實現基元分割,見圖8,整幅樂譜圖像的最終分割圖見圖9。
8
權利要求
一種基於樂符知識及雙投影法的樂符基元分割方法,所利用到的樂符知識主要有a)符頭的寬度w通常為五線譜譜線距寬度xj的1.2倍,即w=1.2×xj;b)高度參考值v=3×xk+3×xj,其中xk表示線寬,則符幹的高度h滿足h>v,(1)高音譜號和二分休止符,節拍線以及大括號的垂直投影也滿足上式,按如下方法來確定該連通域是否需要進一步分割I)出現兩個疑似符幹,連通域必然需要分割;II)如果某連通域出現單個疑似符幹,則計算包圍框寬度kd和高度gd以及最大垂直黑色遊程的長度cd,如果滿足下式,則該連通域包含一個真正的符幹,需要進一步分割kd>xj&gd>v&cd<3×v, (2)然後再結合使用雙投影法即可實現樂符基元的分割。
2.根據權利要求所述的基於樂符知識及雙投影法的樂符基元分割方法,包括如下步驟(1)計算出原始二值圖像B(x,y)的五線譜的譜線距xj和譜線寬度xk,以及高度參考值Vo(2)對所有連通域進行垂直投影,得到他們的垂直投影隊列Projv(i, j), i = 1,2, -Wj, j = 1,2,…L,(3)其中L為初步分割後連通域的個數,Wj為第j個連通域圖像的列數;若Projv(i,j) > ν則認為第j個連通域的第i列存在疑似符幹,但相鄰兩個疑似符幹之間距離要大於1個 xk,否則認為是一個疑似符幹;對每一個連通域的投影隊列進行如下判斷若疑似符幹的個數num > 1或者疑似符幹的個數num = 1且連通域的性質滿足公式 (2) JlHSFlagj = 1,否則Flagj = O。進而得到需要分割的連通域像素表xltyxsb (u,v,w), u = 1,2,…M,ν = 1,2,ν = 1,2,…N其中M為各連通域中像素的個數,N為需要進一步 分割的連通域數。設初始需分割連通域編號k = 1 ;(3)確定各基元的左右垂直分割線對找出第k個連通域的符幹位置,fgpos(i),i = 1,2,"·η,η為符幹的個數,若(fgpos (I)-Ityll(k)) < xj,其中ltyll (k)為第k個連通域 邊框的最小列,則該連通域各基元外圍方框的垂直分割線對按下式確定(fgpos (i)-l, fgpos (i)+l) ;i = 1,2, ".η (fgpos (i), fgpos (i) +1. 2 X χ j) ;i = 1,2, ".η, (fgpos (i)-l. 2Xxj,fgpos (i)) ;i = 2,3…η(4)反之,各基元外圍方框的垂直分割線對按2. 5式確定 (fgpos (i)-l, fgpos (i)+l) ;i = 1,2, ".η(ltyll, fgpos(l)) ; (fgpos ⑴-L 2 X xj, fgpos ⑴);i = 2,3."n, (fgpos(i), fgpos (i)+l. 2Xxj) ;i = 1,2,…n_l(5)4)確定各基元的的水平分割線對每一個子區域進行水平投影,得到其水平投影圖 Pimgh(i,j),h= 1,2,…N,其中N為基元區域的個數,並統計獲得各投影圖中第一列的垂 直黑色遊程信息表Yc (i,j),將每一個子區域的垂直黑色遊程的起始行和終止行,作為該基 元的水平分割線,作為包圍框的最小行和最大行,配合垂直分割線即包圍框的最小列和最 大列,得到各基元的包圍方框,將包圍框的信息放到分割信息表中,實現基元的分割;5)k = k+1,若k彡N則轉至第3步,否則繪製出分割後的圖像。
全文摘要
本發明公布了一種基於樂符知識及雙投影法的樂符基元分割方法,對樂譜圖像進行連通域分析後儘管能夠獲得樂譜圖像的各個連通域,但由於樂譜符號的空間多樣性,通常需要將樂譜對象分割成最基本的基元,以減輕樂譜識別的負擔並提高識別率。本發明根據需要分割的各種樂符的結構特點,提出了基於樂符知識及雙投影法的基元分割算法。考慮到需要進一步分割的連通域通常包含有符幹,因此首先對經過初步分割的所得到的各連通域進行垂直投影,並結合音符結構知識判斷是否包含有符幹,從而確定哪些連通域需要進一步分割,然後再在此基礎上採用水平投影法進行基元分割。
文檔編號G06K9/34GK101944180SQ20101027563
公開日2011年1月12日 申請日期2010年9月7日 優先權日2010年9月7日
發明者餘華, 奚吉, 楊銀賢, 王開, 王青雲, 趙力, 鄒採榮, 陳存寶 申請人:東南大學