一種將五線譜圖像轉換為聲音文件的方法

2023-04-30 09:46:16 6

專利名稱：一種將五線譜圖像轉換為聲音文件的方法
技術領域：
本發明屬於圖像識別技術領域，涉及一種五線譜識別方法，具體涉及一種將五線譜圖像轉換為聲音文件的方法。
背景技術：
目前，國內對於五線譜圖像的識別技術還處在初級階段，通常採用的方法是人工識別五線譜中的音符，然後進行演奏，基於數字圖像處理的五線譜圖像識別方法還未見涉及，將五線譜圖像轉換為聲音文件並且播放，具有很好的應用前景。

發明內容
本發明的目的是提供一種將五線譜圖像轉換為聲音文件的方法，將圖像中的五線譜信息轉換為具有某種規律的代碼，每一個代碼對應一個音符的聲音文件，為無聲文件轉換成有聲文件提供基礎。
本發明的技術方案是一種將五線譜圖像轉換為聲音文件的方法，具體按照以下步驟實
施
步驟l:定義音符代碼，錄製音符的標準聲音文件
給每個音符定義一個代碼，代碼由四位十進位數組成，第一位為音高，第二位為音名，第三位為音調轉換標記，第四位為音長；將每個音符按照規定的音高、音名、音調和音長，錄製成標準聲音文件，存儲在計算機中；
步驟2:採集五線譜圖像
用掃描儀或攝像頭獲取要識別的五線譜圖像，以圖片格式文件存儲在計算機中；步驟3:計算機識別五線譜圖像中的小節線、含符幹音符、全音符、升降記號、休止符以及譜號，將識別結果轉換為音符代碼後再存儲為聲音文件；步驟4:播放聲音文件
對照步驟l得到的標準聲音文件，播放步驟3得到的聲音文件，即為要識別的五線譜圖像中音符的聲音。
本發明的特點還在於，步驟3中將五線譜圖像轉換為音符代碼後再存儲為聲音文件，具體按照以下步驟實施
步驟l:圖像的二值化
6(1) 將彩色圖像轉換為灰度圖像計算機對RGB三色彩通道位圖上的值求圖像灰度加權和，採用以下公式 Gray = Red * 0.30 + Gre * 0.59 + Blu * 0. 11 得到圖像中各個像素的灰度值；
(2) 確定閾值
對灰度圖像進行取樣，採用大津法對收集到的數據進行處理，獲得二值化的閾值，對待處理圖像，記t為前景與背景的分割閾值，前景點數佔圖像比例為wO，平均灰度為uO;背景點數佔圖像比例為wl，平均灰度為ul，圖像的總平均灰度為u=W0*uO+wl*ul，從最小灰度值到最大灰度值遍歷t，當t使得值giO紐W(u0-ul) "2最大時t即為分割的最佳閾值；
(3) 二值化
灰度值大於或等於閾值的像素，其灰度值用l表示，表示屬於前景；否則，灰度值用O表示，像素點被排除在物體區域以外，表示背景或者例外的物體區域；步驟2:確定各譜線的位置及相鄰線之間的平均間距，並擦除譜線
(1 )確定譜線位置及相鄰線之間的平均間距對上步得到的二值圖進行橫向投影，在投影值列表中找到5個最大的值，取他們的平均值，記為MA，將閾值設為0.5MA，投影值大於這個值則判定該條線可能為譜線，稱為候選譜線，在確定圖中各候選譜線後，對各相鄰線的非零線間寬進行統計，找出佔比重最大一組，將其值確定為單位元長度D; (2)譜線的擦除
譜線的邊界使用B2Xn矩陣進行描述，其中n為譜線的長度，Blj為上邊界的縱坐標， B2j為下邊界的縱坐標，其中O < j《n，
在出現譜線組的位置，分別對五條譜線所處區域做橫向掃描，當像素點連續為前景的次數大於某設定閾值時，認為這條線段是構成當前譜線的一部分，將該線段上各點與B2Xn矩陣中相應的邊界坐標比較，若小於現有上邊界或大於現有下邊界，則更新邊界信息，處理完區域內所有的像素點後，得到完整的橫向線邊界描述；
步驟3:圖像的分割
若相鄰兩組譜線的間距大於8D，則在距邊沿譜線4D處進行分割；若相鄰兩組譜線的間距小於8D，則在間隔部分的平分線處進行分割；步驟4:圖像的識別 (1 )小節線及含符幹音符的識別a. 縱向線段的識別
對分割後的圖像做縱向投影，設Sc為投影篩選閾值，Sv為縱向線判定閾值，Bt為最大斷筆次數，Db為最大斷筆距離，判定縱向線時，按以下步驟進行
若當前列的投影值小於Sc，則判定該列上不可能存在縱向線，這一列直接跳過，轉向下一列進行處理，若當前列投影值大於Sc，轉下一步；
從上至下逐點査看權值，找出存在於當前列的所有離散線段；
若上下相鄰兩線段的間隔小於Db，那麼認為這個間隔是斷筆，可以將這兩條線段連為一條，如此構成的長線段中，存在的斷筆次數不能超過Bt;
在線段拼接後，若當前列中最長線段的長度大於Sv，則判定這條線段是一條縱向線；
b. 橫梁式符尾的識別
對於相鄰的兩個矩形塊，取它們對應端點坐標的差值，直除後獲得連接兩個頂端或兩個底端的線段，在一定的範圍內縱向平移該線段，若線段所處位置上點的權值都為l，則認為在當前位置上存在一條橫梁式符尾； c.符頭的識別
對符杆的左下方和右上方依次測試，若出現了一個類似符頭大小的前景區域，則認為此位置存在一個實心符頭；在一個符頭的範圍內做縱向求交測試，若交點次數普遍為2，則認為此位置存在一個空符頭；
d. 獨立符尾的識別
若符頭出現在符杆的左下方，則符尾將出現在符杆的右上方；若符頭出現在符杆的右上方，則符尾將出現在符杆的右下方，在符尾可能出現的區域做縱向求交測試，對各列的交點總數進行統計，將出現頻率最高的值確定為當前音符的符尾條數；
e. 小節線的識別
在音符的識別之後，査看剩餘矩形塊的特徵，若矩形塊的頂端位於第五線，底端位於第一線，且左右兩側O. 5D範圍內各列的縱向投影值均近似為0，則認為該矩形塊為一個小節線
f. 擦除
識別完畢後，分別擦除符幹、小節線、符尾和符頭；
(2)全音符、升降記號、休止符以及譜號的識別 a.確定外接矩形
對於圖中每一個前景的八向連通區域，確定一個與之對應的外接矩形，每一個外接矩形都有4個屬性X軸方向的起始坐標X1、終止坐標X2和Y軸方向的起始坐標Y1、終止坐標Y2，確定外接矩形的算法如下
將圖像進行縱向投影，對投影值Yi， (Xi《圖像寬度，進行判斷若Yi〉0且Yi-l = 0，貝Ui為外接矩形的左邊界Xl;若Yi〉0且Yi+l = 0，貝Ui為外接矩形的右邊界X2;
將圖像進行橫向投影，把X1、 X2作為橫向投影的兩個邊界，對投影值Xi， Xl《i《X2，進行判斷若Xi〉0且Xi-l二0，貝Ui為外接矩形的上邊界Yl;若Xi〉0且Xi+l二0，貝Ui為外接矩形的下邊界Y2;
確定了外接矩形後，將這些外接矩形依次與全音符、升降記號、休止符以及譜號的標準外接矩形匹配，進行初步篩選； b.細節投影值特徵匹配
對外接矩形所確定的區域進行縱向投影，確定一條特徵曲線，設定一導數閾值Sd，若曲線上某點處導數絕對值大於等於Sd，則在此處取斷點，由各斷點可將曲線分為若干段，取兩類數值作為細節匹配的特徵值一是曲線段的所在區間的長度，二是區間內曲線所對應函數
的平均函數值，由若干個曲線段獲得了一組特徵序列；
根據上述方法對全音符、升降記號、休止符以及譜號的標準圖像進行處理，得到這些音
符的標準特徵序列，即匹配過程中的參考量；
在處理待匹配對象後，獲得其特徵序列，待匹配對象的特徵序列與標準特徵序列的匹配方法如下
首先求標準特徵序列與待測符號特徵序列的最長公共子序列；計算匹配度，即最長公共子序列長度除以標準特徵序列長度，若匹配度大於設定的閥值，則認為在縱向上該匹配對象與所對應的標準音符匹配；
步驟5:將圖像的識別結果轉換為音符代碼
根據上步得到的帶符幹音符的符頭位置和全音符的位置，確定樂譜中音符的音高和音名 ;根據上步得到的帶符幹音符的符尾、符頭類型及全音符，確定音符的音長；根據上步得到的休止符的類型，確定休止符的音長；根據上步得到的升降號位置，確定音調轉換標記；
步驟6:將音符代碼轉換為聲音文件
將上步識別得到的音符代碼，以聲音文件的格式存儲於計算機中。
本發明將五線譜圖像轉換為聲音文件的方法，根據五線譜的知識，對音符的發音規律進行了分類和編碼；在圖像處理原理的基礎上，把人的識別過程轉換成對樂譜圖像的處理，其識別方法不同於其他圖像的識別，識別過程通過〔++語言程序設計加以實現。

圖1為本發明方法中相鄰線之間的平均間距示意圖。
具體實施例方式
下面結合附圖和具體實施方式
對本發明進行詳細說明。
本發明方法對應的識別對象為譜線、小節線、譜號、音符、休止符、升降記號。譜線為第一組識別對象，由五個一組的等間距橫向長線組成，特徵最為明顯，且貫穿所有其他識別對象，因此應最先得到處理；小節線和具有符幹的音符為第二組識別對象，小節線是一條或兩條一定長度的縱向線，具有符幹的音符，其符幹可認為是一條不定長的縱向線，故可根據這些縱向線將這一組對象從圖像中分離出來，因這一組對象一般在樂譜中出現極為頻繁，將其優先識別可在很大程度上減少後續識別中的計算量及幹擾；全音符、升降記號、休止符以及譜號為第三組識別對象，他們的共同特徵是形態固定，但形狀較為複雜，識別中易受幹擾，故將這一組放到最後處理。
本發明將五線譜圖像轉換為聲音文件的方法，具體按照以下步驟實施
步驟l:定義音符代碼，錄製音符的標準聲音文件
給每個音符定義一個代碼，代碼由四位十進位數組成，第一位為音高，第二位為音名，第三位為音調轉換標記，第四位為音長；將每個音符按照規定的音高、音名、音調和音長，錄製成標準聲音文件，以"音符代碼.wav"格式存儲在計算機中；
步驟2:採集五線譜圖像
用掃描儀或攝像頭獲取要識別的五線譜圖像，以圖片格式文件存放在計算機中；步驟3:將五線譜圖像轉換為聲音文件 1.圖像的二值化
(1) 將彩色圖像轉換為灰度圖像
計算機對RGB三色彩通道位圖上的值求圖像灰度加權和，採用經典轉換公式 Gray = Red * 0.30 + Gre * 0.59 + Blu * 0.11 (1) 得到圖像中各個像素的灰度值；
(2) 確定閾值
對灰度圖像進行取樣，採用大津法對收集到的數據進行處理，獲得二值化的閾值。對待處理圖像，記t為前景與背景的分割閾值，前景點數佔圖像比例為wO，平均灰度為uO;背景點數佔圖像比例為wl，平均灰度為ul。圖像的總平均灰度為u=W0*uO+wl*ul。從最小灰度值到最大灰度值遍歷t，當t使得值gi(^(u0-u) ~2+wl*(ul-u) ~2最大時t即為分割的最佳閾值。直接應用大津法計算量較大，這裡採用其等價公式giO紐W(u0-ul)"2。二值化
灰度值大於或等於閾值的像素，其灰度值用l表示，表示屬於前景；否則，灰度值用O表示，像素點被排除在物體區域以外，表示背景或者例外的物體區域，由此生成二值圖。
2.確定各譜線的位置及相鄰線之間的平均間距，並擦除譜線 (1 )確定譜線位置及相鄰線之間的平均間距
對上步得到的二值圖進行橫向投影，在投影值列表中找到5個最大的值，取他們的平均值，記為MA。將閾值設為O. 5MA (通過對多幅圖片處理結果的分析，將閾值定為此值效果較為理想)，投影值大於這個值則判定該條線可能為譜線，這裡稱為候選譜線。在確定圖中各候選譜線後，對各相鄰線的非零線間寬進行統計，找出佔比重最大一組，將其值確定為單位元長度D，如圖1所示。
為排除圖像中的幹擾線，五線組需要滿足以下附加條件
a. 若當前候選譜線為整張圖像的第一條線，或與上一條相鄰線的間距不為D，或繼一個五線組之後出現，則認為此線為當前五線組的第一條線；
b. 若當前候選譜線不是該組的第一條線且它到上一條相鄰線的間距為D，則認為當前線是五線組中的一員；
c. 若一組線的成員數目達到5，則可判定該組線為一個五線組。
在實際樂譜中，各組譜線往往存在不等長的情況，第一行或最後一行的譜線組有可能相對較短。這些譜線組若短於判定閾值，則會被直接丟棄，這將造成嚴重的錯誤，故需將以上算法做如下改進對被丟棄圖像塊的大小進行檢査，若認為該塊圖像有可能含有被丟棄的譜線組，則對於該塊圖像重複調用上述識別方法。 (2)譜線的擦除
通過觀察二值圖，發現構成譜線組的譜線不是筆直的，而是由多段較短的橫向線相互交錯拼接組成。故在去除五線時需要根據這些短線段所處位置不同而做出不同的反應。具體方法如下
譜線的邊界使用B2Xn矩陣進行描述，其中n為譜線的長度，Blj為上邊界的縱坐標， B2j為下邊界的縱坐標，其中O < j《n。
在出現譜線組的位置，分別對五條譜線所處區域做橫向掃描。當像素點連續為前景的次數大於某設定閾值時，認為這條線段是構成當前譜線的一部分。將該線段上各點與B2Xn矩陣中相應的邊界坐標比較，若小於現有上邊界或大於現有下邊界，則更新邊界信息。處理完
11區域內所有的像素點後，將得到完整的橫向線邊界描述。
直接根據五線的邊界信息來消除五線會打斷音符，因此在擦除五線前，需要判斷譜線上各點是否是其他音符的組成部分，若是，應予以保留。判斷處於(j， Blj - 1)位置或(j， B2j + 1)位置上像素點是否前景點，若是，則(j， Blj)到(j， B2j)的線段予以保留。
3. 圖像的分割
為防止在識別過程中各行樂譜相互幹擾，需對二值圖進行分割。分割方法如下若相鄰兩組譜線的間距大於8D，則在距邊沿譜線4D處進行分割；若相鄰兩組譜線的間距小於8D，則在間隔部分的平分線處進行分割。
4. 圖像的識別
(1 )小節線及含符幹音符的識別 a.縱向線段的識別
所需要的縱向線是一些具有一定長度和連續性的線段。對分割後的圖像做縱向投影，設 Sc為投影篩選閾值，Sv為縱向線判定閾值，Bt為最大斷筆次數，Db為最大斷筆距離。判定縱向線時，按以下步驟進行
若當前列的投影值小於Sc，則判定該列上不可能存在縱向線，這一列直接跳過，轉向下一列進行處理。若當前列投影值大於Sc，轉下一步；
從上至下逐點査看權值，找出存在於當前列的所有離散線段；
若上下相鄰兩線段的間隔小於Db，那麼認為這個間隔是斷筆，可以將這兩條線段連為一條，如此構成的長線段中，存在的斷筆次數不能超過Bt;
在線段拼接後，若當前列中最長線段的長度大於Sv，則判定這條線段是一條縱向線。
至此，可以得到一些零散的縱向線，這些線大體可分為三類第一類是構成符杆或小節線的元素；第二類是依附於符杆兩側的，由符頭和符尾構成的縱向線；第三類是滿足判定條件的幹擾圖像。其中的第一類是我們所需要的。
第一類縱向線的特徵是在每一組中，它們彼此相鄰，且長度和起始位置相似。可以根據這個特徵將各組縱向線分別連接起來，構成一個個矩形面，這些矩形面即是小節線或符幹
第二類縱向線雖然和第一類縱向線是相鄰的，但由於長度不同，在投影圖中，第二類線與第一類線之間的過度極不平緩，在過度處圖像的導數急劇變化，故可據此將第二類縱線從第一類縱線中剝離開。
第三類縱向線接受第一類線相同的處理。由第三類線所拼接成的矩形中，一部分的寬度
12或長度與符杆及小節線不符，因此這些線可以被分離出來。若寬度及長度都相符，則予以保留，在以後的步驟中處理。
b."橫梁式"符尾的識別
對於獨立的帶有符尾的音符，若符頭出現在符杆的左下方，則符尾將出現在符杆的右上方；若符頭出現在符杆的右上方，則符尾將出現在符杆的右下方。但"橫梁式"符尾並不滿足上述規律，它們只是處於符頭的相反端，連接相鄰的兩個符幹。同時，在圖像並不十分清晰的情況下，短的"橫梁"與符頭十分相似，這將給符頭的識別帶來障礙。出於對以上兩個原因的考慮，"橫梁式"符尾應當先於符頭及獨立符尾得到處理。
對於相鄰的兩個矩形塊，取它們對應端點坐標的差值，直除後可獲得連接兩個頂端或兩個底端的線段。在一定的範圍內縱向平移該線段，若線段所處位置上點的權值都為l，則可認為在當前位置上存在一條"橫梁式"符尾。 c.符頭的識別
符頭有實心符頭和空心符頭兩種，出現位置為符杆的左下方或右上方。對符杆的左下方和右上方依次測試，若出現了一個類似符頭大小的前景區域，則認為此位置存在一個實心符頭；在一個符頭的範圍內做縱向求交測試，若交點(O-l -O視為一個交點)次數普遍為2，則認為此位置存在一個空符頭。雖然16分音符(含兩條符尾)的符尾部分也滿足空符頭的判定條件，但並不會產生誤判。這是因為實心符頭先於空符頭進行識別，而16分音符的符頭恰是實心的。
d. 獨立符尾的識別
在確定符頭之後，即可知道符尾的位置。若符頭出現在符杆的左下方，則符尾將出現在符杆的右上方；若符頭出現在符杆的右上方，則符尾將出現在符杆的右下方。在符尾可能出現的區域做縱向求交測試，對各列的交點總數進行統計，將出現頻率最高的值確定為當前音符的符尾條數。
e. 小節線的識別
在音符的識別之後，査看剩餘矩形塊的特徵。若矩形塊的頂端位於第五線，底端位於第一線，且左右兩側O. 5D範圍內各列的縱向投影值均近似為0，則認為該矩形塊為一個小節線
f.擦除
上述識別完畢後，分別擦除符幹、小節線、符尾和符頭。 (2)全音符、升降記號、休止符以及譜號的識別a. 確定外接矩形
為了能夠方便準確的對上述音符進行識別，這裡採用兩級特徵匹配的方法。首先根據外接矩形的尺寸特徵進行初步篩選。對於圖中每一個前景的八向連通區域，都可以確定一個與之對應的外接矩形。每一個外接矩形都有4個屬性X軸方向的起始坐標X1、終止坐標X2和Y 軸方向的起始坐標Y1、終止坐標Y2。
確定外接矩形的算法如下
將圖像進行縱向投影，對投影值Yi ((Xi《圖像寬度)進行判斷若Yi〉0且Yi-l = 0，貝Ui為外接矩形的左邊界Xl;若Yi〉0且Yi+l = 0，貝Ui為外接矩形的右邊界X2。
將圖像進行橫向投影，把X1、 X2作為橫向投影的兩個邊界，對投影值Xi (Xl《i《X2) 進行判斷若Xi〉0且Xi-l二0，貝Ui為外接矩形的上邊界Yl;若Xi〉0且Xi+l二0，貝Ui為外接矩形的下邊界Y2。
由於存在斷筆，一個整體音符有可能被分成多個部分，而每個部分都確定了一個外接矩形。為了解決這個問題，需要把本屬於一個整體的多個外接矩形合併。設最大斷筆距離為d ，相鄰兩個外接矩形為R1、 R2。若Rl與R2的相鄰邊界間距離小於d，則將它們合併起來。
確定了外接矩形後，將這些外接矩形依次與全音符、升降記號、休止符以及譜號的標準外接矩形匹配，進行初步篩選。
b. 細節投影值特徵匹配
對外接矩形所確定的區域進行縱向投影，這些投影值可以確定一條特徵曲線，設定一導數閾值Sd，若曲線上某點處導數絕對值大於等於Sd，則在此處取斷點，由各斷點可將曲線分為若干段。這裡取兩類數值作為細節匹配的特徵值一是曲線段的所在區間的長度，二是區間內曲線所對應函數的平均函數值。這樣，就由若干個曲線段獲得了一組特徵序列。
根據上述方法對全音符、升降記號、休止符以及譜號的標準圖像進行處理，可得到這些音符的標準特徵序列，即匹配過程中的參考量。
在處理待匹配對象後，可獲得其特徵序列。待匹配對象的特徵序列與標準特徵序列的匹
配方法如下
首先求標準特徵序列與待測符號特徵序列的最長公共子序列；計算匹配度，即最長公共子序列長度除以標準特徵序列長度。若匹配度大於設定的閥值，則認為在縱向上該匹配對象與所對應的標準音符匹配。
如果對於匹配度有更高的要求，還可以在縱向投影的匹配後，進行橫向投影的細節匹配
145. 將圖像的識別結果轉換為音符代碼
根據上步得到的帶符幹音符的符頭位置和全音符的位置，確定樂譜中音符的音高和音名 ;根據上步得到的帶符幹音符的符尾、符頭類型及全音符，確定音符的音長；根據上步得到的休止符的類型，確定休止符的音長；根據上步得到的升降號位置，確定音調轉換標記。
6. 將音符代碼轉換為聲音文件
將上步識別得到的音符代碼，加上".wav"形成一個字符串，即聲音文件名，以聲音文件的格式存儲於計算機中。步驟4:播放聲音文件
對照步驟l得到的標準聲音文件，播放步驟3得到的聲音文件，即為要識別的五線譜圖像中音符的聲音。
本發明將五線譜圖像轉換為聲音文件的方法，根據五線譜的知識，對音符的發音規律進行了分類和編碼；在圖像處理原理的基礎上，把人的識別過程轉換成對樂譜圖像的處理，其識別方法不同於其他圖像的識別，識別過程通過〔++語言程序設計加以實現。
權利要求
1.一種將五線譜圖像轉換為聲音文件的方法，其特徵在於，具體按照以下步驟實施步驟1定義音符代碼，錄製音符的標準聲音文件給每個音符定義一個代碼，代碼由四位十進位數組成，第一位為音高，第二位為音名，第三位為音調轉換標記，第四位為音長；將每個音符按照規定的音高、音名、音調和音長，錄製成標準聲音文件，存儲在計算機中；步驟2採集五線譜圖像用掃描儀或攝像頭獲取要識別的五線譜圖像，以圖片格式文件存儲在計算機中；步驟3計算機識別五線譜圖像中的小節線、含符幹音符、全音符、升降記號、休止符以及譜號，將識別結果轉換為音符代碼後再存儲為聲音文件；步驟4播放聲音文件對照步驟1得到的標準聲音文件，播放步驟3得到的聲音文件，即為要識別的五線譜圖像中音符的聲音。
2.根據權利要求l所述的一種將五線譜圖像轉換為聲音文件的方法，其特徵在於，所述的步驟3中將五線譜圖像轉換為音符代碼後再存儲為聲音文件，具體按照以下步驟實施步驟l:圖像的二值化(1) 將彩色圖像轉換為灰度圖像計算機對RGB三色彩通道位圖上的值求圖像灰度加權和，採用以下公式formula see original document page 2得到圖像中各個像素的灰度值；(2) 確定閾值對灰度圖像進行取樣，採用大津法對收集到的數據進行處理，獲得二值化的閾值，對待處理圖像，記t為前景與背景的分割閾值，前景點數佔圖像比例為w0，平均灰度為u0;背景點數佔圖像比例為wl，平均灰度為ul，圖像的總平均灰度為u=W0*uO+wl*ul，從最小灰度值到最大灰度值遍歷t，當t使得值giO紐W(u0-ul) "2最大時t即為分割的最佳閾值；(3) 二值化灰度值大於或等於閾值的像素，其灰度值用l表示，表示屬於前景；否則，灰度值用O表示，像素點被排除在物體區域以外，表示背景或者例外的物體區域；步驟2:確定各譜線的位置及相鄰線之間的平均間距，並擦除譜線(1 )確定譜線位置及相鄰線之間的平均間距對上步得到的二值圖進行橫向投影，在投影值列表中找到5個最大的值，取他們的平均值，記為MA，將閾值設為0.5MA，投影值大於這個值則判定該條線可能為譜線，稱為候選譜線，在確定圖中各候選譜線後，對各相鄰線的非零線間寬進行統計，找出佔比重最大一組，將其值確定為單位元長度D;(2)譜線的擦除譜線的邊界使用B2Xn矩陣進行描述，其中n為譜線的長度，Blj為上邊界的縱坐標，B2j為下邊界的縱坐標，其中O < j《n，在出現譜線組的位置，分別對五條譜線所處區域做橫向掃描，當像素點連續為前景的次數大於某設定閾值時，認為這條線段是構成當前譜線的一部分，將該線段上各點與B2Xn矩陣中相應的邊界坐標比較，若小於現有上邊界或大於現有下邊界，則更新邊界信息，處理完區域內所有的像素點後，得到完整的橫向線邊界描述；步驟3:圖像的分割若相鄰兩組譜線的間距大於8D，則在距邊沿譜線4D處進行分割；若相鄰兩組譜線的間距小於8D，則在間隔部分的平分線處進行分割；步驟4:圖像的識別(1)小節線及含符幹音符的識別a.縱向線段的識別對分割後的圖像做縱向投影，設Sc為投影篩選閾值，Sv為縱向線判定閾值，Bt為最大斷筆次數，Db為最大斷筆距離，判定縱向線時，按以下步驟進行若當前列的投影值小於Sc，則判定該列上不可能存在縱向線，這一列直接跳過，轉向下一列進行處理，若當前列投影值大於Sc，轉下一步；從上至下逐點査看權值，找出存在於當前列的所有離散線段；若上下相鄰兩線段的間隔小於Db，那麼認為這個間隔是斷筆，可以將這兩條線段連為一條，如此構成的長線段中，存在的斷筆次數不能超過Bt;在線段拼接後，若當前列中最長線段的長度大於Sv，則判定這條線段是一條縱向線； b.橫梁式符尾的識別對於相鄰的兩個矩形塊，取它們對應端點坐標的差值，直除後獲得連接兩個頂端或兩個底端的線段，在一定的範圍內縱向平移該線段，若線段所處位置上點的權值都為l，則認為在當前位置上存在一條橫梁式符尾； c.符頭的識別對符杆的左下方和右上方依次測試，若出現了一個類似符頭大小的前景區域，則認為此位置存在一個實心符頭；在一個符頭的範圍內做縱向求交測試，若交點次數普遍為2，則認為此位置存在一個空符頭；d. 獨立符尾的識別若符頭出現在符杆的左下方，則符尾將出現在符杆的右上方；若符頭出現在符杆的右上方，則符尾將出現在符杆的右下方，在符尾可能出現的區域做縱向求交測試，對各列的交點總數進行統計，將出現頻率最高的值確定為當前音符的符尾條數；e. 小節線的識別在音符的識別之後，査看剩餘矩形塊的特徵，若矩形塊的頂端位於第五線，底端位於第一線，且左右兩側O. 5D範圍內各列的縱向投影值均近似為0，則認為該矩形塊為一個小節線；f. 擦除識別完畢後，分別擦除符幹、小節線、符尾和符頭；(2)全音符、升降記號、休止符以及譜號的識別 a.確定外接矩形對於圖中每一個前景的八向連通區域，確定一個與之對應的外接矩形，每一個外接矩形都有4個屬性X軸方向的起始坐標X1、終止坐標X2和Y軸方向的起始坐標Y1、終止坐標Y2確定外接矩形的算法如下將圖像進行縱向投影，對投影值Yi， (Xi《圖像寬度，進行判斷若Yi〉0且Yi-l = 0，貝Ui為外接矩形的左邊界Xl;若Yi〉0且Yi+l = 0，貝Ui為外接矩形的右邊界X2;將圖像進行橫向投影，把X1、 X2作為橫向投影的兩個邊界，對投影值Xi， Xl《i《X2，進行判斷若Xi〉0且Xi-l二0，貝Ui為外接矩形的上邊界Yl;若Xi〉0且Xi+l二0，貝Ui為外接矩形的下邊界Y2;確定了外接矩形後，將這些外接矩形依次與全音符、升降記號、休止符以及譜號的標準外接矩形匹配，進行初步篩選； b.細節投影值特徵匹配對外接矩形所確定的區域進行縱向投影，確定一條特徵曲線，設定一導數閾值Sd，若曲線上某點處導數絕對值大於等於Sd，則在此處取斷點，由各斷點可將曲線分為若干段，取兩類數值作為細節匹配的特徵值一是曲線段的所在區間的長度，二是區間內曲線所對應函數的平均函數值，由若干個曲線段獲得了一組特徵序列；根據上述方法對全音符、升降記號、休止符以及譜號的標準圖像進行處理，得到這些音符的標準特徵序列，即匹配過程中的參考量；在處理待匹配對象後，獲得其特徵序列，待匹配對象的特徵序列與標準特徵序列的匹配方法如下首先求標準特徵序列與待測符號特徵序列的最長公共子序列；計算匹配度，即最長公共子序列長度除以標準特徵序列長度，若匹配度大於設定的閥值，則認為在縱向上該匹配對象與所對應的標準音符匹配；步驟5:將圖像的識別結果轉換為音符代碼根據上步得到的帶符幹音符的符頭位置和全音符的位置，確定樂譜中音符的音高和音名；根據上步得到的帶符幹音符的符尾、符頭類型及全音符，確定音符的音長；根據上步得到的休止符的類型，確定休止符的音長；根據上步得到的升降號位置，確定音調轉換標記；步驟6:將音符代碼轉換為聲音文件將上步識別得到的音符代碼，以聲音文件的格式存儲於計算機中。
全文摘要
本發明公開的一種將五線譜圖像轉換為聲音文件的方法，首先定義音符代碼，錄製音符的標準聲音文件；再採集五線譜圖像；然後計算機識別五線譜圖像中的小節線、含符幹音符、全音符、升降記號、休止符以及譜號，將識別結果轉換為音符代碼後再存儲為聲音文件；最後播放聲音文件。本發明將五線譜圖像轉換為聲音文件的方法，根據五線譜的知識，對音符的發音規律進行了分類和編碼；在圖像處理原理的基礎上，把人的識別過程轉換成對樂譜圖像的處理，其識別方法不同於其他圖像的識別，識別過程通過C++語言程序設計加以實現。
文檔編號G10H7/00GK101661745SQ200910307828
公開日2010年3月3日申請日期2009年9月28日優先權日2009年9月28日
發明者劉國勝, 巖張, 雷張, 張海英, 李玉軍, 肖盛傑, 郝貴青, 郭人通, 鋒陽, 陳常晉申請人:西安理工大學

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種將五線譜圖像轉換為聲音文件的方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法