具標音驗證的中文文稿自動標音系統及標音驗證方法
2023-04-26 09:33:01 2
專利名稱:具標音驗證的中文文稿自動標音系統及標音驗證方法
技術領域:
本發明是關於中文文稿標音的技術領域,尤指一種具標音驗證的中文文稿自動標音系統及中文文稿標音驗證方法。
背景技術:
對幼教或小學的語文教材的出版者而言,在教材內文的國字旁標示正確的標音為一重要的工作。然而,以目前的自動文字轉注音技術,仍然無法完全排除破音字的標音錯誤。根據統計,在一般的文章中,破音字出現的比率約10%左右。因此,當文稿的數量龐大時,出版業者仍然必須投入可觀的人力於破音字的標音校正。
為減少人工檢查標音結果的負擔,目前關於自動標音技術的研究主要著重於如何正確地為破音字標音。常用的方法如依照前後連接字、詞性或聲調來決定破音字的標音。舉例如下依照後字的音調而定以「一」與「不」的聲調為例,出現在多字詞(複合詞)中的第一個字在四聲之前讀二聲(例一位、一旦、一樣、不要、不但、不是),在其他之前讀四聲(例一支、一流、一起、不支、不同、不可);出現在其他位置,則「一」讀一聲,「不」讀四聲。
依照前後字而定如{銀行、行業、排行…}的「行」讀「ㄏㄤ'」,{行為、並行、不行…}的「行」讀「ㄒ一ㄥ'」;{騎士、騎馬…}的「騎」讀「ㄑ一'」,{騎兵、單騎…}的「騎」讀「丩一`」;{因為、為何、為了…}的「為」讀「ㄨㄟ`」,{行為、認為…}的「為」讀「ㄨㄟ'」;{曾孫、曾祖…}的「曾」讀「ㄗㄥ」,{曾經、不曾、曾幾何時…}的「曾」讀「ㄘㄥ'」;{睡覺、懶覺…}的「覺」讀「丩一ㄠ'」,{知覺、覺醒、發覺…}的「覺」讀「丩ㄩㄝ'」;{長短、長青}的「長」讀「彳ㄤ'」,{市長、學長、校長、長幼…}的「長」讀「ㄓㄤˇ」。
詞性為量詞的破音字,例如「擔」讀「ㄉㄢ`」,「石」讀「ㄉㄢ'」,「宿」讀「ㄒ一ㄡˇ」,「打」讀「ㄉㄚ'」。
詞性為姓氏的破音字,例如「沈」讀「ㄕㄣˇ」,「曾」讀「ㄗㄥ」,「單」讀「ㄕㄢ`」,「華」讀「ㄏㄨㄚ`」,「仇」讀「ㄑ一ㄡ'」,「任」讀「ㄖㄣ'」,「解」讀「ㄒ一ㄝ`」,「區」讀「ㄡ」,「樂」讀「ㄩㄝ`」,「晁」讀「彳ㄠ'」,「尉」讀「ㄩ`」。
然而,由於文句斷詞分析並非完全可靠、沒有可包含所有新詞或人名的詞典、以及所謂的規則仍不免有例外,所以百分的百的自動標音正確率仍然是無法達到的目標。因此,在進行大量文稿的字音轉換時,由於目前的技術仍然無法完全排除破音字的標音錯誤,所以後續的人工介入檢查標音仍然無法避免。
發明內容
本發明的主要目的是在提供一種具標音驗證的中文文稿自動標音系統及中文文稿標音驗證方法,以便能使得每一個破音字得到標音可靠度的衡量值,以依據此標音衡量值,優先檢查最可能發生錯誤的破音字,而可有效進行標音更正。
本發明的另一目的是在提供一種具標音驗證的中文文稿自動標音系統及中文文稿標音驗證方法,以便能使得同樣語態的破音字可以同時被檢查更正。
依據本發明的一特色,本發明一種具標音驗證的中文文稿自動標音系統,包括一破音字資料庫,是預存有各種破音字;一規則資料庫,是預存有各種破音字發音的各項標音規則,每一標音規則具有其可靠度;一自動標音器,用以將一待標音的中文文稿予以標音,而產生一已標音的中文文稿,該中文文稿具有至少一破音字;以及一標音驗證單元,其是依據該破音字資料庫,以由該已標音的中文文稿中找出句子中的破音字及其標音,再從該規則資料庫中搜尋滿足該句中的破音字的標音的標音規則,並獲得其所適用的標音規則的可靠度,其中,當該可靠度大於一臨界值時,接受該標音。
其中,當該可靠度不大於該臨界值時,將該破音字的標音予以修正。
其還包含一標音錯誤分析及更正單元,是分析出該標音被修正的破音字的語態模式,並將中文文稿中具有相同語態模式的破音字均予以進行相同的標音修正。
其中,標音規則的可靠度為CM=Nji=1nNi,]]>當中,Ni為訓練語料庫中每一個候選事件的可能發音pi{1≤i≤n}的出現次數,j=argmaxi=1...nNi.]]>依據本發明的另一特色,本發明一種用於一自動標音系統的中文文稿標音驗證方法,該自動標音系統具有一預存有各種破音字的破音字資料庫及一預存有各種破音字發音的各項標音規則的規則資料庫,每一標音規則具有其可靠度,其特徵在於,該方法包括一自動標音步驟,用以將一待標音的中文文稿予以標音,而產生一已標音的中文文稿,該中文文稿具有至少一破音字;以及一標音驗證步驟,其是依據該破音字資料庫,以由該已標音的中文文稿中找出句子中的破音字及其標音,再從該規則資料庫中搜尋滿足該句中的破音字的標音的標音規則,並獲得其所適用的標音規則的可靠度,其中,當該可靠度大於一臨界值時,接受該標音。
其還包含一標音修正步驟,是在該可靠度不大於該臨界值時,修正該破音字的標音。
其還包含一標音錯誤分析及更正步驟,是分析出標音被修正的破音字的語態模式,並將該中文文稿中具有相同語態模式的破音字均予以進行相同的標音修正。
其中,該標音規則的可靠度為CM=Nji=1nNi,]]>當中,Ni為訓練語料庫中每一個候選事件的可能發音pi{1≤i≤n}的出現次數,j=argmaxi=1...nNi.]]>
為進一步說明本發明的具體技術內容,以下結合實施例及附圖詳細說明如後,其中圖1是本發明的具標音驗證的中文文稿自動標音系統的架構圖。
圖2是本發明的中文文稿標音驗證方法的流程圖。
具體實施例方式
有關本發明的具標音驗證的中文文稿自動標音系統及中文文稿標音驗證方法,請先參照圖1所示的中文文稿自動標音系統的架構圖,其主要包含有一自動標音器12、一標音驗證單元13、一標音錯誤分析及更正單元14、一破音字資料庫21及一規則資料庫22。其中,一待標音的中文文稿11是輸入該自動標音器12,以由該自動標音器12對中文文稿11進行標音,而產生一已標音的中文文稿11。
由於在前述中文文稿11中可能包含有破音字,為驗證該自動標音器12對於破音字的標音的正確性,該標音驗證單元13依據該破音字資料庫21及一規則資料庫22來驗證在中文文稿11中的每一破音字的標音的可靠度(confidence measurement),再進行標音檢查修正,其中,前述破音字資料庫21是預存有各種破音字,而規則資料庫22則預存有各種破音字發音的各項標音規則,每一標音規則皆有其可靠度CM,此可靠度CM是由預先分析大量文稿(即訓練語料)所得到。
前述的規則資料庫22主要是以破音字為中心,列舉形成一種發音的可能出現特徵,例如前後連接字、句首(尾)、或構詞規則,舉例如下依據前後連接字來標音例如,為(ㄨㄟ')={行為,認為,作為,成為,人為,為主,為止},為(ㄨㄟ')={為什,為了,為何,因為,人為};以及依據構詞規則來標音根據詞類、詞形等的規則,或是詞義集,例如,定量式(三千、多個…),重疊律(好好、快快樂樂、意思意思),述補式(走過去,跑過來,爬下去)。
圖2進一步顯示前述標音驗證單元13的驗證流程,其是依據該破音字資料庫21,以由該已標音的中文文稿11中找出句子中的一破音字及其標音(步驟S201),例如,找出一破音字「行」及其標音「ㄒ一ㄥ'」。再從該規則資料庫22中搜尋滿足該句中的破音字(「行」)標成標音(「ㄒ一ㄥ'」)的標音規則(步驟S202),並獲得其所適用的標音規則的可靠度CM(步驟S203),當此可靠度CM大於一臨界值時,表示該破音字(「行」)標成標音(「ㄒ一ㄥ'」)的機率高,因此接受此標音(「ㄒ一ㄥ'」),反之,當可靠度CM不大於臨界值時,表示該破音字(「行」)的標音(「ㄒ一ㄥ'」)為不可靠,而需進行檢查修正(步驟S204)。
而在標音檢查修正中,是對由該標音驗證單元13驗證為不可靠的破音字的標音進行修正(例如,將「行」的標音「ㄒ一ㄥ'」修正成「ㄏㄤ'」)。且依據此破音字標音的修正,再由該標音錯誤分析及更正單元14分析出此不可靠的破音字的語態模式,並將中文文稿11中具有相同語態模式的該破音字均予以進行相同的標音修正。
為得到該破音字,例如「行」,標成該標音(例如「ㄒ一ㄥ'」)的可靠度CM,假定該破音字有n種發音,例如p1ㄏㄤ',p2ㄒ一ㄥ',p3ㄒ一ㄥ`,以原始事件(atomic event)aij代表第i種發音的第j種原始事件,其中一事件代表發生在一規則中的一種標音;基本事件(basic event)bi=Yjaij]]>代表同一發音的原始事件的聯集,例如b1(ㄏㄤ')={銀行,行業,排行,n行,行列,各行,行庫,珠寶行,樂器行,唱片行,草藥行,眼鏡行,鐘錶行,西藥行,百貨行,通訊行},b2(ㄒ一ㄥ')={n排行,行為,行人,行走,不行,並行,上行,行天宮,平行,推行,行動,言行,行政,旅行,自由行,行進,行程,行遍,行蹤,行善},b3(ㄒ一ㄥ`)={品行,操行,惡行,罪行,善行};而候選事件(Candidate event)ckn(1)代表n種基本事件裡有k種發生、n-k種不發生的情況中的第1個(01nk=n!(n-k)!k!),]]>例如b1,b2,b3={null},b1,~b2,~b3={銀行,行業,排行,n行,行列,各行,行庫,珠寶行,樂器行,唱片行,草藥行,眼鏡行,鐘錶行,西藥行,百貨行,通訊行},~b1,b2,~b3={n排行,行為,行人,行走,不行,並行,上行,行天宮,平行,推行,行動,言行,行政,旅行,自由行,行進,行程,行遍,行蹤,行善},~b1,~b2,b3={品行,操行,惡行,罪行,善行},b1,b2,~b3={銀行為,排行為,各行為,珠寶行為,樂器行為,唱片行為,草藥行為,眼鏡行為,鐘錶行為,西藥行為,百貨行為,通訊行為,銀行人,旅行業,自由行業},b1,~b2,b3={品行業,操行業,惡行業,善行業},~b1,b2,b3={品行為,操行為,惡行為,罪行為,善行為,品行動,罪行動},~b1,~b2,~b3={…行…}(上述情況以外的其他例子),其中「~」代表不發生,而每一候選事件即可計算出來,例如Pr(p1|b1,~b2,~b3{銀行})=1.0,Pr(p2|b1,~b2,~b3{銀行})=0,Pr(p3|b1,~b2,~b3{銀行})=0;Pr(p1|b1,~b2,~b3{行業})=1.0,Pr(p2|b1,~b2,~b3{行業})=0,Pr(p3|b1,~b2,~b3{行業})=0;Pr(p1|b1,~b2,~b3{排行})=1.0,Pr(p2|b1,~b2,~b3{排行})=0,Pr(p3|b1,~b2,~b3{排行})=0;Pr(p1|b1,~b2,~b3{n行})=1.0,Pr(p2|b1,~b2,~b3{n行})=0,Pr(p3|b1,~b2,~b3{n行})=0;Pr(p1|b1,~b2,~b3{行列})=1.0,Pr(p2|b1,~b2,~b3{行列})=0,Pr(p3|b1,~b2,~b3{行列})=0;Pr(p1|b1,~b2,~b3{各行})=1.0,Pr(p2|b1,~b2,~b3{各行})=0,Pr(p3|b1,~b2,~b3{各行})=0;Pr(p1|b1,~b2,~b3{行庫})=1.0,Pr(p2|b1,~b2,~b3{行庫})=0,Pr(p3|b1,~b2,~b3{行庫})=0;Pr(p1|b1,~b2,~b3{珠寶行})=1.0,Pr(p2|b1,~b2,~b3{珠寶行})=0,Pr(p3|b1,~b2,~b3{珠寶行})=0;Pr(p1|b1,~b2,~b3{樂器行})=1.0,Pr(p2|b1,~b2,~b3{樂器行})=0,Pr(p3|b1,~b2,~b3{樂器行})=0;
Pr(p1|b1,~b2,~b3{唱片行})=1.0,Pr(p2|b1,~b2,~b3{唱片行})=0,Pr(p3|b1,~b2,~b3{唱片行})=0;Pr(p1|~b1,b2,~b3{n排行})=0,Pr(p2|~b1,b2,~b3{n排行})=1.0,Pr(p3|~b1,b2,~b3{n排行})=0(如路的兩旁各有一排行道樹);Pr(p1|b1,b2,~b3{銀行人})=1.0,Pr(p2|b1,b2,~b3{銀行人})=0,Pr(p3|b1,b2,~b3{銀行人})=0(如銀行人要學點法律);Pr(p1|~b1,b2,b3{罪行動})=0,Pr(p2|~b1,b2,b3{罪行動})=1.0,Pr(p3|~b1,b2,b3{罪行動})=0(如打擊刑事犯罪行動);Pr(p1|~b1,b2,b3{品行為})=0,Pr(p2|~b1,b2,b3{品行為})=0.7,Pr(p3|~b1,b2,b3{品行為})=0.3(如「促銷菸品行為」相對於「要以自己的良好品行為社會樹立榜樣」);Pr(p1|~b1,b2,b3{品行動})=0,Pr(p2|~b1,b2,b3{品行動})=1.0,Pr(p3|~b1,b2,b3{品行動})=0(如加強防杜漁船走私農漁畜產品行動計劃);Pr(p1|~b1,~b2,~b3{同行})=0.4,Pr(p2|~b1,~b2,~b3{同行})=0.6,Pr(p3|~b1,~b2,~b3{同行})=0(如「同行競爭激烈」相對於「與你結伴同行」)。
而由上述可知ckn(1)=IiQkn(1)bi-YjQkn(1)bj,]]>當中Qkn(1)為ckn(1)中有發生的k個基本事件的索引(index)集合,所以候選事件的總數有k=0nnk=2n]]>個;又候選規則(Candidate rule)rkn(1)代表當事件ckn(1)發生時,最可能的發音規則;最終規則(Final rule)代表在訓練語料庫(Training Corpus)中,針對每一個候選事件的各種可能發音pi{1≤i≤n},統計其出現次數Ni。因此,若其中出現次數最高的發音為pj,即j=argmaxi=1...nNi,]]>則此候選規則就可成為最終規則,而其最有可能發音pj的標音可靠度為 由以上的說明可知,以本發明的具標音驗證的中文文稿自動標音系統及中文文稿標音驗證方法,可使得每一個破音字得到標音可靠度的衡量值。以當人工檢查的成本無法顧及所有出現的破音字時,依據此標音衡量值,可優先檢查最可能發生錯誤的破音字,可使人力有效地投入標音更正,因此可減少浪費時間於檢查正確的標音,達到在最短時間內更正最多錯誤的目的。另外,由於一些字詞的用法在同一篇文章中會重複出現,因此相同的標音錯誤情況也會多次出現。當人工更正其中一個錯誤時,其他同樣的錯誤也可連帶自動更正而能進一步加速完成所有的破音字檢查。
上述實施例僅是為了方便說明而舉例而已,本發明所主張的權利範圍自應以申請專利範圍所述為準,而非僅限於上述實施例。
權利要求
1.一種具標音驗證的中文文稿自動標音系統,包括一破音字資料庫,是預存有各種破音字;一規則資料庫,是預存有各種破音字發音的各項標音規則,每一標音規則具有其可靠度;一自動標音器,用以將一待標音的中文文稿予以標音,而產生一已標音的中文文稿,該中文文稿具有至少一破音字;以及一標音驗證單元,其是依據該破音字資料庫,以由該已標音的中文文稿中找出句子中的破音字及其標音,再從該規則資料庫中搜尋滿足該句中的破音字的標音的標音規則,並獲得其所適用的標音規則的可靠度,其中,當該可靠度大於一臨界值時,接受該標音。
2.如權利要求1所述的具標音驗證的中文文稿自動標音系統,其特徵在於,其中,當該可靠度不大於該臨界值時,將該破音字的標音予以修正。
3.如權利要求2所述的具標音驗證的中文文稿自動標音系統,其特徵在於,其還包含一標音錯誤分析及更正單元,是分析出該標音被修正的破音字的語態模式,並將中文文稿中具有相同語態模式的破音字均予以進行相同的標音修正。
4.如權利要求1所述的具標音驗證的中文文稿自動標音系統,其特徵在於,其中,標音規則的可靠度為CM=Nji=1nNi,]]>當中,Ni為訓練語料庫中每一個候選事件的可能發音pi{1≤i≤n}的出現次數,j=argmaxi=1...nNi.]]>
5.一種用於一自動標音系統的中文文稿標音驗證方法,該自動標音系統具有一預存有各種破音字的破音字資料庫及一預存有各種破音字發音的各項標音規則的規則資料庫,每一標音規則具有其可靠度,其特徵在於,該方法包括一自動標音步驟,用以將一待標音的中文文稿予以標音,而產生一已標音的中文文稿,該中文文稿具有至少一破音字;以及一標音驗證步驟,其是依據該破音字資料庫,以由該已標音的中文文稿中找出句子中的破音字及其標音,再從該規則資料庫中搜尋滿足該句中的破音字的標音的標音規則,並獲得其所適用的標音規則的可靠度,其中,當該可靠度大於一臨界值時,接受該標音。
6.如權利要求5所述的中文文稿標音驗證方法,其特徵在於,其還包含一標音修正步驟,是在該可靠度不大於該臨界值時,修正該破音字的標音。
7.如權利要求6所述的中文文稿標音驗證方法,其特徵在於,其還包含一標音錯誤分析及更正步驟,是分析出標音被修正的破音字的語態模式,並將該中文文稿中具有相同語態模式的破音字均予以進行相同的標音修正。
8.如權利要求5所述的中文文稿標音驗證方法,其特徵在於,其中,該標音規則的可靠度為CM=nji=1nNi,]]>當中,Ni為訓練語料庫中每一個候選事件的可能發音pi{1≤i≤n}的出現次數,j=argmaxi=1...nNi.]]>
全文摘要
本發明是有關於一種具標音驗證的中文文稿自動標音系統及中文文稿標音驗證方法,其是以一自動標音器將一待標音的中文文稿予以標音,而產生一已標音的中文文稿,該中文文稿具有至少一破音字;並是依據該破音字資料庫,以由該已標音的中文文稿中找出句子中的破音字及其標音,再從該規則資料庫中搜尋滿足該句中的破音字的標音的標音規則,並獲得其所適用的標音規則的可靠度,其中,當該可靠度大於一臨界值時,接受該標音。
文檔編號G06F17/22GK1841363SQ20051006296
公開日2006年10月4日 申請日期2005年3月31日 優先權日2005年3月31日
發明者黃泰惠, 郭啟祥, 郭志忠 申請人:財團法人工業技術研究院