一種雙語語料庫過濾方法及系統的製作方法
2023-04-26 11:42:56 2
專利名稱:一種雙語語料庫過濾方法及系統的製作方法
技術領域:
本發明涉及一種語料庫過濾方法,尤指一種雙語語料庫過濾方法及系統。
背景技術:
語料庫資源對於自然語言處理研究的巨大價值已經得到越來越多的認 可。特別是平行雙語語料庫,它是一種包含有兩種語言互譯信息的特殊的語 料庫。平行雙語語料庫能夠提供兩種語言之間豐富的匹配信息,在翻譯知識 的獲取、雙語詞典的建立、基於統計或實例的機器翻譯、詞義消歧等領域有 著重要的應用價值,尤其是高質量的語料庫作用更為凸顯。
語料庫的建立主要有兩種方法, 一種是傳統的手工收集的方法;另一種 是通過對篇章級對齊的語料庫通過計算機用自動句對齊方法獲得。但這兩種 方法都不能保證獲得高質量的語料庫,總是存在著一些例如句對不匹配、包 含亂碼等錯誤。
消除錯誤句對最常用的方法是使用人工校對的方式對語料庫進行檢查。 這種方法準確率雖然很高,但費時費力,尤其是當語料庫非常巨大的時候, 這種方法就不太實用。
藉助計算機用自動的方法對語料庫進行處理消除錯誤句對,其基本思路
是設定一些判定句對匹配質量的特徵,然後對每個特徵進行打分,再依照經 驗,人工設定一個特徵閾值進行判定。當雙語句對大於這個特徵閾值時確定 為好句對,當雙語句對小於或等於這個特徵閾值時確定為壞句對。這種方法 雖然從一定程度上實現了自動化,但缺乏一般性且準確率並不高。特徵閾值 是憑經驗設定的,特徵閾值往往可能是設定者根據僅有的幾份語料庫資源來 確定的,不能涵蓋大多數語料庫的分布情況。而且當經驗設定的特徵閾值過 低會導致準確率下降,過高時又導致召回率下降。
發明內容
本發明的目的是提供一種英漢雙語語料庫的過濾方法及系統,用於提高 語料庫通用性、準確率和召回率。
為解決上述問題,本發明提供一種雙語語料庫過濾方法,包括以下步驟 A、確定雙語句對的句長比例特徵值;
B、 分別統計雙語句對中不同詞性的數量,分別計算所述詞性的詞與所述 雙語的互譯詞典中對應的詞匹配的數量,根據不同詞性的數量和所述匹配的 數量確定互翻譯性特徵值; '
C、 根據預先利用訓練集建立的分類模型,利用所述句長比例特徵值和所 述互翻譯性特徵值進行過濾分類。
優選地,所述預先利用訓練集建立的分類模型具體包括 Cl、構建訓練集;
C2、按照步驟A、 B分別計算句長比例特徵值和互翻譯性特徵值,利用 分類器進行訓練;
C3、確定分類模型。
優選地,所述訓練集是按照雙語語料庫中一定比例的好壞句對組成的, 同時標註每個句對的類別值,設定好句對為1,壞句對為-1。
優選地,所述步驟A之前進一步包括確定數詞匹配特徵值;
所述確定數詞匹配特徵值具體為將雙語句對中的數詞分別統一進行數 字的轉化,當雙語句對中的數詞轉化後的數字匹配,確定數詞匹配特徵值為1, 當所述數詞不匹配,確定數詞匹配特徵值為0。
優選地,所述步驟A之前進一步包括統一所述雙語句對中的編碼類型 的預處理。
優選地,所述雙語句具體為英漢雙語句;統一所述雙語句對中的編碼類 型的預處理具體包括
11) 將所述英漢雙語句對進行全形轉半角處理;
12) 將繁體編碼轉換為簡體國標編碼; 13 )排除亂碼的處理。
優選地,所述雙語句具體為英漢雙語句;所述步驟A具體為確定英漢 雙語句對中採用單詞數或字符個數,用所述漢語句中的單詞數或字符個數比 上所述英雙語句中採用單詞數或字符個數,得出句長比例特徵值。
優選地,所述雙語句具體為英漢雙語句;所述統計英漢雙語句對中不同 詞性的數量,具體為統計英漢雙語句對中名詞、動詞、形容詞及介詞的數量。
本發明還提供一種英漢雙語語料庫過濾系統,包括句長比例計算單元、 互翻譯性計算單元、訓練分類模型單元以及分類單元;
所述句長比例計算單元,用於確定雙語句對的句長比例特徵值;
所述互翻譯性計算單元,用於分別統計雙語句對中不同詞性的數量,分 別計算所述詞性的詞與所迷雙語的互譯詞典中對應的詞匹配的數量,根據不
同詞性的數量和所述匹配的數量確定互翻譯性特徵值;
所述訓練分類模型單元,用於建立的訓練分類才莫型;
所述分類單元,與所述句長比例計算單元、互翻譯性計算單元和訓練分 類模型單元相連,用於根據預先利用訓練集建立的分類模型,利用所述句長 比例特徵值和所述互翻譯性特徵值進行過濾分類。
優選地,所述訓練分類模型單元按照雙語語料庫中 一定比例的好壞句對 組成的訓練集,同時標註每個句對的類別值,設定好句對為1,壞句對為-1。
優選地,所述系統進一步包括數詞匹配單元,用於將雙語句對中的數詞 分別統一進行數字的轉化,當雙語句對中的數詞轉化後的數字匹配,確定數 詞匹配特徵值為l,當所述數詞不匹配,確定數詞匹配特徵值為0。
與上述現有技術相比,本發明實施例所述雙語語料庫過濾方法,包括確 定雙語句對的句長比例特徵值和互翻譯性特徵值的步驟,再根據預先建立的 訓練分類模型,利用所述句長比例特徵值和所述互翻譯性特徵值進行過濾分 類。這樣本發明實施例所述雙語語料庫的過濾方法能夠快速方便的處理數據 量龐大的雙語語料庫。本發明利用訓練分類模型的分類的思想將雙語語料庫 的過濾問題轉換為二元分類問題,使得雙語語料庫匹配特徵的權值能夠更加 科學合理的確定,比現有經驗的方法更具普適性,準確率和召回率也得到相 應的提高。
圖1是本發明所述雙語語料庫過濾方法第一種實施例流程圖2是圖1中建立分類模型的流程圖3是本發明所述雙語語料庫過濾方法第二種實施例流程圖4是圖3中建立分類模型的流程圖5是本發明所述雙語語料庫過濾方法第三種實施例流程圖6是圖5統一所述雙語句對中的編碼類型的預處理流程圖7是本發明所述雙語語料庫過濾系統第一種實施例結構圖8是本發明所述雙語語料庫過濾系統第二種實施例結構圖9是本發明所述雙語語料庫過濾系統第三種實施例結構圖。
具體實施例方式
本發明提供一種雙語語料庫的過濾方法,用於提高語料庫通用性、準確 率和召回率。
參見參考圖1和圖2,圖1為本發明所述雙語語料庫過濾方法第一種實施例 流程圖,圖2是圖1中建立分類模型的流程圖。
本發明第 一種實施例所述雙語語料庫過濾方法,包括以下步驟 S100、確定雙語句對的句長比例特徵值。
確定雙語句對中採用單詞數或字符個數。用所述雙語句中 一種語句中的 單詞數或字符數比上所述雙語句中另一種語句的單詞數或字符數,所得的值 為句長比例特徵值。
當所述雙語句為英漢雙語句時,用所述漢語句中的單詞數或字符個數比 上所述英雙語句中採用單詞數或字符個數,得出句長比例特徵值。句長分別 採用單詞數或者是字符的個數來計算時,二者相差不大, 一般選用單詞數計 算更能體現英漢雙語句對的句長比例特徵。
S200、分別統計雙語句對中不同詞性的數量,分別計算所述詞性的詞與 所述雙語的互譯詞典中對應的詞匹配的數量,根據不同詞性的數量和所述匹 配的數量確定互翻譯性特徵值。
統計雙語句對中不同詞性的數量,具體是統計雙語句對中名詞、動詞、 形容詞及介詞的數量。
首先,分別對雙語句對進行詞性標註。然後,再統計雙語句對中分別含 有名詞、動詞、形容詞和介詞四種詞性的詞的個數。名詞、動詞、形容詞、 介詞的詞性選擇是基於詞典翻譯考慮的,因為具有這四種詞性的詞語的翻譯 一般比較具有辨別力。
對於英漢雙語句對的中文句子中含有上述名詞、動詞、形容詞、介詞詞 性的詞,利用漢英詞典翻譯,並在英漢雙語句對的英文句子中含有上述詞性 的詞中查找。若找到,則匹配,統計匹配的個數。反之,對英漢雙語句對的 英文句子中含有上述詞性的詞,利用英漢詞典翻譯,並在英漢雙語句對的中 文句子中含有上述詞性的詞中查找是否匹配。若找到,則匹配,並統計匹配 的個數。
我們以英漢雙語句對為例,利用下面的公式計算英漢雙語句對互翻譯性 特徵值。
V(c,e) = (T(c,e)/I(c))*(T(e,c)/I(e))
其中,V(c,e):英漢雙語句對互翻譯性特徵值;
T(c,e):利用漢英詞典查找到的中文句子中的上述四種詞性的詞在英文句 子中的匹配個數;
T(e,c):利用英漢詞典查找到的英文句子中的上述四種詞性的詞在中文句 子中的匹配個it;
英漢雙i眉 I(e):英-;
同樣,當所述雙語句為其它兩種語言的雙語句對時,也可以應用上面的 公式進行計算。
5300、 根據預先預先利用訓練集建立的分類模型,利用所述句長比例特 徵值和所述互翻譯性特徵值進行過濾分類。
利用訓練集建立的分類模型具體包括
5301、 構建訓練集。
所述訓練集是按照雙語語料庫中一定比例的好壞句對組成的,同時標註 每個雙語句對的類別值,設定好句對的類別值為1,壞句對的類別值為-1。
所述訓練集可以從雙語語料庫中按照好壞句對1: 1的比例挑選雙語句對 糹且成訓練集。
訓練集的大小應該保持在5萬句對以上,越大的訓練集對訓練分類模型 越有好處。語料的來源儘量廣泛,越廣泛的語料分布使訓練後的分類模型越 具有一般性。
5302、 按照步驟S100和步驟S200分別計算句長比例特徵值和互翻譯性 特徵值,利用分類器進行訓練。
訓練集特徵的標註格式"類別值+空格+特徵代碼特徵值+空格+特徵代 碼特徵值......"
在類別值和特徵代碼之間保留 一個空格,在特徵值與特徵代碼之間保留 一個空格。例如可以設定所述句長比例特徵值為2,設定所述互翻譯性特徵值 為3。
利用分類器進行分類訓練為公知技術,可以選擇svm (支持向量機)或 最大熵等通用的分類器進行訓練。
S303、確定分類模型。 '
分類模型建立後,將類別值標記為"-r的雙語句對放入過濾庫,留待以 後處理。類別值標記為"r的雙語句對保留在雙語語料庫中。
本發明實施例所述雙語語料庫過濾方法,包4舌確定雙語句對的句長比例 特徵值和互翻譯性特徵值的步驟,再根據預先利用訓練集建立的分類模型,
實施例所述雙語語料庫的過濾方法能夠快速方便的處理數據量龐大的雙語語 料庫。本發明利用所述分類模型的分類將英漢雙語語料庫的過濾問題轉換為 二元分類問題,使得英漢雙語語料庫匹配特徵的權值能夠更加科學合理的確 定,比現有經驗的方法更具普適性,準確率和召回率也得到相應的提高。
參見參考圖3和圖4,圖3為本發明所述雙語語料庫過濾方法第二種實施 例流程圖;圖4是圖3中建立分類模型的流程圖。
本發明所述雙語語料庫過濾方法第二種實施例相對第一實施例,增加確 定數詞匹配特徵值的步驟。
本發明第二種實施例所述雙語語料庫過濾方法,包括以下步驟
SIO、確定數詞匹配特徵值;
將雙語句對中的數詞分別統一進行數字的轉化,當雙語句對中的數詞轉 化後的數字匹配,確定數詞匹配特徵值為1。當所述數詞不匹配,確定數詞匹 配特徵值為0。
下面以英漢雙語句對為例,具體說明確定數詞匹配特徵值的過程。
方法為7>知4支術,在此不再詳述。
然後,將中英雙語句對的中文句子中含有標記為m (數詞),英文中含有 標記為od (係數詞)和cd (數詞)的數詞進行歸一化。
例如中英雙語句對的英文句中含有"$5 million",中文句子中含有"五百 萬",都將統一轉化為5000000。
所述歸一化採用基於規則的方法,即制定一些轉化規則。
所述轉化規則包括漢語的數詞與數字轉化規則,例如"一"對應"1"、
"百,,對應"100"等。
所述轉化規則包括英語的數詞與數字轉化規則,例如"one"對應"1"、
"hundred"對應"100"等。
將中英雙語句對的中文句子和中英雙語句對的英文句子中歸一化後的數詞比較,如果匹配,則數詞匹配特徵值為l。如果不匹配,則數詞匹配特徵值 為0。
SIOO、確定雙語句對的句長比例特徵值。
同樣,以英漢雙語句對為例,具體il明確定句長比例特徵值的過程。
確定英漢雙語句對中採用單詞數或字符個數,用所述漢語句中的單詞數
或字符個數比上所述英雙語句中採用單詞數或字符個數,得出句長比例特徵值。
句長分別採用單詞數或者是字符的個數來計算時,二者相差不大, 一般 選用單詞數計算更能體現英漢雙語句對的句長比例特徵。
S200、分別統計雙語句對中不同詞性的數量,分別計算所述詞性的詞與 所述雙語的互譯詞典中對應的詞匹配的數量,4艮據不同詞性的數量和所述匹 配的數量確定互翻譯性特徵值。
同樣,以英漢雙語句對為例,具體說明確定互翻譯性特徵值的過程。
統計英漢雙語句對中不同詞性的數量,具體是統計英漢雙語句對中名詞、 動詞、形容詞及介詞的數量。
首先,分別對英漢雙語句對進行詞性標註。然後,再統計英漢雙語句對 中分別含有名詞、動詞、形容詞和介詞四種詞性的詞的個數。
對於英漢雙語句對的中文句子中含有上述名詞、動詞、形容詞、介詞詞 性的詞,利用漢英詞典翻譯,並在英漢雙語句對的英文句子中含有上述詞性 的詞中查找。若找到,則匹配,統計匹配的個數。反之,對英漢雙語句對的 英文句子中含有上述詞性的詞,利用英漢詞典翻譯,並在英漢雙語句對的中 文句子中含有上述詞性的詞中查找是否匹配。若找到,則匹配,並統計匹配 的個數。
利用下面的公式計算英漢雙語句對互翻譯性特徵值。formula see original document page 10其中,V(c,e):英漢雙語句對互翻譯性特徵值;T(c,e):利用漢英詞典查找到的中文句子中的上述四種詞性的詞在英文句 子中的匹配個數;
T(e,c):利用英漢詞典查找到的英文句子中的上述四種詞性的詞在中文句 子中的匹配個數;
I(c):英漢雙語句對的中文句子中含有的上述四種詞性的詞的個數;
I(e):英漢雙語句對的英文句子中含有的上述四種詞性的詞的個數。
S300A、根據預先建立的訓練分類模型,利用所述句長比例特徵值和所述 互翻譯性特徵值以及數詞匹配特徵值進行過濾分類。
同樣,以英漢雙語句對為例,具體說明本發明所述過濾方法第二實施例 對應分類模型的建立過程
所述建立分類模型具體包括
S301A、構建訓練集。
所述訓練集是按照英漢雙語語料庫中 一定比例的好壞句對組成的,同時 標註每個英漢雙語句對的類別值,設定好句對的類別值為1,壞句對的類別值 為-1。
S302A、按照步驟SIO、步驟S100和步驟S200分別計算數詞匹配特徵值、 句長比例特徵值和互翻譯性特徵值,利用分類器進行訓練。
訓練集特徵的標註格式類別值+空格+特徵代碼特徵值+空格+特徵代 碼特徵值+空格+特徵代碼特徵值。
在類別值和特徵代碼之間保留 一個空格,在特徵值與特徵代碼之間保留 一個空格。例如可以設定所述數詞匹配特徵值為1,所述句長比例特徵值為2, 設定所述互翻譯性特徵值為3。
S303A、確定分類模型。
分類模型建立後,將類別值標記為的英漢雙語句對放入過濾庫,留 待以後處理。類別值標記為"1"的英漢雙語句對保留在英漢雙語語料庫中。
本發明所述方法的第二實施例增加了確定數詞匹配特徵值的步驟,使得 包含有數字信息的雙語句對的過濾準確性大大提高。
參見參考圖5和圖6,圖5為本發明所述雙語語料庫過濾方法笫三種實施 例流程圖;圖6是圖5統一所述雙語句對中的編碼類型的預處理流程圖。
本發明所述雙語語料庫過濾方法第三種實施例相對第一實施例,增加統
一所述雙i吾句對中的編石馬類型的預處理的步驟。
同樣,以英漢雙語句對為例,具體說明本發明第三種實施例所述英漢雙 語語料庫過濾方法的過程。
本發明第三種實施例所述英漢雙語語料庫過濾方法,包括以下步驟
Sl、統一所述英漢雙語句對中的編碼類型的預處理。
統一所述英漢雙語句對中的編碼類型的預處理具體包括
Sla、將所述英漢雙語句對進行全形轉半角處理;
Slb、將Big5碼(繁體編碼)轉換為GB碼(簡體國標編碼);
Slc、排除亂碼的處理。
對於英漢雙語句對中的中文部分排除亂碼的處理,按照GB碼範圍排查, 超越該範圍的剔除。
對於英漢雙語句對中的英文部分排除亂碼的處理,按照ASCII碼範圍排 查,超越該範圍的剔除。
對於特殊符號處理
對於一些英漢雙語句對的句首含有標號,如"1、 (1)、 (1)、 (i)、 1)、 一、" 等標號時,將句首的該標號刪除,其餘保留。
對於一些英漢雙語句對的句中含有特殊的標點符號,如"====="、 "............"或"-"等特殊標點符號,將該符號刪除,其餘部分保留。
統一所述英漢雙語句對中的編碼類型的預處理可以包括上述Sla、 Slb、 Slc三個步驟,也可以只包括Sla、 Slb、 Slc中的一個或兩個步驟。
S100、確定英漢雙語句對的句長比例特徵值。
確定英漢雙語句對中釆用單詞數或字符個數,用所述漢語句中的單詞數 或字符個數比上所述英雙語句中採用單詞數或字符個數,得出句長比例特徵 值。
S200、分別統計英漢雙語句對中不同詞性的數量,分別計算所述詞性的 詞與漢英詞典或英漢詞典中對應的詞匹配的數量,根據不同詞性的數量和所
述匹配的數量確定互翻譯性特徵值。
統計英漢雙語句對中不同詞性的數量,具體是統計英漢雙語句對中名詞、 動詞、形容詞及介詞的數量。
首先,分別對英漢雙語句對進行詞性標註。然後,再統計英漢雙語句對
中分別含有名詞、動詞、形容詞和介詞四種詞性的詞的個數。
對於英漢雙語句對的中文句子中含有上述名詞、動詞、形容詞、介詞詞 性的詞,利用漢英詞典翻譯,並在英漢雙語句對的英文句子中含有上述詢性 的詞中查找。若找到,則匹配,統計匹配的個數。反之,對英漢雙語句對的 英文句子中含有上述詞性的詞,利用英漢詞典翻譯,並在英漢雙語句對的中 文句子中含有上述詞性的詞中查找是否匹配。若找到,則匹配,並統計匹配 的個數。
利用下面的公式計算英漢雙語句對互翻譯性特徵值。
V(c,e) = (T(c,e)/I(c))*(T(e,c)/I(e))
其中,V(c,e):英漢雙語句對互翻譯性特徵值;
T(c,e):利用漢英詞典查找到的中文句子中的上述四種詞性的詞在英文句 子中的匹配個數;
T(e,c):利用英漢詞典查找到的英文句子中的上述四種詞性的詞在中文句 子中的匹配個數; I(c):英 I(e):英;
5300、 根據預先建立的訓練分類模型,利用所述句長比例特徵值和所述 互翻譯性特徵值進行過濾分類。
利用訓練集建立的分類模型具體包括
5301、 構建訓練集。
所述訓練集是按照英漢雙語語料庫中 一定比例的好壞句對組成的,同時 標註每個英漢雙語句對的類別值,設定好句對的類別值為1,壞句對的類別值 為-1。
5302、 按照步驟S100和步驟S200分別計算句長比例特徵值和互翻譯性 特徵值,利用分類器進行訓練。
利用分類器進行分類訓練為公知技術,可以選擇svm或最大熵等通用的 分類器進行訓練。
5303、 確定分類模型。
分類模型建立後,將類別值標記為"1」的英漢雙語句對放入過濾庫,留
待以後處理。類別值標記為"1「的英漢雙語句對保留在英漢雙語語料庫中。 本發明所述雙語語料庫過濾方法第三種實施例增加了統一所述雙語句對 中的編碼類型的預處理的步驟,可以進一步提高分類過濾的準確率。
本發明所述雙語語料庫過濾方法;還可以在第二實施例的sio確定數詞 匹配特徵值之前,增加統一所述雙語句對中的編碼類型的預處理的步驟。同 樣,可以提高分類過濾的準確率。
本發明還提供一種雙語語料庫的過濾系統,用於提高語料庫通用性、準 確率和召回率。
參見圖7,該圖為本發明所述雙語語料庫過濾系統第一種實施例結構圖。
本發明第一種實施例所述雙語語料庫過濾系統,包括句長比例計算單元
12、互翻譯性計算單元13、訓練分類才莫型單元14以及分類單元11。 所述句長比例計算單元12,用於確定雙語句對的句長比例特徵值。 所述互翻譯性計算單元13,用於分別統計雙語句對中不同詞性的數量,
分別計算所述詞性的詞與所述雙語的互譯詞典中對應的詞匹配的數量,根據
不同詞性的數量和所述匹配的數量確定互翻譯性特徵值。 所述分類模型單元14,用於建立的分類模型。
所述分類模型單元14按照雙語語料庫中一定比例的好壞句對組成訓練 集,同時標註每個句對的類別值,設定好句對為l,壞句對為-1。
所述句長比例計算單元12和所述互翻譯性計算單元13,分別計算所述訓 練集句長比例特徵值和互翻譯性特徵值,利用分類器進行訓練。最後,將類 別值標記為的雙語句對放入過濾庫,留待以後處理。類別值標記為"1" 的雙語句對保留在雙語語料庫中,建立分類模型。
所述分類單元11,與所述句長比例計算單元12、互翻譯性計算單元13 和分類模型單元14相連,用於根據預先利用訓練集建立的分類模型,利用所 述句長比例特徵值和所述互翻譯性特徵值進行過濾分類。
本發明實施例所述雙語語料庫過濾系統,包括確定雙語句對的句長比例 特徵值的句長比例計算單元12和互翻譯性特徵值的互翻譯性計算單元13,分 類單元11根據分類模型單元14,利用所述句長比例特徵值和所述互翻譯性特 徵值進行過濾分類。這樣本發明實施例所述雙語語料庫過濾系統能夠快速方 便的處理數據量龐大的雙語語料庫。本發明利用分類才莫型單元14進行分類將 雙語語料庫的過濾問題轉換為二元分類問題,使得雙語語料庫匹配特徵的權
值能夠更加f牛學合理的確定,比現有經-瞼的方法更具普適性,準確率和召回 率也得到相應的提高。
'參見圖8,該圖為本發明所述雙語語料庫過濾系統第二種實施例結構圖。 本發明所述雙語語料庫過濾系統第二種實施例相對第 一實施例增加了與
所述分類單元相連的數詞匹配單元15。
所述數詞匹配單元15,用於將雙語句對中的數詞分別統一進行數字的轉 化,當雙語句對中的數詞轉化後的數字匹配,確定數詞匹配特徵值為l,當所 述數詞不匹配,確定數詞匹配特徵值為0。
所述分類單元ll,根據分類模型單元14預先建立的分類模型,利用所述 數詞匹配特徵值、所述句長比例特徵值和所述互翻譯性特徵值進行過濾分類。
本發明所述系統的第二實施例增加了確定數詞匹配單元15,所述系統處 理包含有數字信息的雙語句對時的過濾準確性大大提高。
參見圖9,該圖為本發明所述雙語語料庫過濾系統第三種實施例結構圖。
本發明所述雙語語料庫過濾系統第三種實施例相對第一實施例增加了與 所述分類單元相連的預處理單元16。
預處理單元16,用於統一所述雙語句對中的編碼類型的預處理。
所述預處理單元16包括與所述分類單元11均相連的全形轉半角處理子 單元16a和亂碼處理子單元16c。
全形轉半角處理子單元16a,用於將所述雙語句對進行全形轉半角處理。
亂碼處理子單元16c,用於排除亂碼的處理。
亂碼處理子單元16c對於特殊符號處理
亂碼處理子單元16c對於一些雙語句對的句首含有標號,如"1 、 ( 1 )、 ( I )、 (i)、 1)、 一"等標號時,將句首的該標號刪除,其餘保留。
亂碼處理子單元對於一些雙語句對的句中含有特殊的標點符號,如
"=="、"............"或"-"等特殊標點符號,將該符號刪除,其餘
部分保留。
當本發明所述雙語語料庫過濾系統為英漢雙語語料庫過濾系統時,亂碼 處理子單元對於英漢雙語句對中的中文部分排除亂碼的處理,按照GB碼範圍 排查,超越該範圍的剔除。
當本發明所述雙語語料庫過濾系統為英漢雙語語料庫過濾系統時,亂碼
處理子單元16c對於雙i吾句對中的英文部分4要照ASCII碼範圍排查,超越該 範圍的剔除。
當本發明所述雙語語料庫過濾系統為英漢雙語語料庫過濾系統時,所述 預處理單元16包括Big5碼轉GB碼處理子單元16b, Big5碼轉GB碼處理子 單元16b,用於將Big5碼。轉換為GB碼。
所述預處理單元16可以全部包括全形轉半角處理子單元16a、 Big5碼轉
GB碼處理子單元16b和亂碼處理子單元16c,也可以包括全形轉半角處理子
單元16a、 Big5碼轉GB碼處理子單元16b和亂碼處理子單元16c中的一個或 兩個子單元。
本發明所述雙語語料庫過濾系統第三種實施例增加了預處理單元16,統 一所述雙語句對中的編碼類型,進一步提高分類過濾的準確率。
本發明實施例所述雙語語料庫過濾系統可以在第二實施例的基礎上進一 步增加與所述分類單元11相連的預處理單元16。
所述預處理單元16包括與所述分類單元11均相連的全形轉半角處理子 單元16a、 Big5碼轉GB碼處理子單元16b和亂碼處理單元16c。
所述預處理單元16可以全部包括全形轉半角處理子單元16a、 Big5碼轉 GB碼處理子單元16b和亂碼處理單元16c,也可以包括全形轉半角處理子單 元16a、 Big5碼轉GB碼處理子單元16b和亂碼處理單元16c中的一個或兩個 子單元。
以上所述僅為本發明的優選實施方式,並不構成對本發明保護範圍的限 定。任何在本發明的精神和原則之內所作的任何修改、等同替換和改進等, 均應包含在本發明的權利要求保護範圍之內。
權利要求
1、一種雙語語料庫過濾方法,其特徵在於,包括以下步驟A、確定雙語句對的句長比例特徵值;B、分別統計雙語句對中不同詞性的數量,分別計算所述詞性的詞與所述雙語的互譯詞典中對應的詞匹配的數量,根據不同詞性的數量和所述匹配的數量確定互翻譯性特徵值;C、根據預先利用訓練集建立的分類模型,利用所述句長比例特徵值和所述互翻譯性特徵值進行過濾分類。
2、 根據權利要求1所述的過濾方法,其特徵在於,所述預先利用訓練集 建立的分類模型具體包括Cl、構建訓練集;C2、按照步驟A、 B分別計算句長比例特徵值和互翻譯性特徵值,利用 分類器進行訓練;C3、確定分類模型。
3、 根據權利要求2所述的過濾方法,其特徵在於,所述訓練集是按照雙 語語料庫中一定比例的好壞句對組成的,同時標註每個句對的類別值,設定 好句對為1,壞句對為-1。
4、 根據權利要求1所述的過濾方法,其特徵在於,所述步驟A之前進一 步包括確定數詞匹配特徵值;所述確定數詞匹配特徵值具體為將雙語句對中的數詞分別統一進行數 字的轉化,當雙語句對中的數詞轉化後的數字匹配,確定數詞匹配特徵值為1, 當所述數詞不匹配,確定數詞匹配特徵值為0。
5、 根據權利要求1所述的過濾方法,其特徵在於,所述步驟A之前進一 步包括統一所述雙語句對中的編碼類型的預處理。
6、 根據權利要求5所述的過濾方法,其特徵在於,所述雙語句具體為英 漢雙語句;統一所述雙語句對中的編碼類型的預處理具體包括11) 將所述英漢雙語句對進行全形轉半角處理;12) 將繁體編碼轉換為簡體國標編碼; 13 )排除亂碼的處理。
7、根據權利要求1所述的過濾方法,其特徵在於,所述雙語句具體為英 漢雙語句;所述步驟A具體為確定英漢雙語句對中釆用單詞數或字符個數,個數,得出句長比例特徵值。
8、 根據權利要求1所述的過濾方法,其特徵在於,所述雙語句具體為英 漢雙語句;所述統計英漢雙語句對中不同詞性的數量,具體為統計英漢雙語 句對中名詞、動詞、形容詞及介詞的數量。
9、 一種英漢雙語語料庫過濾系統,其特徵在於,包括句長比例計算單元、 互翻譯性計算單元、訓練分類模型單元以及分類單元;所述句長比例計算單元,用於確定雙語句對的句長比例特徵值; 所述互翻譯性計算單元,用於分別統計雙語句對中不同詞性的數量,分同詞性的數量和所述匹配的數量確定互翻譯性特徵值;所述訓練分類模型單元,用於建立的訓練分類模型;所述分類單元,與所述句長比例計算單元、互翻譯性計算單元和訓練分 類模型單元相連,用於根據預先利用訓練集建立的分類模型,利用所述句長 比例特徵值和所述互翻譯性特徵值進行過濾分類。
10、 根據權利要求1所述的過濾系統,其特徵在於,所述訓練分類模型 單元按照雙語語料庫中一定比例的好壞句對組成的訓練集,同時標註每個句 對的類別值,設定好句對為l,壞句對為-1。
11、 根據權利要求1所述的過濾系統,其特徵在於,所述系統進一步包 括數詞匹配單元,用於將雙語句對中的數詞分別統一進行數字的轉化,當雙 語句對中的數詞轉化後的數字匹配,確定數詞匹配特徵值為1,當所述數詞不 匹配,確定數詞匹配特徵值為0 。
全文摘要
本發明公開一種雙語語料庫過濾方法,包括以下步驟A.確定英漢雙語句對的句長比例特徵值;B.分別統計英漢雙語句對中不同詞性的數量,分別計算所述詞性的詞與所述雙語的互譯詞典中對應的詞匹配的數量,根據不同詞性的數量和所述匹配的數量確定互翻譯性特徵值;C.根據預先利用訓練集建立的分類模型,利用所述句長比例特徵值和所述互翻譯性特徵值進行過濾分類。本發明公開一種雙語語料庫系統。本發明提供一種雙語語料庫的過濾方法及系統,用於提高語料庫通用性、準確率和召回率。
文檔編號G06F17/27GK101201820SQ200710178309
公開日2008年6月18日 申請日期2007年11月28日 優先權日2007年11月28日
發明者挺 劉, 剛 王, 王海洲, 高立琦 申請人:北京金山軟體有限公司;北京金山數字娛樂科技有限公司;哈爾濱工業大學