由網頁中提取雙語平行正文的方法和系統的製作方法
2023-10-26 11:00:22 3
專利名稱:由網頁中提取雙語平行正文的方法和系統的製作方法
技術領域:
本發明涉及語料獲取技術領域,具體涉及雙語平行語料的獲取技術領域。
背景技術:
統計機器翻譯是機器翻譯的方法之一,基本思想是通過對大量的平行語料進行統計分析,構建統計翻譯模型,進而使用此模型進行翻譯。近十年來,統計機器翻譯的研究取得了很大進展,統計方法逐漸成為國際上機器翻譯研究的主流方法。目前常用的機器翻譯系統大多採用統計方法,比如Google翻譯、Bing翻譯和百度翻譯。在統計機器翻譯技術中,平行語料庫起到了至關重要的作用。有充足數量和良好質量的平行語料,是建立高性能統計機器翻譯系統的必要條件。目前的平行語料都有特定來源,它們的規模有限。
發明內容
本發明所要解決的技術問題是提供一種從網頁中提取雙語平行語料的方法與系統,以克服現有的語料庫收集效率低和規模不足的問題。本發明提供了由網頁中提取雙語平行正文的方法和系統。本發明所述的由網頁中提取雙語平行正文的系統包括網頁資料庫,用於存儲大規模隨機爬取的網頁及其屬性;還用於通過網頁的URL進行基於字符的散列處理,並將處理之後的所有網頁按照其域名的相近程度分類存儲;將所有網頁按照其域名的相近程度分類存儲是指將每個網頁的域名中的主域名和每個子域名計算獲得相應的哈希值,將主域名的哈希值相同的所有網頁存在一個大類中,將該大類中下一級子域名的哈希值相同的所有網頁再劃分到一個子類中,以此類推,將所有網頁分類存儲;正文信息提取模塊,用於提取每個網頁的標籤字符串,還用於提取該網頁中的正文內容,並且記錄所述標籤字符串以及該網頁正文內容的編碼類型和正文長度,並存儲至網頁資料庫;網頁類型判別模塊,用於對網頁資料庫中的所有網頁的正文內容進行語言種類判斷,如果所述正文內容中存在規模相當的雙語文本,則判定該混合網頁為混合網頁,否則判斷該網頁為單語種網頁;混合網頁處理模塊,用於對混合網頁中的雙語文本進行互譯判別,當判定為互譯文本時,將該網頁中的雙語文本整理成雙語平行文本格式並保存至雙語語料庫。單語種網頁處理模塊,用於遍歷網頁資料庫中的每一個未標識匹配的單語種網頁進行處理,對每個單語種網頁的處理過程為將該單語種網頁中的正文內容與網頁資料庫中其它未標識匹配的單語種網頁的正文內容進行互譯判別,選擇其它未標識匹配單語種網頁的原則是優先選擇位於同一個子類中的單語種網頁,將判定是互譯文本的兩個單語種網頁中的正文內容整理成雙語平行文本保存至雙語語料庫,並將所述兩個單語種網頁均標識為匹配。本發明所述的由網頁中提取雙語平行正文的方法包括如下步驟存儲大規模隨機爬取的網頁及其屬性至網頁資料庫的步驟;通過對已存儲的網頁的URL進行基於字符的散列處理,並將處理之後的所有網頁按照其域名的相近程度分類存儲的步驟,該步驟具體包括計算每個網頁的域名中的主域名和每個子域的哈希值步驟,將主域名的哈希值相同的所有網頁存在一個大類中的步驟,將該大類中所有網頁中下一級子域名的哈希值相同的所有網頁再劃分到一個子類中的步驟,以此類推,將所有網頁分類存儲的步驟;提取每個網頁的標籤字符串的步驟;提取該網頁中的正文內容的步驟;記錄提取的標籤字符串以及相應網頁正文內容的編碼類型和正文長度,並存儲至網頁資料庫的步驟;對網頁資料庫中的所有網頁的正文內容進行語言種類判斷的步驟,該步驟進一步包括當判定所述正文內容中存在規模相當的雙語文本時,判定該混合網頁為混合網頁的步驟,否則判斷該網頁為單語種網頁的步驟;對混合網頁中的雙語文本進行互譯判別的步驟,該步驟進一步包括當判定為互譯文本時,將該網頁中的雙語文本整理成雙語平行文本格式並保存至雙語語料庫的步驟;遍歷網頁資料庫中的每一個未標識匹配的單語種網頁進行處理的步驟,對每個單語種網頁的處理過程包括將該單語種網頁中的正文內容與網頁資料庫中其它未標識匹配的單語種網頁的正文內容進行互譯判別的步驟,該步驟中選擇其它未標識匹配單語種網頁的原則是優先選擇位於同一個子類中的單語種網頁;將判定是互譯文本的兩個單語種網頁中的正文內容整理成雙語平行文本保存至雙語語料庫,並將所述兩個單語種網頁均標識為匹配的步驟。上述正文內容的長度是根據正文內容中的字符數量計算獲得正文長度。本發明克服了現有技術領域的技術偏見,將網際網路作為語料獲取對象,由此帶來的技術效果有I、由於網際網路中存在大量的雙語平行文本,從網際網路提取出雙語平行文本加以訓練成雙語語料,獲取信息量大,語種豐富。2、由於網際網路中的信息是不斷更新的,因此將網際網路作為語料獲取對象獲得的雙語語料也能夠達到持續的更新和增長的效果。採用本發明獲得雙語語料,能夠大大加快語料的收集效率,也能解決特定來源的語料規模不足的問題。
圖I為本發明所述的由網頁中提取雙語平行正文的系統的工作原理示意圖。
具體實施例方式具體實施方式
一、本實施方式所述的由網頁中提取雙語平行正文的系統包括網頁資料庫,用於存儲大規模隨機爬取的網頁及其屬性;還用於通過網頁的URL進行基於字符的散列處理,並將處理之後的所有網頁按照其域名的相近程度分類存儲;將所有網頁按照其域名的相近程度分類存儲是指將每個網頁的域名中的主域名和每個子域名計算獲得相應的哈希值,將主域名的哈希值相同的所有網頁存在一個大類中,將該大類中下一級子域名的哈希值相同的所有網頁再劃分到一個子類中,以此類推,將所有網頁分類存儲;正文信息提取模塊,用於提取每個網頁的標籤字符串,還用於提取該網頁中的正文內容,並且記錄所述標籤字符串以及該網頁正文內容的編碼類型和正文長度,並存儲至網頁資料庫;網頁類型判別模塊,用於對網頁資料庫中的所有網頁的正文內容進行語言種類判斷,如果所述正文內容中存在規模相當的雙語文本,則判定該混合網頁為混合網頁,否則判斷該網頁為單語種網頁;混合網頁處理模塊,用於對混合網頁中的雙語文本進行互譯判別,當判定為互譯文本時,將該網頁中的雙語文本整理成雙語平行文本格式並保存至雙語語料庫。單語種網頁處理模塊,用於遍歷網頁資料庫中的每一個未標識匹配的單語種網頁進行處理,對每個單語種網頁的處理過程為將該單語種網頁中的正文內容與網頁資料庫中其它未標識匹配的單語種網頁的正文內容進行互譯判別,選擇其它未標識匹配單語種網頁的原則是優先選擇位於同一個子類中的單語種網頁,將判定是互譯文本的兩個單語種網頁中的正文內容整理成雙語平行文本保存至雙語語料庫,並將所述兩個單語種網頁均標識為匹配。所述正文內容的長度是根據正文內容中的字符數量計算獲得正文長度。
具體實施方式
二、本實施方式是對具體實施方式
一所述的網頁中提取雙語平行正文的系統中網頁屬性的進一步說明,本實施方式中,所述網頁屬性包括網頁的URL地址和爬取的時間。
具體實施方式
三、本實施方式是對具體實施方式
一所述的由網頁中提取雙語平行正文的系統的正文信息提取模塊的進一步限定,所述正文信息提取模塊還用於對提取的網頁的標籤字符串進行判斷,當所述標籤字符串為、〈body〉、、
、〈span〉或時,繼續提取該網頁中的正文信息。本實施方式中,在正文信息提取模塊中增加了判斷標籤字符串的功能,即有選擇型的提取網頁的正文,由於在上述幾種標籤下的文本屬於正文的可能較高,因此提取上述標籤包含的內容,進而減少數據處理量、增加提取信息的可用性的機率。
具體實施方式
四、本實施方式是對具體實施方式
一所述的由網頁中提取雙語平行正文的系統的正文信息提取模塊的進一步限定,所述正文信息提取模塊還用於在提取正文內容之後,判斷正文內容的長度,並在所述長度大於3(Γ80個字符的情況下,繼續記錄相應信息,否則記錄該網頁的URL,並將該網頁從網頁資料庫中刪除。
具體實施方式
五、本實施方式是對具體實施方式
一所述的由網頁中提取雙語平行正文的系統中互譯判別的方法的進一步說明,所述互譯判別的方法為利用字典遍歷獲得互譯雙語文本中的詞語,並將這些詞語作為錨點,判斷它們在雙語文本中位置是否匹配,如果匹配率大於設定值,所述設定值的取值範圍是O. 3^0. 7,則判定所述雙語文本為互譯文本。
具體實施方式
六、本實施方式是對具體實施方式
一所述的由網頁中提取雙語平行正文的系統中規模相當的雙語文本的進一步限定,本實施方式中所述規模相當的雙語文本是指兩種語言文本的長度比例在設定範圍內。
具體實施方式
七、本實施方式所的由網頁中提取雙語平行正文的方法包括如下步驟存儲大規模隨機爬取的網頁及其屬性至網頁資料庫的步驟;通過對已存儲的網頁的URL進行基於字符的散列處理,並將處理之後的所有網頁按照其域名的相近程度分類存儲的步驟,該步驟具體包括計算每個網頁的域名中的主域名和每個子域的哈希值步驟,將主域名的哈希值相同的所有網頁存在一個大類中的步驟,將該大類中所有網頁中下一級子域名的哈希值相同的所有網頁再劃分到一個子類中的步驟,以此類推,將所有網頁分類存儲的步驟;提取每個網頁的標籤字符串的步驟;提取該網頁中的正文內容的步驟;記錄提取的標籤字符串以及相應網頁正文內容的編碼類型和正文長度,並存儲至網頁資料庫的步驟;對網頁資料庫中的所有網頁的正文內容進行語言種類判斷的步驟,該步驟進一步包括當判定所述正文內容中存在規模相當的雙語文本時,判定該混合網頁為混合網頁的步驟,否則判斷該網頁為單語種網頁的步驟;對混合網頁中的雙語文本進行互譯判別的步驟,該步驟進一步包括當判定為互譯文本時,將該網頁中的雙語文本整理成雙語平行文本格式並保存至雙語語料庫的步驟;遍歷網頁資料庫中的每一個未標識匹配的單語種網頁進行處理的步驟,對每個單語種網頁的處理過程包括將該單語種網頁中的正文內容與網頁資料庫中其它未標識匹配的單語種網頁的正文內容進行互譯判別的步驟,該步驟中選擇其它未標識匹配單語種網頁的原則是優先選擇位於同一個子類中的單語種網頁;將判定是互譯文本的兩個單語種網頁中的正文內容整理成雙語平行文本保存至雙語語料庫,並將所述兩個單語種網頁均標識為匹配的步驟。所述正文內容的長度是根據正文內容中的字符數量計算獲得正文長度。
具體實施方式
八、本實施方式是對具體實施方式
七所述的由網頁中提取雙語平行正文的方法中的網頁屬性的進一步限定,本實施方式中,所述網頁屬性包括網頁的URL地址和爬取的時間。
具體實施方式
九、本實施方式是對具體實施方式
七所述的由網頁中提取雙語平行正文的方法的進一步限定,所述提取每個網頁的標籤字符串的步驟還包括;對提取的網頁的標籤字符串進行判斷的步驟,當所述標籤字符串為〈html>、〈body>、〈td>、〈p>、〈span>或時,繼續提取該網頁中的正文內容的步驟。本實施方式中,在提取每個網頁的標籤字符串的步驟中增加了判斷標籤字符串的步驟,即有選擇型的提取網頁的正文,由於在上述幾種標籤下的文本屬於正文的可能較高,因此提取上述標籤包含的內容,進而減少數據處理量、增加提取信息的可用性的機率。
具體實施方式
十、本實施方式是對具體實施方式
七所述的由網頁中提取雙語平行正文的方法中提取該網頁中的正文內容的步驟的進一步限定,所述提取該網頁中的正文內容的步驟進一步包括在提取正文內容之後,判斷正文內容的長度的步驟,並在所述長度大於3(Γ80個字符的情況下,繼續記錄相應信息,否則記錄該網頁的URL,並將該網頁從網頁
7資料庫中刪除的步驟。本實施方式中在提取該網頁中的正文內容的步驟中贈加了判斷正文內容長度的功能,丟棄那些長度小的網頁。
具體實施方式
十一、本實施方式是對具體實施方式
七所述的由網頁中提取雙語平行正文的方法中的互譯判別的一步限定,本實施方式中所述互譯判別的方法包括如下步驟利用字典遍歷獲得互譯雙語文本中的詞語,並將這些詞語作為錨點的步驟,判斷它們在雙語文本中位置是否匹配的步驟,如果匹配率大於設定值,所述設定值的取值範圍是O. 3^0. 7,則判定所述雙語文本為互譯文本的步驟。
具體實施方式
十二、本實施方式是對具體實施方式
七所述的由網頁中提取雙語平行正文的方法中規模相當的雙語文本的進一步限定,本實施方式中所述規模相當的雙語文本是指兩種語言文本的長度比例在設定範圍內。本發明上述各實施方式所述的具體技術方案是對本發明所述技術方案的詳細說明,不應理解為對本發明的限制。
權利要求
1.由網頁中提取雙語平行正文的系統,其特徵在於,該系統包括 網頁資料庫,用於存儲大規模隨機爬取的網頁及其屬性;還用於通過網頁的URL進行基於字符的散列處理,並將處理之後的所有網頁按照其域名的相近程度分類存儲;將所有網頁按照其域名的相近程度分類存儲是指將每個網頁的域名中的主域名和每個子域名計算獲得相應的哈希值,將主域名的哈希值相同的所有網頁存在一個大類中,將該大類中下一級子域名的哈希值相同的所有網頁再劃分到一個子類中,以此類推,將所有網頁分類存儲; 正文信息提取模塊,用於提取每個網頁的標籤字符串,還用於提取該網頁中的正文內容,並且記錄所述標籤字符串以及該網頁正文內容的編碼類型和正文長度,並存儲至網頁資料庫; 網頁類型判別模塊,用於對網頁資料庫中的所有網頁的正文內容進行語言種類判斷,如果所述正文內容中存在規模相當的雙語文本,則判定該混合網頁為混合網頁,否則判斷該網頁為單語種網頁; 混合網頁處理模塊,用於對混合網頁中的雙語文本進行互譯判別,當判定為互譯文本時,將該網頁中的雙語文本整理成雙語平行文本格式並保存至雙語語料庫。
單語種網頁處理模塊,用於遍歷網頁資料庫中的每一個未標識匹配的單語種網頁進行處理,對每個單語種網頁的處理過程為將該單語種網頁中的正文內容與網頁資料庫中其它未標識匹配的單語種網頁的正文內容進行互譯判別,選擇其它未標識匹配單語種網頁的原則是優先選擇位於同一個子類中的單語種網頁,將判定是互譯文本的兩個單語種網頁中的正文內容整理成雙語平行文本保存至雙語語料庫,並將所述兩個單語種網頁均標識為匹配。
2.根據權I所述的由網頁中提取雙語平行正文的系統,其特徵在於,正文信息提取模塊,還用於對提取的網頁的標籤字符串進行判斷,當所述標籤字符串為〈body〉、、、〈span〉或時,繼續提取該網頁中的正文信息。
3.根據權I所述的由網頁中提取雙語平行正文的系統,其特徵在於,正文信息提取模塊,還用於在提取正文內容之後,判斷正文內容的長度,並在所述長度大於3(Γ80個字符的情況下,繼續記錄相應信息,否則記錄該網頁的URL,並將該網頁從網頁資料庫中刪除。
4.根據權I所述的由網頁中提取雙語平行正文的系統,其特徵在於,所述互譯判別的方法為利用字典遍歷獲得互譯雙語文本中的詞語,並將這些詞語作為錨點,判斷它們在雙語文本中位置是否匹配,如果匹配率大於設定值,所述設定值的取值範圍是O. 3^0. 7,則判定所述雙語文本為互譯文本。
5.根據權I所述的由網頁中提取雙語平行正文的方法,其特徵在於,所述規模相當的雙語文本是指兩種語言文本的長度比例在設定範圍內。
6.由網頁中提取雙語平行正文的方法,其特徵在於,該方法包括如下步驟 存儲大規模隨機爬取的網頁及其屬性至網頁資料庫的步驟; 通過對已存儲的網頁的URL進行基於字符的散列處理,並將處理之後的所有網頁按照其域名的相近程度分類存儲的步驟,該步驟具體包括計算每個網頁的域名中的主域名和每個子域的哈希值步驟,將主域名的哈希值相同的所有網頁存在一個大類中的步驟,將該大類中所有網頁中下一級子域名的哈希值相同的所有網頁再劃分到一個子類中的步驟,以此類推,將所有網頁分類存儲的步驟; 提取每個網頁的標籤字符串的步驟; 提取該網頁中的正文內容的步驟;記錄提取的標籤字符串以及相應網頁正文內容的編碼類型和正文長度,並存儲至網頁資料庫的步驟; 對網頁資料庫中的所有網頁的正文內容進行語言種類判斷的步驟,該步驟進一步包括當判定所述正文內容中存在規模相當的雙語文本時,判定該混合網頁為混合網頁的步驟,否則判斷該網頁為單語種網頁的步驟; 對混合網頁中的雙語文本進行互譯判別的步驟,該步驟進一步包括當判定為互譯文本時,將該網頁中的雙語文本整理成雙語平行文本格式並保存至雙語語料庫的步驟; 遍歷網頁資料庫中的每一個未標識匹配的單語種網頁進行處理的步驟,對每個單語種網頁的處理過程包括將該單語種網頁中的正文內容與網頁資料庫中其它未標識匹配的單語種網頁的正文內容進行互譯判別的步驟,該步驟中選擇其它未標識匹配單語種網頁的原則是優先選擇位於同一個子類中的單語種網頁;將判定是互譯文本的兩個單語種網頁中的正文內容整理成雙語平行文本保存至雙語語料庫,並將所述兩個單語種網頁均標識為匹配的步驟。
7.根據權6所述的由網頁中提取雙語平行正文的方法,其特徵在於,所述網頁屬性包括網頁的URL地址和爬取的時間。
8.根據權6所述的由網頁中提取雙語平行正文的方法,其特徵在於,所述提取每個網頁的標籤字符串的步驟還包括;對提取的網頁的標籤字符串進行判斷的步驟,當所述標籤字符串為〈html>、〈body〉、、<p、〈span〉或時,繼續提取該網頁中的正文內容的步驟。
9.根據權6所述的由網頁中提取雙語平行正文的方法,其特徵在於,提取該網頁中的正文內容的步驟進一步包括在提取正文內容之後,判斷正文內容的長度的步驟,並在所述長度大於3(Γ80個字符的情況下,繼續記錄相應信息,否則記錄該網頁的URL,並將該網頁從網頁資料庫中刪除的步驟。
10.根據權6所述的由網頁中提取雙語平行正文的方法,其特徵在於,所述互譯判別的方法包括如下步驟利用字典遍歷獲得互譯雙語文本中的詞語,並將這些詞語作為錨點的步驟,判斷它們在雙語文本中位置是否匹配的步驟,如果匹配率大於設定值,所述設定值的取值範圍是O. 3^0. 7,則判定所述雙語文本為互譯文本的步驟。
全文摘要
由網頁中提取雙語平行正文的方法和系統,涉及語料獲取技術領域。本發明克服了現有的語料庫收集效率低和規模不足的問題。本發明所述的系統包括用於存儲大規模隨機爬取的網頁及其屬性的網頁資料庫;用於提取每個網頁的標籤字符串、正文內容及相關信息的正文信息提取模塊;用於根據網頁資料庫中的所有網頁的正文內容確定混合網頁或單語種網頁的網頁類型判別模塊;用於對混合網頁中的雙語文本進行互譯判別、將判定為互譯文本的雙語文本保存至雙語語料庫的混合網頁處理模塊;用於針對每一個未標識匹配的單語種網頁遍歷網頁資料庫中的其它單語種網頁,獲得存有互譯文本的兩個單語種網頁,並將兩個網頁中的正文內容保存至雙語語料庫單語種網頁處理模塊。
文檔編號G06F17/30GK102930031SQ20121044248
公開日2013年2月13日 申請日期2012年11月8日 優先權日2012年11月8日
發明者李文強, 劉飛, 張宇, 劉挺 申請人:哈爾濱工業大學