一種基於圖片構建資源稀缺語言可比語料庫的方法及系統與流程
2023-05-30 18:06:42
![](http://img.xjishu.com/img/zl/2016/02/29/20565526931.gif)
本發明涉及語言的信息處理技術領域,尤其涉及一種基於圖片構建資源稀缺語言可比語料庫的方法及系統。
背景技術:
跨語言語料庫是開展跨語言自然語言處理研究的重要手段,根據語料庫互譯程度的差異,跨語言語料庫可分為平行語料庫和可比語料庫。平行語料庫(Parallel Corpus)是由源語言文本和翻譯的目標語言文本構成的文本對集合,兩種語言文本間存在嚴格的互譯關係,語料庫質量高,是進行跨語言信息處理研究的重要資源,但是平行語料庫構建難度大、構建成本高;可比語料庫(comparable corpora)則是語言不同、內容相似但非互譯的文本對集合,涉及同一主題的不同語言文本的詞、句子、段落不一定存在一一對應的翻譯關係,可比語料較平行語料而言,資源較為豐富,是構建跨語言語料庫的重要補充。
隨著自然語言處理研究的推進,研究對象也從資源豐富語言(High resource languages,如英語、漢語、日本語、西班牙語等)擴展到資源稀缺語言(Low resource language,如豪薩語、孟加拉語、藏語、維吾爾語等),資源稀缺語言不僅使用人口少,而且資源少、語料獲取成本高,在這種情況下構建資源稀缺語言的平行語料庫非常困難,因此可比語料庫是資源稀缺語言的跨語言自然語言處理研究的重要資源。
對於資源豐富語言而言,目前構建可比語料庫的方法主要有三種:內容特徵匹配、跨語言信息檢索、維基百科。基於內容特徵的可比語料構建方法需要抽取文本特徵以及雙語詞典的支持,由於資源稀缺語言的文本特徵抽取技術有限,而資源稀缺語言的雙語詞典主要覆蓋一些常用詞,無法滿足翻譯文本特徵的需求,因此目前沒有辦法通過基於內容特徵的方法大規模、高質量構建資源稀缺語言的可比語料庫。基於跨語言信息檢索構建可比語料庫極大地提高了大規模可比語料採集的速度,其中關鍵問題在於查詢詞的選擇,這直接決定了源語言文檔和目標語言文檔的關聯程度。但是對於資源稀缺語言而言,一方面一些資源稀缺語言沒有搜尋引擎系統、另一方面查詢詞的翻譯質量也是制約利用該方法進行資源稀缺語言可比語料庫構建的重要瓶頸。目前維基百科中資源稀缺語言的資源較少,且內容分布不平衡,很難通過維基百科構建大規模、高質量的資源稀缺語言的可比語料庫。
目前構建可比語料庫的方法不僅需要文本特徵提取、關鍵詞抽取、跨語言信息檢索、機器翻譯等技術的支持,還需要詞典、維基百科、Wordnet等資源或者知識庫支持。對於資源稀缺語言而言,一方面詞典、知識庫、維基百科等資源較為潰泛;另一方面,資源稀缺語言的信息處理技術,如關鍵詞抽取、跨語言信息檢索、機器翻譯等技術發展較為滯後,不足以支持資源稀缺語言的跨語言可比語料庫的構建。即資源稀缺語言不僅資源少,而且資源稀缺語言的信息處理技術(如關鍵詞抽取、機器翻譯、信息檢索技術等)導致構建資源豐富語言可比語料的方法通常不適用於資源稀缺語言的可比語料庫構建。
技術實現要素:
本發明為解決資源稀缺語言現有信息處理技術的不足,提出了一種基於圖片構建資源稀缺語言可比語料庫的方法及系統。
一方面,本發明實施例提供了一種基於圖片構建資源稀缺語言可比語料庫的方法,包括:
S110,下載資源稀缺語言的網頁,並作為資源稀缺語言文本,所述網頁包括文本中的圖片;
S120,搜索包含所述資源稀缺語言文本相同或相似圖片的資源豐富語言的網頁,作為資源豐富語言文本;
S130,對所述資源稀缺語言和資源豐富語言的網頁進行特徵提取,所述特徵包括:文本中的圖片、文本發布時間、文本中的數字、時間及命名實體;
S140,基於所述特徵計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度值;
S150,選取相似度值最高的資源豐富語言文本作為資源稀缺語言文本的可比文本;
重複S120至S150,直至所有含有圖片的資源稀缺語言網頁找到資源豐富語言的可比文本為止。
優選地,應用圖片搜索方法搜索包含所述資源稀缺語言文本相同或相似圖片的資源豐富語言的網頁。
優選地,S140之前還包括以下步驟:基於音譯和簡單意譯對文本中的數字、時間以及命名實體翻譯。
優選地,所述基於所述特徵計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度,具體是基於所述特徵根據徑向基函數計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度:
其中,xid和yjd分別是資源稀缺語言文本i和資源豐富語言文本j的第d個特徵值,βd是文本相似度特徵的權重,σ為函數的寬度參數,控制了函數的徑向作用範圍。
進一步優選地,所述文本相似度特徵的權重通過以下方式獲得:
在實驗過程中,根據文本中的圖片、文本發布時間、文本中的時間、數字以及命名實體在資源稀缺語言網頁和資源豐富語言網頁中的相似度情況,分別賦予不同的權重值。
另一方面,本發明實施例提供了一種基於圖片構建資源稀缺語言可比語料庫的系統,包括:
下載模塊,用於下載資源稀缺語言的網頁,並作為資源稀缺語言文本,所述網頁包括文本中的圖片;
搜索模塊,用於搜索包含所述資源稀缺語言文本相同或相似圖片的資源豐富語言的網頁,作為資源豐富語言文本;
提取模塊,對所述資源稀缺語言和資源豐富語言的網頁進行特徵提取,所述特徵包括:文本中的圖片、文本發布時間、文本中的數字、時間及命名實體;
計算模塊,基於所述特徵計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度值;
選取模塊,選取相似度值最好的資源豐富語言文本作為資源稀缺語言文本的可比文本。
優選地,所述搜索模塊,具體用於應用圖片搜索方法搜索包含所述資源稀缺語言文本相同或相似圖片的資源豐富語言的網頁。
優選地,所述系統還包括:翻譯模塊,用於基於音譯和簡單意譯對文本中的數字、時間以及命名實體翻譯。
優選地,所述計算模塊,具體用於基於所述特徵根據徑向基函數計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度:
其中,xid和yjd分別是資源稀缺語言文本i和資源豐富語言文本j的第d個特徵值,βd是文本相似度特徵的權重,σ為函數的寬度參數,控制了函數的徑向作用範圍。
進一步優選地,所述文本相似度特徵的權重通過以下方式獲得:
在實驗過程中,根據文本中的圖片、文本發布時間、文本中的時間、數字以及命名實體在較少語言網頁和較多語言網頁中的相似度情況,分別賦予不同的權重值。
本發明實施例提供的基於圖片構建資源稀缺語言可比語料庫的方法及系統不受一些信息處理技術(如關鍵詞抽取、機器翻譯、信息檢索)和資源(雙語詞典、維基百科等)的限制,可以以較低成本、快速構建高質量的資源稀缺語言的跨語言可比語料庫,進而為資源稀缺語言的自然語言處理提供資源。
附圖說明
為了更清楚地說明本發明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹。顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例。
圖1為本發明實施例提供的基於圖片構建資源稀缺語言可比語料庫的方法流程示意圖;
圖2(a)為基於圖片搜索的同一主題的中文文本舉例;
圖2(b)為基於圖片搜索的同一主題的英文文本舉例;
圖2(c)為基於圖片搜索的同一主題的阿拉伯文文本舉例;
圖2(d)為基於圖片搜索的同一主題的西班牙文本舉例;
圖2(e)為基於圖片搜索的同一主題的傳統蒙古文文本舉例;
圖2(f)為基於圖片搜索的同一主題的藏文文本舉例;
圖3為本發明實施例提供的一種具體實施例流程圖;
圖4為本發明實施例提供的一種基於圖片構建資源稀缺語言可比語料庫的系統結構示意圖。
具體實施方式
為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例中的附圖和實施例,對本發明實施例中的技術方案進行清楚地描述。
圖1為本發明實施例提供的基於一種基於圖片構建資源稀缺語言可比語料庫的方法流程示意圖,如圖1所述,該方法包括:
S110,下載資源稀缺語言的網頁,並作為資源稀缺語言文本,所述網頁包括文本中的圖片。
S120,搜索包含所述資源稀缺語言文本相同或相似圖片的資源豐富語言的網頁,作為資源豐富語言文本。
圖2為基於圖片搜索的同一主題的多語言文本舉例,具體地,(a)為中文文本,(b)為英文文本,(c)為阿拉伯文文本,(d)為西班牙文本,(e)為傳統蒙古文文本,(f)為藏文文本。由圖2可知,圖片能夠不受語言限制、直觀反應文本主題,擁有相同或相似圖片的不同語言文本通常為同一主題,因此可以通過圖片搜索的方法搜集與資源稀缺語言文本相同或相似的其他語言網頁,作為資源豐富語言文本。
S130,對所述資源稀缺語言和資源豐富語言的網頁進行特徵提取,所述特徵包括:文本中的圖片、文本發布時間、文本中的數字、時間及命名實體。
S140,基於所述特徵計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度值。
需要說明的是,S140之前還包括:基於音譯和簡單意譯對文本中的數字、時間以及命名實體翻譯。
具體地,基於所述特徵根據徑向基(Radial Basis Function,簡稱RBF)函數計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度:
其中,xid和yjd分別是資源稀缺語言文本i和資源豐富語言文本j的第d個特徵值,βd是文本相似度特徵的權重,σ為函數的寬度參數,控制了函數的徑向作用範圍。
其中,所述文本相似度特徵的權重通過以下方式獲得:
在實驗過程中,根據文本中的圖片、文本發布時間、文本中的時間、數字以及命名實體在較少語言網頁和較多語言網頁中的相似度情況,分別賦予不同的權重值。
S150,選取相似度值最好的資源豐富語言文本作為資源稀缺語言文本的可比文本。
S160,重複S120至S150,直至所有含有圖片的資源稀缺語言網頁找到資源豐富語言的可比文本為止。
下面通過具體的示例對本發明實施例如何基於圖片構建資源稀缺語言可比資料庫的過程進行說明。
圖3為本發明實施例提供的一種具體實施例流程圖,如圖3所示,基於圖片構建資源稀缺語言可比資料庫的過程具體如下:
S110,下載含有資源稀缺語言的網頁,並作為資源稀缺語言文本,所述網頁包括文本中的圖片。
在網際網路上,下載含有資源稀缺語言的網頁,總數量為m。
首先判斷資源稀缺語言的第k個網頁中是否含有圖片信息,若不含有圖片,則判斷第k--網頁(第k-1網頁,即下一個網頁)中是否含有圖片;若第k網頁中含有圖片,則該網頁作為資源稀缺語言文本。
判斷所有含圖片的資源稀缺語言網頁是否已經處理完,若已經處理完,則構建資源稀缺語言可比語料庫到此結束;若沒有處理完,則對資源稀缺語言文本i進行可比語料庫的構建。
對資源稀缺語言文本i的處理過程如下:
S120,應用圖片搜索工具搜索包含與資源稀缺語言文本i相同或相似圖片的資源豐富語言的網頁,作為資源豐富語言文本j。
S130,對資源稀缺語言文本i和特定語言文本j進行特徵提取,所述特徵包括:文本中的圖片、文本發布時間、文本中的數字、時間及命名實體。
其中,文本中的圖片屬於文本外特徵,而文本發布時間、文本中的數字、時間及命名實體均屬於文本內特徵。
S140,首先,基於音譯和簡單意譯對文本中的數字、時間以及命名實體翻譯;然後,基於所述特徵根據RBF函數計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度:
其中,xid和yjd分別是資源稀缺語言文本i和資源豐富語言文本j的第d個特徵值,βd是文本相似度特徵的權重,σ為函數的寬度參數,控制了函數的徑向作用範圍。
其中,所述文本相似度特徵的權重通過以下方式獲得:
在實驗過程中,根據文本中的圖片、文本發布時間、文本中的時間、數字以及命名實體在資源稀缺語言網頁和資源豐富語言網頁中的相似度情況,分別賦予不同的權重值。比如:在實驗過程的初期,可以分別賦予文中的圖片、文本發布時間、文本中的時間、數字以及命名實體各佔1/5的權重值,後期再根據相似情況,調整各特徵的權重值,直至合適為止。
S150,選取相似度值最高的資源豐富語言文本作為資源稀缺語言文本的可比文本,放入資源稀缺語言的可比預料庫中。
S160,重複S120至S150,直至所有含有圖片的資源稀缺語言網頁找到資源豐富語言的可比文本為止。
與上述方法實施例相對應的,本發明實施例還提供了一種基於圖片構建資源稀缺語言可比語料庫的系統,具體如圖4所示,該系統400包括:下載模塊401、搜索模塊402、提取模塊403、計算模塊404及選取模塊405。
下載模塊401,用於下載資源稀缺語言的網頁,作為資源稀缺語言文本,所述網頁包括文本中的圖片。
搜索模塊402,用於搜索包含所述資源稀缺語言文本相同或相似圖片的資源豐富語言的網頁,作為資源豐富語言文本。
提取模塊403,對所述資源稀缺語言和資源豐富語言的網頁進行特徵提取,所述特徵包括:文本中的圖片、文本發布時間、文本中的數字、時間及命名實體。
計算模塊404,基於所述特徵計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度值。
選取模塊405,選取相似度值最高的資源豐富語言文本作為資源稀缺語言文本的可比文本。
所述搜索模塊401,具體用於應用圖片搜索方法搜索包含所述資源稀缺語言文本相同或相似圖片的資源豐富語言的網頁。
所述系統還包括:翻譯模塊406,用於基於音譯和簡單意譯對文本中的數字、時間以及命名實體翻譯。
所述計算模塊404,具體用於基於所述特徵根據徑向基函數計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度:
其中,xid和yjd分別是資源稀缺語言文本i和資源豐富語言文本j的第d個特徵值,βd是文本相似度特徵的權重,σ為函數的寬度參數,控制了函數的徑向作用範圍。其中,所述文本相似度特徵的權重通過以下方式獲得:
在實驗過程中,根據文本中的圖片、文本發布時間、文本中的時間、數字以及命名實體在較少語言網頁和較多語言網頁中的相似度情況,分別賦予不同的權重值。
本發明實施例提供的上述基於圖片構建資源稀缺語言可比語料庫的系統中各部件所執行的功能均已經在上述實施例提供的一種基於圖片構建資源稀缺語言可比語料庫的方法中做了詳細介紹,這裡不再贅述。
本發明實施例提供的基於圖片構建資源稀缺語言可比語料庫的系統不受一些信息處理技術(如關鍵詞抽取、機器翻譯、信息檢索)和資源(雙語詞典、維基百科等)的限制,可以以較低成本、快速構建高質量的資源稀缺語言的跨語言可比語料庫,進而為資源稀缺語言的自然語言處理提供資源。
專業人員應該還可以進一步意識到,結合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬體、計算機軟體或者二者的結合來實現,為了清楚地說明硬體和軟體的可互換性,在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬體還是軟體方式來執行,取決於技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用使用不同方法來實現所描述的功能,但是這種實現不應認為超出本發明的範圍。
本領域普通技術人員可以理解實現上述實施例方法中的全部或部分步驟是可以通過程序來指令處理器完成,所述的程序可以存儲於計算機可讀存儲介質中,存儲介質是非短暫性(non-transitory)介質,例如隨機存取存儲器,只讀存儲器,快閃記憶體,硬碟,固態硬碟,磁帶(magnetic tape),軟盤(floppy disk),光碟(optical disc)及其任意組合。以上,僅為本發明較佳的具體實施方式,但本發明的保護範圍並不局限於此。