新四季網

一種基於圖片構建資源稀缺語言可比語料庫的方法及系統與流程

2023-05-30 18:06:42


本發明涉及語言的信息處理技術領域,尤其涉及一種基於圖片構建資源稀缺語言可比語料庫的方法及系統。



背景技術:

跨語言語料庫是開展跨語言自然語言處理研究的重要手段,根據語料庫互譯程度的差異,跨語言語料庫可分為平行語料庫和可比語料庫。平行語料庫(Parallel Corpus)是由源語言文本和翻譯的目標語言文本構成的文本對集合,兩種語言文本間存在嚴格的互譯關係,語料庫質量高,是進行跨語言信息處理研究的重要資源,但是平行語料庫構建難度大、構建成本高;可比語料庫(comparable corpora)則是語言不同、內容相似但非互譯的文本對集合,涉及同一主題的不同語言文本的詞、句子、段落不一定存在一一對應的翻譯關係,可比語料較平行語料而言,資源較為豐富,是構建跨語言語料庫的重要補充。

隨著自然語言處理研究的推進,研究對象也從資源豐富語言(High resource languages,如英語、漢語、日本語、西班牙語等)擴展到資源稀缺語言(Low resource language,如豪薩語、孟加拉語、藏語、維吾爾語等),資源稀缺語言不僅使用人口少,而且資源少、語料獲取成本高,在這種情況下構建資源稀缺語言的平行語料庫非常困難,因此可比語料庫是資源稀缺語言的跨語言自然語言處理研究的重要資源。

對於資源豐富語言而言,目前構建可比語料庫的方法主要有三種:內容特徵匹配、跨語言信息檢索、維基百科。基於內容特徵的可比語料構建方法需要抽取文本特徵以及雙語詞典的支持,由於資源稀缺語言的文本特徵抽取技術有限,而資源稀缺語言的雙語詞典主要覆蓋一些常用詞,無法滿足翻譯文本特徵的需求,因此目前沒有辦法通過基於內容特徵的方法大規模、高質量構建資源稀缺語言的可比語料庫。基於跨語言信息檢索構建可比語料庫極大地提高了大規模可比語料採集的速度,其中關鍵問題在於查詢詞的選擇,這直接決定了源語言文檔和目標語言文檔的關聯程度。但是對於資源稀缺語言而言,一方面一些資源稀缺語言沒有搜尋引擎系統、另一方面查詢詞的翻譯質量也是制約利用該方法進行資源稀缺語言可比語料庫構建的重要瓶頸。目前維基百科中資源稀缺語言的資源較少,且內容分布不平衡,很難通過維基百科構建大規模、高質量的資源稀缺語言的可比語料庫。

目前構建可比語料庫的方法不僅需要文本特徵提取、關鍵詞抽取、跨語言信息檢索、機器翻譯等技術的支持,還需要詞典、維基百科、Wordnet等資源或者知識庫支持。對於資源稀缺語言而言,一方面詞典、知識庫、維基百科等資源較為潰泛;另一方面,資源稀缺語言的信息處理技術,如關鍵詞抽取、跨語言信息檢索、機器翻譯等技術發展較為滯後,不足以支持資源稀缺語言的跨語言可比語料庫的構建。即資源稀缺語言不僅資源少,而且資源稀缺語言的信息處理技術(如關鍵詞抽取、機器翻譯、信息檢索技術等)導致構建資源豐富語言可比語料的方法通常不適用於資源稀缺語言的可比語料庫構建。



技術實現要素:

本發明為解決資源稀缺語言現有信息處理技術的不足,提出了一種基於圖片構建資源稀缺語言可比語料庫的方法及系統。

一方面,本發明實施例提供了一種基於圖片構建資源稀缺語言可比語料庫的方法,包括:

S110,下載資源稀缺語言的網頁,並作為資源稀缺語言文本,所述網頁包括文本中的圖片;

S120,搜索包含所述資源稀缺語言文本相同或相似圖片的資源豐富語言的網頁,作為資源豐富語言文本;

S130,對所述資源稀缺語言和資源豐富語言的網頁進行特徵提取,所述特徵包括:文本中的圖片、文本發布時間、文本中的數字、時間及命名實體;

S140,基於所述特徵計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度值;

S150,選取相似度值最高的資源豐富語言文本作為資源稀缺語言文本的可比文本;

重複S120至S150,直至所有含有圖片的資源稀缺語言網頁找到資源豐富語言的可比文本為止。

優選地,應用圖片搜索方法搜索包含所述資源稀缺語言文本相同或相似圖片的資源豐富語言的網頁。

優選地,S140之前還包括以下步驟:基於音譯和簡單意譯對文本中的數字、時間以及命名實體翻譯。

優選地,所述基於所述特徵計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度,具體是基於所述特徵根據徑向基函數計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度:

其中,xid和yjd分別是資源稀缺語言文本i和資源豐富語言文本j的第d個特徵值,βd是文本相似度特徵的權重,σ為函數的寬度參數,控制了函數的徑向作用範圍。

進一步優選地,所述文本相似度特徵的權重通過以下方式獲得:

在實驗過程中,根據文本中的圖片、文本發布時間、文本中的時間、數字以及命名實體在資源稀缺語言網頁和資源豐富語言網頁中的相似度情況,分別賦予不同的權重值。

另一方面,本發明實施例提供了一種基於圖片構建資源稀缺語言可比語料庫的系統,包括:

下載模塊,用於下載資源稀缺語言的網頁,並作為資源稀缺語言文本,所述網頁包括文本中的圖片;

搜索模塊,用於搜索包含所述資源稀缺語言文本相同或相似圖片的資源豐富語言的網頁,作為資源豐富語言文本;

提取模塊,對所述資源稀缺語言和資源豐富語言的網頁進行特徵提取,所述特徵包括:文本中的圖片、文本發布時間、文本中的數字、時間及命名實體;

計算模塊,基於所述特徵計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度值;

選取模塊,選取相似度值最好的資源豐富語言文本作為資源稀缺語言文本的可比文本。

優選地,所述搜索模塊,具體用於應用圖片搜索方法搜索包含所述資源稀缺語言文本相同或相似圖片的資源豐富語言的網頁。

優選地,所述系統還包括:翻譯模塊,用於基於音譯和簡單意譯對文本中的數字、時間以及命名實體翻譯。

優選地,所述計算模塊,具體用於基於所述特徵根據徑向基函數計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度:

其中,xid和yjd分別是資源稀缺語言文本i和資源豐富語言文本j的第d個特徵值,βd是文本相似度特徵的權重,σ為函數的寬度參數,控制了函數的徑向作用範圍。

進一步優選地,所述文本相似度特徵的權重通過以下方式獲得:

在實驗過程中,根據文本中的圖片、文本發布時間、文本中的時間、數字以及命名實體在較少語言網頁和較多語言網頁中的相似度情況,分別賦予不同的權重值。

本發明實施例提供的基於圖片構建資源稀缺語言可比語料庫的方法及系統不受一些信息處理技術(如關鍵詞抽取、機器翻譯、信息檢索)和資源(雙語詞典、維基百科等)的限制,可以以較低成本、快速構建高質量的資源稀缺語言的跨語言可比語料庫,進而為資源稀缺語言的自然語言處理提供資源。

附圖說明

為了更清楚地說明本發明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹。顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例。

圖1為本發明實施例提供的基於圖片構建資源稀缺語言可比語料庫的方法流程示意圖;

圖2(a)為基於圖片搜索的同一主題的中文文本舉例;

圖2(b)為基於圖片搜索的同一主題的英文文本舉例;

圖2(c)為基於圖片搜索的同一主題的阿拉伯文文本舉例;

圖2(d)為基於圖片搜索的同一主題的西班牙文本舉例;

圖2(e)為基於圖片搜索的同一主題的傳統蒙古文文本舉例;

圖2(f)為基於圖片搜索的同一主題的藏文文本舉例;

圖3為本發明實施例提供的一種具體實施例流程圖;

圖4為本發明實施例提供的一種基於圖片構建資源稀缺語言可比語料庫的系統結構示意圖。

具體實施方式

為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例中的附圖和實施例,對本發明實施例中的技術方案進行清楚地描述。

圖1為本發明實施例提供的基於一種基於圖片構建資源稀缺語言可比語料庫的方法流程示意圖,如圖1所述,該方法包括:

S110,下載資源稀缺語言的網頁,並作為資源稀缺語言文本,所述網頁包括文本中的圖片。

S120,搜索包含所述資源稀缺語言文本相同或相似圖片的資源豐富語言的網頁,作為資源豐富語言文本。

圖2為基於圖片搜索的同一主題的多語言文本舉例,具體地,(a)為中文文本,(b)為英文文本,(c)為阿拉伯文文本,(d)為西班牙文本,(e)為傳統蒙古文文本,(f)為藏文文本。由圖2可知,圖片能夠不受語言限制、直觀反應文本主題,擁有相同或相似圖片的不同語言文本通常為同一主題,因此可以通過圖片搜索的方法搜集與資源稀缺語言文本相同或相似的其他語言網頁,作為資源豐富語言文本。

S130,對所述資源稀缺語言和資源豐富語言的網頁進行特徵提取,所述特徵包括:文本中的圖片、文本發布時間、文本中的數字、時間及命名實體。

S140,基於所述特徵計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度值。

需要說明的是,S140之前還包括:基於音譯和簡單意譯對文本中的數字、時間以及命名實體翻譯。

具體地,基於所述特徵根據徑向基(Radial Basis Function,簡稱RBF)函數計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度:

其中,xid和yjd分別是資源稀缺語言文本i和資源豐富語言文本j的第d個特徵值,βd是文本相似度特徵的權重,σ為函數的寬度參數,控制了函數的徑向作用範圍。

其中,所述文本相似度特徵的權重通過以下方式獲得:

在實驗過程中,根據文本中的圖片、文本發布時間、文本中的時間、數字以及命名實體在較少語言網頁和較多語言網頁中的相似度情況,分別賦予不同的權重值。

S150,選取相似度值最好的資源豐富語言文本作為資源稀缺語言文本的可比文本。

S160,重複S120至S150,直至所有含有圖片的資源稀缺語言網頁找到資源豐富語言的可比文本為止。

下面通過具體的示例對本發明實施例如何基於圖片構建資源稀缺語言可比資料庫的過程進行說明。

圖3為本發明實施例提供的一種具體實施例流程圖,如圖3所示,基於圖片構建資源稀缺語言可比資料庫的過程具體如下:

S110,下載含有資源稀缺語言的網頁,並作為資源稀缺語言文本,所述網頁包括文本中的圖片。

在網際網路上,下載含有資源稀缺語言的網頁,總數量為m。

首先判斷資源稀缺語言的第k個網頁中是否含有圖片信息,若不含有圖片,則判斷第k--網頁(第k-1網頁,即下一個網頁)中是否含有圖片;若第k網頁中含有圖片,則該網頁作為資源稀缺語言文本。

判斷所有含圖片的資源稀缺語言網頁是否已經處理完,若已經處理完,則構建資源稀缺語言可比語料庫到此結束;若沒有處理完,則對資源稀缺語言文本i進行可比語料庫的構建。

對資源稀缺語言文本i的處理過程如下:

S120,應用圖片搜索工具搜索包含與資源稀缺語言文本i相同或相似圖片的資源豐富語言的網頁,作為資源豐富語言文本j。

S130,對資源稀缺語言文本i和特定語言文本j進行特徵提取,所述特徵包括:文本中的圖片、文本發布時間、文本中的數字、時間及命名實體。

其中,文本中的圖片屬於文本外特徵,而文本發布時間、文本中的數字、時間及命名實體均屬於文本內特徵。

S140,首先,基於音譯和簡單意譯對文本中的數字、時間以及命名實體翻譯;然後,基於所述特徵根據RBF函數計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度:

其中,xid和yjd分別是資源稀缺語言文本i和資源豐富語言文本j的第d個特徵值,βd是文本相似度特徵的權重,σ為函數的寬度參數,控制了函數的徑向作用範圍。

其中,所述文本相似度特徵的權重通過以下方式獲得:

在實驗過程中,根據文本中的圖片、文本發布時間、文本中的時間、數字以及命名實體在資源稀缺語言網頁和資源豐富語言網頁中的相似度情況,分別賦予不同的權重值。比如:在實驗過程的初期,可以分別賦予文中的圖片、文本發布時間、文本中的時間、數字以及命名實體各佔1/5的權重值,後期再根據相似情況,調整各特徵的權重值,直至合適為止。

S150,選取相似度值最高的資源豐富語言文本作為資源稀缺語言文本的可比文本,放入資源稀缺語言的可比預料庫中。

S160,重複S120至S150,直至所有含有圖片的資源稀缺語言網頁找到資源豐富語言的可比文本為止。

與上述方法實施例相對應的,本發明實施例還提供了一種基於圖片構建資源稀缺語言可比語料庫的系統,具體如圖4所示,該系統400包括:下載模塊401、搜索模塊402、提取模塊403、計算模塊404及選取模塊405。

下載模塊401,用於下載資源稀缺語言的網頁,作為資源稀缺語言文本,所述網頁包括文本中的圖片。

搜索模塊402,用於搜索包含所述資源稀缺語言文本相同或相似圖片的資源豐富語言的網頁,作為資源豐富語言文本。

提取模塊403,對所述資源稀缺語言和資源豐富語言的網頁進行特徵提取,所述特徵包括:文本中的圖片、文本發布時間、文本中的數字、時間及命名實體。

計算模塊404,基於所述特徵計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度值。

選取模塊405,選取相似度值最高的資源豐富語言文本作為資源稀缺語言文本的可比文本。

所述搜索模塊401,具體用於應用圖片搜索方法搜索包含所述資源稀缺語言文本相同或相似圖片的資源豐富語言的網頁。

所述系統還包括:翻譯模塊406,用於基於音譯和簡單意譯對文本中的數字、時間以及命名實體翻譯。

所述計算模塊404,具體用於基於所述特徵根據徑向基函數計算具有相同或相似圖片的資源稀缺語言和資源豐富語言網頁的相似度:

其中,xid和yjd分別是資源稀缺語言文本i和資源豐富語言文本j的第d個特徵值,βd是文本相似度特徵的權重,σ為函數的寬度參數,控制了函數的徑向作用範圍。其中,所述文本相似度特徵的權重通過以下方式獲得:

在實驗過程中,根據文本中的圖片、文本發布時間、文本中的時間、數字以及命名實體在較少語言網頁和較多語言網頁中的相似度情況,分別賦予不同的權重值。

本發明實施例提供的上述基於圖片構建資源稀缺語言可比語料庫的系統中各部件所執行的功能均已經在上述實施例提供的一種基於圖片構建資源稀缺語言可比語料庫的方法中做了詳細介紹,這裡不再贅述。

本發明實施例提供的基於圖片構建資源稀缺語言可比語料庫的系統不受一些信息處理技術(如關鍵詞抽取、機器翻譯、信息檢索)和資源(雙語詞典、維基百科等)的限制,可以以較低成本、快速構建高質量的資源稀缺語言的跨語言可比語料庫,進而為資源稀缺語言的自然語言處理提供資源。

專業人員應該還可以進一步意識到,結合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬體、計算機軟體或者二者的結合來實現,為了清楚地說明硬體和軟體的可互換性,在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬體還是軟體方式來執行,取決於技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用使用不同方法來實現所描述的功能,但是這種實現不應認為超出本發明的範圍。

本領域普通技術人員可以理解實現上述實施例方法中的全部或部分步驟是可以通過程序來指令處理器完成,所述的程序可以存儲於計算機可讀存儲介質中,存儲介質是非短暫性(non-transitory)介質,例如隨機存取存儲器,只讀存儲器,快閃記憶體,硬碟,固態硬碟,磁帶(magnetic tape),軟盤(floppy disk),光碟(optical disc)及其任意組合。以上,僅為本發明較佳的具體實施方式,但本發明的保護範圍並不局限於此。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀