新四季網

全篇專利文獻翻譯方法及翻譯系統與流程

2023-07-06 08:51:06


本發明涉及機器翻譯技術,尤其涉及全篇專利文獻的機器翻譯方法及翻譯系統。

背景技術:
機器翻譯是使用計算機實現從一種自然語言文本到另一種自然語言文本的翻譯。其研究方法分為規則和統計兩種。由於規則系統開發周期長,資金和人力的需求大,所以規則系統進展緩慢。相對而言,統計方法開發周期短、便於處理大規模語料等優點而顯出優勢。在統計機器翻譯方法中,基於短語的翻譯方法得到充分的發展。但從目前看,對於專業的領域的翻譯來說,比如在專利文檔的翻譯中,較長的短語常常被分詞為幾個短語進行翻譯。例如,「所述超低溫熱封聚丙烯流延膜,...」,可能會被分詞為「所述」、「超低溫」、「熱」、「封」、「聚丙烯」和「流延膜」。而在專利文獻撰寫中,「所述」後的詞語通常是固定的,其本身就可以看為一個固定短語,所以能將「超低溫熱封聚丙烯流延膜」作為一個短語整體進行處理,則只需要一次分析和翻譯,就可以在此專利文獻中出現該短語時直接套用。另外,對於複雜短語,在句法分析的時候,會由於上下語境的不同而產生不同的短語分詞結果,造成同一篇專利文檔中譯文前後不一致,但對於專利文獻來說,很多複雜短語是固定的,在全文中會多次出現,因此只要在全文範圍內識別出這樣的短語,就可以在全文翻譯中直接套用其譯文,而不必再對同樣的內容進行分析。公開號為CN103116578A的中國專利申請,公開一種融合句法樹和統計機器翻譯技術的機器翻譯方法與裝置,該方法首先建立不同語種語言之間的詞典庫、語法規則庫、短語翻譯概率表以及目標語語言模型,然後對原文輸入句子進行切分、詞性消兼和語法分析,生成句法樹,然後採用自頂向下的策略遍歷該句法樹,對單個節點和部分跨句法的連續節點,取其葉節點的原文與統計機器翻譯所訓練出的短語翻譯概率表進行智能匹配,利用短語翻譯表的譯文和目標語言的語言模型來達到提高輸出譯文流利度和準確度的目的。此方法對短語的提取不是基於全文的,因此會存在同樣的短語翻譯不一致以及多次分析、翻譯的情況。因此,在現有技術的翻譯過程中,複雜名詞短語不能保持一致性,同時,同一短語被多次地分析、翻譯,耗時費力。

技術實現要素:
為了克服現有的缺陷,本發明提出一種全篇專利文獻的機器翻譯方法和系統。根據本發明的一個方面,提出了一種全篇專利文獻的機器翻譯方法,該方法包括以下步驟:A步驟:針對文獻全文,識別出各級標題信息並標註;B步驟:對全文進行詞法分析,得到分詞和詞性標註信息;C步驟:根據B步驟的分詞和詞性標註信息進行短語識別,得到識別名詞短語RNP並將該識別名詞短語RNP翻譯成目標語言;和D步驟:以句子為單位進行翻譯,對於標註為RNP的短語直接使用步驟C所得的譯文,翻譯完畢後,按原文標題順序輸出。根據本發明的另一個方面,提供了一種機器翻譯系統,包括:輸入模塊,用於接收並分析文獻全文,首先識別各級標題,然後進行詞法分析,標註分詞、詞性信息;短語識別模塊,所述短語識別模塊用於得到識別名詞短語RNP短語翻譯模塊,所述短語翻譯模塊翻譯識別名詞短語,並保存在短語存儲器中;全文翻譯模塊,所述全文翻譯模塊對全文逐句翻譯,對於識別名詞短語RNP不再進行句法展開,直接從短語存儲器中取譯文;和輸出模塊,所述輸出模塊將翻譯結果按原標題順序輸出。本發明提供一種全篇專利全文機器翻譯方法和翻譯系統,解決了現有技術中常用複雜名詞短語翻譯不一致及翻譯效率低的問題。附圖說明本發明的上述及其它方面和特徵將從以下結合附圖對實施例的說明清楚呈現,在附圖中:圖1是全篇專利文獻機器翻譯方法流程圖;圖2是句法分析結果圖;圖3是短語翻譯器句法分析的一個例子;圖4是全篇專利文獻機器翻譯系統的結構圖;圖5是短語識別模塊的工作流程圖;和圖6是短語翻譯模塊的工作流程圖。具體實施方式下面結合附圖和具體實施例對本發明提供的一種全篇專利文獻機器翻譯方法和系統進行詳細描述。如圖1所示,圖1提供了專利文獻機器翻譯方法總體技術方案實現流程圖。該方法包括以下步驟:A步驟:接收全文,識別各級標題信息、XML標籤信息、特徵內容並標註;B步驟:對全文進行詞法分析,得到分詞和詞性標註信息;其中,根據需要還可以進行淺層句法分析或完整的句法分析;C步驟:根據B步驟的分詞結果對短語進行提取、判定、識別和修正,得到識別名詞短語RNP;翻譯識別名詞短語RNP並存放在短語存儲器中;D步驟:以句子為單位進行翻譯,翻譯時遇到標註為RNP的短語,直接從短語存儲器中取譯文,不再對短語進行分析,翻譯完後按原文標題順序輸出譯文。在步驟A中,專利內容部分包括名稱、摘要、權利要求書、說明書(技術領域、

背景技術:


技術實現要素:
、附圖說明、具體實施方式);標註的方法舉例如下:權利要求1可以標註為。在步驟C中,包括以下步驟:C01步驟:短語提取;C02步驟:短語判定;C03步驟:短語識別和修正;C04步驟:為全文中出現的所有該短語標註RNP標籤;和C05步驟:短語翻譯。在步驟C01中,短語提取可以使用模板提取方法,即通過一些設定的邊界信息,利用模板進行短語提取。【例1】一種用於控制飛機飛行的系統,其特徵在於,...可以將「一種」、「其特徵在於」作為起始邊界信息,利用模板:{一種}+{短語A}+{,其特徵在於},提取短語「用於控制飛機飛行的系統」。短語提取方法還可以為規則提取方法,即利用詞性標註特徵POS(part-of-speech)加前後綴組合方法進行短語提取,撰寫的規則例子如下:(-1)CAT(V)+(0)CAT[N]+(1)Suffix→NP[0,1]。【例2】...提供詞性標註方法其中,後綴為「方法」,詞性標註特徵為:提供/v詞性/n/標註/nv方法/n。將後綴「方法」與「詞性/n/標註/nv」結合,得到短語「詞性標註方法」。短語提取方法可以為計算權重法,對其權重進行打分,如果其權重高於設定值,比如0.5×ω*,則判定為候選短語,ω*為當前專利文檔中短語權重的最大值。此外,在計算ω*時,要排除在停用高頻短語列表中的短語。權重打分方法可以為TF-IDF法:其中ωNP為短語的權重,fNP為短語在全文中的頻率(其計算公式根據上文中公式),nNP為在專利文檔庫中出現的該短語的文檔數,N為專利文檔庫中文檔數。打分方法還可以為TFC法:其中,ωNP為短語的權重,fNP為短語在全文中的頻率(其計算公式根據上文中公式),nNP為在專利文檔庫中出現該短語的文獻數,N為專利文檔庫中文檔數。∑NP表示對全文中所有短語求和。打分方法還可以為ITC法:其中,ωNP為短語的權重,fNP為短語在全文中的頻率(其計算公式根據上文中公式),nNP為在專利文檔庫中出現該短語的文檔數,N為專利文檔庫中文檔數,∑NP表示對全文中所有短語求和。權重打分方法還可以為TF-IWF法:ωNP為短語的權重,fNP為短語在全文中的頻率(其計算公式根據上文中公式),CNP為短語在全文中出現的次數,∑NP表示對全文中所有短語求和。在計算出權重之後,根據短語出現的位置設置位置權重係數βi,對權重進行調整,公式如下:【公式1】ω*=ω*βi其中βi為位置權重係數。βi根據其在分析處理階段(A步驟)中識別出的各標題部分的位置信息,取不同的值,具體如下:β1表示說明書摘要、

背景技術:
、具體實施方式部分的權重;β2表示權利要求、技術領域部分的權重;β3表示附圖說明部分的權重;β4表示標題、權利要求主題名稱部分的權重。βi取值範圍的關係滿足不等式1:β1<β2<β3<β4βi優選為:0.1<β1<0.60.2<β2<0.80.3<β3<0.90.5<β4<1且滿足不等式1所限定的取值範圍。βi更加優選為:β1=0.4β2=0.5β3=0.6β4=0.8停用高頻短語列表是通過計算短語頻,降序排列後取排名1至排名n的短語而構成,計算短語頻率的公式為:【公式2】其中fNPL表示該短語在專利文檔庫L中的頻率,CNPL為該短語在專利文檔庫中出現的次數,CL表示專利文檔庫中所有短語出現的總次數,計算公式為:【公式3】表示專利文檔庫中短語i出現的次數。排名n為20-1000,優選為50-500,更優選為100。該專利文檔庫可以是大於或等於一萬篇的專利文檔庫,優選與所述被翻譯的專利文檔技術領域相同或相似的專利文檔庫。進一步地,在步驟C01中可以使用上述三種方式的任意組合來進行短語提取。在步驟C02中,短語判定方法可以為短語頻率方法,即計算專利全文中該短語出現的頻率,按照設定的選擇閾值ε,如果出現頻率小於該閾值,則該短語不屬於候選短語。短語頻率的計算公式為:【公式4】其中,fNP為該短語的頻率,CNP為該短語在專利全文中出現的次數,C為專利全文中所有短語出現的總次數。C的計算公式為:【公式5】其中,Ni為短語i在專利全文中出現的次數。閾值ε的計算公式為:【公式6】更優選為:【公式7】最優選為:【公式8】其中,NALL為全篇專利文獻中短語的總個數。同時,查詢該短語是否存在於停用高頻短語列表中,若存在,則該短語不屬於候選短語。短語判定方法還可以是修正的短語頻率法,計算方法為:【公式9】fNP′=fNP*βi其中βi為位置權重係數,具體的取值在前面已有描述。短語判定方法還可以為記憶鑑定方法,首先從一個專利文檔庫的所有專利全文中提取短語,經過人工判定等方式得到正確的短語,存入記憶庫。判定時,使用邊際編輯距離算法和最長公共字串法對提取的短語與記憶庫中的短語進行比較,生成候選短語。進一步地,短語判定方法還可以是上述3種方法的任意組合。對於多種判定方法,可以通過投票法對結果進行選擇。所述投票法表示用多種方法獲得的短語中,取相同結果數量最多的一種。例如,有兩種方...

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀