新四季網

一種關鍵詞翻譯統一的方法

2023-09-16 15:54:05

一種關鍵詞翻譯統一的方法
【專利摘要】本發明公開了一種關鍵詞翻譯統一的方法,包括:從待譯文檔中確定關鍵詞,找到該關鍵詞對應的若干翻譯項;在所述待譯文檔中截取包含有所述關鍵詞的部分文本,作為第一子文檔;根據每個所述翻譯項,截取包含該翻譯項的部分文本的原文,分別作為第二子文檔;將所有所述翻譯項按照語義分類,得到若干語義相似類;分別對每個所述語義相似類中的所述翻譯項所對應的所述第二子文檔與所述第一子文檔進行文檔相似度計算;計算得到的所述文檔相似度最大的所述語義相似類所對應的翻譯項作為所述關鍵詞的候選翻譯項。本發明有效的降低了在翻譯過程中的人工成本,並且提高了關鍵詞的翻譯的準確性及一致性。
【專利說明】—種關鍵詞翻譯統一的方法
【技術領域】
[0001]本發明涉及計算機輔助翻譯領域,具體而言涉及一種關鍵詞翻譯統一的方法。
【背景技術】
[0002]計算機輔助翻譯(CAT),類似於CAD(計算機輔助設計),實際起了輔助翻譯的作用,簡稱CAT (Computer Aided Translation)。它能夠幫助翻譯者優質、高效、輕鬆地完成翻譯工作。它不同於以往的機器翻譯軟體,不依賴於計算機的自動翻譯,而是在人的參與下完成整個翻譯過程,與人工翻譯相比,質量相同或更好,翻譯效率可大幅度提高。CAT使得繁重的手工翻譯流程自動化,並大幅度提高了翻譯效率和翻譯質量。
[0003]計算機技術在翻譯中的應用主要指將其他行業的一些成熟的方法、工具和資源等利用計算機技術應用到翻譯過程中從而輔助翻譯。計算機輔助翻譯是研究如何設計或應用「方法、工具和資源」以便幫助譯員更好的完成翻譯工作,同時也能有助於研究和教學活動的進行。
[0004]文檔中的高頻詞往往是文檔中的關鍵詞,對於這些高頻詞或關鍵詞的翻譯的準確一致是保證整篇文檔翻譯質量的基礎。在實際的翻譯生產過程中,一個大的翻譯任務需要分成多個子任務及文檔碎片,由多個人或多個小組進行協同的翻譯處理。在這個過程中如何對這些高頻詞和關鍵詞的翻譯保持統一、準確,一直是協同翻譯中難以解決的問題。
[0005]以往對於這種需要進行統一翻譯的關鍵詞彙,首先是由翻譯助理對文檔進行關鍵詞標註或者通過計算機自動進行關鍵詞標註,然後由翻譯專家對這些標註的關鍵詞給出標準的翻譯結果,這樣做雖然可以保證翻譯的準確性,但增加了翻譯流程中的人工處理環節,延緩了翻譯處理流程,同時也增加了成本。所以,對於大規模、大批量的翻譯任務而言,需要有一種更為快速、經濟的手段對關鍵詞的統一翻譯問題進行處理。

【發明內容】

[0006]本發明旨在提供一種關鍵詞翻譯統一的方法,解決了在翻譯過程中,人工成本高、關鍵詞的翻譯不準確、不一致的問題。
[0007]本發明公開了一種關鍵詞翻譯統一的方法,包括:
[0008]從待譯文檔中確定關鍵詞,找到該關鍵詞對應的若干翻譯項;
[0009]在所述待譯文檔中截取包含有所述關鍵詞的部分文本,作為第一子文檔;
[0010]根據每個所述翻譯項,截取包含該翻譯項的部分文本的原文,分別作為第二子文檔;
[0011]將所有所述翻譯項按照語義分類,得到若干語義相似類;
[0012]分別對每個所述語義相似類中的所述翻譯項所對應的所述第二子文檔與所述第一子文檔進行文檔相似度計算;
[0013]計算得到的所述文檔相似度最大的所述語義相似類作為所述關鍵詞的候選翻譯項。[0014]優選地,所述將所有所述翻譯項按照語義分類的過程為聚類處理,包括:
[0015]提取所有所述翻譯項中的第一翻譯項,分別計算所述第一翻譯項與剩餘的所述翻譯項的語義相似度,結果大於預定閾值的所述翻譯項與所述第一翻譯項構成第一語義相似類;
[0016]提取拋除所述第一語義相似類之外的所有所述翻譯項中的第二翻譯項;分別計算所述第二翻譯項與拋除後剩餘的所述翻譯項的語義相似度,結果大於預定閾值的所述翻譯項與所述第二翻譯項構成第二語義相似類;
[0017]重複該過程,直至每個所述翻譯項聚類完成,聚類結束。
[0018]優選地,所述從待譯文檔中確認關鍵詞的過程包括:
[0019]提取並掃描所述待譯文檔,按照詞性對所述待譯文檔進行分詞處理,並剔除其中的停用詞,得到若干各不相同的候選詞;
[0020]對所述候選詞進行去噪處理,得到若干所述關鍵詞。
[0021]優選地,在所述剔除其中的停用詞的同時,至少保留以下之一詞性的詞語作為所述候選詞:形容詞、副詞、動詞、名詞、成語、簡稱略語和習用語。
[0022]優選地,在所述找到該關鍵詞對應的若干翻譯項之前,還包括:
[0023]確定所述待譯文檔的源語言和目標語言;
[0024]在翻譯參考庫中提取與所述待譯文檔的源語言和目標語言均一致的已翻譯文檔的原文和譯文。
[0025]優選地,所述找到該關鍵詞對應的若干翻譯項的過程包括:
[0026]以所述關鍵詞為檢索詞,在所述提取的所述已翻譯文檔的所述原文中進行檢索匹配,在所述已翻譯文檔中的所述譯文中找到所述關鍵詞映射的若干所述翻譯項。
[0027]優選地,截取獲得所述子文檔,以單句、多句、段落或固定字數為獲取單位。
[0028]本發明中的關鍵詞翻譯統一的方法,具有以下優點:
[0029]1、協同翻譯過程中,對於關鍵詞的翻譯實現了保持準確、一致;
[0030]2、加快了翻譯效率;
[0031]3、節約了翻譯成本。
【專利附圖】

【附圖說明】
[0032]此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在附圖中:
[0033]圖1示出了實施例的流程圖。
【具體實施方式】
[0034]下面將參考附圖並結合實施例,來詳細說明本發明。
[0035]本發明公開了一種關鍵詞翻譯統一的方法,包括:
[0036]S11、從待譯文檔中確定關鍵詞,所述確定關鍵詞的方法如下:
[0037]對待譯文檔進行分詞處理,去除其中的停用詞,保留形容詞、副詞、成語、簡稱略語、習用語、動詞、和名詞,獲得候選詞語集合;
[0038]對該候選詞集中的候選詞進行詞頻(tf)統計,根據預設的閾值TF,得到該待譯文檔的關鍵詞集W=Iw1 (tfj), w2(tf2),…,wn(tfn)},即tfi > TF的高頻詞集,即去噪處理;
[0039]S12、在所述待譯文檔中截取關鍵詞Wi的上下文,將關鍵詞Wi的tfi段上下文進行合併處理,作為關鍵詞Wi的相關的第一子文檔Di ;
[0040]關鍵詞Wi的上下文為關鍵詞Wi所在位置的上下文,上下文的獲取可以以單句、多句、段落、也可以以固定字數為獲取單位;
[0041]S13、獲取到關鍵詞Wi的所有翻譯項,獲取方法如下:
[0042]根據待譯文檔的信息,確定所述待譯文檔的源語言和目標語言;
[0043]在翻譯參考庫中提取與所述待譯文檔的源語言和目標語言均一致的已翻譯文檔的原文和譯文。
[0044]以W中的關鍵詞Wi為檢索詞,在翻譯參考庫中進行檢索,得到關鍵詞Wi的所有翻譯項;[0045]翻譯參考庫是一個有著海量已譯文檔的翻譯資源庫,包括每篇已翻譯文檔的源文檔及其對應的翻譯文檔,在翻譯參考庫中進行檢索可以得到所查詢關鍵詞在庫中文檔的對應的所有翻譯項;
[0046]S14、對關鍵詞Wi的翻譯項按照語義進行聚類,得到若干語義相似類,聚類過程如下:
[0047]提取所有所述關鍵詞Wi翻譯項中的第一翻譯項,分別計算所述第一翻譯項與剩餘的所述翻譯項的語義相似度,結果大於預定閾值的所述翻譯項與所述第一翻譯項構成第一語義相似類;
[0048]提取拋除所述第一語義相似類之外的所有所述翻譯項中的第二翻譯項;分別計算所述第二翻譯項與拋除後剩餘的所述翻譯項的語義相似度,結果大於預定閾值的所述翻譯項與所述第二翻譯項構成第二語義相似類;
[0049]重複該過程,直至每個所述翻譯項聚類完成,聚類結束,得到Wi的所有翻譯項的k個語義相似類{Si,S2,…,SJ ;
[0050]其中,計算語義相似度的方法如下:
[0051]根據《知網》、《同義詞詞林》、((wordnet))等語義詞典,在其中計算詞語的語義相似度;
[0052]設定翻譯項tA和翻譯項tr2進行語義相似度計算;其中tA包含有n個義項,tr2包含有m個義項;則規定和的語義相似度Sim Ctr1, tr2)為這兩個翻譯項各個義項相似度的最大值,即;
[0053]SimUr1, tr2)=maxi=1,2』…,n;j=1』2』…’mSimUrH, tr2i);
[0054]其中,SI和S2為義項,義項相似度與義項距離為反比關係,記為:Sim (S1,S2)=L/(Dis (SI,S2)+L),其中,L為調節參數,L越大相似度表現得越不靈敏,一般可以取為詞典樹結構的層數;
[0055]其中,Dis (S1,S2)為義項SI和義項S2之間的距離,通過計算其在詞典中的代碼
距離得到。
[0056]S15、獲取關鍵詞Wi的所有翻譯項在翻譯參考庫中對應的原文的上下文,按語義相似類進行合併,即對所有在同一語義相似類中的翻譯項的上下文進行合併得到文檔集合(Dil, Di2,...,Dik};[0057]所述上下文的獲取可以以單句、多句、段落、也可以以固定字數為獲取單位;
[0058]S16、將關鍵詞~的相關子文檔Di分別與文檔集合{Dn,Di2,- ,DiJ ;中的每個文檔進行相似度計算,計算得到的所述文檔相似度最大的所述語義相似類作為所述關鍵詞的候選翻譯項。
[0059]進一步的,對於步驟S15和S16,還可以採取將所有翻譯項的對應的原文的上下文作為第二子文檔Dall,分別計算Di與Dall的文檔相似度,將同一語義相似類中的翻譯項對應的計算得到的文檔相似度相加,文檔相似度最大的所述語義相似類作為所述關鍵詞的候選翻譯項;
[0060]文檔相似度計算的方法如下:
[0061]1、構造翻譯文檔集合的關鍵詞概念樹
[0062]該概念樹的葉子節點為所有關鍵詞,將關鍵詞按共現在同一篇文檔中的概率建立關鍵詞概念樹;
[0063]計算所有關鍵詞在文檔集中出現的概率和任兩個關鍵詞Ki和Kj互現的條件概率P (Ki I Kj)和 p (Kj I Ki);
[0064]若p (Ki)大於設定閾值且p (Kj I Ki)也大於設定閾值或p (Kj)大於設定閾值且p (Ki I Ki)也大於設定閾值,則將關鍵詞Ki和Kj合併;
[0065]同理對於待合併的兩個關鍵詞集合Cl、C2,若滿足如下兩個條件:
[0066]1.存在Ki屬於Cl,Kj屬於C2,且p (Ki)>設定閾值l,p (Kj I Ki) >設定閾值2
[0067]i1.在合併後的集合中任給一個關鍵詞Ki與集合中一半以上關鍵詞都滿足以下條件:p (Kj I Ki) >設定閾值2
[0068]則合併之,直到所有的關鍵詞概念集合都無法再合併為止,形成關鍵詞概念樹。
[0069]2、根據上述的關鍵詞概念樹,定義一種關鍵詞乘積的計算方法
[0070]設定,概念樹的高度為H,depth (K)為關鍵詞K在樹中的深度,com (Ki,Kj)為離節點Ki和Kj最近的共同父節點,則關鍵詞Ki和Kj的的乘積KiXKj=depth (com (Ki,Kj))/H。
[0071]3、定義一種向量計算方法
[0072]設向量A={al, a2,…,an}, B={bl, b2, bn},定義向量計算:
【權利要求】
1.一種關鍵詞翻譯統一的方法,其特徵在於,包括: 從待譯文檔中確定關鍵詞,找到該關鍵詞對應的所有翻譯項; 在所述待譯文檔中截取包含有所述關鍵詞的部分文本,作為第一子文檔; 根據每個所述翻譯項,截取包含該翻譯項的部分文本的原文,分別作為第二子文檔; 將所有所述翻譯項按照語義聚類處理,得到若干語義相似類; 分別對每個所述語義相似類中的所述翻譯項所對應的所述第二子文檔與所述第一子文檔進行文檔相似度計算; 計算得到的所述文檔相似度最大的所述語義相似類所對應的翻譯項作為所述關鍵詞的候選翻譯項。
2.根據權利要求1所述的方法,其特徵在於,所述將所有所述翻譯項按照語義分類的過程,包括: 提取所有所述翻譯項中的第一翻譯項,將所述第一翻譯項作為第一語義相似類,計算所述第一語義相似類與所述所有翻譯項中的下一個未歸入到任一語義相似類中的翻譯項的語義相似度,若結果大於預定閾值將該翻譯項加入到第一語義相似類,重複該過程,直到未歸入到任一語義相似類中的翻譯項都與第一語義相似類進行了語義相似度比較,過程結束,得到最終的第一語義相似類; 提取除所述第一語義相似類之外的所有所述翻譯項中的任一項,將該所述翻譯項作為第二語義相似類,重複上步的翻譯項聚類過程,得到最終第二語義相似類; 重複該過程,直至每個所述翻譯項聚類完成。
3.根據權利要求1所述的方法,其特徵在於,所述從待譯文檔中確定關鍵詞的過程包括: 提取並掃描所述待譯文檔,按照詞性對所述待譯文檔進行分詞處理,並剔除其中的停用詞,得到若干各不相同的候選詞; 對所述候選詞進行去噪處理,得到若干所述關鍵詞。
4.根據權利要求3所述的方法,其特徵在於,在所述剔除其中的停用詞的同時,至少保留以下之一詞性的詞語作為所述候選詞:形容詞、副詞、動詞、名詞、成語、簡稱略語和習用語。
5.根據權利要求1所述的方法,其特徵在於,在所述找到該關鍵詞對應的若干翻譯項之前,還包括: 確定所述待譯文檔的源語言和目標語言; 在翻譯參考庫中提取與所述待譯文檔的源語言和目標語言均一致的已翻譯文檔的原文和譯文。
6.根據權利要求5所述的方法,其特徵在於,所述找到該關鍵詞對應的若干翻譯項的過程包括: 以所述關鍵詞為檢索詞,在所述提取的所述已翻譯文檔的所述原文中進行檢索匹配,在所述已翻譯文檔中的譯文中找到所述關鍵詞映射的若干所述翻譯項。
7.根據權利要求6所述的方法,其特徵在於,截取獲得所述子文檔,以單句、多句、段落或固定字數為獲取單位。
【文檔編號】G06F17/28GK103678287SQ201310633857
【公開日】2014年3月26日 申請日期:2013年11月30日 優先權日:2013年11月30日
【發明者】江潮 申請人:武漢傳神信息技術有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀