一種關鍵詞翻譯統一的方法
2023-09-16 15:54:05 1
一種關鍵詞翻譯統一的方法
【專利摘要】本發明公開了一種關鍵詞翻譯統一的方法,包括:從待譯文檔中確定關鍵詞,找到該關鍵詞對應的若干翻譯項;在所述待譯文檔中截取包含有所述關鍵詞的部分文本,作為第一子文檔;根據每個所述翻譯項,截取包含該翻譯項的部分文本的原文,分別作為第二子文檔;將所有所述翻譯項按照語義分類,得到若干語義相似類;分別對每個所述語義相似類中的所述翻譯項所對應的所述第二子文檔與所述第一子文檔進行文檔相似度計算;計算得到的所述文檔相似度最大的所述語義相似類所對應的翻譯項作為所述關鍵詞的候選翻譯項。本發明有效的降低了在翻譯過程中的人工成本,並且提高了關鍵詞的翻譯的準確性及一致性。
【專利說明】—種關鍵詞翻譯統一的方法
【技術領域】
[0001]本發明涉及計算機輔助翻譯領域,具體而言涉及一種關鍵詞翻譯統一的方法。
【背景技術】
[0002]計算機輔助翻譯(CAT),類似於CAD(計算機輔助設計),實際起了輔助翻譯的作用,簡稱CAT (Computer Aided Translation)。它能夠幫助翻譯者優質、高效、輕鬆地完成翻譯工作。它不同於以往的機器翻譯軟體,不依賴於計算機的自動翻譯,而是在人的參與下完成整個翻譯過程,與人工翻譯相比,質量相同或更好,翻譯效率可大幅度提高。CAT使得繁重的手工翻譯流程自動化,並大幅度提高了翻譯效率和翻譯質量。
[0003]計算機技術在翻譯中的應用主要指將其他行業的一些成熟的方法、工具和資源等利用計算機技術應用到翻譯過程中從而輔助翻譯。計算機輔助翻譯是研究如何設計或應用「方法、工具和資源」以便幫助譯員更好的完成翻譯工作,同時也能有助於研究和教學活動的進行。
[0004]文檔中的高頻詞往往是文檔中的關鍵詞,對於這些高頻詞或關鍵詞的翻譯的準確一致是保證整篇文檔翻譯質量的基礎。在實際的翻譯生產過程中,一個大的翻譯任務需要分成多個子任務及文檔碎片,由多個人或多個小組進行協同的翻譯處理。在這個過程中如何對這些高頻詞和關鍵詞的翻譯保持統一、準確,一直是協同翻譯中難以解決的問題。
[0005]以往對於這種需要進行統一翻譯的關鍵詞彙,首先是由翻譯助理對文檔進行關鍵詞標註或者通過計算機自動進行關鍵詞標註,然後由翻譯專家對這些標註的關鍵詞給出標準的翻譯結果,這樣做雖然可以保證翻譯的準確性,但增加了翻譯流程中的人工處理環節,延緩了翻譯處理流程,同時也增加了成本。所以,對於大規模、大批量的翻譯任務而言,需要有一種更為快速、經濟的手段對關鍵詞的統一翻譯問題進行處理。
【發明內容】
[0006]本發明旨在提供一種關鍵詞翻譯統一的方法,解決了在翻譯過程中,人工成本高、關鍵詞的翻譯不準確、不一致的問題。
[0007]本發明公開了一種關鍵詞翻譯統一的方法,包括:
[0008]從待譯文檔中確定關鍵詞,找到該關鍵詞對應的若干翻譯項;
[0009]在所述待譯文檔中截取包含有所述關鍵詞的部分文本,作為第一子文檔;
[0010]根據每個所述翻譯項,截取包含該翻譯項的部分文本的原文,分別作為第二子文檔;
[0011]將所有所述翻譯項按照語義分類,得到若干語義相似類;
[0012]分別對每個所述語義相似類中的所述翻譯項所對應的所述第二子文檔與所述第一子文檔進行文檔相似度計算;
[0013]計算得到的所述文檔相似度最大的所述語義相似類作為所述關鍵詞的候選翻譯項。[0014]優選地,所述將所有所述翻譯項按照語義分類的過程為聚類處理,包括:
[0015]提取所有所述翻譯項中的第一翻譯項,分別計算所述第一翻譯項與剩餘的所述翻譯項的語義相似度,結果大於預定閾值的所述翻譯項與所述第一翻譯項構成第一語義相似類;
[0016]提取拋除所述第一語義相似類之外的所有所述翻譯項中的第二翻譯項;分別計算所述第二翻譯項與拋除後剩餘的所述翻譯項的語義相似度,結果大於預定閾值的所述翻譯項與所述第二翻譯項構成第二語義相似類;
[0017]重複該過程,直至每個所述翻譯項聚類完成,聚類結束。
[0018]優選地,所述從待譯文檔中確認關鍵詞的過程包括:
[0019]提取並掃描所述待譯文檔,按照詞性對所述待譯文檔進行分詞處理,並剔除其中的停用詞,得到若干各不相同的候選詞;
[0020]對所述候選詞進行去噪處理,得到若干所述關鍵詞。
[0021]優選地,在所述剔除其中的停用詞的同時,至少保留以下之一詞性的詞語作為所述候選詞:形容詞、副詞、動詞、名詞、成語、簡稱略語和習用語。
[0022]優選地,在所述找到該關鍵詞對應的若干翻譯項之前,還包括:
[0023]確定所述待譯文檔的源語言和目標語言;
[0024]在翻譯參考庫中提取與所述待譯文檔的源語言和目標語言均一致的已翻譯文檔的原文和譯文。
[0025]優選地,所述找到該關鍵詞對應的若干翻譯項的過程包括:
[0026]以所述關鍵詞為檢索詞,在所述提取的所述已翻譯文檔的所述原文中進行檢索匹配,在所述已翻譯文檔中的所述譯文中找到所述關鍵詞映射的若干所述翻譯項。
[0027]優選地,截取獲得所述子文檔,以單句、多句、段落或固定字數為獲取單位。
[0028]本發明中的關鍵詞翻譯統一的方法,具有以下優點:
[0029]1、協同翻譯過程中,對於關鍵詞的翻譯實現了保持準確、一致;
[0030]2、加快了翻譯效率;
[0031]3、節約了翻譯成本。
【專利附圖】
【附圖說明】
[0032]此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在附圖中:
[0033]圖1示出了實施例的流程圖。
【具體實施方式】
[0034]下面將參考附圖並結合實施例,來詳細說明本發明。
[0035]本發明公開了一種關鍵詞翻譯統一的方法,包括:
[0036]S11、從待譯文檔中確定關鍵詞,所述確定關鍵詞的方法如下:
[0037]對待譯文檔進行分詞處理,去除其中的停用詞,保留形容詞、副詞、成語、簡稱略語、習用語、動詞、和名詞,獲得候選詞語集合;
[0038]對該候選詞集中的候選詞進行詞頻(tf)統計,根據預設的閾值TF,得到該待譯文檔的關鍵詞集W=Iw1 (tfj), w2(tf2),…,wn(tfn)},即tfi > TF的高頻詞集,即去噪處理;
[0039]S12、在所述待譯文檔中截取關鍵詞Wi的上下文,將關鍵詞Wi的tfi段上下文進行合併處理,作為關鍵詞Wi的相關的第一子文檔Di ;
[0040]關鍵詞Wi的上下文為關鍵詞Wi所在位置的上下文,上下文的獲取可以以單句、多句、段落、也可以以固定字數為獲取單位;
[0041]S13、獲取到關鍵詞Wi的所有翻譯項,獲取方法如下:
[0042]根據待譯文檔的信息,確定所述待譯文檔的源語言和目標語言;
[0043]在翻譯參考庫中提取與所述待譯文檔的源語言和目標語言均一致的已翻譯文檔的原文和譯文。
[0044]以W中的關鍵詞Wi為檢索詞,在翻譯參考庫中進行檢索,得到關鍵詞Wi的所有翻譯項;[0045]翻譯參考庫是一個有著海量已譯文檔的翻譯資源庫,包括每篇已翻譯文檔的源文檔及其對應的翻譯文檔,在翻譯參考庫中進行檢索可以得到所查詢關鍵詞在庫中文檔的對應的所有翻譯項;
[0046]S14、對關鍵詞Wi的翻譯項按照語義進行聚類,得到若干語義相似類,聚類過程如下:
[0047]提取所有所述關鍵詞Wi翻譯項中的第一翻譯項,分別計算所述第一翻譯項與剩餘的所述翻譯項的語義相似度,結果大於預定閾值的所述翻譯項與所述第一翻譯項構成第一語義相似類;
[0048]提取拋除所述第一語義相似類之外的所有所述翻譯項中的第二翻譯項;分別計算所述第二翻譯項與拋除後剩餘的所述翻譯項的語義相似度,結果大於預定閾值的所述翻譯項與所述第二翻譯項構成第二語義相似類;
[0049]重複該過程,直至每個所述翻譯項聚類完成,聚類結束,得到Wi的所有翻譯項的k個語義相似類{Si,S2,…,SJ ;
[0050]其中,計算語義相似度的方法如下:
[0051]根據《知網》、《同義詞詞林》、((wordnet))等語義詞典,在其中計算詞語的語義相似度;
[0052]設定翻譯項tA和翻譯項tr2進行語義相似度計算;其中tA包含有n個義項,tr2包含有m個義項;則規定和的語義相似度Sim Ctr1, tr2)為這兩個翻譯項各個義項相似度的最大值,即;
[0053]SimUr1, tr2)=maxi=1,2』…,n;j=1』2』…’mSimUrH, tr2i);
[0054]其中,SI和S2為義項,義項相似度與義項距離為反比關係,記為:Sim (S1,S2)=L/(Dis (SI,S2)+L),其中,L為調節參數,L越大相似度表現得越不靈敏,一般可以取為詞典樹結構的層數;
[0055]其中,Dis (S1,S2)為義項SI和義項S2之間的距離,通過計算其在詞典中的代碼
距離得到。
[0056]S15、獲取關鍵詞Wi的所有翻譯項在翻譯參考庫中對應的原文的上下文,按語義相似類進行合併,即對所有在同一語義相似類中的翻譯項的上下文進行合併得到文檔集合(Dil, Di2,...,Dik};[0057]所述上下文的獲取可以以單句、多句、段落、也可以以固定字數為獲取單位;
[0058]S16、將關鍵詞~的相關子文檔Di分別與文檔集合{Dn,Di2,- ,DiJ ;中的每個文檔進行相似度計算,計算得到的所述文檔相似度最大的所述語義相似類作為所述關鍵詞的候選翻譯項。
[0059]進一步的,對於步驟S15和S16,還可以採取將所有翻譯項的對應的原文的上下文作為第二子文檔Dall,分別計算Di與Dall的文檔相似度,將同一語義相似類中的翻譯項對應的計算得到的文檔相似度相加,文檔相似度最大的所述語義相似類作為所述關鍵詞的候選翻譯項;
[0060]文檔相似度計算的方法如下:
[0061]1、構造翻譯文檔集合的關鍵詞概念樹
[0062]該概念樹的葉子節點為所有關鍵詞,將關鍵詞按共現在同一篇文檔中的概率建立關鍵詞概念樹;
[0063]計算所有關鍵詞在文檔集中出現的概率和任兩個關鍵詞Ki和Kj互現的條件概率P (Ki I Kj)和 p (Kj I Ki);
[0064]若p (Ki)大於設定閾值且p (Kj I Ki)也大於設定閾值或p (Kj)大於設定閾值且p (Ki I Ki)也大於設定閾值,則將關鍵詞Ki和Kj合併;
[0065]同理對於待合併的兩個關鍵詞集合Cl、C2,若滿足如下兩個條件:
[0066]1.存在Ki屬於Cl,Kj屬於C2,且p (Ki)>設定閾值l,p (Kj I Ki) >設定閾值2
[0067]i1.在合併後的集合中任給一個關鍵詞Ki與集合中一半以上關鍵詞都滿足以下條件:p (Kj I Ki) >設定閾值2
[0068]則合併之,直到所有的關鍵詞概念集合都無法再合併為止,形成關鍵詞概念樹。
[0069]2、根據上述的關鍵詞概念樹,定義一種關鍵詞乘積的計算方法
[0070]設定,概念樹的高度為H,depth (K)為關鍵詞K在樹中的深度,com (Ki,Kj)為離節點Ki和Kj最近的共同父節點,則關鍵詞Ki和Kj的的乘積KiXKj=depth (com (Ki,Kj))/H。
[0071]3、定義一種向量計算方法
[0072]設向量A={al, a2,…,an}, B={bl, b2, bn},定義向量計算:
【權利要求】
1.一種關鍵詞翻譯統一的方法,其特徵在於,包括: 從待譯文檔中確定關鍵詞,找到該關鍵詞對應的所有翻譯項; 在所述待譯文檔中截取包含有所述關鍵詞的部分文本,作為第一子文檔; 根據每個所述翻譯項,截取包含該翻譯項的部分文本的原文,分別作為第二子文檔; 將所有所述翻譯項按照語義聚類處理,得到若干語義相似類; 分別對每個所述語義相似類中的所述翻譯項所對應的所述第二子文檔與所述第一子文檔進行文檔相似度計算; 計算得到的所述文檔相似度最大的所述語義相似類所對應的翻譯項作為所述關鍵詞的候選翻譯項。
2.根據權利要求1所述的方法,其特徵在於,所述將所有所述翻譯項按照語義分類的過程,包括: 提取所有所述翻譯項中的第一翻譯項,將所述第一翻譯項作為第一語義相似類,計算所述第一語義相似類與所述所有翻譯項中的下一個未歸入到任一語義相似類中的翻譯項的語義相似度,若結果大於預定閾值將該翻譯項加入到第一語義相似類,重複該過程,直到未歸入到任一語義相似類中的翻譯項都與第一語義相似類進行了語義相似度比較,過程結束,得到最終的第一語義相似類; 提取除所述第一語義相似類之外的所有所述翻譯項中的任一項,將該所述翻譯項作為第二語義相似類,重複上步的翻譯項聚類過程,得到最終第二語義相似類; 重複該過程,直至每個所述翻譯項聚類完成。
3.根據權利要求1所述的方法,其特徵在於,所述從待譯文檔中確定關鍵詞的過程包括: 提取並掃描所述待譯文檔,按照詞性對所述待譯文檔進行分詞處理,並剔除其中的停用詞,得到若干各不相同的候選詞; 對所述候選詞進行去噪處理,得到若干所述關鍵詞。
4.根據權利要求3所述的方法,其特徵在於,在所述剔除其中的停用詞的同時,至少保留以下之一詞性的詞語作為所述候選詞:形容詞、副詞、動詞、名詞、成語、簡稱略語和習用語。
5.根據權利要求1所述的方法,其特徵在於,在所述找到該關鍵詞對應的若干翻譯項之前,還包括: 確定所述待譯文檔的源語言和目標語言; 在翻譯參考庫中提取與所述待譯文檔的源語言和目標語言均一致的已翻譯文檔的原文和譯文。
6.根據權利要求5所述的方法,其特徵在於,所述找到該關鍵詞對應的若干翻譯項的過程包括: 以所述關鍵詞為檢索詞,在所述提取的所述已翻譯文檔的所述原文中進行檢索匹配,在所述已翻譯文檔中的譯文中找到所述關鍵詞映射的若干所述翻譯項。
7.根據權利要求6所述的方法,其特徵在於,截取獲得所述子文檔,以單句、多句、段落或固定字數為獲取單位。
【文檔編號】G06F17/28GK103678287SQ201310633857
【公開日】2014年3月26日 申請日期:2013年11月30日 優先權日:2013年11月30日
【發明者】江潮 申請人:武漢傳神信息技術有限公司