對譯判斷裝置、方法及程序的製作方法
2023-10-26 07:21:42
專利名稱:對譯判斷裝置、方法及程序的製作方法
技術領域:
本發明涉及對譯判斷裝置、方法及程序,尤其涉及對原語言的原文中的至少翻譯對象語句的對譯進行判斷的對譯判斷裝置、可應用於該對譯判斷裝置的對譯判斷方法、以及使計算機作為所述對譯判斷裝置發揮作用的程序。
背景技術:
從很早之前開始就期待能夠實現所謂機器翻譯,即,利用計算機將用某種自然語言(原語言)記述的文章(原文)翻譯成用另一種自然語言(目標語言)記述的文章(翻譯文),並提出了有關機器翻譯的各種改良技術。
例如,在專利文獻1中已公開了如下技術,即,將詞組所代表的一個總結性的表述形式預先存儲到HD(硬碟)裝置中所準備的英日詞組辭典,在句法分析處理中,在英文文本中檢索由利用對等連詞結合的單詞構成的表述形式,在所檢索到的表述形式已被存儲在英日詞組辭典中時,或構成所檢索到的表述方式的單詞的接頭詞或接尾詞相同時,將所檢索到的表述方式識別為一個詞素,不將其分離地來進行句法分析。
並且,在專利文獻2中已公開了如下技術,即,預先存儲特徵表,該特徵表中針對每個多義詞使其詞義和特徵對應起來,對所輸入的第一語言的原文生成特徵記錄,比較所生成的特徵記錄和特徵表,根據原文所具有的特徵,選擇/輸出多義詞的詞義。
專利文獻1日本特開平11-328178號公報專利文獻2日本特開平6-314294號公報將用原語言記述的原文翻譯成用目標語言記述的翻譯文的作業,通常經過如下的翻譯過程來進行,即,根據句是由單詞和語法構成的這種認識,將用原語言記述的原文中的單詞轉換成目標語言的單詞,將轉換過的單詞按照目標語言的語法規則重新排列。該翻譯過程也被用於利用計算機進行翻譯的機器翻譯,通常的方式為通過重複進行按單詞單位將對譯登記到辭典中、從原文中依次取出單詞、檢索所取出的單詞的對譯的過程,在按單詞單位將原文替換成對譯的同時,判斷原文中的每個單詞的詞類、分析句法,根據句法的分析結果,按照目標語言的語法規則重新排列按單詞單位的對譯,從而得到翻譯文(對譯文)。
並且,機器翻譯中,即使在原文中存在定型詞組時,若應用專利文獻1所述的技術,則也有可能得到上述詞組的合適的對譯,即使在原文中存在多義詞時,若應用專利文獻2中所述的技術,則也有可能得到針對上述多義詞的特定的對譯(但是,在專利文獻2中所述的技術中,需要進行如下的繁瑣作業即,提取多義詞,分析所提取的多義詞的詞義和特徵,預先製作特徵表)。但是,在機器翻譯中,即使在所得到的翻譯文中無語法錯誤、在按單詞單位的對譯上也無錯誤的情況下,也會出現很多翻譯文作為目標語言的句子來說是不自然的句子的情況,在現有的機器翻譯的技術中,實際情況是,即使應用了例如專利文獻1或專利文獻2所述的技術,也不能夠得到實用性好的翻譯精度。
據推測,這是因為,在機器翻譯中所採用的翻譯過程,與人用母語說話或寫文章時造句的過程有著顯著的差異。即,在人用母語說話或寫文章時,不經過類似於回憶單詞、套用語法來造句這樣的翻譯過程的過程,實際上,在依據與上下文的前後的關係或附隨於語句本身的背景知識的基礎上,從存儲在各人的記憶中的龐大數量的塊(chunk)(意群單詞、詞組、定型表述、詞的搭配、句法、文章)中,把憶起的(根據情況選擇的)合適的單詞/詞組/句子連起來,從而來造句。
因此,雖然與人用母語說話或書寫時相同地,在依據與上下文的前後的關係、附隨於語句本身的背景知識、人用母語說話或書寫用的撰寫文章時所回憶的單位(即塊)的基礎上,求得原文的對譯,即能夠作為目標語言的句子而得到自然的翻譯文,但是上下文關係的判斷和附隨於語句本身的背景知識的判斷並不容易,且塊的分割也不清楚,在機器翻譯中,實際情況是還未能夠實現按塊單位求出原文的對譯而得到翻譯文。
本發明是鑑於上述實情而提出的,其目的在於,獲得對譯判斷裝置、對譯判斷方法及程序,根據原語言的原文獲得自然的對譯文作為目標語言的句子的可能性高、能夠得到原文中的翻譯對象語句的合適的對譯。
發明內容
為了達到上述目的,第一方面的發明為一種對譯判斷裝置,其構成為包括存儲單元,其將由多個單詞構成的原語言的自然文,與目標語言的對譯文對應起來存儲多個;檢索單元,其從存儲於所述存儲單元中的原語言的多個自然文中,檢索包含有原語言的原文中的翻譯對象語句的自然文;以及第一對譯判斷單元,其求出通過所述檢索單元的檢索提取出的自然文與所述原文的一致度,將根據所求出的一致度而選擇的自然文的對譯文中的至少所述翻譯對象語句的對譯,判斷為所述原文中的至少所述翻譯對象語句的對譯。
在第一方面所述的發明中,將多個由多個單詞構成的原語言的自然文,與目標語言的對譯文對應起來存儲到存儲單元中。另外,本發明中的自然文是不進行如現有的機器翻譯中的辭典那樣,以單詞為單位的分割和多義詞的提取等編輯/加工的句子、詞節、詞組、定型表述、詞的搭配中的至少一種,通過將該自然文與目標語言的對譯文對應起來存儲,例如無需像按單詞單位登記到辭典中時那樣,將多個對譯與多義詞對應起來(在使多個對譯對應多義詞時,需要選擇對譯,有可能發生選擇錯誤),並且,能夠將與自然文對應的對譯文作為目標語言的句子作成自然的句子。另外,本發明中,除了自然文以外,還可以在存儲單元中存儲單詞及其對譯。
並且,在第一方面所述的發明中,通過檢索單元,從存儲於存儲單元中的原語言的多個自然文中,檢索包含有原語言的原文(句子、詞節、詞組、定型表述、詞的搭配中的任何一個)中的翻譯對象語句的自然文。翻譯對象語句是在原文中特別需要翻譯的語句,可以是單詞,也可以由多個單詞構成。例如,將本發明的對譯判斷裝置作為人(翻譯者)進行翻譯時的電子辭典來使用時,翻譯對象語句由翻譯者指定。並且,例如將本發明的對譯判斷裝置作為機器翻譯裝置或自動口譯裝置的一部分來使用時,由利用通過本發明的對譯判斷裝置判斷的對譯來進行機器翻譯的機器翻譯裝置或自動口譯裝置,指定翻譯對象語句。並且,對於包含翻譯對象語句的原文,可以由利用者(翻譯者等)指定,也可以自動判斷(例如自動將包含翻譯對象語句的句子或詞節判斷為原文)。檢索單元檢索包含翻譯對象語句的自然文,因此,通過該檢索,提取出對應的對譯文之中包含翻譯對象語句的對譯的自然文。
並且,第一方面所述的發明的第一對譯判斷單元求出通過檢索單元的檢索而提取出的自然文與原文的一致度,將根據求出的一致度選擇的自然文的對譯文中的至少翻譯對象語句的對譯,判斷為原文中的至少翻譯對象語句的對譯。由此,通過檢索單元的檢索提取出的自然文之中,與原文接近的自然文(例如,採用相同的含義來使用存在於原文中的多義詞的自然文等),能夠以高概率被選作一致度高的自然文,能夠得到與所選擇的自然文對應的自然的對譯文,該對譯文中的至少翻譯對象語句的對譯,被判斷為原文中的翻譯對象語句的對譯(當然,根據與原文的一致度等,對譯文中的翻譯對象語句以外的語句的對譯,也可以被判斷為原文中的該語句的對譯)。
這樣,第一方面所述的發明,鑑於識別原文上的塊的分割在技術上非常困難,將原語言的自然文與目標語言的對譯文對應起來存儲多個,從所存儲的自然文中選擇與原語言的原文的一致度高的自然文,將與所選擇的自然文對應的自然的對譯文中的對譯,判斷為原文中的至少翻譯對象語句的對譯,不需識別原文上的塊的分割,其結果,能夠得到大致與按塊單位進行的原文的對譯同等的自然的對譯,能夠得到原文中的翻譯對象語句的合適的對譯(從原文得到自然的對譯文作為目標語言的句子的可能性高的對譯)。
並且,第一方面所述的發明,可通過將自然文和對譯文存儲到存儲單元中來實現,因此,至少在向存儲單元存儲自然文和對譯文時,無需按單詞單位來分割自然文,或提取多義詞、或針對多義詞列舉出能夠想到的全部對譯,使其一一對應等繁瑣的編輯/加工。並且,在第一方面所述的發明中,求出通過檢索單元的檢索提取出的自然文與原文的一致度,根據所求出的一致度選擇自然文,從而能夠得到合適的對譯,因此,無需進行現有的機器翻譯中的詞類判斷和句法分析等複雜的處理,能夠簡化處理。
另外,在第一方面所述的發明中,將自然文和對譯文存儲到存儲單元中,因此,存儲單元中也可能存儲有與原文完全一致的自然文。考慮到該點,優選例如第二方面的發明那樣,檢索單元從存儲於存儲單元中的原語言的多個自然文中也檢索與原文完全一致的自然文,第一對譯判斷單元在通過檢索單元的檢索提取出與原文完全一致的自然文時,將該完全一致的自然文的對譯文判斷為原文的對譯文。由此,在存儲單元中存儲有與原文完全一致的自然文時,能夠得到原文的對譯文。
並且,在第一方面的發明中,通過檢索提取出的自然文與原文的一致度,例如可按如下所述來求出。即,第三方面的發明的特徵在於,在第一方面所述的發明中,第一對譯判斷單元對通過檢索單元的檢索提取出的自然文與原文的一致單詞數量進行計數,按照所計數的一致單詞數量越多、與原文的一致度越高的方式,評價與原文的一致度。一致單詞數量是表示自然文與原文的一致度的重要指標,通過按照一致單詞數量越多一致度越高的方式,來評價一致度,從而能夠根據該一致度高精度地選擇與原文接近的自然文。
並且,在第三方面所述的發明中,作為一致度,例如可以直接使用所計數的一致單詞數量,但優選例如第四方面的發明那樣,求出將所計數的一致單詞數量除以構成翻譯對象語句的單詞數量而得到的值,將所求出的值用作一致度。由此,本發明的一致度成為以構成翻譯對象語句的單詞數量為基準將一致單詞數量歸一化而得到的值,通過使用該一致度,不論構成翻譯對象語句的單詞數量的多少,均能夠更高精度地選擇與原文接近的自然文。另外,在對一致單詞數量進行計數時,判斷一致單詞是構成翻譯對象語句的單詞還是構成翻譯對象語句的單詞之外的單詞,將對構成翻譯對象語句的單詞的一致單詞數量和構成翻譯對象語句的單詞之外的單詞的一致單詞數量乘以不同的權值(權值被設定成構成翻譯對象語句的單詞的權值大)後相加而得到的值(一致單詞數量評價值),作為一致單詞數量來使用。
並且,在第三方面所述的發明中,也可以如第五方面的發明那樣,第一對譯判斷單元還對通過檢索單元的檢索提取出的自然文與原文的不一致單詞數量進行計數,按照所計數的不一致單詞數量越少、與原文的一致度越高的方式,來評價與原文的一致度。不一致單詞數量也是與一致單詞數量並列的,表示自然文與原文的一致度的重要指標,在第三方面所述的一致單詞數量之上,還使用上述的不一致單詞,按照不一致單詞數量越少一致度越高的方式,來評價一致度,從而能夠進一步提高自然文與原文的一致度評價的準確性。
但是,本發明中由於將自然文存儲到存儲單元中,因此,在第三方面所述的發明中,若將例如英文中的「a」、「the」、「to」、「in」等原語言的自然文中頻繁出現的單詞判斷為一致單詞,則對於包含很多這些頻繁出現單詞的原文,由於頻繁出現單詞的影響,有可能導致實際不與原文接近的自然文被誤選擇為一致度高的自然文。考慮到該點,優選例如第六方面的發明那樣,第一對譯判斷單元在對一致單詞數量進行計數時,將預先設定的頻繁出現單詞從計數對象中排除。由此,能夠排除頻繁出現單詞對一致單詞數量的影響,能夠將一致單詞數量作為更準確地反映自然文與原文的一致度的指標來使用。
並且,在第三方面或第五方面所述的發明中,優選例如第七方面的發明那樣,第一對譯判斷單元在對一致單詞數量或不一致單詞數量進行計數時,將由於單複數或時態的不同引起詞尾不同的單詞看作一致單詞,進行計數。對於由於單複數或時態的不同引起詞尾不同的單詞,例如可將該單詞登記到另外的表中,對於僅詞尾不一致的單詞,可通過判斷是否登記在所述表中等來進行識別。由此,能夠排除原本應看作一致單詞、但由於單複數或時態的不同引起詞尾不同的單詞對一致單詞數量和不一致單詞數量的影響,能夠將一致單詞數量和不一致單詞數量作為更準確地反映自然文與原文的一致度的指標來使用。另外,優選將英文等中的單詞的大寫和小寫的不同等也看作一致單詞。
並且,在第三方面所述的發明中,優選例如第八方面的發明那樣,第一對譯判斷單元在對一致單詞數量進行計數時,對多次出現的一致單詞不重複計數。由此,能夠排除多次出現的一致單詞對一致單詞數量的影響,能夠將一致單詞數量作為更準確地反映自然文與原文的一致度的指標來使用。並且,也可以替代上述那樣不進行重複計數的情況,而設定成不對多次出現的一致單詞進行大於等於預先設定的n(n≥2)次的計數。
並且,在第三方面或第五方面的發明中,優選例如第九方面的發明那樣,第一對譯判斷單元評價通過檢索單元的檢索提取出的自然文與原文的單詞排列順序的相似度,按照單詞排列順序的相似度越高、與原文的一致度越高的方式,評價與原文的一致度。有時即使在自然文中單詞相同,但由於排列順序不同而導致含義(對譯)不同,但是通過如上所述對單詞排列順序的相似度進行評價,按照單詞排列順序的相似度越高、一致度越高的方式,來評價一致度,從而能夠根據該一致度高精度地選擇與原文接近的自然文。
並且,在第三方面或第五方面所述的發明中,優選例如第十方面的發明那樣,第一對譯判斷單元對通過檢索單元的檢索提取出的自然文中,存在於與原文的一致單詞之間的不一致單詞數量進行計數,按照所計數的、存在於一致單詞之間的不一致單詞數量越少、與原文的一致度越高的方式,來評價與原文的一致度。由此,提高一致度的準確性,根據該一致度可高精度地選擇與原文接近的自然文。
另外,根據存儲單元中存儲了什麼樣的自然文(及對譯文),也會有所不同,但是,在第一方面所述的發明中,例如提取出多個一致度相同的自然文等時,有時僅根據一致度很難確定(選擇)與原文接近的合適的自然文。考慮到該點,在第一方面所述的發明中,優選例如第十一方面的發明那樣,還設置識別單元,其根據通過檢索單元的檢索提取出的自然文,識別出與翻譯對象語句在原語言的同一句子中出現的頻度高的頻繁出現語句,第一對譯判斷單元參照通過檢索單元的檢索提取出的自然文之中、分別包含有通過識別單元識別出的、且存在於原文中的特定的頻繁出現語句和翻譯對象語句的自然文的對譯文,識別出分別包含有翻譯對象語句和特定的頻繁出現語句的自然文的對譯文中的、翻譯對象語句的高頻度的對譯,將所識別出的高頻度的對譯,判斷為原文中的翻譯對象語句的對譯。
在原文中存在與翻譯對象語句在原語言的同一句子出現的頻度(稱為相關性)高的特定的頻繁出現語句時,翻譯對象語句的對譯與分別包含有翻譯對象語句和特定的頻繁出現語句的自然文的對譯文中的翻譯對象語句的對譯一致的可能性高。但是,雖然分別包含有翻譯對象語句和特定的頻繁出現語句的自然文的對譯文中的翻譯對象語句的合適對譯相同的可能性高,但是在存儲於存儲單元中的上述自然文中,有可能混有翻譯對象語句的合適對譯不相同的自然文。根據上面所述,在第十一方面的發明中,通過識別出與翻譯對象語句的相關性高的頻繁出現語句,參照分別包含有所識別出的頻繁出現語句之中存在於原文中的特定的頻繁出現語句和翻譯對象語句的自然文的對譯文,從而識別出分別包含有翻譯對象語句和特定的頻繁出現語句的自然文的對譯文中的、對翻譯對象語句的高頻度的對譯,將所識別出的高頻度的對譯,判斷為原文中的翻譯對象語句的對譯,因此即使在僅根據一致度難以確定(選擇)合適的自然文時。也能夠根據頻繁出現語句,得到原文中的翻譯對象語句的合適的對譯(能夠根據原文得到自然的對譯文作為目標語言的句子的可能性高的對譯)。
關於譯文選擇時的上下文一貫性的判斷,根據情況存在無數種可能,難以事先確定,在第十一方面所述的發明中(及後述的第十四方面的發明中),關注在相同文章中同時出現的概率高的語句,通過參照該語句和翻譯對象語句同時出現的自然文的對譯文,從而判斷對翻譯對象語句的對譯,因此無需識別原文的上下文一貫性,其結果,即使對於多義詞,也能夠得到基本依據上下文一貫性的合適的對譯。
另外,例如也可以將在原語言的同一句子中出現的頻度高的語句登記到表中,通過參照該表,進行上述的頻繁出現語句的識別,在第十一方面所述的發明中,根據通過檢索單元的檢索提取出的自然文來識別頻繁出現語句,所以能夠得到如下效果,即,節省製作上述表的時間,並且能夠減少存儲表所需的存儲容量。
並且,在第一方面所述的發明中,優選例如第十二方面的發明那樣,還設置判斷單元,其判斷可替代關注語句的替代語句,其中該關注語句存在於原文中且不包含於通過檢索單元的檢索提取出的自然文中,第一對譯判斷單元將通過檢索單元的檢索提取出的自然文之中、分別包含有通過判斷單元所判斷的替代語句和翻譯對象語句的自然文的對譯文中的至少翻譯對象語句的對譯,判斷為原文中的至少翻譯對象語句的對譯。
在第一方面所述的發明中,通過檢索單元的檢索,有時會提取出原文中的特定語句被替換成其它語句的自然文,若此時原文的含義和自然文的含義類似,則可認為特定的語句和其它語句為可替換的關係。並且,在通過檢索單元的檢索,例如提取出多個與原文的一致度相同的自然文的情況下,其中存在針對原文、將特定的語句替換成具有可替代關係的其它語句(替代語句)的自然文時,該自然文與原文的含義類似的可能性高,因此,優選選擇該自然文。
相對於此,在第十二方面所述的發明中,通過判斷單元判斷出可替代關注語句的替代語句,其中該關注語句存在於原文中且不包含於通過檢索單元的檢索提取出的自然文中,第一對譯判斷單元將通過檢索單元的檢索提取出的自然文之中、分別包含有通過判斷單元判斷出的替代語句和翻譯對象語句的自然文的對譯文中的至少翻譯對象語句的對譯,判斷為原文中的至少翻譯對象語句的對譯,因此,即使在僅根據一致度難以確定(選擇)合適的自然文時,也可根據有無替代語句,得到原文中的翻譯對象語句的合適的對譯(能夠根據原文得到自然的對譯文作為目標語言句子的可能性高的對譯)。
另外,關於第十二方面所述的發明的判斷單元執行的替代語句的判斷,例如也可以將處於可替代關係的語句登記到表中,通過參照該表來進行,但例如也可以如第十三方面的發明那樣,從存儲於存儲單元中的多個自然文中檢索包含有關注語句的自然文,從存儲於存儲單元中的自然文中檢索與通過該檢索提取出的自然文的句法相同的自然文,將通過該檢索提取出的自然文中、與關注語句相置換的語句判斷為替代語句。該情況下,也能夠得到如下效果,即,節省製作上述表的時間,並且減少存儲表所需的存儲容量。
對於附隨於語句本身的背景知識,根據語句存在無數種性質不同的背景知識,很難事先將它們全部找出,根據類別進行分類。在第十二、十三方面所述的發明中,將相同句法中可置換的語句判斷為相同類別的語句,因此,不識別所有語句的背景知識、根據類別進行分類,即能夠得到基本上依據附隨語句本身的背景知識的合適的對譯。
第十四方面的發明的對譯判斷裝置構成為包括存儲單元,其將由多個單詞構成的原語言的自然文,與目標語言的對譯文對應起來存儲多個;檢索單元,其從存儲於所述存儲單元的原語言的多個自然文中,檢索包含原語言的原文中的翻譯對象語句的自然文;識別單元,其根據由所述檢索單元的檢索提取出的自然文,識別出與所述翻譯對象語句在原語言的同一句子中出現的頻度高的頻繁出現語句;以及第二對譯判斷單元,其參照通過所述檢索單元的檢索提取出的自然文之中、分別包含有通過所述識別單元識別出的且存在於所述原文中的特定的頻繁出現語句、和所述翻譯對象語句的自然文的對譯文,識別出分別包含有所述翻譯對象語句和所述特定的頻繁出現語句的自然文的對譯文中的對翻譯對象語句的高頻度的對譯,將所識別出的高頻度的對譯,判斷為所述原文中的至少所述翻譯對象語句的對譯。
在第十四方面所述的發明中,設置與第一方面所述的發明相同的存儲單元和檢索單元,識別單元根據通過檢索單元的檢索提取出的自然文,識別出與翻譯對象語句在原語言的同一句子中出現的頻度高的頻繁出現語句,第二對譯判斷單元參照通過檢索單元的檢索提取出的自然文之中,分別包含有通過識別單元識別出的且存在於原文中的特定的頻繁出現語句和翻譯對象語句的自然文的對譯文,識別出分別包含有翻譯對象語句和特定的頻繁出現語句的自然文的對譯文中的對翻譯對象語句的高頻度的對譯,將所識別出的高頻度的對譯判斷為原文中的翻譯對象語句的對譯。由此,與第十一方面所述的發明同樣地,即使在存儲於存儲單元中的、且分別包含有翻譯對象語句和特定的頻繁出現語句的自然文中,混有翻譯對象語句的合適對譯不同的自然文時,也能夠不受其影響地得到原文中的翻譯對象語句的合適對譯(根據原文得到自然的對譯文作為目標語言的句子的可能性高的對譯)。
在第一方面或第十四方面所述的發明中,翻譯對象語句可由多個單詞構成,若構成翻譯對象語句的單詞數量多,則可能發生即使檢索單元進行檢索,也不能提取出包含所有的翻譯對象語句的自然文的情況。考慮到該點,優選例如第十五方面的發明那樣,在翻譯對象語句由多個單詞構成時,檢索單元從存儲於存儲單元中的原語言的多個自然文中,檢索包含有構成翻譯對象語句的多個單詞中的至少一個的自然文(即,分別檢索包含所有的翻譯對象語句的自然文和包含部分翻譯對象語句的自然文)。由此,通過將由多個單詞構成的語句指定為翻譯對象語句,即使在存儲單元中沒有存儲包含所有的翻譯對象語句的自然文時,也能夠通過檢索單元的檢索,得到至少可推測出翻譯對象語句的對譯的自然文(對譯文)。
第十六方面的發明的對譯判斷方法包括第一步驟,從與目標語言的對譯文對應地在存儲單元中存儲有多個、分別由多個單詞構成的原語言的自然文中,檢索包含有原語言的原文中的翻譯對象語句的自然文;以及第二步驟,求出通過所述第一步驟中的檢索提取出的自然文與所述原文的一致度,將根據求出的一致度而選擇的自然文的對譯文中的至少所述翻譯對象語句的對譯,判斷為原文中的所述翻譯對象語句的對譯,因此,與第一方面所述的發明同樣地,能夠得到原文中的翻譯對象語句的合適對譯(根據原文得到自然的對譯文作為目標語言的句子的可能性高的對譯)。
第十七方面的發明的對譯判斷方法包括第一步驟,從與目標語言的對譯文對應地在存儲單元中存儲有多個、分別由多個單詞構成的原語言的自然文中,檢索包含有原語言的原文中的翻譯對象語句的自然文;第二步驟,根據通過所述第一步驟中的檢索提取出的自然文,識別出與所述翻譯對象語句在原語言的同一句子中出現的頻度高的頻繁出現語句;以及第三步驟,參照通過所述第一步驟中的檢索提取出的自然文之中、分別包含有通過所述第二步驟識別出的且存在於所述原文中的特定的頻繁出現語句和所述翻譯對象語句的自然文的對譯文,從而識別出分別包含有所述翻譯對象語句和所述特定的頻繁出現語句的自然文的對譯文中的對翻譯對象語句的高頻度的對譯,將識別出的高頻度的對譯判斷為原文中的所述翻譯對象語句的對譯,因此與第十四方面所述的發明同樣地,能夠得到原文中的翻譯對象語句的合適對譯(根據原文得到自然的對譯文作為目標語言的句子的可能性高的對譯)。
第十八方面的發明的程序,使與存儲單元連接的計算機作為如下單元發揮作用,在該存儲單元中與目標語言的對譯文對應地存儲有多個由多個單詞構成的原語言的自然文檢索單元,其從存儲於所述存儲單元中的原語言的多個自然文中,檢索包含有原語言的原文中的翻譯對象語句的自然文;以及第一對譯判斷單元,其求出通過所述檢索單元的檢索提取出的自然文與所述原文的一致度,將根據求出的一致度而選擇的自然文的對譯文中的至少所述翻譯對象語句的對譯,判斷為所述原文中的至少所述翻譯對象語句的對譯。
第十八方面所述的發明的程序是使與存儲單元連接的計算機(可以是內置有存儲單元的計算機,也可以是通過通信線路與連接有存儲單元的其它計算機連接的計算機)作為上述的檢索單元和第一對譯判斷單元發揮作用的程序,其中在該存儲單元中與目標語言的對譯文對應地存儲有多個由多個單詞構成的原語言的自然文,所以通過由上述計算機執行第十八方面所述的發明的程序,使計算機作為第一方面的發明所述的對譯判斷裝置發揮作用,與第一方面所述的發明同樣地,能夠得到原文中的翻譯對象語句的合適對譯(根據原文得到自然的對譯文作為目標語言的句子的可能性高的對譯)。
第十九方面的發明的程序,使與存儲單元連接的計算機作為如下單元發揮作用,在該存儲單元中與目標語言的對譯文對應地存儲有多個由多個單詞構成的原語言的自然文檢索單元,其從存儲於所述存儲單元中的原語言的多個自然文中,檢索包含有原語言的原文中的翻譯對象語句的自然文;識別單元,其根據由所述檢索單元的檢索提取出的自然文,識別出與所述翻譯對象語句在原語言的同一句子中出現的頻度高的頻繁出現語句;以及第二對譯判斷單元,其通過參照通過所述檢索單元的檢索提取出的自然文之中、分別包含有通過所述識別單元識別出的且存在於所述原文中的特定的頻繁出現語句和所述翻譯對象語句的自然文的對譯文,識別出分別包含有所述翻譯對象語句和所述特定的頻繁出現語句的自然文的對譯文中的對翻譯對象語句的高頻度的對譯,將識別出的高頻度的對譯判斷為所述原文中的所述翻譯對象語句的對譯。
第十九方面所述的發明的程序是使與存儲單元連接的計算機(可以是內置有存儲單元的計算機,也可以是通過通信線路與連接有存儲單元的其它計算機連接的計算機)作為上述的檢索單元、識別單元和第二對譯判斷單元發揮作用的程序,其中在該存儲單元中與目標語言的對譯文對應地存儲有多個由多個單詞構成的原語言的自然文,因此,通過由上述計算機執行第十九方面所述的發明的程序,使計算機作為第十四方面所述的對譯判斷裝置發揮作用,與第十四方面所述的發明同樣地,能夠得到原文中的翻譯對象語句的合適對譯(根據原文得到自然的對譯文作為目標語言的句子的可能性高的對譯)。
以上說明的本發明,從存儲於存儲單元中的原語言的多個自然文中,檢索包含有原語言的原文中的翻譯對象語句的自然文,求出通過該檢索提取出的自然文與原文的一致度,將根據求出的一致度而選擇的自然文的對譯文中的至少翻譯對象語句的對譯,判斷為原文中的至少翻譯對象語句的對譯,因此具有如下良好效果,即能夠得到根據原語言的原文得到自然的對譯文作為目標語言的句子的可能性高的、原文中的翻譯對象語句的合適的對譯。
並且,本發明從存儲於存儲單元中的原語言的多個自然文中,檢索包含有原語言的原文中的翻譯對象語句的自然文,根據通過該檢索提取出的自然文,識別出與翻譯對象語句在原語言的同一句子中出現的頻度高的頻繁出現語句,參照分別包含有存在於原文中的特定的頻繁出現語句和翻譯對象語句的自然文的對譯文,從而識別出分別包括有翻譯對象語句和特定的頻繁出現語句的自然文的對譯文中的對翻譯對象語句的高頻度的對譯,將識別出的高頻度的對譯判斷為原文中的所述翻譯對象語句的對譯,因此具有如下效果,即,能夠得到根據原語言的原文得到自然的對譯文作為目標語言的句子的可能性高的、原文中的翻譯對象語句的合適的對譯。
圖1是表示本實施方式的PC的概略結構的方框圖。
圖2是表示對譯判斷處理的內容的流程圖。
圖3是表示對譯DB中所登記的包含「operation」的自然文和對譯文的一例的圖表。
圖4是用於說明將本發明應用於通過網絡連接客戶機PC和伺服器計算機的計算機系統的方式的方框圖。
圖5是表示應用了本發明的機器翻譯裝置的概略結構的一例的方框圖。
符號說明10PC;18HDD;34伺服器計算機;36存儲介質;40機器翻譯裝置;48對譯判斷部;50存儲介質。
具體實施例方式
下面,參照附圖,對本發明的實施方式的一例進行詳細說明。另外,以下,首先說明將本發明應用於電子辭典裝置的方式,該電子辭典裝置是當由用戶指定了翻譯對象語句,則向用戶提示所指定的翻譯對象語句的對譯的裝置。
圖1中示出了可作為上述的電子辭典裝置發揮作用的個人計算機(PC)10。PC 10包括CPU 10A、ROM 10B、RAM 10C以及輸入輸出埠10D,它們構成為通過總線10E相互連接,該總線10E由數據總線、地址總線、控制總線等構成。並且,在輸入輸出埠10D上分別連接有如下部件作為各種輸入輸出設備,如由CRT或LCD等構成的顯示器12、用於由用戶輸入數據等的鍵盤14、滑鼠16、硬碟驅動器(HDD)18、從CR-ROM 24讀出數據的CD-ROM驅動器20、以及可讀取紙質原稿等的掃描儀22。
PC 10中,在HDD 18上安裝有對譯判斷程序(相當於權利要求18和權利要求19所述的程序),該對譯判斷程序用於使PC 10作為電子辭典裝置發揮作用,在該HDD 18上還存儲有對譯資料庫(對譯DB),該對譯資料庫中存儲了所述對譯判斷程序進行對譯判斷所使用的數據。將對譯判斷程序安裝(移入)到PC 10上的方法有好幾種,例如,將對譯判斷程序與安裝程序一起記錄到CR-ROM 24,將該CR-ROM 24放到CD-ROM驅動器20上,如果指示了CPU 10A執行所述安裝程序,則從CR-ROM 24中依次讀出對譯判斷程序,將讀出的對譯判斷程序依次寫入HDD 18,從而進行對譯判斷程序的安裝。
並且,對於對譯DB,例如也可以把對譯DB預先記錄到CR-ROM 24,使安裝程序構成為在安裝對譯判斷程序時,同時把對譯DB寫入HDD 18,從而存儲到HDD 18中。在對譯DB中對應地登記有很多的自然文的文本數據和對譯文的文本數據,其中所述自然文(未進行過按單詞單位的分割和多義詞的提取等編輯/加工的句子、詞節、詞組、定型表述、詞的搭配中的任何一個,具體例將在後面敘述)由多個單詞構成且用原語言敘述,所述對譯文(該對譯文也是未進行過按單詞單位的分割和多義詞的提取等編輯/加工的自然文)用目標語言敘述,在該方式中,存儲對譯DB的HDD 18對應於本發明的存儲單元。
另外,對譯DB也可預先記錄到CR-ROM 24或DVD-ROM等記錄介質中,通過從該記錄介質直接讀取數據來利用,在該方式中,記錄有對譯DB的記錄介質作為本發明的存儲單元發揮作用。並且,原語言的單詞和目標語言的對譯也對應地登記在本實施方式的對譯DB中。例如可通過在原語言的單詞和目標語言的對譯被對應起來的現有辭典中適當追加自然文和其對譯文來製作本實施方式的對譯DB。
下面,說明本實施方式的作用。在本實施方式中,在識別出在用原語言敘述的原文中存在希望知道目標語言的對譯的語句(翻譯對象語句可以是單詞,也可以是原文中的由連續的多個單詞構成的語句)時,用戶通過PC 10進行預定操作,指示輸出原文中的翻譯對象語句的對譯。另外,作為原文,可以應用作為文本數據被讀入到PC 10的文本(例如,用戶通過鍵盤14輸入的文本、利用文字處理軟體作成的文本、通過網際網路在閱覽的網頁內的文本、利用掃描儀讀取文字原稿並經過OCR(OpticalCharacter Recognition藉助於光學方法的文字識別)處理而得到的文本等)。
而且,作為上述的預定操作,可應用如下操作等,例如在顯示器12上顯示原文的狀態下,通過選擇翻譯對象語句,使翻譯對象語句反轉顯示之後,通過右擊翻譯對象語句來選擇所顯示的上下文菜單內的相當於「對譯輸出」的項。另外,也可以替代上述那樣的上下文菜單的利用,例如通過進行選擇工具欄內所顯示的預定的圖標等操作,可指示翻譯對象語句的對譯的輸出。若進行了指示翻譯對象語句的對譯的輸出的如上所述的操作,則通過PC 10的CPU 10A執行對譯判斷程序,進行圖2所示的對譯判斷處理。另外,該對譯判斷處理是應用了權利要求16和權利要求17所述的對譯判斷方法的處理,通過進行該處理,PC 10作為電子辭典裝置(權利要求1和權利要求14所述的對譯判斷裝置)發揮作用。
在對譯判斷處理中,首先在步驟100中,取入包含有所指定的翻譯對象語句的單一的原文(處理對象的原文)的文本數據,並且取入用於識別所取入的處理對象的原文中的翻譯對象語句的信息。另外,處理對象的原文可以是包含有翻譯對象語句的句子,也可以是包含有翻譯對象語句的詞節、詞組、定型表述、詞的搭配中的任何一個,在以詞節、詞組、定型表述、詞的搭配中的任何一個作為處理對象的原文時,作為處理對象的原文的詞節、詞組、定型表述、詞的搭配可以由用戶指定,也可以利用對譯判斷處理自動判斷。
在接下來的步驟102中,將在步驟100中取入的處理對象的原文的文本數據作為關鍵字,從登記在對譯DB中的自然文中檢索與處理對象的原文完全一致的自然文,並且將翻譯對象語句的文本數據作為關鍵字,從登記在對譯DB中的自然文中檢索包含有翻譯對象語句的自然文(至少包含有翻譯對象語句,從而與原文部分一致的自然文)。並且,當翻譯對象語句由多個單詞構成時,同時還檢索包含有構成翻譯對象語句的多個單詞之中的至少一個單詞的自然文。另外,步驟102與權利要求1(更詳細為權利要求2和權利要求15)、權利要求14、18、19所述的檢索單元相對應,也與權利要求16、17所述的第一步驟相對應。從接下來的步驟104起與權利要求1、18所述的第一對譯判斷單元相對應。
在步驟104中,判斷通過步驟102的檢索是否從對譯DB中提取出了與處理對象的原文完全一致的自然文。該判斷為肯定時,轉移到步驟106,讀出與和處理對象的原文完全一致的自然文對應起來登記在對譯DB中的目標語言的對譯文,顯示到顯示器12上,結束處理。另外,在顯示該對譯文時,識別出所讀出的對譯文上的翻譯對象語句的對譯,強調顯示所識別出的翻譯對象語句的對譯。該情況下,用戶能夠識別出所指定的翻譯對象語句的合適的對譯(根據原文得到自然的對譯文作為目標語言的句子的可能性高的對譯),並且能夠識別出包含有所指定的翻譯對象語句的處理對象的原文的合適對譯文(作為目標語言句子的自然的對譯文)。另外,上述的步驟104、106與權利要求2所述的第一對譯判斷單元相對應。
(例1)對於上述處理,舉出實例進一步說明。原語言為英語、目標語言為日語,將「For your safety,don’t rush into the train.」的處理對象的原文中所包含的「For your safety」指定為翻譯對象語句時,在通常的翻譯過程中,由於原語言與對譯是按單詞單位登記的,因此,對於構成上述翻譯對象語句的單詞「safety」,選擇對譯「安全」。但是,在本實施方式的對譯判斷處理中,由於在對譯DB中將原語言的自然文和目標語言的對譯文對應地進行登記,因此有可能在對譯DB中登記有與上述原文完全一致的自然文。並且,在對譯DB中登記有完全一致的自然文時,按下面那樣,輸出與該自然文對應地登記在對譯DB中的對譯文,其中翻譯對象語句的對譯被強調顯示。
「危険ですから、駆け込み乗車はおやめください」。
在通常的翻譯過程中,作為單詞「safety」的對譯很難選擇「危險」,而只能得到「あなたの安全のため、その列車に駆け込まないでください」等不自然的對譯文,但是根據本發明,則能夠得到母語的自然的對譯文。
另外,在步驟106的對譯文的顯示中,除了與處理對象的原文完全一致的自然文,還可以一併顯示通過步驟102的檢索提取的與處理對象的原文部分一致的自然文。雖然通過檢索通常會提取出多個與處理對象的原文部分一致的自然文,在顯示它們時,優選對與處理對象的原文部分一致的每個自然文分別運算下面敘述的一致度,按照一致度的降序在顯示器12上顯示各自然文的對譯文。
另一方面,在通過步驟102的檢索沒能從對譯DB中提取出與處理對象的原文完全一致的自然文時,步驟104的判斷為否定,轉移到步驟108,對通過步驟102的檢索從對譯DB中提取出的各自然文(與處理對象的原文部分一致的各自然文),分別計數自然文的各單詞中與原文中的任意一個單詞一致的單詞數量(一致單詞數量),根據一致單詞數量的計數結果,分別運算與原文的一致度。
另外,本實施方式中,在安裝對譯判斷程序時,還將頻繁出現單詞表存儲到HDD 18中,該頻繁出現單詞表中登記有原語言的自然文中頻繁出現的單詞(例如,英語的自然文中的「a」、「the」、「to」、「in」等)。並且,參照頻繁出現單詞表進行步驟108中的一致單詞數量的計數,把登記在頻繁出現單詞表中的單詞從一致單詞數量的計數對象中排除。由此,能夠排除頻繁出現單詞對一致單詞數量的影響。另外,步驟108中的上述處理與權利要求6所述的第一對譯判斷單元相對應。
並且,本實施方式中,在安裝對譯判斷程序時,還將詞尾變化單詞表存儲到HDD 18中,該詞尾變化單詞表中登記有因單複數或時態的不同而詞尾不同的單詞。並且,在步驟108中的一致單詞數量的計數中,在出現了僅詞尾不一致的單詞時,通過參照詞尾變化單詞表,判斷詞尾不一致是否是由於單複數或時態不同而引起的,因單複數或時態的不同而詞尾不同的單詞,被看作一致單詞來計數。另外,還可以僅將非定型的詞尾變化登記到詞尾變化單詞表,把定型的詞尾變化(例如英語單詞中的複數形的「s」和過去形的「ed」等)自動判斷為一致單詞。由此,能夠排除因單複數或時態的不同而詞尾不同的單詞(原本應看作一致的單詞)對一致單詞數量的影響。另外,步驟108中的上述處理與權利要求7所述的第一對譯判斷單元相對應。
另外,本實施方式中,在步驟108中的一致單詞數量的計數時,與原文中的任一個單詞一致的單詞一旦被計到一致單詞數量上,則即使在自然文中再次出現也不再計到一致單詞數量上,使得不對多次出現的一致單詞進行重複計數。由此,即使在自然文中的多處存在相同的一致單詞時,也能夠排除該一致單詞對一致單詞數量的影響。另外,步驟108中的上述處理與權利要求8所述的第一對譯判斷單元相對應。
另外,可把一致度的運算式確定為一致單詞數量越多一致度越高,例如可以使用根據構成翻譯對象語句的單詞數量將一致單詞數量歸一化的運算式(一致度=一致單詞數量÷構成翻譯對象語句的單詞數量)。上述的步驟108與權利要求3(更詳細為權利要求4)所述的第一對譯判斷單元相對應。
在接下來的步驟110中,通過比較對各自然式運算的一致度,判斷是否存在多個一致度最大的自然文。判斷為否定時,轉移到步驟112,讀出與一致度最大的自然文對應地登記在對譯DB中的目標語言的對譯文,識別出讀出的對譯文上的翻譯對象語句的對譯,採用將識別出的翻譯對象語句的對譯強調顯示的方式,將讀出的對譯文顯示到顯示器12上,結束處理。該情況下,用戶能夠識別出所指定的翻譯對象語句的合適的對譯(根據原文得到自然的對譯文作為目標語言句子的可能性高的對譯)。
另外,在步驟112中,通過步驟102的檢索提取出的自然文之中、除了一致度最大的自然文以外,還按照一致度的降序從對譯DB中讀出多個自然文(一致度的降序中的一定數量的自然文、或一致度大於等於預定值的全部自然文)的對譯文,一併一覽顯示到顯示器12上。並且,在存在多個一致度相同的自然文時,對各自然文中的與原文不一致的單詞數量進行計數,在一覽顯示對譯文時,將與一致度相同的自然文對應的對譯文,按照對應的自然文中的不一致單詞數量的升序(從少到多的順序)進行顯示。
(例2)對於上述處理,舉出實例進一步說明。原語言為英語、目標語言為日語,將「The system suddenly came into operation」的處理對象的原文中所包含的「operation」指定為翻譯對象語句,並且,作為包含有翻譯對象語句「operation」的自然文,如圖3所示的自然文(1)~(8)被與對譯文(1)~(8)對應地登記在對譯DB中時,圖3所示的除了自然文(3)之外的自然文與原文的一致單詞數量為「1」、一致度為100%,(自然文(2)的「operations」也如上所述作為一致單詞被計數),自然文(3)與原文的一致單詞數量為「4」(單詞「the」作為頻繁出現單詞,從一致單詞數量的計數對象中被排除)、一致度為400%,因此,按如下那樣輸出與自然文(3)對應地登記在對譯DB中的對譯文(3),其中翻譯對象語句的對譯被強調顯示「システムが稼動し始めた」。
(例3)原語言為英語、目標語言為日語,將「A small business isexempt from the operation of the new low」的處理對象的原文中所包含的「operation」指定為翻譯對象語句,並且,作為包含有翻譯對象語句「operation」的自然文,如圖3所示的自然文(1)~(8)被與對譯文(1)~(8)一同登記在對譯DB中時,除了自然文(2)以外的自然文與原文的一致單詞數量為「1」、一致度為100%,自然文(2)與原文的一致單詞數量為「4」(單詞「the」作為頻繁出現單詞,從一致單詞數量的計數對象中被排除)、一致度為400%,因此按如下那樣輸出與自然文(2)對應地登記在對譯DB中的對譯文(2),其中翻譯對象語句的對譯被強調顯示「新法の適用」。
英文中的「operation」為多義詞,屬於很難選擇合適的對譯的單詞,由上述的例2和例3可知,將自然文和對譯文對應地登記在對譯DB中,根據一致度選擇自然文(對譯文),從而能夠選擇按與原文相同的含義來使用多義詞的合適的自然文(對譯文)。
(例4)對於漢語句子,若不熟悉漢語,很難判別意群,在翻譯成其它語言的句子時,經常難以判斷應獲得對譯的單位。對此,在本實施方式的對譯判斷處理中,檢索登記在對譯DB中的自然文之中,包含有所指定的翻譯對象語句的自然文(在翻譯對象語句由多個單詞構成時,同時檢索包含有構成翻譯對象語句的多個單詞中的至少一個單詞的自然文),顯示與原文整體的一致度高的自然文的對譯文(一致度最大的自然文以外的自然文的對譯文也顯示),通過參照所顯示的對譯文,用戶能夠同時識別出原文上的應求出對譯的單位及其合適的對譯。
例如,以把作為原語言的漢語的原文「發展中國家」翻譯成作為目標語言的日語時為例,將「發」、「發展」、「發展中」、「發展中國」、「發展中國家」的任意一個指定為翻譯對象語句時,根據一致度,按照下面的順序一覽顯示下述自然文的對譯文(另外,下面一併顯示了將「發展中國家」指定為翻譯對象語句時的一致度,自不必說,各自的一致度根據被指定為翻譯對象語句的語句而發生變化)1.「發展中國家」=「発展途上國」(一致單詞數量「5」,一致度100%)2.「發展中國」=「中國を発展させる」(一致單詞數量「4」,一致度80%)3.「發展中」=「発展中の」(一致單詞數量「3」,一致度60%)4.「發展」=「発展する、発展させる」(一致單詞數量「2」,一致度40%)5.「發」=「発する、出す」(一致單詞數量「1」,一致度20%)由此,用戶通過參照一覽顯示的上述對譯文,可同時識別出原文上的應求出對譯的單位(此時為「發展中國家」)及其合適的對譯。
另外,在原文為「發」而翻譯對象語句也為「發」時,上述各自然文的一致單詞數量為「1」、一致度達到100%,但是不一致單詞數量各不相同,不同於原文為「發展中國家」的情況、按照以下順序表示。
1.「發」(不一致單詞數量「0」)2.「發展」(不一致單詞數量「1」)
3.「發展中」(不一致單詞數量「2」)4.「發展中國」(不一致單詞數量「3」)5.「發展中國家」(不一致單詞數量「4」)同樣地,在原文為「發展」、翻譯對象語句為「發展」時,根據一致度和不一致單詞數量,不同於原文為「發展中國家」或「發」的情況、按照以下順序表示。
1.「發展」(一致單詞數量「2」,一致度100%,不一致單詞數量「0」)2.「發展中」(一致單詞數量「2」,一致度100%,不一致單詞數量「1」)3.「發展中國」(一致單詞數量「2」,一致度100%,不一致單詞數量「2」)4.「發展中國家」(一致單詞數量「2」,一致度100%,不一致單詞數量「3」)5.「發」(一致單詞數量「1」,一致度50%,不一致單詞數量「0」)這樣,即使翻譯對象語句相同,若原文不同,由於按照與原文對應的合適順序一覽顯示對譯文,因此,用戶通過參照對譯文的一覽顯示結果,能夠識別出與原文對應的合適的對譯。
並且,在存在多個一致度最大的自然文時,步驟110的判斷為肯定,轉移到步驟114,在步驟114、116中,根據與翻譯對象語句在原語言的同一句子中出現的頻度高的單詞(與翻譯對象語句的相關性高的單詞相當於權利要求11、14、17、19所述的頻繁出現語句),進行選擇自然文的相關性分析。
即,在步驟114中,對通過步驟102的檢索從對譯DB中提取出的各自然文,檢索是否包含有處理對象的原文中的翻譯對象語句以外的各單詞(但是,登記在頻繁出現單詞表中的頻繁出現單詞除外),從而搜索處理對象的原文中是否包含與翻譯對象語句在原語言的同一句子中出現的頻度高的單詞(與翻譯對象語句的相關性高的單詞)。該處理中,可將處理對象的原文中的翻譯對象語句以外的各單詞中、例如在各自然文中的出現次數大於等於預定次數(可以是1次也可以是多次)的單詞,判斷為與翻譯對象語句的相關性高的單詞。另外,上述的步驟114與權利要求11和權利要求14、19所述的識別單元相對應,與權利要求17所述的第二步驟相對應。
在接下來的步驟116中,判斷通過步驟114的搜索是否發現了與翻譯對象語句的相關性高的單詞。判斷為肯定時,轉移到步驟118,對通過步驟102的檢索從對譯DB中提取出的各自然文之中、分別包含有翻譯對象語句和在步驟114中判斷為與翻譯對象語句的相關性高的單詞(存在於處理對象的原文中的單詞)的自然文,參照其對譯文,判斷對上述自然文中的翻譯對象語句的高頻度的對譯。另外,關於對翻譯對象語句的高頻度的對譯,具體講,在提取出單一的自然文、作為分別包含有翻譯對象語句和與翻譯對象語句的相關性高的單詞的自然文時,將該自然文中的翻譯對象語句的對譯判斷為高頻度的對譯,在提取出多個自然文、作為上述自然文時,可將這些自然文中的翻譯對象語句的對譯之中出現頻度最高的對譯判斷為高頻度的對譯。
如上所述,在存在包含有翻譯對象語句、且作為與翻譯對象語句的相關性高的單詞而包含有與處理對象的原文相同的單詞的自然文時,該自然文是依據與處理對象的原文相同的含義來使用翻譯對象語句的句子的可能性高,但是在上述的自然文中,也有可能混有對翻譯對象語句的對譯不同的自然文。針對此,在步驟118中,參照分別包含有翻譯對象語句和與翻譯對象語句的相關性高的單詞的自然文的對譯文,判斷對上述自然文中的翻譯對象語句的高頻度的對譯,因此,能夠得到處理對象的原文中的翻譯對象語句的合適的對譯。
然後,在步驟119中,讀出與下述自然文對應地登記在對譯DB中的目標語言的對譯文,該自然文是分別包含有翻譯對象語句和與翻譯對象語句的相關性高的單詞的自然文之中、翻譯對象語句與在步驟118中被識別的高頻度的對譯相對應的自然文,將所讀出的對譯文顯示到顯示器12上,使得所讀出的對譯文上的翻譯對象語句和與翻譯對象語句的相關性高的單詞的對譯被強調顯示,結束處理。該情況下,用戶能夠識別出所指定的翻譯對象語句的合適的對譯(根據原文得到自然的對譯文作為目標語言句子的可能性高的對譯)。另外,上述的步驟116~步驟119分別與權利要求11所述的第一對譯判斷單元、權利要求14、19所述的第二對譯判斷單元和權利要求17所述的第三步驟相對應。
另外,在步驟119中,通過步驟102的檢索提取出的自然文之中,除了分別包含有翻譯對象語句和與翻譯對象語句的相關性高的單詞、且翻譯對象語句與被識別出的高頻度的對譯相對應的自然文以外,還從對譯DB中按照一致度的降序讀出多個自然文(按照一致度的降序的一定數量的自然文、或一致度大於等於預定值的全部自然文)的對譯文,按照與一致度和不一致單詞數量對應的順序,一併一覽顯示在顯示器12上。
(例5)對於上述處理,舉出實例進一步說明。在原語言為英語、目標語言為日語,將「I had an operation to remove a rectal cancer」的處理對象的原文中所包含的「operation」指定為翻譯對象語句,並且,作為包含翻譯對象語句「operation」的自然文,如圖3所示的自然文(1)~(8)及其它的自然文分別與對譯文一同登記在對譯DB中時,自然文(6)、(8)與原文的一致單詞數量均為「2」,因此,很難僅根據一致度來選擇最佳的自然文(對譯文)。此處,當以處理對象的原文中的翻譯對象語句「operaion」以外的各單詞(例如「remove」、「rectal」、「cancer」等)作為關鍵字,對包含翻譯對象語句「operation」的自然文(1)~(8)進行檢索時,自然文(6)、(8)包含「cancer」,所以「cancer」作為與處理對象的原文中的翻譯對象語句「operaion」的相關性高的單詞被提取出。
此處,包含有翻譯對象語句「operation」和相關性高的單詞「cancer」的自然文是根據與處理對象的原文相同的含義來使用翻譯對象語句「operaion」的文的可能性高,但在登記於對譯DB中的滿足上述條件的自然文中,也有可能混有對翻譯對象語句的對譯與處理對象的原文不同的自然文。在本例中,自然文(8)就相當於該中自然文。自然文(8)中雖包含翻譯對象語句「operation」和相關性高的單詞「cancer」,但是翻譯對象語句「operation」的對譯為「操作」,與處理對象的原文不同。
為了防止由這樣的自然文的影響所引起的翻譯對象語句的對譯的錯誤判斷,參照包含翻譯對象語句「operation」和相關性高的單詞「cancer」的自然文的對譯文。然後,除了自然文(6)以外,在對譯DB中還登記有包含翻譯對象語句「operation」和相關性高的單詞「cancer」、且翻譯對象語句「operation」與對譯「手術」相對應的自然文,由此,判斷為包含翻譯對象語句「operation」和相關性高的單詞「cancer」的自然文中的翻譯對象語句「operation」的高頻度對譯是「手術」,選擇包含翻譯對象語句「operation」和相關性高的單詞「cancer」、且翻譯對象語句與所判斷出的高頻度的對譯相對應的自然文(6),按如下方式輸出與自然文(6)對應地登記在對譯DB中的對譯文(6),其中翻譯對象語句和相關性高的單詞的對譯被強調顯示。
「ジヨンさんの手術後、彼の癌は治つた。」因此,在該例中,也選擇了採用與原文相同的含義來使用翻譯對象語句「operation」的合適的自然文(對譯文)。
另外,圖3中,為了簡化說明,抑制了包含「operation」的自然文的數量,但實際上登記有更多的自然文,例如,在處理對象的原文是將翻譯對象語句「operation」按「手術」的含義來使用的文時,作為相關性高的單詞,根據處理對象的原文的內容而提取出「injury」(受傷)、「hospital」(醫院)等單詞,例如,在處理對象的原文是將翻譯對象語句「operation」按「工作」的含義來使用的文時,作為相關性高的單詞,根據處理對象的原文的內容而提取出「system(系統)」、「computer」(計算機)等單詞,例如,在處理對象的原文是將翻譯對象語句「operation」按「應用」的含義來使用的文時,作為相關性高的單詞,根據處理對象的原文的內容而提取出「low(法)」等單詞。
另一方面,在未提取出與翻譯對象語句的相關性高的單詞時,步驟116的判斷為否定,轉移到步驟120,在步驟120~134中,進行模式(scheme)分析,根據可替代處理對象的原文中的翻譯對象語句以外的關注單詞的替代單詞(相當於權利要求12所述的替代語句),選擇自然文。
即,在步驟120中,判斷存在於處理對象的原文中且不存在於通過步驟102的檢索從對譯DB提取出的各自然文中的單詞(稱為關注單詞)。在步驟122中,從登記在對譯DB中的自然文中檢索包含關注單詞的自然文。另外,有時關注單詞為多個,該情況下,針對各關注單詞進行步驟122的檢索。並且,在步驟124中,設定檢索條件,該檢索條件用於分別檢索僅通過步驟122的檢索提取出的各自然文中的關注單詞不同的自然文(相當於權利要求13所述的「句法與通過包含關注語句的自然文的檢索而提取出的自然文相同的自然文」),根據所設定的檢索條件,從登記在對譯DB中的自然文中進行相應自然文的檢索。
在接下來的步驟126中,判斷通過步驟124的檢索是否提取出相應的自然文。在對譯DB中分別存在除了關注單詞被替換為其它單詞以外其它都相同的自然文時,所述其它單詞是可替代關注單詞來使用的替代單詞的可能性高。因此,判斷為肯定時,轉移到步驟128,在通過檢索提取出的自然文中,將與關注單詞置換的單詞識別為關注單詞的替代單詞。另外,上述的步驟120~130與權利要求12(更詳細為權利要求13)所述的判斷單元相對應。
然後,在步驟130中,判斷在一致度最大(也可以取代之,為「一致度大於等於預定值」)的多個自然文中是否具有關注單詞被置換成替代單詞的自然文。在一致度最大的多個自然文中,存在替代處理對象的原文中存在的關注單詞而包含替代單詞的自然文時,判斷為該自然文是採用與處理對象的原文相同的含義來使用翻譯對象語句的文的可能性高。因此,判斷為肯定時,轉移到步驟132,讀出與一致度最大(也可以取代之,為「一致度大於等於預定值」)且替代關注單詞而包含替代單詞的自然文對應地登記在對譯DB中的目標語言的對譯文,識別出所讀出的對譯文上的翻譯對象語句和替代單詞的對譯,將讀出的對譯文顯示在顯示器12上,使得識別出的翻譯對象語句的對譯被強調顯示,並且對替代單詞的對譯進行標記顯示以便能識別出是替代單詞,結束處理。該情況下,用戶能夠識別出所指定的翻譯對象語句的合適的對譯(根據原文得到自然的對譯文作為目標語言文的可能性高的對譯)。另外,上述的步驟130、132與權利要求12所述的第一對譯判斷單元相對應。
另外,在步驟132中,通過步驟102的檢索提取出的自然文之中、除了一致度最大且替代關注單詞而包含替代單詞的自然文以外,還從對譯DB中按照一致度的降序讀出多個自然文(按照一致度降序的一定數量的自然文、或一致度大於等於預定值的全部的自然文)的對譯文,按照與一致度和不一致單詞數量對應的順序,一併一覽顯示在顯示器12上。
(例6)對於上述處理,舉出實例進一步說明。原語言為英語、目標語言為日語,將包含「have lunch」的處理對象的原文中的「have」指定為翻譯對象語句,對譯DB中雖登記有包含「have breakfast」的自然文(採用與處理對象的原文相同的含義來使用翻譯對象語句「have」的自然文),但沒有登記包含「have lunch」的自然文,在通過基於一致度的判斷或相關性分析也未能確定合適的對譯文時,把處理對象的原文中的翻譯對象語句(「have」)和判斷為與翻譯對象語句的相關性高的單詞以外的各單詞(例如「lunch」等)作為關注單詞,檢索包含各關注單詞的自然文。由此,例如對於關注單詞「lunch」,提取出例如包含「eat lunch」或「take a late lunch」的自然文。
然後,對通過上述檢索提取出的各自然文,分別檢索僅有各自然文中的關注單詞不同的自然文。由此,例如對於作為包含關注單詞「lunch」的自然文而提取出的自然文,作為僅有關注單詞不同的自然文,提取出例如包含「eat breakfast」或「take a late breakfast」的自然文。因此,能夠判斷為單詞「breakfast」是可與關注單詞「lunch」相替代的可能性高的替代單詞,因此,輸出與最初的檢索(包含翻譯對象語句「have」的自然文的檢索)中提取出的自然文之中、關注單詞「lunch」被替代為替代單詞「breakfast」的自然文(包含「have breakfast」的自然文)對應地登記於對譯DB中的對譯文,其中翻譯對象語句「have」的對譯(「食べる(吃)」)被強調顯示,並且,替代單詞「breakfast」的對譯(「朝食(早飯)」)被做出標記。因此,在該例中,選擇了採用與處理對象的原文相同的含義來使用翻譯對象語句「have」的合適的自然文(對譯文)。
並且,同樣地將包含「have cats」的處理對象的原文中的「have」指定為翻譯對象語句,對譯DB中雖登記有包含「have dogs」的自然文,但沒有登記包含「have cats」的自然文,在通過基於一致度的判斷或相關性分析也未能確定合適的對譯文時,把「cats」等單詞作為關注單詞,與上述同樣地,通過判斷單詞「dogs」是可與關注單詞「cats」相替代的可能性高的替代單詞,從而輸出與最初的檢索(包含翻譯對象語句「have」的自然文的檢索)中提取出的自然文之中、關注單詞「cats」被替代為替代單詞「dogs」的自然文(包含「have dogs」的自然文)對應地登記於對譯DB中的對譯文,其中翻譯對象語句「have」的對譯(「飼う(養)」)被強調顯示,並且,替代單詞「dogs」的對譯(「犬(狗)」)被做出標記。因此,在該例中,選擇了採用與處理對象的原文相同的含義來使用翻譯對象語句「have」的合適的自然文(對譯文)。
(例7)原語言為日語、目標語言為英語,將處理對象的原文「お湯をかける」中的「かける」指定為翻譯對象語句,對譯DB中雖登記有「水をかける」的自然文(採用與處理對象的原文相同的含義來使用翻譯對象語句「かける」的自然文),但沒有登記「お湯をかける」,由於還登記有例如「電話をかける」等其它的自然文,所以在通過基於一致度的判斷或相關性分析也未能確定合適的對譯文時,把處理對象的原文中的「お湯」作為關注單詞,檢索包含關注單詞的自然文。由此,提取出例如「お湯につける」、「お湯をわかす」、「お湯を流す」、「お湯で洗う」、「お湯から引き上げる」、「お湯で溫める」等自然文。
然後,對提取出的上述各自然文,分別檢索僅有各自然文中的關注單詞不同的自然文。然後,該檢索的結果,對於上述各自然文,作為可替代關注單詞「お湯」的替代單詞,分別得到下述的單詞。
「~につける。」…「ソ一ス」、「しようゆ」、「水」、「ス一ツケ一ス」、「腕」「~わかす。」…無「~を流す。」…「電気」、「水」、「番組」、「うわさ」「~で洗う。」…「シヤンプ一」、「スポンジ」、「塩水」、「水」、「石鹸」「~から引き上げる。」…「水」、「海底」、「會議」、「ゼロ」
「~で溫める。」…「電子レンジ」、「餘熱」在上述的各單詞中單詞「水」出現的次數多,且也存在「水をかける」的自然文,因此能夠判斷為「水」是可替代處理對象的原文「お湯をかける」中的關注單詞「お湯」的可能性高的替代單詞。因此,按如下方式輸出與最初的檢索(包含翻譯對象語句「かける」的自然文的檢索)中提取出的自然文之中、關注單詞「お湯」被替代為替代單詞「水」的自然文「水をかける」對應地登記於對譯DB中的對譯文,其中翻譯對象語句「かける」的對譯(「pour」)被強調顯示,並且,替代單詞「水」的對譯(「water」)被做出標記「pour*water*into~」在上述的對譯文中,「*…*」表示單詞「…」是替代單詞。因此,在該例子中,選擇了採用與處理對象的原文相同的含義來使用翻譯對象語句「かける」的合適的自然文(對譯文)。
並且,同樣地,將處理對象的原文「3をかける」中的「かける」指定為翻譯對象語句,對譯DB中雖登記有「4をかける」的自然文(採用與處理對象的原文相同的含義來使用翻譯對象語句「かける」的自然文),但沒有登記「3をかける」,在通過基於一致度的判斷或相關性分析也未能確定合適的對譯文時,把「3」等單詞作為關注單詞,與上述同樣,判斷為單詞「4」是可與關注單詞「3」相替代的可能性高的替代單詞,由此,輸出與最初的檢索(包含翻譯對象語句「かける」的自然文的檢索)中提取出的自然文之中、關注單詞「3」被替代為替代單詞「4」的自然文「4をかける」對應地登記於對譯DB中的對譯文,其中翻譯對象語句「かける」的對譯(「multiply」)被強調顯示,並且,替代單詞「4」的對譯(「four」)被做出標記「multiplyby*four*」因此,在該例子中,選擇了採用與處理對象的原文相同的含義來使用翻譯對象語句「かける」的合適的自然文(對譯文)。
另一方面,在僅關注單詞不同的自然文的檢索中,未能提取出相應的自然文時(步驟126的判斷被否定時),或者一致度最大的多個自然文中不存在關注單詞被替換成替代單詞的自然文時(步驟130的判斷被否定時),難以確定最佳的對譯文,因此,轉移到步驟134,分別讀出與通過步驟102的檢索提取出的全部自然文對應地登記在對譯DB中的對譯文,或按照一致度的降序讀出與多個自然文(按照一致度的降序的一定數量的自然文、或一致度大於等於預定值的全部自然文)對應地登記在對譯DB中的對譯文,識別出讀出的各對譯文上的翻譯對象語句的對譯,在將識別出的翻譯對象語句的對譯強調顯示的狀態下,將各對譯文按照與一致度和不一致單詞數量對應的順序、以一致度最大的各自然文一致度的降序在顯示器12上一覽顯示,結束處理。該情況下,用戶能夠識別出對所指定的翻譯對象語句的幾個合適的對譯候選。
另外,在上述中以僅使用一致單詞數量來運算一致度的方式為例進行了說明,但不限於此,也可以將一致度運算式設定為,自然文與原文的一致單詞數量越多一致度越高,且自然文與原文的不一致單詞數量越少一致度越高,根據一致單詞數量和不一致單詞數量來運算/評價一致度。該方式與權利要求5所述的發明對應。並且,當初僅根據一致單詞數量進行一致度的評價,在即使進行相關性分析或模式分析,也難以選擇出單一的自然文(對譯文)時,對不一致單詞數量進行計數,選擇與原文的不一致單詞數量最小的自然文(的對譯文)。
並且,在評價一致度時,除了上述的一致單詞數量和不一致單詞數量以外,還可以同時使用自然文與原文的單詞的排列順序的相似度、或者在與原文的一致單詞之間存在的自然文中的不一致單詞數量,按自然文與原文的單詞的排列順序的相似度越高,與原文的一致度越高的方式進行一致度評價,或者按存在於一致單詞之間的不一致單詞數量越少,與原文的一致度越高的方式進行一致度評價。使用自然文與原文的單詞的排列順序的相似度的方式與權利要求9所述的發明對應,使用存在於一致單詞之間的不一致單詞數量的方式與權利要求10所述的發明對應。也考慮進自然文與原文的單詞的排列順序的相似度和在與原文的一致單詞之間存在的自然文中的不一致單詞數量的一致度評價,具體講,例如可通過下述處理來實現。
即,首先,根據原文上的與翻譯對象語句的間隔(單詞數量),對原文中的各單詞賦予第一評價值。該第一評價值可以設定為,對原文中的翻譯對象語句的第一評價值為最大,對於原文中的翻譯對象語句以外的各單詞的第一評價值,原文上的與翻譯對象語句的間隔越大(之間存在的單詞數量越多)值越小。例如,在原文由單詞A~單詞J這9個單詞構成(原文=(A,B,C,D,E,F,G,H,J)),原文中的第四個單詞D被指定為翻譯對象語句時,對原文中的各單詞A~單詞J,可分別賦予如下的第一評價值。
A=1.0,B=2.0,C=5.0,D=10.0,E=5.0,F=2.0,G=1.0,H=0.5,J=0.2。
然後,對於通過步驟102的檢索從對譯DB中提取出的包含翻譯對象語句的各自然文,識別出自然文的各單詞之中、與原文中的任一個單詞一致的一致單詞,運算事先對識別出的各一致單詞賦予的第一評價值的合計值。然後,將該第一評價值的合計值作為一致度,按照對應的各自然文的一致度(第一評價值的合計值)的降序,輸出通過檢索提取出的各自然文的對譯文。例如,在通過檢索提取了以下的單詞排列的自然文1~自然文5時(其中,單詞X表示任意的單詞),自然文1=(D,X,X,E,F,G)自然文2=(D,X,E,F,G)自然文3=(D,E,F,G)自然文4=(A,B,X,C,X,D)自然文5=(D,E,F,G,H,J)各自然文的第一評價值的合計值為自然文110.0(單詞D)+0(單詞X)+0(單詞X)+5.0(單詞E)+2.0(單詞F)+1.0(單詞G)=18.0自然文210.0(單詞D)+0(單詞X)+5.0(單詞E)+2.0(單詞F)+1.0(單詞G)=18.0自然文310.0(單詞D)+5.0(單詞E)+2.0(單詞F)+1.0(單詞G)=18.0自然文41.0(單詞A)+2.0(單詞B)+0(單詞X)+5.0(單詞C)+0(單詞X)+10.0(單詞D)=18.0自然文510.0(單詞D)+5.0(單詞E)+2.0(單詞F)+1.0(單詞G)+0.5(單詞H)+0.2(單詞J)=18.7自然文5的第一評價值的合計值(一致度)最大。
由於第一評價值設定為,對於原文中的翻譯對象語句以外的各單詞,原文上的與翻譯對象語句的間隔越小,值越大,因此如上所述,通過根據第一評價值的合計值對包含翻譯對象語句的各自然文進行評價,能夠將包含更多的在原文上位於接近翻譯對象語句的位置處的單詞的自然文、即包含由原文中的翻譯對象語句及其附近的單詞構成的短語(詞組)的可能性高的自然文(被推測為與原文的單詞排列順序的相似度高的自然文)評價為一致度更高的自然文。
並且,在上述例中,自然文1~自然文4的一致度(第一評價值的合計值)為相同值,在像這樣存在多個基於第一評價值的一致度為相同值的自然文時,對基於第一評價值的一致度為相同值的各自然文分別進行如下操作,即、根據在各自然文上的與翻譯對象語句的間隔(單詞數量),對自然文的各單詞中、與原文中的任一個單詞一致的一致單詞賦予第二評價值。對於該第二評價值可設定為,各自然文中所包含的翻譯對象語句的第二評價值最大,對於各自然文中的翻譯對象語句以外的一致單詞的第二評價值,各自然文上的與翻譯對象語句的間隔越大(之間存在的單詞數量越多)值越小。然後,分別對基於第一評價值的一致度為相同值的各自然文,運算對各一致單詞所賦予的第二評價值的合計值,按照對應的各自然文的第二評價值的合計值(這也包括在本發明的一致度中)的降序,輸出基於第一評價值的一致度為相同值的各自然文的對譯文。
例如對於上述的自然文1~自然文4,對各一致單詞賦予如下的第二評價值,得到如下的第二評價值的合計值。另外,以下示出了如下示例,將翻譯對象語句的第二評價值設定為10.0,並且,對於其它的一致單詞,將第二評價值設定成隨著在與翻譯對象語句之間存在的單詞數量0,1,2,3,4,…地增加,第二評價值5.0,2.0,1.0,0.5,0.2,…地減少。
自然文110.0(單詞D)+0(單詞X)+0(單詞X)+1.0(單詞E)+0.5(單詞F)+0.2(單詞G)=11.7自然文210.0(單詞D)+0(單詞X)+2.0(單詞E)+1.0(單詞F)+0.5(單詞G)=13.5自然文310.0(單詞D)+5.0(單詞E)+2.0(單詞F)+1.0(單詞G)=18.0自然文40.2(單詞A)+0.5(單詞B)+0(單詞X)+2.0(單詞C)+0(單詞X)+10.0(單詞D)=12.7因此,自然文1~自然文4(的對譯文)按照第二評價值的合計值(一致度)的降序,即自然文3,2,4,1的順序被輸出。
第二評價值被設定為,對於各自然文的各單詞之中、與原文中的任一個單詞一致的一致單詞,各自然文上的與翻譯對象語句的間隔越小,值越大,因此如上所述,根據第二評價值的合計值對包含翻譯對象語句的各自然文進行評價,從而能夠將包含更多的與原文的一致單詞且存在於一致單詞之間的不一致單詞儘可能少的自然文、即包含由原文中的翻譯對象語句及其附近的單詞構成的短語(詞組)的可能性高的自然文評價為一致度更高的自然文。
並且,對於還考慮進自然文與原文的單詞排列順序的相似度和存在於與原文的一致單詞之間的自然文中的不一致單詞數量的一致度評價,例如可通過下述的處理來實現。
即,首先,從原文上存在於翻譯對象語句前側的前側單詞組中提取出與翻譯對象語句的間隔最小的前側單詞(此時為與翻譯對象語句相鄰的前側單詞),並且,從原文上存在於翻譯對象語句後側的後側單詞組中提取出與翻譯對象語句的間隔最小的後側單詞(此時為與翻譯對象語句相鄰的後側單詞)。然後,對通過檢索從對譯DB中提取出的包含翻譯對象語句的各自然文,將各自然文中翻譯對象語句所在的位置設定為基準位置(在翻譯對象語句分別存在於自然文中的多處時,將任意一個的翻譯對象語句所在的位置設定為基準位置),搜索先前提取出的前側單詞是否存在於從基準位置起的前側預定單詞數量的範圍內(例如3個單詞以內),並且搜索先前提取出的後側單詞是否存在於從基準位置起的後側預定單詞數量的範圍內(例如3個單詞以內)。然後,對通過上述搜索發現了前側單詞和後側單詞的自然文賦予第三評價值,該第三評價值被設定成基準位置與前側單詞和後側單詞的間隔越小,值越大。
接著,從原文中的前側單詞組中,提取出還未提取且與翻譯對象語句的間隔最小的前側單詞(此時為與翻譯對象語句之間存在單一的單詞(上次的搜索中使用的前側單詞)的前側單詞),並且從原文中的後側單詞組中,提取出還未提取且與翻譯對象語句的間隔最小的後側單詞(此時為與翻譯對象語句之間存在單一的單詞(上次的搜索中使用的後側單詞)的後側單詞)。然後,對通過上次的搜索發現了前側單詞和後側單詞的各自然文,搜索先前提取的前側單詞是否存在於從上次搜索中發現的前側單詞的位置起的前側的預定單詞數量的範圍內(例如3個單詞以內),並且,搜索先前提取的後側單詞是否存在於從上次搜索中發現的後側單詞的位置起的後側的預定單詞數量的範圍內(例如3個單詞以內)。然後,對通過本次的搜索發現了前側單詞和後側單詞中的至少一方的自然文賦予第三評價值,該第三評價值被設定成,上次的搜索中發現的前側單詞或後側單詞的位置與本次發現的前側單詞或後側單詞的位置之間的間隔越小,值越大。
另外,作為上述的第三評價值,如上所述,可以使用僅根據在自然文上的、上次的搜索中發現的前側單詞或後側單詞的位置與本次發現的前側單詞或後側單詞的位置之間的間隔,而唯一地決定的評價值,但也可以考慮原文上的翻譯對象語句與搜索對象的前側單詞或後側單詞之間的間隔,對第三評價值按如下方式來設定搜索對象的前側單詞或後側單詞在原文上的與翻譯對象語句的間隔越小,對第三評價值的影響越大(搜索對象的前側單詞或後側單詞在原文上的與翻譯對象語句的間隔越大,被賦予的第三評價值整體上越小)。並且,也可以替代如上所述,按照上次搜索中發現的前側單詞或後側單詞的位置與本次發現的前側單詞或後側單詞的位置在自然文上的間隔越小、值越大來設定第三評價值的方式,而按照如下方式來設定第三評價值上述的基準位置與本次發現的前側單詞或後側單詞的位置在自然文上的間隔越小,第三評價值越大。
在按照與翻譯對象語句的間隔的升序從原文中提取前側單詞和後側單詞的同時,重複進行上述處理,直到沒有能從原文中提取的前側單詞和後側單詞,然後運算賦予給各自然文的第三評價值的合計值,將該第三評價值的合計值作為一致度,按照對應的各自然文的一致度(第三評價值的合計值)的降序,輸出通過檢索提取出的各自然文的對譯文。
例如在原文由單詞A~單詞E這5個單詞構成(原文=(A,B,C,D,E)),原文中的第三個單詞C被指定為翻譯對象語句時,首先,單詞B作為前側單詞、單詞D作為後側單詞分別被從原文中提取,對於通過檢索從對譯DB中提取出的包含翻譯對象語句的各自然文,分別搜索前側單詞B是否在從翻譯對象語句起的前側的預定單詞數量的範圍內(例如3個單詞以內),以及後側單詞D是否在從翻譯對象語句起的後側的預定單詞數量的範圍內(例如3個單詞以內),對發現了前側單詞B和後側單詞D的自然文,賦予第三評價值。接著,單詞A作為前側單詞、單詞E作為後側單詞分別被從原文中提取,對於在上次搜索中發現了前側單詞B和後側單詞D的自然文,分別搜索前側單詞A是否在從前側單詞B起的前側的預定單詞數量的範圍內(例如3個單詞以內),以及後側單詞E是否在從後側單詞D起的後側的預定單詞數量的範圍內(例如3個單詞以內),對發現了前側單詞A和後側單詞E的自然文,賦予第三評價值。
若對於以下所示的10個自然文a~自然文k,進行上述的處理,按照第三評價值的合計值的降序排列,則成為如下順序。另外,在下面的例中,單詞X表示任意的單詞,「/」表示句讀記號。
1.自然文a=(A,B,C,D,E)2.自然文b=(A,B,C,D,/,B,C,D,E)3.自然文c=(B,C,D)4.自然文d=(A,B,C,X,D,E)5.自然文e=(A,B,C,X,D)6.自然文f=(A,B,C,/,C,D,E)7.自然文g=(A,X,B,C,X,D)
8.自然文h=(B,C,/,C,D)9.自然文j=(B,X,C,/,C,X,D)10.自然文k=(B,X,X,C,/,C,X,X,D)對於包含翻譯對象語句的各自然文,如上所述賦予第三評價值,根據第三評價值的合計值進行評價,從而能夠將與原文的單詞排列順序的相似度高、且存在於與原文的一致單詞之間的不一致單詞的數量儘可能少的自然文,即將在儘可能不包含不一致單詞的狀態下(塊度高的狀態)包含有原文的自然文,評價為一致度更高的自然文。
進而,也可通過例如以下處理,來實現考慮了自然文與原文的單詞排列順序的相似度、以及存在於與原文的一致單詞之間的自然文中的不一致單詞數量的一致度評價。
即,從原文上存在於翻譯對象語句前側的前側單詞組中提取出與翻譯對象語句的間隔最小的前側單詞(此時為與翻譯對象語句相鄰的前側單詞),對通過檢索從對譯DB中提取出的包含翻譯對象語句的各自然文,將各自然文中翻譯對象語句所在的位置設定為基準位置(在翻譯對象語句分別存在於自然文中的多處時,將任意一個翻譯對象語句所在的位置設定為基準位置),搜索先前提取的前側單詞是否存在於從基準位置起的前側的預定單詞數量的範圍內(例如3個單詞以內)。該處理對包含翻譯對象語句的各自然文,分別進行各距離單詞數量(更詳細為第一各距離單詞數量和第二各距離單詞數量)的計數,以作為第四評價值,對於通過上述搜索發現了前側單詞的自然文,對基準位置與前側單詞之間的距離(更詳細為存在於基準位置與前側單詞之間的不一致單詞數量)進行計數,分別對與所計數的距離對應的第一各距離單詞數量進行累計。
接著,從原文中的前側單詞組中,提取出還未提取且與翻譯對象語句的間隔最小的前側單詞(此時為與翻譯對象語句之間存在單一的單詞(上次搜索中使用的前側單詞)的前側單詞),對於通過上次搜索發現了前側單詞的各自然文,搜索先前提取出的前側單詞是否存在於從上次搜索中發現的前側單詞的位置起的前側的預定單詞數量的範圍內(例如3個單詞以內),對於通過本次搜索發現了前側單詞的自然文,對上次搜索中發現的前側單詞的位置與本次發現的前側單詞的距離進行計數,將所計數的距離與上次搜索中發現的前側單詞與基準位置的距離相加,從而求出通過本次搜索發現的前側單詞與基準位置的距離,分別對與所求出的距離對應的第一各距離單詞數量進行累計。在按照與翻譯對象語句的間隔的升序從原文中提取出前側單詞的同時,重複進行該處理,直到沒有能從原文中提取的前側單詞。
例如在原文由單詞A~單詞E這5個單詞構成(原文=(A,B,C,D,E)),原文中的第四個單詞D被指定為翻譯對象語句時,首先,分別對於單詞C作為前側單詞被從原文中提取,通過檢索從對譯DB中提取出的包含翻譯對象語句的各自然文,搜索前側單詞B是否存在於從翻譯對象語句起的前側的預定單詞數量的範圍內(例如3個單詞以內),對發現了前側單詞C的自然文,進行第一各距離單詞數量的累計。將該時刻的第一各距離單詞數量的計數結果的一例,示於下面的表1。
在搜索單詞C的階段的第一各距離單詞數量的計數結果的一例
接著,對於單詞B作為前側單詞被從原文中提取,上次搜索中發現了前側單詞C的自然文,分別搜索前側單詞B是否存在於從前側單詞C起的前側的預定單詞數量的範圍內(例如3個單詞以內),對於發現了前側單詞B的自然文,進行第一各距離單詞數量的累計。將該時刻的第一各距離單詞數量的計數結果的一例,示於下面的表2。
在搜索單詞B的階段的第一各距離單詞數量的計數結果的一例
而且,分別對於單詞A作為前側單詞被從原文中提取,在上次搜索中發現了前側單詞B的自然文,搜索前側單詞A是否存在於從前側單詞B起的前側的預定單詞數量的範圍內(例如3個單詞以內),對發現了前側單詞A的自然文,進行第一各距離單詞數量的累計。將該時刻的第一各距離單詞數量的計數結果的一例,示於下面的表3。
在搜索單詞A的階段的第一各距離單詞數量的計數結果的一例
接著,對於通過檢索從對譯DB中提取的、包含翻譯對象語句的各自然文,採用與上述的第一各距離單詞數量不同的方法,計數單詞之間的距離,作為第二各距離單詞數量進行統計。具體講,將原文中的前側單詞組之中與翻譯對象語句相鄰的前側單詞看作在原文中不存在的單詞(將各自然文所包含的單詞C看作任意的不一致單詞X),在該狀態下,從原文中的前側單詞組中提取出與翻譯對象語句的間隔最小的前側單詞,對於通過檢索從對譯DB中提取出的、包含翻譯對象語句的各自然文,將各自然文中翻譯對象語句所在的位置設定為基準位置,搜索所提取出的前側單詞是否存在於從基準位置起的前側的預定單詞數量的範圍內(例如3個單詞以內)。然後,對通過上述搜索發現了前側單詞的自然文,計數基準位置與前側單詞的距離(更詳細為存在於基準位置與前側位置之間的不一致單詞數量),將在所計數的距離上加「1」而得到的距離作為與基準位置的距離,分別對與該基準位置的距離對應的第二各距離單詞數量進行累計。
接著,從原文中的前側單詞組中,提取出還未提取且與翻譯對象語句的間隔最小的前側單詞,對於通過上次搜索發現了前側單詞的各自然文,搜索先前提取出的前側單詞是否存在於從上次搜索中發現的前側單詞的位置起的前側的預定單詞數量的範圍內(例如3個單詞以內),對於通過本次搜索發現了前側單詞的自然文,計數上次搜索中發現的前側單詞的位置與本次發現的前側單詞之間的距離,將所計算的距離與上次搜索中發現的前側單詞與基準位置之間的距離相加,從而求出通過本次搜索發現的前側單詞與基準位置之間的距離,分別對與所求出的距離對應的第二各距離單詞數量進行累計。在按照與翻譯對象語句的間隔的升序從原文中提取前側單詞的同時,重複進行該處理,直到沒有能從原文中提取的前側單詞。
例如在原文由單詞A~單詞E這5個單詞構成(原文=(A,B,C,D,E)),原文中的第四個單詞D被指定為翻譯對象語句時,首先,將原文中的前側單詞組之中、與翻譯對象語句相鄰的前側單詞C看作在原文中不存在的單詞(將各自然文所包含的單詞C看作任意的不一致單詞X),在該狀態下,從原文中依次提取出單詞B和單詞A,對在各自然文上的與基準位置之間的距離進行計數,得到以下的表4所示的計數結果作為例子。
第二各距離單詞數量的距離計數結果的一例
然後,根據上述的計數結果,對第二各距離單詞數量進行累計,從而得到下述表5所示的第二各距離單詞數量的計數結果。
第二各距離單詞數量的計數結果的一例
如上述那樣,對於包含翻譯對象語句的各自然文,若對於原文中的前側單詞組,第一各距離單詞數量和第二各距離單詞數量的計數結束,則針對各自然文,比較第一各距離單詞數量和第二各距離單詞數量的計數結果,將第一各距離單詞數量和第二各距離單詞數量之中、示出單詞間距離更短的結果的一方的計數結果,選擇為與前側單詞組有關的最終評價。具體講,例如自然文(A,B,C,D),在表3所示的第一各距離單詞數量中距離為0的單詞數量為3,相對於此,在表5所示的第二各距離單詞數量中距離為0的單詞數量為0、距離為1的單詞數量為0、距離為2的單詞數量為2,將距離為0的單詞數量多的第一各距離單詞數量選擇為與自然文(A,B,C,D)的前側單詞組相關的最終評價。上述例子是第一各距離單詞數量和第二各距離單詞數量中的距離為0的單詞數量不同的情況,在距離為0的單詞數量相同時,依次比較距離為1,2…的單詞數量,將第一各距離單詞數量和第二各距離單詞數量之中相同距離的單詞數量更多的一方選擇為最終評價。
另外,之所以進行第二各距離單詞數量的計數,是因為也要針對相對於原文、部分單詞的順序被相交換的自然文,恰當地評價與原文的單詞排列順序的相似度。例如對於自然文=(C,A,B,D),第一各距離單詞數量中距離為0的單詞數量為0、距離為1的單詞數量為0、距離為2的單詞數量為1,相對於此,在第二各距離單詞數量中距離為0的單詞數量為0、距離為1的單詞數量為2、距離為2的單詞數量為0,把第二各距離單詞數量選擇為與上述自然文的前側單詞組有關的最終評價。在上述例中,第一各距離單詞數量的計數結果是將自然文(C,A,B,D)看作(C,X,X,D)來進行評價,相對於此,第二各距離單詞數量的計數結果是將自然文(C,A,B,D)看作(X,A,B,(漏過單詞C),D)來進行評價,能夠將上述的自然文評價為在塊度更高的狀態下包含原文。
對於通過檢索從對譯DB中提取出的、包含翻譯對象語句的各自然文,當通過進行上述處理決定了與前側單詞組有關的最終評價時,對於上述各自然文,使用在原文上存在於翻譯對象語句後側的後側單詞組,進行同樣的處理(第一各距離單詞數量和第二各距離單詞數量的計數、與後側單詞組有關的最終評價的決定)。接著,針對各自然文,將所得到的與前側單詞組有關的最終評價和與後側單詞組有關的最終評價進行相加統計(針對每個相同距離,將各最終評價中的各距離單詞數量相加),從而求出對各自然文的綜合評價。然後,根據各自然文的各自的綜合評價,從對應的各自然文的綜合評價表示單詞間距離更短的結果的對譯文起,依次輸出各自然文的對譯文。
具體講,例如按照距離0的單詞數量的降序重新排列各自然文之後,在逐一地增加與要比較的單詞數量對應的距離的同時,重複進行按照距離1的單詞數量的降序、重新排列距離0的單詞數量相同的自然文的處理,從而按照綜合評價表示單詞間距離更短的結果的順序,重新排列各自然文。然後,將與各自然文對應的對譯文依次輸出。
由此,若對以下所示的9個自然文a~自然文j進行上述處理,根據綜合評價,進行重新排列,則成為以下順序。
1.自然文a=(A,B,C,D,E)2.自然文b=(A,B,C,D,/,B,C,D,E)3.自然文c=(A,B,C,X,D)4.自然文d=(B,C,D)5.自然文e=(A,X,B,C,X,D)6.自然文f=(B,C,X,D)7.自然文g=(B,C,/,C,D)8.自然文h=(B,X,C,/,C,X,D)9.自然文j=(B,X,X,C,/,C,X,X,D)另外,上述處理中,第二各距離單詞數量的計數不是必須的,例如在無需評價相對於原文、部分單詞的順序被交換的自然文等時,可省略第二各距離單詞數量的計數,直接將第一各距離單詞數量作為最終評價來使用。
並且,自不必說,基於上述的第一評價值和第二評價值/第三評價值/第四評價值(第一各距離單詞數量和第二各距離單詞數量)的一致度的評價/自然文的選擇或重新排列,可與基於相關性分析或模式分析的自然文的評價/選擇或重新排列並用,根據第一評價值和第二評價值或第三評價值來評價自然文的一致度的方式,與僅使用原文與自然文的一致單詞數量來評價一致度的方式等相比,更加適用於對於存在於原文中的詞組或短語等範圍比原文整體窄的語句,檢測作為參考的對譯文等情況,例如,除了通常的檢索模式之外,還可以設置短語檢索模式等檢索模式,在選擇了該短語檢索模式時,進行基於第一評價值和第二評價值或第三評價值的一致度的評價/自然文的選擇或重新排列。
並且,上述中對下述例子進行了說明,即,首先運算一致度,進行自然文的選擇(對譯的判斷),在根據一致度沒能找到合適的自然文時,進行基於相關性分析的自然文的選擇(對譯的判斷),在根據相關性分解也未能找到合適的自然文時,進行基於模式分析的自然文的選擇(對譯的判斷),但並不限於此,也可以對通過檢索單元的檢索提取出的包含翻譯對象語句的各自然文,分別進行一致度的運算、相關性分析以及模式分析,從而對每個自然文進行評價,根據評價結果,按照例如下面的表6所示的優先順序進行自然文的選擇。
自然文選擇的優先順序的一例
進一步,也可以對每個自然文分別進行一致度的運算、相關性分析和模式分析,按照下述公式運算綜合評價分,選擇綜合評價分最大的自然文。
綜合評價分=a×(一致度)+b×(相關性評價分)+c×(模式評價分)另外,在上述公式中,相關性評價分是根據相關性分析的結果對每個自然文賦予的評價分,模式評價分是根據模式分析的結果對每個自然文賦予的評價分,a、b、c是預先設定的係數。
並且,在先前說明的對譯判斷處理(圖2)中,判斷通過步驟102的檢索是否從對譯DB中提取出了與處理對象的原文完全一致的自然文(步驟104),判斷為肯定時,讀出並顯示與處理對象的原文完全一致的自然文的對譯文(步驟106),但並不限於此,也可以將上述步驟104、106省略,無論是否通過步驟102的檢索從對譯DB中提取出了與處理對象的原文完全一致的自然文,都無條件地進行從步驟108起的處理(一致度的運算等處理)。在該方式中,在通過步驟102的檢索提取出了多個自然文時,若在提取出的多個自然文中包含與原文完全一致的自然文,則該自然文的一致度最大,作為結果,能夠得到與進行了步驟104、106的情況相同的處理結果。
並且,本發明中的對譯選擇的精度取決於登記在對譯DB中的自然文和對譯文的數量,自然文和對譯文的數量越多,對譯選擇的精度越高。因此,在本發明的對譯判斷裝置中還可以設置如下功能,即,讀取被翻譯過的原文和翻譯文、將所讀取的原文和翻譯文直接或進行舍取選擇之後,作為自然文和對譯文,自動追加登記到對譯DB。根據本發明,只要將自然文和對譯文追加登記到對譯DB中即可,無需對自然文進行按單詞單位的分割等編輯/加工,因此,能夠非常容易地實現將信息(自然文和對譯文)自動追加登記到對譯DB中。
並且,在上述中以輸出對譯文時將翻譯對象語句的對譯強調顯示的方式為例進行了說明,但並不限於此,自不必說,不強調顯示翻譯對象語句的對譯的方式也包括在本發明的權利要求範圍內。
並且,本發明中的對譯選擇的精度還取決於登記在對譯DB中的自然文和對譯文的內容的冗長度,若登記在對譯DB中的自然文和對譯文的內容的冗長度增高,則與登記在對譯DB中的自然文和對譯文的數量(對譯DB的容量)相比,對譯選擇的精度下降。因此,在本發明的對譯判斷裝置中還可以設置如下功能,即,搜索登記在對譯DB中的各自然文和對譯文中是否存在內容相似度高的自然文和對譯文,在發現了內容相似度非常高的自然文對和對譯文對時,將其中一方的自然文和對譯文從對譯DB中刪除。
而且,在上述中說明了使用單一的對譯DB進行對譯選擇的例子,但並不限於此,例如在用於特定領域的手冊的翻譯等、處理對象的原文限於特定領域等時,也可以按照處理對象的原文的各領域來分割對譯DB。該情況下,能夠抑制各個對譯DB的容量的增大,同時能夠得到自然文檢索所需的時間縮短、對譯的選擇精度提高等效果。
並且,在上述中以按照用戶通過PC 10進行的、指示輸出翻譯對象語句的對譯的預定操作,利用PC 10執行對譯判斷處理的方式為例進行了說明,但並不限於此,作為例子,如圖4所示也可以構成為,將客戶機PC 32和伺服器計算機34分別與網際網路或LAN(Local Area Network,區域網)等網絡30連接,將本發明應用於將由存儲對譯DB的HDD等構成的存儲介質36連接到伺服器計算機34上的計算機系統38,當由客戶通過客戶機PC 32在線詢問對譯時,伺服器計算機34判斷對譯、進行在線回答。
在圖4的計算機系統38中,用戶發出的對譯詢問(參照圖4的(1)),例如可以由用戶通過客戶機PC 32將原語言的文本數據發送給伺服器計算機34、或將包含原語言文本的網頁的URL(統一資源定位器UniformResource Locator)通知給伺服器計算機34,從而指定原語言的文本來進行。該情況下,伺服器計算機34構成為,在訪問存儲於存儲介質36的對譯DB的同時,執行對譯判斷處理,從而判斷所指定的文本的對譯(文)(參照圖4的(2)),將判斷出的對譯(文)發送給客戶機PC 32,從而對詢問進行回答(參照圖4的(3))。由於多個用戶可共用伺服器計算機34的對譯判斷功能(及對譯DB),因此該結構對於對譯DB的容量大等情況時的成本控制是特別有效的。
並且,在上述中以將本發明應用於電子辭典裝置的方式為例進行了說明,但並不限於此,自不必說,還可應用於機器翻譯(自動翻譯)裝置或自動口譯裝置(通過聲音識別來識別用聲音輸入的原文,判斷所識別出的原文的對譯文,用聲音將所判斷出的對譯文輸出,從而進行口譯的裝置)、語言學習裝置等。圖5示出了應用本發明的機器翻譯裝置40的概略結構的一例。圖5中,原文輸入部42將翻譯對象的原文(的文本數據)分別輸入至翻譯對象語句選擇部44和對譯文組合部46。翻譯對象語句選擇部44將所輸入的翻譯對象的原文中的特定語句選擇為翻譯對象語句,一邊依次選擇翻譯對象的原文中的各語句作為翻譯對象語句,一邊反覆向對譯判斷部48詢問所選擇的翻譯對象語句的對譯。對譯判斷部48是相當於本發明的對譯判斷裝置的部分,通過一邊訪問存儲於存儲介質50的對譯DB、一邊執行對譯判斷處理,來判斷被詢問的翻譯對象語句的對譯,向對譯文組合部46輸出判斷出的對譯。
對譯文組合部46根據從翻譯對象語句選擇部44輸入的翻譯對象語句和從對譯判斷部48輸入的翻譯對象語句的對譯、以及從原文輸入部42輸入的翻譯對象的原文,把從對譯判斷部48輸入的對譯連接起來(根據需要替換順序),組合成目標語言的對譯文。通過對譯文組合部46組合的對譯文被輸出到對譯文輸出部52,進行顯示到顯示器等、記錄到記錄介質、作為聲音輸出等對譯文輸出處理。在上述結構中,將本發明應用於翻譯對象語句的對譯的判斷,因此作為翻譯對象語句的對譯,能夠得到根據原文得到自然的對譯文作為目標語言句子的可能性高的對譯,通過對譯文輸出部52輸出的對譯文,作為目標語言句子是自然的對譯文。並且,無需詞類判斷和句法分析等複雜的處理,能夠將處理簡化。另外,在圖5所示的機器翻譯裝置中,自不必說,也可以如先前說明的圖4那樣,針對在線的對譯文的詢問,在線回答經過對譯的判斷/組合等處理而得到的對譯文。
而且,在上述中,對於對應地登記在對譯DB(存儲單元)中的一對句子(用不同的語言敘述的一對句子),方便起見將一方稱為自然文,另一方稱為對譯文,但也可以將為了從第一語言到第二語言的翻譯(對譯判斷)而製作的對譯DB,用於從第二語言到第一語言的翻譯(對譯判斷)中。
並且,在上述中,作為原語言或目標語言的一例,列舉出英語、日語、漢語進行了說明,但並不限於此,自不必說,作為原語言或目標語言,也可以是例如法語、德語、義大利語、西班牙語、葡萄牙語等任意的語言。
權利要求
1.一種對譯判斷裝置,其特徵在於,包括存儲單元,其將由多個單詞構成的原語言的自然文,與目標語言的對譯文對應起來存儲多個;檢索單元,其從存儲於所述存儲單元中的原語言的多個自然文中,檢索包含有原語言的原文中的翻譯對象語句的自然文;以及第一對譯判斷單元,其求出通過所述檢索單元的檢索提取出的自然文與所述原文的一致度,將根據所求出的一致度而選擇的自然文的對譯文中的至少所述翻譯對象語句的對譯,判斷為所述原文中的至少所述翻譯對象語句的對譯。
2.根據權利要求1所述的對譯判斷裝置,其特徵在於,所述檢索單元從存儲於所述存儲單元中的原語言的多個自然文中檢索與所述原文完全一致的自然文,所述第一對譯判斷單元在通過所述檢索單元的檢索提取出與所述原文完全一致的自然文的情況下,將該完全一致的自然文的對譯文判斷為所述原文的對譯文。
3.根據權利要求1所述的對譯判斷裝置,其特徵在於,所述第一對譯判斷單元對通過所述檢索單元的檢索提取出的自然文與所述原文的一致單詞數量進行計數,按照所計數的一致單詞數量越多、與所述原文的一致度越高的方式,來評價與所述原文的一致度。
4.根據權利要求3所述的對譯判斷裝置,其特徵在於,所述第一對譯判斷裝置求出將所述計數的一致單詞數量除以構成所述翻譯對象語句的單詞數量而得到的值,作為所述一致度。
5.根據權利要求3所述的對譯判斷裝置,其特徵在於,所述第一對譯判斷單元還對通過所述檢索單元的檢索提取出的自然文與所述原文的不一致單詞數量進行計數,按照所計數的不一致單詞數量越少、與所述原文的一致度越高的方式,來評價與所述原文的一致度。
6.根據權利要求3所述的對譯判斷裝置,其特徵在於,所述第一對譯判斷單元在對所述一致單詞數量進行計數時,將預先設定的頻繁出現單詞從計數對象中排除。
7.根據權利要求3或5所述的對譯判斷裝置,其特徵在於,所述第一對譯判斷單元在對所述一致單詞數量或所述不一致單詞數量進行計數時,將由於單複數或時態的不同引起詞尾不同的單詞看作一致單詞,來進行計數。
8.根據權利要求3所述的對譯判斷裝置,其特徵在於,所述第一對譯判斷單元在對所述一致單詞數量進行計數時,對多次出現的一致單詞不重複計數。
9.根據權利要求3或5所述的對譯判斷裝置,其特徵在於,所述第一對譯判斷單元評價通過所述檢索單元的檢索提取出的自然文與所述原文的單詞排列順序的相似度,按照單詞排列順序的相似度越高、與所述原文的一致度越高的方式,來評價與所述原文的一致度。
10.根據權利要求3或5所述的對譯判斷裝置,其特徵在於,所述第一對譯判斷單元對通過所述檢索單元的檢索提取出的自然文中、存在於與所述原文的一致單詞之間的不一致單詞數量進行計數,按照所計數的存在於所述一致單詞之間的不一致單詞數量越少、與所述原文的一致度越高的方式,來評價與所述原文的一致度。
11.根據權利要求1所述的對譯判斷裝置,其特徵在於,還具備識別單元,其根據通過所述檢索單元的檢索提取出的自然文,識別出與所述翻譯對象語句在原語言的同一句子中出現的頻度高的頻繁出現語句,所述第一對譯判斷單元參照通過所述檢索單元的檢索提取出的自然文之中、分別包含有通過所述識別單元識別出的且存在於所述原文中的特定的頻繁出現語句、和所述翻譯對象語句的自然文的對譯文,識別出分別包含有所述翻譯對象語句和所述特定的頻繁出現語句的自然文的對譯文中的對翻譯對象語句的高頻度的對譯,將所識別出的高頻度的對譯,判斷為所述原文中的所述翻譯對象語句的對譯。
12.根據權利要求1所述的對譯判斷裝置,其特徵在於,還具備判斷單元,其判斷可替代關注語句的替代語句,其中該關注語句存在於所述原文中且不包含於通過所述檢索單元的檢索提取出的自然文中,所述第一對譯判斷單元將通過所述檢索單元的檢索提取出的自然文之中、分別包含有通過所述判斷單元判斷出的替代語句和所述翻譯對象語句的自然文的對譯文中的至少所述翻譯對象語句的對譯,判斷為所述原文中的至少所述翻譯對象語句的對譯。
13.根據權利要求12所述的對譯判斷裝置,其特徵在於,所述判斷單元從存儲於所述存儲單元中的多個自然文中檢索包含有所述關注語句的自然文,從存儲於所述存儲單元中的自然文中,檢索與通過該檢索提取出的自然文的句法相同的自然文,將通過該檢索提取出的自然文中、與關注語句相置換的語句判斷為所述替代語句。
14.一種對譯判斷裝置,其特徵在於,包括存儲單元,其將由多個單詞構成的原語言的自然文,與目標語言的對譯文對應起來存儲多個;檢索單元,其從存儲於所述存儲單元中的原語言的多個自然文中,檢索包含有原語言的原文中的翻譯對象語句的自然文;識別單元,其根據通過所述檢索單元的檢索提取出的自然文,識別出與所述翻譯對象語句在原語言的同一句子中出現的頻度高的頻繁出現語句;以及第二對譯判斷單元,其參照通過所述檢索單元的檢索提取出的自然文之中、分別包含有通過所述識別單元識別出的且存在於所述原文中的特定的頻繁出現語句、和所述翻譯對象語句的自然文的對譯文,識別出分別包含有所述翻譯對象語句和所述特定的頻繁出現語句的自然文的對譯文中的對翻譯對象語句的高頻度的對譯,將所識別出的高頻度的對譯,判斷為所述原文中的所述翻譯對象語句的對譯。
15.根據權利要求1或14所述的對譯判斷裝置,其特徵在於,在所述翻譯對象語句由多個單詞構成時,所述檢索單元從存儲於所述存儲單元中的原語言的多個自然文中,檢索包含有構成所述翻譯對象語句的多個單詞中的至少一個的自然文。
16.一種對譯判斷方法,其特徵在於,包括第一步驟,從與目標語言的對譯文對應地在存儲單元中存儲有多個、分別由多個單詞構成的原語言的自然文中,檢索包含有原語言的原文中的翻譯對象語句的自然文;以及第二步驟,求出通過所述第一步驟中的檢索提取出的自然文與所述原文的一致度,將根據求出的一致度而選擇的自然文的對譯文中的至少所述翻譯對象語句的對譯,判斷為所述原文中的至少所述翻譯對象語句的對譯。
17.一種對譯判斷方法,其特徵在於,包括第一步驟,從與目標語言的對譯文對應地在存儲單元中存儲有多個、分別由多個單詞構成的原語言的自然文中,檢索包含有原語言的原文中的翻譯對象語句的自然文;第二步驟,根據通過所述第一步驟中的檢索提取出的自然文,識別出與所述翻譯對象語句在原語言的同一句子中出現的頻度高的頻繁出現語句;以及第三步驟,通過參照通過所述第一步驟中的檢索提取出的自然文之中、分別包含有通過所述第二步驟識別出的且存在於所述原文中的特定的頻繁出現語句、和所述翻譯對象語句的自然文的對譯文,識別出分別包含有所述翻譯對象語句和所述特定的頻繁出現語句的自然文的對譯文中的對翻譯對象語句的高頻度的對譯,將識別出的高頻度的對譯判斷為所述原文中的所述翻譯對象語句的對譯。
18.一種程序,使與存儲單元連接的計算機作為如下單元來發揮作用,在該存儲單元中與目標語言的對譯文對應地存儲有多個由多個單詞構成的原語言的自然文檢索單元,其從存儲於所述存儲單元中的原語言的多個自然文中,檢索包含有原語言的原文中的翻譯對象語句的自然文;以及第一對譯判斷單元,其求出通過所述檢索單元的檢索提取出的自然文與所述原文的一致度,將根據求出的一致度而選擇的自然文的對譯文中的至少所述翻譯對象語句的對譯,判斷為所述原文中的至少所述翻譯對象語句的對譯。
19.一種程序,使與存儲單元連接的計算機作為如下單元來發揮作用,在該存儲單元中與目標語言的對譯文對應地存儲有多個由多個單詞構成的原語言的自然文檢索單元,其從存儲於所述存儲單元中的原語言的多個自然文中,檢索包含有原語言的原文中的翻譯對象語句的自然文;識別單元,其根據通過所述檢索單元的檢索提取出的自然文,識別出與所述翻譯對象語句在原語言的同一句子中出現的頻度高的頻繁出現語句;以及第二對譯判斷單元,其通過參照通過所述檢索單元的檢索提取出的自然文之中、分別包含有通過所述識別單元識別出的且存在於所述原文中的特定的頻繁出現語句和所述翻譯對象語句的自然文的對譯文,識別出分別包含有所述翻譯對象語句和所述特定的頻繁出現語句的自然文的對譯文中的對翻譯對象語句的高頻度的對譯,將識別出的高頻度的對譯判斷為所述原文中的所述翻譯對象語句的對譯。
全文摘要
可得到根據原語言的原文得到自然的對譯文作為目標語言的句子的可能性高的、原文中的翻譯對象語句的合適對譯。在對譯DB中與目標語言的對譯文對應地登記有多個由多個單詞構成的原語言的對譯文,若指定了原語言的原文中的翻譯對象語句,則對於對譯DB檢索包含翻譯對象語句的自然文(102),若沒有與原文完全一致的自然文(104為否定),則運算所提取出的各自然文與原文的一致度數,顯示一致度數最大的自然文的對譯文(108~112)。在存在多個一致度數最大的自然文時(110為肯定),判斷與翻譯對象語句在同一文章中存在的可能性(相關性)高的單詞,顯示包含高相關性的單詞的自然文的對譯文(114~118)。若沒有包含高相關性的單詞的自然文(116為否定),則識別出可替代原文中的關注單詞的單詞(120~128),顯示相對於原文把關注單詞置換成替代單詞的自然文的對譯文。
文檔編號G06F17/28GK1894688SQ200480037458
公開日2007年1月10日 申請日期2004年10月15日 優先權日2003年12月15日
發明者傑科普森陽子 申請人:有限會社言語技術研究所