輸入文本字符串的轉換的製作方法
2023-04-24 17:00:01 1
專利名稱:輸入文本字符串的轉換的製作方法
技術領域:
本說明書涉及輸入字符串的轉換。
背景技術:
傳統文本與特定形式相關聯,例如與特定書寫系統和特定自然語言相關聯。可以使用書寫系統來表示一種或多種語言。例如,(使用羅馬字符來表示的)拉丁書寫系統可以用於自然語言英語以及用於例如如在羅馬化中文(例如,拼音)中使用的自然語言中文。類似地,可以使用多個書寫系統來表示同一語言。例如,可以使用漢字和拼音書寫系統來表示中文。對輸入字符串在形式之間進行轉換(例如,從一個書寫系統到另一個或從一種自然語言到另一種)會涉及輸入字符串的翻譯或音譯。
發明內容
本說明書描述了與將文本輸入字符串從第一形式轉換成第二形式有關的技術。在文本和言語的國際化和翻譯中,某些詞基於其含義或語義被翻譯(例如,英語「high」可以被翻譯成日語「高P」,而英語「bridge」可以被翻譯成「橋」)。其他詞基於其發音或正字法,例如使用特定書寫系統來書寫語言的規則,被音譯。例如,英語名稱「Highbridge」被音譯成日語為」、彳7'.; 'y 7」,而不是翻譯形式「高橋」。混合形式包括在語義上翻譯輸入字符串的一部分,並且音譯該輸入字符串的其他部分。例如,"HighbridgePark」可以變成日語的混合形式『~、^ 7'.; 夕公園」,其中『~、^ -7-') 夕」是音譯部分以及「公園」是翻譯部分。本說明書描述了用於將詞語的輸入字符串從第一形式轉換成第二形式,例如從一種自然語言或書寫系統轉換成另一 種自然語言或書寫系統的技術。可以例如使用音譯和混合翻譯技術來執行該轉換。將詞語的輸入字符串從第一形式轉換成第二形式可以包括從第一語言的書寫系統轉換成第二語言的書寫系統以及在同一語言的兩個書寫系統之間進行轉換。在一些實施方式中,對於包括多個詞語的輸入字符串,執行機器變換來將輸入字符串從一個形式轉換成另一個形式的輸出字符串。機器變換可以包括生成是輸入字符串中的詞語的音譯和翻譯的混合的輸出字符串。例如,對詞語的輸入字符串進行轉換可以包括使用規則來確定一個或多個詞語是否待被翻譯,並且使用特定於語言的規則來對其他詞語執行首譯。總的來說,在本說明書中描述的主題的一個方面可以在方法中具體化,所述方法包括以下動作:接收具有多個詞語的輸入字符串,該輸入字符串為第一形式;將輸入字符串從第一形式變換成第二形式,其包括:將一個或多個規則應用到輸入字符串來識別用於翻譯的一個或多個詞語,所識別的一個或多個詞語少於該多個詞語,將所識別的一個或多個詞語翻譯成第二形式的一個或多個翻譯詞語,以及將該多個詞語的剩餘詞語音譯成第二形式的音譯詞語;以及連接翻譯和音譯詞語來形成第二形式的混合輸出字符串。本方面的其他實施例包括對應的計算機系統、裝置以及記錄在一個或多個計算機存儲設備上的電腦程式,其每一個被配置成執行所述方法的動作。一個或多個計算機的系統可以被配置成通過使運作時促使系統執行動作的軟體、固件、硬體或其組合安裝在系統上來執行特定操作或動作。一個或多個電腦程式可以被配置成通過包括當被數據處理裝置執行時促使所述裝置執行動作的指令來執行特定操作或動作。這些和其他實施例可以可選地包括下面特徵中的一個或多個。第一形式和第二形式分別是第一書寫系統和第二書寫系統。第一形式和第二形式分別是第一自然語言和第二自然語言。輸入字符串包括類型,以及其中將一個或多個規則應用到輸入字符串包括識別具有與輸入字符串的類型相匹配的類型的一個或多個規則;以及對於與輸入字符串的類型相匹配的規則,確定輸入字符串是否與相應一個或多個匹配規則的字符串模式相匹配。每一個規則包括用於相應輸出形式的多個相應規則輸出。匹配規則包括待被從第一形式翻譯成第二形式的規則模式的一個或多個詞語。對剩餘詞語進行音譯包括:將字符串符號化成多個符號;將每一個符號從第一形式音譯成第二形式;以及連接第二形式的音譯符號來形成第二形式的音譯的輸出字符串。總的來說,在本說明書中描述的主題的一個方面可以在方法中具體化,所述方法包括以下動作:接收具有待被音譯的多個詞語的字符串,該字符串為第一形式;將該字符串符號化成多個符號;將每一個符號從第一形式音譯成第二形式;將一個或多個特定於形式的規則應用到第二形式的音譯符號;以及連接第二形式的音譯符號來形成第二形式的音譯的輸出字符串。本方面的其他實施例包括對應的計算機系統、裝置以及記錄在一個或多個計算機存儲設備上的電腦程式,其每一個被配置成執行所述方法的動作。一個或多個計算機的系統可以被配置成通過使運作時促使系統執行動作的軟體、固件、硬體或其組合安裝在系統上來執行特定操作或動作。一個或多個電腦程式可以被配置成通過包括當被數據處理裝置執行時促使所述裝置執行動作的指令來執行特定操作或動作。這些和其他實施例可以可選地包括下面特徵中的一個或多個。對字符串進行符號化包括將字符串分成詞符號。第一形式是第一書寫系統以及第二形式是第二書寫系統。第一形式是第一自然語言以及第二形式是第二自然語言。特定於形式的規則涉及在語素或詞邊界處發生的多種語音處理。連接包括基於輸出形式和一個或多個語言規則來在一個或多個輸出詞語對之間添加另外字符。對每一個符號進行音譯包括使用一個或多個有限狀態轉換器來生成第一形式和第二形式的語音表不。可以實現在本說明書中描述的主題的特定實施例,以實現下面益處中的一個或多個。與純音譯或翻譯相比,使用音譯和語義翻譯的混合提高了變換的準確性。與獨立翻譯單個詞語相比,使用其他詞語的語境改進了音譯。合併關於其名稱被譯寫的實體的信息提高了音譯準確性。例如,知道「Menlo Park」是指公園還是城市可以影響變換的輸出。在附圖和下面的描述中闡述了在本說明書中描述的主題的一個或多個實施例的細節。該主題的其他特徵、方面和益處從描述、附圖和權利要求將變得顯而易見。
圖1是用於轉換輸入字符串的示例方法的流程圖。圖2是用於對輸入字符串進行機器變換的示例方法的流程圖。
圖3是用於對輸入字符串的詞語進行音譯的示例方法的流程圖。圖4是示例系統體系結構。在各附圖中相同的參考數字和標記指示相同的元素。
具體實施例方式圖1是用於對輸入字符串進行轉換的示例方法100的流程圖。為了方便起見,將參考執行方法100、包括一個或多個計算設備的系統描述方法100。具體地,方法100參考對地理數據進行處理以(例如,在地圖視圖中)展示描述了操作,然而,可以對其他類型的數據執行相似動作。系統接收102在第一書寫系統中的一個或多個輸入字符串。所述輸入字符串待從第一形式被轉換成第二形式(例如,從第一書寫系統轉換成第二書寫系統)。第一和第二形式可以表示相同或不同語言。在一些實施方式中,從地理特徵集合(例如,從地理特徵資料庫)接收該一個或多個輸入字符串。這些地理特徵可以包括例如政治稱號(例如,用於城市或州的名稱)、旅遊目的地或公園。每一個地理特徵可以被注釋或另外標記有關於物理世界中的對應實體的信息(例如,特徵類型)。該信息可以包括類型類別,例如「城市」、「公園」或「旅遊勝地」。在一些實施方式中,分型是類型的簡單枚舉,而不是繼承。在其他實施方式中,使用單繼承樹層級來處理分型,其中除不是任何其他類型的子類型的一個或多個根類型外,每一個類型是另一個類型的子類型。在又一些其他實施方式中,使用多繼承樹來處理分型,其中類型可以是零個、一個或數個其他類型的子類型。可以使用所述特徵來生成規則,如在下面參考圖2更詳細描述的。另外,類型層級可以允許每描述特徵類型的自由形式的文本的特徵有多個類型標籤。除分型外,特徵還可以被標記有關於所表示的物理實體的其他信息,例如,城市的人口計數或建築物的高度。還可以使用該其他、非分型的信息來影響所生成的音譯,例如,當將規則僅應用到某一大小的城市或僅應用到較大建築物的名稱時。雖然使用了地理特徵的示例,然而,可以以類似方式對其他數據進行處理,例如,商業註冊中心或其中關於特定類型的外部信息是已知或可以被得到的其他數據(例如,產品名稱、個體)。例如,對於企業,名稱可以與可以被應用(例如,到作為識別公司的標記「Inc」)的不同企業特徵相關聯。系統可選地執行預處理104。預處理可以包括對輸入字符串執行的多個操作。預處理還可以使對輸入字符串直接執行的動作成為必要、或生成資料庫或其他信息集合(例如,詞典)以供稍後應用到輸入字符串。在一些實施方式中,一些預處理步驟是用於對地理數據進行處理以供展示的較大管線的一部分。例如,對於地理數據,預處理可以包括合併和/或移除重複特徵、拼接來自鄰近數據集的道路、從現有特徵的形狀合成新的特徵、清理幾何不規則性(例如,在所提供的數據中的錯誤,諸如帶有單個點位置或不一致幾何的街道)或注入特徵屬性。拼接來自鄰近數據集的道路是指校正在不同區域之間的地理數據,其中可以使用不同數據集,例如,穿過在第一國家和第二國家之間的邊界的道路可能在用於第一國家的數據集和用於第二國家的數據集之間沒被對齊。該預處理操作可以是用於一般對地理數據進行處理以供展示的管線的一部分。合成地理數據中的特徵包括例如從國家和省份,例如美國加澳大利亞加紐西蘭加加拿大減去魁北克,合成說英語區域的邊界。這幫助基於除國家或其他地理政治邊界外的信息來定義哪些區域需要對輸入字符串的變換以及可能不需要的一些。雖然被描述為預處理階段的一部分,然而,取決於被執行的任務的類型,這些任務可以以複雜序列、作為稍後處理的一部分(例如,在音譯期間)或作為單獨操作來執行。例如,可以在下面參考圖3描述的音譯操作期間應用人類注入的翻譯。替選地,在一些實施方式中,不執行預處理(例如,針對地圖特徵的地理操作可以被單獨處理或對非地理數據集是不必要的)。系統為輸入字符串識別106人類輸入的翻譯。這些是人類為具有不規則翻譯的眾所周知的詞語識別的翻譯。例如,對於其法語名稱是「GenSve」的瑞士城市,該步驟可以添加英語名稱「Geneva」、德語「Genf」、義大利語「Ginevra」、斯洛伐克語「Geneva」、俄語">K e η e B a」等。同樣,對於其英語名稱是「California」的美國州,該步驟可以添加德語名稱「Kalifornien」。這允許添加對應詞語來校正輸入數據,其減少了由於拼寫錯誤或使用不被用來處理輸入文本的一個或多個規則識別的詞語的語言版本所致的糟糕轉換的可能性。例如,一個特定街道的名稱例如由於數據提供者問題可能具有打字錯誤或被錯誤命名。這些識別的翻譯被輸入資料庫或詞典,例如以供在執行在下面參考圖2-3描述的音譯或翻譯操作時使用。系統為一個或多個詞語識別108詞典翻譯。對輸入文本集合中具有同一名稱的所有詞語應用詞典翻譯。例如,在美國有被稱為「City Hall (市政廳)」的許多建築物。詞典階段可以查找該名稱,並且將諸如德語「Rathaus」、法語「H6tel de Ville」、日語「役所」等的名稱注入到具有匹配名稱的每一個詞語。因此,識別用於特定特徵或詞語的多個翻譯以供在對字符串進行變換時使用。系統對每一個輸入字符串執行機器變換110。機器變換將第一形式的輸入字符串的至少部分變換成第二形式。輸入字符串的機器變換包括根據一個或多個規則確定是否存在可以被翻譯的部分,以及執行沒有被翻譯的任何部分的音譯。在下面參考圖2-3更詳細描述了輸入字符串的機器變換。系統可選地對轉換後的輸入字符串執行後處理112。例如,可以使用後處理來將沒有正確處理的管線的一些早先部分的詞語或屬性列入黑名單。例如,出於語言原因(例如,南非具有是英語、荷蘭語和德語的組合的許多名稱,其使變換困難),對於特定地理區域,變換後的輸出字符串的質量可以變化。結果,可以執行對其中數據當前是不可靠的變換後的詞語,例如街道名稱,列入黑名單。因此,在展示地圖數據的示例中,那些詞語將不被變換來供顯示,而是替代地,將使用原始輸入字符串。類似地,新加坡具有中文和英語兩者的許多街道,因此,不需要將那些英語街道名稱翻譯成中文。系統輸出114第二形式的轉換後的字符串。例如,可以(例如在資料庫或其他庫中)存儲轉換後的字符串以供稍後使用。在一些實施方式中,轉換後的字符串是當請求對應地圖數據供顯示時被檢索的地理標記。例如,可以將帶有識別中文信息的地理數據的英語字符串的資料庫轉換成中文字符串以在對展示的中國地圖進行標記時使用。在另一個示例中,轉換後的字符串可以在被生成之後向用戶展示。在任一示例中,可以單獨(例如,變換後的文檔)或與其他數據(例如,地圖信息)一起展示轉換後的字符串中的一個或多個。圖2是用於對輸入字符串進行機器變換的示例方法200的流程圖。為了方便起見,將參考執行方法200、包括一個或多個計算設備的系統描述方法200。系統接收202輸入字符串。可以例如從待從第一形式轉換成第二形式的輸入字符串集合接收該輸入字符串。在一些實施方式中,該輸入字符串在被接收之前已經歷了一個或多個預處理步驟,例如如圖1中所描述的。替選地,在沒有預處理的情況下,直接處理輸入字符串。系統將規則組應用204到所接收的輸入字符串。規則識別特定特徵類型,以及如果特徵類型與該輸入字符串相匹配則待執行的動作。系統例如根據規則層級將每一個規則應用到該輸入字符串。基於在輸入字符串中對特徵的標記,特徵被匹配到特定特徵類型。對於給定特徵類型,規則可以具有與規則相匹配的一個或多個詞語的模式。如果輸入字符串與輸入模式相匹配,則規則匹配。在一些實施方式中,對於為給定語言或書寫系統定義的每一個規則,在相應語言或書寫系統中存在一個或多個輸出模式。如果輸入字符串與輸入模式相匹配,則系統根據規則所定義的相應輸出模式生成一個或多個輸出詞語。例如,為了將地理特徵的英語(「en」)名稱變換成日語(「ja」)、韓語(「ko」)、吉爾吉斯語(「ky」)、俄語(「ru」)、簡體中文(「zh-Hans」)以及繁體中文(「zh-Hant」),在下面提供了三個示例規則結構。為了清晰起見,簡化了這些示例規則。
權利要求
1.一種由數據處理裝置執行的方法,所述方法包括: 接收具有多個詞語的輸入字符串,所述輸入字符串為第一形式; 將所述輸入字符串從所述第一形式變換成第二形式,包括: 將一個或多個規則應用到所述輸入字符串來識別用於翻譯的一個或多個詞語,所識別的一個或多個的詞語少於所述多個詞語, 將所識別的一個或多個詞語翻譯成所述第二形式的一個或多個翻譯詞語,以及 將所述多個詞語的剩餘詞語音譯成所述第二形式的音譯詞語;以及 連接所述翻譯和音譯詞語來形成所述第二形式的混合輸出字符串。
2.根據權利要求1所述的方法,其中所述第一形式和所述第二形式分別是第一書寫系統和第二書寫系統。
3.根據權利要求1所述的方法,其中所述第一形式和所述第二形式分別是第一自然語言和第二自然語言。
4.根據權利要求1所述的方法,其中所述輸入字符串包括類型,以及其中將一個或多個規則應用到所述輸入字符串包括: 識別具有與所述輸入字符串的所述類型相匹配的類型的一個或多個規則;以及對於與所述輸入字符串的所述 類型相匹配的規則,確定所述輸入字符串是否與相應一個或多個匹配規則的字符串模式相匹配。
5.根據權利要求4所述的方法,其中每一個規則包括用於相應輸出形式的多個相應規則輸出。
6.根據權利要求4所述的方法,其中匹配規則包括待被從所述第一形式翻譯成所述第二形式的所述規則模式的一個或多個詞語。
7.根據權利要求1所述的方法,其中對剩餘詞語進行音譯包括: 將所述字符串符號化成多個符號; 將每一個符號從所述第一形式音譯成第二形式;以及 連接所述第二形式的音譯符號來形成所述第二形式的音譯的輸出字符串。
8.一種系統,包括: 一個或多個計算機,其可被操作來進行交互以執行操作,所述操作包括: 接收具有多個詞語的輸入字符串,所述輸入字符串為第一形式; 將所述輸入字符串從所述第一形式變換成第二形式,包括: 將一個或多個規則應用到所述輸入字符串來識別用於翻譯的一個或多個詞語,所識別的一個或多個詞語少於所述多個詞語, 將所識別的一個或多個詞語翻譯成所述第二形式的一個或多個翻譯詞語,以及 將所述多個詞語的剩餘詞語音譯成所述第二形式的音譯詞語;以及 連接所述翻譯和音譯詞語來形成所述第二形式的混合輸出字符串。
9.根據權利要求8所述的系統,其中所述第一形式和所述第二形式分別是第一書寫系統和第二書寫系統。
10.根據權利要求8所述的系統,其中所述第一形式和所述第二形式分別是第一自然語言和第二自然語言。
11.根據權利要求8所述的系統,其中所述輸入字符串包括類型,以及其中將一個或多個規則應用到所述輸入字符串包括: 識別具有與所述輸入字符串的所述類型相匹配的類型的一個或多個規則;以及對於與所述輸入字符串的所述類型相匹配的規則,確定所述輸入字符串是否與相應一個或多個匹配規則的字符串模式相匹配。
12.根據權利要求11所述的系統,其中每一個規則包括用於相應輸出形式的多個相應規則輸出。
13.根據權利要求11所述的系統,其中匹配規則包括待被從所述第一形式翻譯成所述第二形式的所述規則模式的一個或多個詞語。
14.根據權利要求8所述的系統,其中對剩餘詞語進行音譯包括: 將所述字符串符號化成多個符號; 將每一個符號從所述第一形式音譯成第二形式;以及 連接所述第二形式的音譯符號來形成所述第二形式的音譯的輸出字符串。
15.一種編碼有電腦程式的計算機存儲介質,所述程序包括當被數據處理裝置執行時促使所述數據處理裝置執行操作的指令,所述操作包括: 接收具有多個詞語的輸入字符串,所述輸入字符串為第一形式; 將所述輸入字符串從所述第一形式變換成第二形式,包括: 將一個或多個規則應用到所述輸入字符串來識別用於翻譯的一個或多個詞語,所識別的一個或多個詞語少於所述多個詞語, 將所識別的一個或多個詞語翻譯成所述第二形式的一個或多個翻譯詞語,以及 將所述多個詞語的剩餘詞語音譯成所述第二形式的音譯詞語;以及 連接所述翻譯和音譯詞語來形成所述第二形式的混合輸出字符串。
16.根據權利要求15所述的計算機存儲介質,其中所述第一形式和所述第二形式分別是第一書寫系統和第二書寫系統。
17.根據權利要求15所述的計算機存儲介質,其中所述第一形式和所述第二形式分別是第一自然語言和第二自然語言。
18.根據權利要求15所述的計算機存儲介質,其中所述輸入字符串包括類型,以及其中將一個或多個規則應用到所述輸入字符串包括: 識別具有與所述輸入字符串的所述類型相匹配的類型的一個或多個規則;以及對於與所述輸入字符串的所述類型相匹配的規則,確定所述輸入字符串是否與相應一個或多個匹配規則的字符串模式相匹配。
19.根據權利要求18所述的計算機存儲介質,其中每一個規則包括用於相應輸出形式的多個相應規則輸出。
20.根據權利要求18所述的計算機存儲介質,其中匹配規則包括待被從所述第一形式翻譯成所述第二形式的所述規則模式的一個或多個詞語。
21.根據權利要求15所述的計算機存儲介質,其中對剩餘詞語進行音譯包括: 將所述字符串符號化成多個符號; 將每一個符號從所述第一形式音譯成第二形式;以及 連接所述第二形式的所述音譯符號來形成所述第二形式的音譯的輸出字符串。
全文摘要
用於對文本字符串進行變換的方法、系統以及裝置,包括編碼在計算機存儲介質上的電腦程式。總的來說,在本說明書中描述的主題的一個方面可以在方法中具體化,所述方法包括以下動作接收具有多個詞語的輸入字符串,該輸入字符串為第一形式;將輸入字符串從第一形式變換成第二形式,其包括將一個或多個規則應用到輸入字符串來識別用於翻譯的一個或多個詞語,所識別的該一個或多個詞語少於該多個詞語,將所識別的一個或多個詞語翻譯成第二形式的一個或多個翻譯詞語,以及將該多個詞語的剩餘詞語音譯成第二形式的音譯詞語;以及連接翻譯和音譯詞語來形成第二形式的混合輸出字符串。
文檔編號G06F17/28GK103189859SQ201180041432
公開日2013年7月3日 申請日期2011年8月26日 優先權日2010年8月26日
發明者薩斯卡·B·布拉韋爾, 馬丁·揚斯什, 理察·斯普羅特, 竹中浩, 寺島有為 申請人:谷歌公司