新四季網

基於移動結構概念的句子結構分析及使用其的自然語言搜索的製作方法

2023-05-23 23:05:51 2

專利名稱:基於移動結構概念的句子結構分析及使用其的自然語言搜索的製作方法
技術領域:
本發明涉及基於移動結構(mobile configuration)概念的句法分析以及使用該分析方法的自然語言搜索方法,並且具體來說,涉及基於將在子分類(subcategorization)信息中事先定義的語法角色(role)信息直接給予結構組分(constituent)從而能夠主動響應自由語序語言的移動結構概念的句法分析方法和使用該分析方法的自然語言搜索方法。
背景技術:
簡單來說,句法分析的含義是使用計算機分析自然語言的句法結構。因此,對於這種句法分析,將自然語言知識傳輸給計算機用於實現是重要的。
開發用於處理自然語言的方法可以用教計算機一種語言來簡單表示。對於這種傳統的句法分析,使用了基於概率的方法。
在此,傳統的基於概率的句法分析是一種通過其建立大量的語料庫(corpus)並且語音部分的轉換的局部結構和概率被從該語料庫中提取出來並且隨後將其和實際數據進行比較的方法。
然而,在這種傳統的基於概率的句法分析中有著如下的限制。首先,由於不能保證大量的語料庫能夠涵蓋人類能夠構造的所有種類的句法結構,為了能夠部分地克服這種限制,只有限制在預定領域內的語料庫能被建立。因此,不能保證知識的完整性,並且使用的領域是受限的。
其次,當發現不正確的分析數據時,解決這個問題基本上是不可能的。這是因為概率不能由人來手動修改。為了解決這個問題,應當建立新的語料庫,並且當規模超過預定等級時,存在概率不再改變的傾向性。
具體來說,應用了這些傳統的基於概率的句法分析方法的韓語語法模型在廣義上可以被劃分為基於Choi Hyon-Pai(1937)的傳統模型和來源於Chomsky(1965)的生成語法模型。
然而,由於作為句法分析基本要求的句法單元的確定並不一致,這兩個模型無法令人滿意。即,在前一種方法中,後置詞(postposition)被認為是字,而字尾則被認為是語形學(morphological)單元。與此相反,在後一種方法中,後置詞(或後置詞的一部分)被認作是語形學單元,而字尾被認作是字。
因此,在傳統的方法中,為了分析在組成給定輸入數據的單元表達式(expression)之間的依存關係並掌握(capture)它們的語法功能,使用基於語法功能由結構位置確定的假定的二元(binary)結構的方法。
在這個二元結構中,如果句子「Naneun Kongwoneso Youngheereulmannata(S)(我在公園遇到Younghee),」被分析,則認為形成句子的全部單元被配對(paired)來形成該句子。該句子被劃分成「Naneun(NP)」和「Kongwoneso Youngheereul mannata(VP)」,並且VP再次被劃分為「Kongwoneso(PP)」和「Youngheereul mannata(V』)「,並且「V」』再次被劃分為「Youngheereul(NP)」和「mannata(V)」。在這種結構中,同時在一個規則中定義支配關係(dominance relation)和優先關係。即,主語是直接由S控制的NP,位置是直接由VP控制的PP,直接賓語是直接由V控制的NP,並且以這種方式,其次定義語法功能。
在這個傳統的二元結構中,句子的直接組分的語法功能由該組分在句子結構中的位置所確定。即使遵循韓語中謂語必須位於句子的結尾的字序的限制,在數學上,如果每個由4個直接組分形成的句子被配對並組織,則在數學上可能情況的數量是7(3×2×1+1),並且在句子是由5個組分形成的情況下,等價結構的數量可以最多為30(4×3×2×1+2×2)。因此,等價結構的數量呈幾何級數增加。
不用說諸如韓語的這種自由語序語言,即使是在英語這種固定語序語言的情況中,前置短語在句子中倒置也不會改變句子的意思。這顯示了語法功能不能由在句子中的位置來確定。
此外,當使用傳統的二元結構用於分析時,由N個單元表達式表示的句子產生2(n-2)個結構等價情況。即,隨著形成句子的多語素(polymorphemes)的數量的增加,等價句子結構的情況的數量幾何增加。
二元結構的另一個問題在於無法預測組分位置的改變。在韓語的情況下,當一個句子的直接組分的數量為n時,改變字的位置的可能方式的數量為n!。
具體來說,能夠處理這種自由語序句子的能力在處理口語數據中是很重要的,口語數據和書寫數據不同,存在經常性的省略和倒置。然而,傳統的二元結構方法不能完美地處理這個問題。
因此,用於說明使用字形變化(inflection)的印一歐語言的傳統句法分析模型不適用用於韓語。由於這種內在限制,傳統的句法分析方法的成功率只有大約50%到60%。
具體來說,這種傳統句法分析方法遵循根據成分的使用形式定義語法功能的用法概念。根據這種用法概念,在下面的句子中1A.Youngheeneun haggyoeganda.(Younghee去學校。)1B.Cheolsooneun haggyoeganeunYoungheereul boatta.(Cheolsoo看見Younghee去上學。)在(1A)中的「ganda」和在(1B)中的「ganeun」都是動詞「gada(去)」的形式。然而,在(1A)中的「ganda」結束一個句子,而在(1B)中的「ganeun」不結束一個句子,但是修飾/限制隨後的字「Younghee」。因此,在傳統語法中,「ganeun」的用法形式被稱作為「名詞前類型(pre-noun type)」。
然而,如果一個字同時是一個動詞又是一個名詞前類型,從傳統的觀點來看,分類不確定的問題是不可避免的。即,如果疑問中的「ganeun」是修飾「Younghee」的名詞前類型,則名詞前類型不能引導成分「haggyoe」,而如果「ganeun」是動詞,其不能結束一個句子並且不能說明其是否能修飾隨後的名詞。
因此,為了解決這個問題,應當分析「ganeun」的內部結構,並且應該參考字幹「ga-」和字尾「-neun」的結構。然而,傳統的句法規則並不考慮字的內部結構(一種用法形式)。這樣,不可能實現獨立於人類語言學知識的引擎。
因此,由於傳統句法分析的這些問題,目前還沒有商業化的韓語句法分析方法。僅僅進行了實驗室級別的試驗。即使在機器翻譯的情況中,韓語句法分析技術也是如此缺乏以致可用的只有從外語到韓語的機器。
此外,由於現有的基於傳統句法分析操作的自然語言搜尋引擎僅僅使用低級的句法分析,或是使用以多語素為單位的指數化(indexation),無法掌握在每個多語素中包含的語法關係,並且僅僅根據基於概率的方法來執行檢索。因此,會檢測到具有高使用頻率的大量無意思的信息,並且很難檢索到實質結果。


圖1是由根據本發明的一個優選實施例的基於移動結構概念的句法分析方法執行的步驟的流程圖;圖2是更詳細的示出圖1的預處理例子的流程圖;圖3是更詳細的示出圖1的部分結構(partial structure)形成步驟的例子的流程圖;圖4是示出當使用基於本發明的移動結構概念的句法分析方法時的結果屏幕的例子的圖;圖5是根據本發明的一個優選實施例的使用基於移動結構概念的句法分析方法的自然語言檢索方法中的步驟的流程圖;圖6是示出在根據本發明的一個優選實施例的使用基於移動結構概念的句法分析方法中的自然語言檢索系統中的問題(檢索字)輸入屏幕和結果屏幕的例子的圖。
圖7到圖11是逐步示出用於根據本發明的一個優選實施例的使用基於移動結構概念的句法分析方法中的自然語言檢索方法的內部資料庫的例子的圖;和圖12是示出根據本發明的一個優選實施例的使用基於移動結構概念的句法分析方法中的自然語言檢索方法的列印屏幕的例子的圖。
具體實施例方式
本發明的技術目的本發明提供一種基於移動結構概念的句法分析方法以及使用該分析方法的自然語言檢索方法。通過該基於移動結構概念的句法分析方法能夠提供能主動應付信息加速年代的需求的多種有用工具的開發所需的核心基礎技術,並且該方法由於是基於嚴格的語言學成果的,因而具有魯棒性、通用性以及高可靠性,以致可以在各個領域使用,並且通過改進在語言學知識和分析引擎之間的獨立性,能夠連續地和快速地改善性能以致其能夠被非常有效和經濟地利用。
本發明還提供了一種基於移動結構概念的句法分析方法和使用該分析方法的自然語言檢索方法。通過該基於移動結構概念的句法分析方法,任何被打亂的句子(scrambled sentence)都能夠被容易地分析而不需要附加的分析裝置,而且通過將字尾按照字來處理並且通過根據短語的結構規則控制字尾的組合,語言學模型和分析引擎之間的獨立性在該模型和引擎中能夠得到高效的改善。
而且,本發明還提供了一種基於移動結構概念的句法分析方法和使用該分析方法的自然語言檢索方法。通過該基於移動結構概念的句法分析方法,在形成句子的表達式之間的語法關係能夠通過使用移動句法分析器的成分信息指數化來準確掌握,結果,用戶請求的信息以和人類進行判斷相同的方式來檢索,從而能夠提供準確的信息。
本發明的公開根據本發明的一個方面,在建立了用於分析輸入句子的語素的語素字典程序、用於存儲語法規則的語法規則資料庫,以及用於存儲句子的每個組分的屬於中心字的子分類,諸如字幹和字尾的細節的子分類資料庫,以便基於將後置詞和字尾都認作句法單元的標記理論來承認字形變化的字(inflective word)字尾的句法狀態並且在語法上能夠將字之間的組合關係定義為一個整體之後,提供了用於分析句法和說明句法的語法功能的句法分析方法,該方法包括分析語素,其中,如果輸入要分析的句子,則根據所述語素字典程序以多語素為單位分析該語素的內容,並且在通過多語素在語素分析數據中選擇了適合於輸入數據的語素分析情況後,預處理被執行;和分析句法,其中通過使用所分析的語素,首先根據存儲在語法規則資料庫中的語法角色建立句子的部分結構,並且隨後通過使用所述子分類資料庫,建立整體結構,並且通過計算每個結構的權重值,確定最合適的優選情況並輸出。
在該方法中,分析句法包括執行預處理,其中是否在多語素列表中包括句子構成由多語素列表程序確定,並且如果有多語素句子構成,則多語素構成被轉換成多語素形式,並且字的意思由語義特徵程序確定並包括在語素中;通過操作和重複內部閉環來形成部分結構,其中,如果輸入用語音的語義特徵部分標籤的語素,該語素被當作單個語素對待,並且通過根據存儲在語法規則資料庫中的語法角色來確定是否局部結構規則被應用於所選的語素,形成局部結構,並且通過參照隨後要處理的賓語和確定是否形成了循環局部結構,建立內部結構,並且如果沒有其它的內部結構,重複執行下面的處理根據分類和句子構成以及基於子分類資料庫和修飾語類型資料庫的表達形式來形成整體結構;通過基於句子構成的位置或特性來計算每個結構的權重和選擇最重要的結構來選擇最優情況;和使用移動類型(樹型)連結線來輸出最優情況,以便在所確定的最優情況的整體結構、每個部分結構以及每個語素之間的關係由連結線對應連接和指示。
在所述句法分析方法中,所述語義特徵程序是用於以預定類型來分類字的意思,所述意思是用於確定語素的句法特性和意思信息的要素,以便確定有助於減少在複合句子結構中的等價結構的意思和對於每個字形變化的字的修飾語的列表的程序;所述多語素列表程序是執行按照類型以便分類同一類型的後置詞或具有後置功能的後綴的字特徵的程序;所述語法規則資料庫存儲關於定義相應詞根的語法角色的信息;子分類資料庫存儲關於能屬於一個字形變化的字的組分的細節,以及可改變的字形變化的字尾的形式的信息;並且修飾語類型資料庫存儲關於後置詞、字尾以及具有類似於後置詞或字尾功能的後綴的通用特性的信息,其確定能夠由核心字組合的局部結構的類型,作為確定多分支結構的等價結構的要素。
根據本發明的另一個方面,提供一種使用基於移動結構概念的句法分析方法的自然語言檢索方法,用於通過輸入自然語言問題來檢索文件(句子),所述方法包括分析文件,在其中作為檢索對象的文件的句子分析信息通過基於移動結構概念的句法分析方法存儲在句子信息資料庫中,在所述基於移動結構概念的句法分析方法中,建立用於存儲句子的每個成分的屬於中心字的子分類,諸如字幹和字尾的細節的子分類資料庫,以便承認字形變化的字字尾的句法狀態並且字之間的組合關係能夠被在語法上定義為一個整體;而且當輸入期望被分析的句子時,分析語素的內容,並且使用分析的語素,根據存儲在語法規則資料庫中的語法角色首先建立句子的部分結構,並且隨後,通過使用所述子分類資料庫,建立整體的結構;分析問題句法,其中在文件信息資料庫中,如果輸入了自然語言的問題,則首先根據基於移動結構概念的句法分析方法分析問題的句法,句法分析結果被根據句法信息分解成字單元,掌握問題的疑問句類型,並且確定分解的細節的問題;檢索文件,在其中在句子分析字典中確定的細節問題的標籤的角色被轉換為用於根據所期望的詢問句類型檢索的標籤,在句子分析字典中檢索具有轉換了的用於檢索的標籤的字,並且基於檢索的頻度計算排序;和顯示包括檢索字、包括用於檢索的標籤的句子和包括該句子的文件的內容的結果。
本發明的效果根據本發明的基於移動結構概念的句法分析方法以及使用該句法分析方法的自然語言檢索方法,如上所述,能夠提供開發各種有用接口工具所需的核心基礎技術並且能夠提供魯棒性和通用用法,以便該方法能夠使用在計算機系統的全部領域。此外,由於連續和快速的性能改善,本發明是經濟的。因此,即使是打亂的句子也能被快速和容易地分析,而不需要複雜的句法分析裝置。而且,在形成句子的表達式之間的語法關係能夠被準確地掌握以便用戶請求的信息能以和人進行判斷同樣的方式來檢索,並且能提供準確的信息。
優選實施例此後,將結合附圖通過對本發明的優選實施例的說明詳細說明根據本發明的基於移動結構概念的句法分析方法和使用該分析方法的自然語言搜索方法。
首先,本發明的基於移動結構概念的句法分析方法是一種基於子分類資料庫的句法分析方法,該子分類資料庫存儲句子的每個組分的屬於中心字的子分類,諸如字幹和字尾的細節,以便基於標記理論確認(admit)字形變化的字尾的句法狀態並且字之間的組合關係能在語法上定義為一個整體。
即,該句法分析方法可以說是一種基於知識的方法,因為其能通過將唯一的韓語語法模型和語言學知識直接輸入到計算機來應用到所有的語言。將針對本發明的每個步驟說明該子分類資料庫的例子。
在這個標記理論的核心語法模型中,後置詞和字尾都被認作句法單元,即,字。例如,在上述的用法概念中,如果有如下的句子「Youngheeneunhaggyoeganda(Younghee去上學)」和「Cheolsooneun haggyoeganeunYoungheereul boatta(Cheolsoo看見Younghee去學校),」標記理論將「ganeun」的「-neun」和「ganda」的「-n-」和「-da」認作標記,並且將句子分類為如下的句法單元2A.[Younghee-neun haggyo-ega]-n-da.
2B.[Cheolsoo-neun[haggyo-ega]-neunYounghee-reul bo]-at-ta.
並且,每個標記的功能是不同的。
即,「ganeun」的「-neun-」扮演將動詞短語和名詞進行組合的角色,而「ganda」的「-n-」指示現在(進行)的形式,並且「-da」指示判斷語氣。因此,字之間的組合關係能夠被定義為在語法上的一個整體,並且因此,在語法和分析引擎之間的獨立性得到改善,並且識別不正確的分析數據或者改變(modification)變得容易。
同樣,通過採用使用ID-LP格式的移動結構區分支配關係和優先關係,能夠同等地識別由相同組分形成但是具有被打亂順序的句子。
基於這種標記理論的根據本發明的一個優選實施例的基於移動結構概念的句法分析方法是通過句法分析描述句子的語法功能的句法分析方法。
在這個方法中,為了能夠對被打亂的句子進行分析,後置詞和字尾被確定為單獨字並且語素的語法功能和特徵被事先存儲在資料庫中,並且如果輸入了需要分析的句子,通過使用每個成分的中心詞的嚴格子分類細節,基於語義特徵、後置詞形式、以及包括在細節中的分類標識來執行句法分析。通過這樣做,抑制了過多的產生(excessive generation),並且基於事先在子分類信息中定義的語法角色信息,在相應語素之間的關係由預定符號指定並且句子的語法關係被描述。廣義來講,該方法包括語素分析(步驟S1到S3)和句法分析(步驟S4到S10)。
在本發明的語素分析中,首先建立語素字典程序1和在其中存儲語法規則的語法規則資料庫4,在所述語素字典程序1中後置詞和字形變化字尾被確定為獨立詞根並且以語素字典的形式存儲該字尾的語法功能的特性。
如果在步驟S1輸入期望分析的句子,則作為句子結構的最小單元的語素在步驟S2由語素字典程序4來分析,並且語音的部分在語音部分附加步驟S3中被加標籤。
在此,指示語法功能的標籤和簡稱被附加到分類後的語素。如圖4的句法分析結果窗口的右手邊窗口所示,組分被分類為語素,每個語素都是具有意思的最小單元,諸如主語和主語後置、賓語和賓語後置以及謂語和謂語字尾,並且標籤被附加到相應的語素並且語素的類型通過在標籤中標記簡稱(np、jc、pv等)來指示。
隨後,在本發明的句法分析步驟S4到S10,句子的部分結構根據分類的語素的語法規則被首先形成,並且根據表達形式建立整個結構。隨後,通過計算每個結構的權重,確定最優情況並且由預定的符號指定每個語素之間的關係並且描述句子的語法關係。如圖1所示,句法分析包括預處理步驟S4、部分結構形成步驟S5、整體結構形成步驟S6和S7,和整體結構完成步驟S7到S10。
在此,在預處理步驟S4,如圖2所示,如果在步驟41輸入用語音部分作標籤的語素,是否具有多語素類型的句子構成由在步驟S42中的多語素列表程序3確定。如果具有多語素句子結構,其在步驟S43被轉換成多語素形式。語素的意思由語義特徵字典程序2來確定,並且如果在步驟44需要語義特徵上的語素,則在步驟S45添加語義特徵語素。
此時,如下例證的語義特徵字典程序2是確定句子部分的核心字的意思信息的要素,並且為減少在複合句子結構中的等價結構做出貢獻,並且,通過類型,執行對於諸如通用名詞的字的意思的分類,以便能夠確定每個字形變化的字的修飾語列表。
語義特徵字典程序的例子
@root bab(煮好的飯)@pos nc@type concrete@subtype food@property solid……@root haggyo(學校)@pos nc@type concrete|abstract@subtype organization……並且,如下所示的多語素列表程序3,通過類型分類來執行,以便使用相同形式或具有後置詞功能的後綴來分類後置的字特徵。
多語素列表程序應用的例子
jc-e/jc dae/nx-ha/xsv-eoseo/ec……jc-wa/jc gad/pa-i/xsa……pv-*/nc-*/xsvpv-*/nx-*/xsvnc-*/nc-*/nx……ep-??/etm-geod/nb-i/co{eptense=[fut];eporigin=[cep];}……隨後,在圖3所示的部分結構形成步驟S5中,如果語音標籤的語素的語義特徵部分在步驟S51輸入,則在步驟S52處理單個語素,在步驟S53中根據存儲在語法規則資料庫4中的語法角色來確定是否具有局部結構,在步驟S54形成局部結構,在步驟S55參照要處理的隨後的賓語,並且在步驟S56形成循環局部結構。該循環局部結構包括內部閉環操作步驟S53到S56,其中,通過再次建立部分局部結構,建立局部結構,並且在內部閉環循環步驟S5,如果其中沒有其它局部結構,則選擇下一個語素並且重複步驟。
在此,語法規則資料庫4存儲定義如下面例子所示的每個詞根的語法角色的信息。
規則字典例子
N′-NPm N′5 {N′type=N′#1type;N′subtype=N′#1subtype;N′property=N′#1property;}……ADVP-mag ADVP-s4 ;magsubtype**[degree];]{ADVPsubtype=ADVP#1subtype;}……隨後,如圖1所示,整體結構形成步驟S6和S7包括在步驟S6基於子分類資料庫5和修飾語類型資料庫6根據句子和表達式形式的分類來形成整體結構,在步驟S7確定是否檢查了另一種形式的有效矩陣,並且隨後重複隨後的矩陣的部分結構形成步驟S5。
在此,子分類資料庫5存儲句子每個組分屬於中心詞的子分類的細節,諸如字幹和字尾,以便基於將後置詞和字尾都認作句法單元的標記理論來承認字形變化的字尾的狀態,並且在字之間的組合關係能夠在語法上被定義為一個整體。如下面例子所示,在中心詞,「meogda(吃)」,存儲「meog-」可能的的字形變化的字尾的形式的信息。
子分類資料庫應用例子
meogNP(subtype~=[human|animal];jcval*=i)[c_sbj]NP(type~=[concrete];subtype~=[food|medicine|abstract|fuel];jcval*=eu|)[c_obj]{A_Typel}pv……meogiNP(jcval*=i;!!(nbval);type~=[alive])[c_sbj]NP(jcval*=ege;type~=[alive])[c_dat] subtype~=[food|liquid])[c_obj]{A_Typel}pv……此外,修飾語類型資料庫6存儲關於後置詞的通用特徵的信息,或者具有後置詞的功能的作為確定多分支結構等價物的要素的後綴的信息,如下面例子所示。
修飾語類型資料庫應用
#BOATA_TypelADVP(subtype**[manner])[a_manner]ADVP(subtype**[time])[a_temp]ADVP(subtype**[motive])[a_reason]…NP(subtype**[time];!!(jcval)nbval)[a_occurrence]NP(subtype~=[place|space|spot];jcval**eseo)[a_loc]NP(type**[concrete];jcval**ro)[a_instr]…VPn(etnval==[gi];jeval==[e])[a_motive]VPf(mood~=[declarative];jcval==[go])[a_reason]A_Type2……A_Type3…………#BOAT隨後,如圖1所示,整體結構完成步驟S7到S10包括在步驟S7基於句子構成的位置和特性來計算相應結構的重要性權重,在步驟S8選擇最優情況,和輸出所選的最優情況。
在這個最優情況輸出步驟S10中,如圖4的句法分析結果窗口的左手邊窗口所示,標記移動類型(樹型)連接線以便用線來指示完成的整體結構、各個內部結構和外部結構,以及各個語素之間的對應關係。
因此,通過依賴於開發的適用於韓語和語言學知識的語法模型,能夠保證比傳統的基於概率的方法高得多的精度。並且,對於簡單的句子來說,原則上,由於識別方法和人一樣,取決於知識建立的程度,能夠期望接近100%的處理率。
此外,通過採用移動結構,即使是被打亂的句子也能被準確和一致地分析,該方法可以應用於所有的語言領域、不會產生由於域的改變帶來的附加開銷,並且由於採用多分支結構,能夠減少不需要的分析。因此,識別錯誤的原因變得簡單而且在知識和引擎之間的獨立性是高的,以致能夠快速地執行對於不正確分析的校正。
而且,和傳統的二元結構中等價結構隨著幾何級數增長不同,由於多分支結構分析具有作為詞根的語法功能,從而使句法分析變得容易,並且在其中省略和倒置經常發生的口語數據能夠被完美地分析,相對於多語素的數量的增長,等價結構呈算數級數增長。
同時,實現基於這種移動結構概念的句法分析方法的句法分析器包括諸如微處理器或CPU的控制各種輸入和輸出裝置的控制單元,和諸如RAM、ROM或者硬碟的存儲各種類型信息的存儲裝置。
控制單元包括語素字典程序1、語義特徵字典程序2和圖1中的多語素列表程序3。存儲裝置包括存儲語法角色的語法規則資料庫4、子分類資料庫5和修飾語類型資料庫6。
即,控制單元被如此編程,以致如果輸入要分析的句子,其根據語素字典程序1分析句子的每個語素,並且首先根據存儲在語法規則資料庫4中的語法角色建立句子的部分結構,隨後基於存儲在子分類資料庫5中的子分類信息建立整體結構。並且隨後,控制單元計算每個結構的權重,選擇優選情況,通過預定的符號指定在相應語素之間的關係,並且描述該句子的語法關係。
因此,本發明的句法分析器不使用在其中從結構推斷語法角色的方法,而使用將語法功能本身認作詞根的方法,並且通過使用子分類信息,指定了語法功能。
此外,由於僅僅提供語音部分的列表對於分類信息是不夠的,本發明的句法分析器描述每個成分的意思信息以便清除等價結構並且只產生最簡單的語法結構。
為了如此,這樣來設計該系統,在步驟S1到S3的語素分析中,相應字的語義特徵能夠被示出,並且作為結果,能夠準確識別可能的語法關係。
而且,每個子分類幀(frame)請求用於該幀承認的修飾語類型。因此,通過根據在整體結構形成步驟S6中根據修飾語形式描述類型,能夠避免產生不必要的等價結構並且能夠執行適當的句法分析。
同時,使用本發明的基於移動結構概念的句法分析方法的自然語言檢索方法是這樣一種檢索方法,通過其如果輸入了自然語言形式的問題,搜索文件和句子並且找到和返回期望的知識。如圖5所示,並且更概括地示出在圖1,該方法包括使用該句法分析方法的文件分析步驟S1到S10、文件搜索步驟S130到S180、以及結果顯示步驟S190到S220。
即,如圖1所示的不具有輸入句子而具有輸入文件的文件分析是基於在其中語素的語法功能和特徵事先被存儲在資料庫中的移動結構概念的句法分析方法。並且,如果輸入需要分析的句子,通過使用詞根,定義了語素,並且根據和在定義的語素中被定義為字尾的語素相匹配的資料庫的語法支配關係,在相應語素之間的關係由預定的符號指定,以便描述該句子的語法關係。在文件分析步驟中,作為分析的對象的文件的句子分析信息被以句子分析字典的形式存儲在索引資料庫中,並且這和如上所述的句法分析方法中相同。
在完成這種準備步驟後,在問題句法分析步驟S110和S120中,如果在步驟S100輸入提問期望信息的自然語言形式的問題,通過如上所述的基於移動結構概念的句法分析方法,詢問句子的句子構成在步驟S110中被分析。在步驟S120,該句子構成分析的結果被根據句子構成信息逐字分解,並且通過掌握問題的疑問形式,基於存儲事先輸入的句子信息的句子信息資料庫10的詳細問題確定該問題。
在此,自然語言形式的詢問句子是能由人基於人的思路容易地理解的人類語言。如圖6頂端的「檢索字」窗口所示的,這種句子的一個例子是「NoogaCheolsooreul joahani?(誰喜歡Cheolsoo?)」。
因此,在這個問題句法分析步驟之後,圖6所示的問題分析結果(詢問分析器)的句子構成,「Nooga Cheolsooreul joahani?」能夠被定義為「SUB(主語)OBJ(賓語)HEAD(謂語)」。
作為參考,圖6中央的窗口「整體索引量」示出了事先在文件分析步驟分析的文件的數量「47」、分析的句子的數量「92」和分析的字的數量「257」。
隨後在文件檢索步驟的句子類型確定步驟130,使用作為對象的字典資料庫13在字典中確定的細節問題的標籤的角色被改變為根據所期望的疑問句的形式進行檢索的角色,並且具有用於檢索的改變了的標籤的字在步驟S130從字典資料庫13中檢索出來。
即,如圖6所示,分析疑問句子的形式並且得出「Nooga=疑問字,主語」。據此,在其中檢索標籤的角色在於指示一個賓語的「Cheosooreul」被不變地轉換成一個賓語或主語,並且該標籤被轉換成「Cheolsoo/nc」,並且作為疑問謂語的「Joahani?」被轉換成通用謂語「joaha/pv」,並且這些被在句子分析字典(字典)中搜索。
在此,文件檢索步驟130可以包括根據用戶的選擇通過特殊檢索規則信息11和名詞系統資料庫12產生用於特殊檢索模式的條件的特殊檢索模式條件產生步驟S150。作為替代,文件檢索步驟130可以包括用於執行字典資料庫13的通用檢索的通用檢索模式條件產生步驟Sl60。
該通用檢索模式是在其中通過僅僅使用句法分析的信息和僅僅基於問題的句法分析結果的檢索方法,搜索已經分析的文件資料庫並且提取和提供匹配內容。
這個通用檢索模式可以使用通過其提取和提供匹配給定問題直接組分的數據的成分匹配檢索方法。或者,該通用檢索模式可以使用意思匹配檢索方法,通過該方法,形成問題的組分被包括,但是提取和提供包含了語義上和作為核心字的謂語類似的謂語的數據。
同時,特殊檢索模式是當問題中包括特殊表達式時,基於該表達式,檢索和提供在語義上依賴於給定組分的內容的方法。例如,如果輸入問題,「Cheolsooga mooseun kwaileul meogeonni?(Cheolsoo吃了什麼水果?)」,則具有Cheolsoo吃預定類型水果內容的文件,包括「Cheolsooga sagwareulmeogeodda(Cheolsoo吃了一個蘋果),」被作為期望的句子提取和提供。
即,對於這種特殊檢索模式,使用諸如特殊檢索規則信息11和名詞系統數據12的關於名詞語義層級結構的資料庫。
隨後,如圖8所示,為了產生在其中角色倒置的反向文件資料庫14,在步驟S170,訪問該資料庫並返回結果,並且如圖9所示在步驟180具有被轉換成AND和OR條件的多個結果的檢索標籤的字的檢索頻度被計算。
即,如圖9和10所示,第一文件的第一句話「Youngheeneun Cheolsooreuljoahanda.(Younghee喜歡Cheolsoo.)」,第23句話「YoungheeneunCheolsooreul joahanda.(Younghee喜歡Cheolsoo.)」,第60句話「Youngheeneun Cheolsooreul joahanda.」被檢索到。
隨後,在結果顯示步驟S190到S220,如圖11所示,諸如檢索字、包含檢索標籤的句子、包含該句子的文件信息和文件內容的多種結果在步驟S190確定。在步驟S200中根據頻率計算排序。在步驟S210,包含這些的文件信息資料庫15被讀出並且外部信息被參照。最終,結果在步驟S220輸出。
因此,如圖12所示,如果諸如「Nooga Cheol sooreul joahani?(誰喜歡Cheolsoo?)」的自然語言問題被在檢索字窗口輸入,在問題句法分析窗口後置詞和字尾被作為語素分析並顯示為「Noo/np」、「ga/jc」、「Cheolsoo/nc」、「reul/jc」、「joaha/pv」、「ni/et」和「?/s」。
這些是用具有檢索標籤的字檢索的,並且該結果被顯示在檢索結果窗口中。在檢索結果窗口中,諸如「Cheolsooneun Soonjado joahanda?(Cheolsoo也喜歡Soonja?)」的句子可以和句子「Younghee likes Cheolsoo」一起顯示,以便詢問者能進行全面的確定。
同時,雖然未示出,使用這種自然語言檢索方法的自然語言檢索系統包括諸如微處理器或CPU的用於控制各種輸入和輸出裝置的控制單元、諸如RAM、ROM或硬碟的用於存儲各種類型信息的存儲裝置。在該存儲裝置中,以存儲文件的句子分析信息的句子分析字典(字典)的形式建立索引資料庫,所述文件是由基於移動結構概念的句法分析方法檢索的對象。在該句法分析方法中,事先在資料庫中存儲語素的語法功能和特徵,並且如果輸入要分析的句子,通過使用詞根,定義了語素,並且根據和在定義的語素中被定義為字尾的語素相匹配的資料庫的語法支配關係,在相應語素之間的關係由預定的符號指定,以便描述該句子的語法關係,同時,控制單元被如此編程,如果在索引資料庫中輸入自然語言的問題,則通過如上所述的基於移動結構概念的句法分析方法,分析該詢問句的句子構成;通過對句子構成分析的分析結果進行分析,根據句子構成信息逐字分解該結果;通過掌握問題的疑問形式,確定用於該句子分析字典的分解的詳細問題;在句子分析字典中確定的詳細問題的標籤被角色轉換為根據所期望的詢問句的形式的檢索標籤;在句子分析字典中檢索具有轉換了的檢索標籤的字並且計數檢索的頻度;並且以頻度順序顯示檢索字、包含檢索標籤的句子和包含該句子的文件的內容。
因此,本發明中實施的自然語言檢索系統收集要索引的文件,隨後對形成每個文件的句子進行索引,並且再次根據句法分析器的輸出結果以每個句子的成分對語法功能進行索引,以便如果具有包含相關信息的文件,則能夠準確地發現和提供該文件。
例如,除了在附圖中所示的「Nooga Cheolsooreul joahani?」,如果諸如「Cheolsooga noogureul mannadni?(Cheolsoo會見了誰?)」或者「Cheolsooga mannan sarameun?(Cheolsoo去見了誰?)」的句子被輸入,則問題的焦點在於「manada(會見)」的賓語。因此,通過搜索具有作為主語的「Cheolsoo」和具有謂語「manada」的賓語的句子,能夠提供結果。
因此,由於該方法包括意思信息,在疑問句的情況下,類似的表達式被自動確定,以便能夠快速和準確地檢索並且能夠進行包含甚至是意思計算的智能檢索。
此外,能夠顯著改善檢索結果的相關性,並且超越於簡單的匹配檢索,甚至考慮語法關係的準確和智能的檢索也能進行。
而且,基於這種句法分析和自然語言檢索的韓語-外語語言翻譯機器具有新的市場。此外,能夠新創造處理智能語言的各種市場。
例如,參照附圖如上描述了和韓語應用相關的本發明的一個實施例。然而,本發明能夠被應用到具有後置詞或詞尾具有重要性的其它語言,例如日語。使用該句法分析器的自然語言檢索系統還可以被應用到計算機必須理解人類語言的所有領域,例如,在人工智慧計算機的提問和回答系統中或者在諸如Yahoo的網際網路門戶網站的搜尋引擎中。
因此,本發明的範圍並不由上述的說明來確定,而是由所附的權利要求所確定的,在不脫離由所附權利要求及其法律等價物定義的本發明的範圍的前提下可以對所說明的實施例進行變動和修改。
權利要求
1.一種用於分析句法和描述所述句法的語法功能的句法分析方法,在建立了用於分析輸入句子的語素的語素字典程序、用於存儲語法規則的語法規則資料庫以及用於存儲句子的每個成分的屬於中心字的子分類,諸如字幹和字尾的細節的子分類資料庫,以便基於將後置詞和字尾兩者都認作句法單元的標記理論,承認字形變化的字尾的句法狀態,並且字之間的組合關係能夠被在語法上定義為一個整體後,所述方法包括分析語素,其中,如果輸入要分析的句子,則根據所述語素字典程序以多語素為單位分析該語素的內容,並且在通過多語素在語素分析數據中選擇了適合於輸入數據的語素分析情況後,預處理被執行;和分析句法,其中通過使用所分析的語素,首先根據存儲在語法規則資料庫中的語法角色建立句子的部分結構,並且隨後通過使用所述子分類資料庫,建立整體結構,並且通過計算每個結構的權重值,確定最合適的優選情況並輸出。
2.如權利要求1所述的方法,其中所述分析句法包括執行預處理,其中是否在多語素列表中包括句子構成由多語素列表程序確定,並且如果有多語素句子構成,則多語素構成被轉換成多語素形式,並且字的意思由語義特徵程序確定並包括在語素中;通過操作和重複內部閉環來形成部分結構,其中,如果輸入用語音的語義特徵部分標籤的語素,該語素被當作單個語素對待,並且通過根據存儲在語法規則資料庫中的語法角色來確定是否局部結構規則被應用於所選的語素,形成局部結構,並且通過參照隨後要處理的賓語和確定是否形成了循環局部結構,建立內部結構,並且如果沒有其它的內部結構,重複執行下面的處理根據分類和句子構成以及基於子分類資料庫和修飾語類型資料庫的表達形式來形成整體結構;通過基於句子構成的位置或特性來計算每個結構的權重和選擇最重要的結構來選擇最優情況;和使用移動類型(樹型)連結線來輸出最優情況,以便在所確定的最優情況的整體結構、每個部分結構以及每個語素之間的關係由連結線對應連接和指示。
3.如權利要求2所述的方法,其中,所述語義特徵程序是用於以預定類型來分類字的意思,所述意思是用於確定語素的句法特性和意思信息的要素,以便確定有助於減少在複合句子結構中的等價結構的意思和對於每個字形變化的字的修飾語的列表的程序;所述多語素列表程序是執行按照類型以便分類同一類型的後置詞或具有後置功能的後綴的字特徵的程序;所述語法規則資料庫存儲關於定義相應詞根的語法角色的信息;子分類資料庫存儲關於能屬於一個字形變化的字的組分的細節,以及可改變的字形變化的字尾的形式的信息;並且修飾語類型資料庫存儲關於後置詞、字尾以及具有類似於後置詞或字尾功能的後綴的通用特性的信息,其確定能夠由核心字組合的局部結構的類型,作為確定多分支結構的等價結構的要素。
4.一種使用基於移動結構概念的句法分析方法的自然語言檢索方法,用於通過輸入自然語言問題來檢索文件(句子),所述方法包括分析文件,在其中作為檢索對象的文件的句子分析信息通過基於移動結構概念的句法分析方法存儲在句子信息資料庫中,在所述基於移動結構概念的句法分析方法中,建立用於存儲句子的每個成分的屬於中心字的子分類,諸如字幹和字尾的細節的子分類資料庫,以便承認字形變化的字字尾的句法狀態並且字之間的組合關係能夠被在語法上定義為一個整體;而且當輸入期望被分析的句子時,分析語素的內容,並且使用分析的語素,根據存儲在語法規則資料庫中的語法角色首先建立句子的部分結構,並且隨後,通過使用所述子分類資料庫,建立整體的結構;分析問題句法,其中在文件信息資料庫中,如果輸入了自然語言的問題,則首先根據基於移動結構概念的句法分析方法分析問題的句法,句法分析結果被根據句法信息分解成字單元,掌握問題的疑問句類型,並且確定分解的細節的問題;檢索文件,在其中在句子分析字典中確定的細節問題的標籤的角色被轉換為用於根據所期望的詢問句類型檢索的標籤,在句子分析字典中檢索具有轉換了的用於檢索的標籤的字,並且基於檢索的頻度計算排序;和顯示包括檢索字、包括用於檢索的標籤的句子和包括該句子的文件的內容的結果。
5.如權利要求4所述的方法,其中,所述檢索文件包括執行通用檢索模式(步驟),其中,僅僅使用句法分析的信息,並且僅僅基於問題的句法分析的結果,搜索已經分析過的文件資料庫並且提取和提供匹配內容;和執行特殊檢索模式(方法),其中,當在問題中包括特殊表達式時,根據檢索器的選擇,由特殊檢索規則信息和名詞系統數據產生用於特殊檢索模式的檢索條件,並且基於該條件,檢索和提供語義上取決於預定成分的內容,其中,所述通用檢索步驟是由成分匹配檢索方法和意思匹配檢索方法形成的,通過所述成分匹配檢索方法,提取和提供匹配給定問題的直接組分的數據,並且通過所述意思匹配檢索方法,包括形成問題的組分並提取和提供包括作為核心字的謂語和語義上類似的謂語的數據,並且所述特殊檢索步驟使用特殊檢索規則信息和諸如名詞系統資料庫的基於名詞的語義層級結構的資料庫。
全文摘要
本發明提供一種基於移動結構概念的句法分析方法,以及使用該句法分析方法的自然語言搜索方法。所述句法分析方法包括在建立了用於分析輸入句子的語素的語素字典程序,和存儲句子的每個成分的屬於中心字的子分類,諸如字幹和字尾的細節的子分類資料庫,以便基於將後置詞和字尾認作句法單元的標記理論來承認字形變化的字的句法狀態,並且字之間的組合關係能被在語法上被定義為一個整體之後的語素分析和句法分析。在語素分析中,如果輸入了期望要分析的句子,該語素的內容根據語素字典程序以多語素的單位被分析,並且在通過多語素操作在語素分析數據中選擇了適合於輸入數據的語素的分析情況後,執行預處理。在句法分析中,使用分析的語素,根據存儲在語法規則資料庫中的語法角色首先建立句子的部分結構,並且隨後,通過使該子分類資料庫建立整體的結構。隨後通過計算每個結構的權重值,確定最適合的最優情況並輸出。因此,任何被打亂的句子都能夠被容易和快速地分析,而不需要任何複雜的句法分析裝置。而且,能夠準確掌握在形成句子的表達式之間的關係,以便用戶請求的信息以和人類進行判斷同樣的方式來檢索,並且能夠提供準確的信息。
文檔編號G06F17/27GK1777888SQ200480011055
公開日2006年5月24日 申請日期2004年4月22日 優先權日2003年4月24日
發明者禹蕣朝 申請人:禹蕣朝

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀