一種對名詞短語進行依存句法分析的方法及系統的製作方法
2023-05-16 04:39:56
一種對名詞短語進行依存句法分析的方法及系統的製作方法
【專利摘要】本發明涉及一種對名詞短語進行依存句法分析的方法及系統,其方法包括:步驟1:基於語料資料庫對權值向量和SVM分類器進行訓練,得到穩定的權值向量和穩定SVM分類器;步驟2:接收待分析的短語進行預處理,得到至少兩個規定格式的詞語;步驟3:對所有詞語進行分析處理,得到依存句法分析樹。可以將該方法分解為兩個步驟,即首先識別出句中的複雜名詞短語,並利用本方法進行依存句法分析;然後用得到的子結構置換原句中的複雜名詞短語,從而降低句子的複雜性。由於本算法是簡單邊優先算法的改進,保持了該算法高效的優點。針對名詞短語長度較短,特徵不夠明顯的特點,引進了SVM分類器用於依存關係方向的確定,保證了算法的有效性。
【專利說明】一種對名詞短語進行依存句法分析的方法及系統
【技術領域】
[0001] 本發明涉及一種對名詞短語進行依存句法分析的方法及系統,屬於語言處理技術 領域。
【背景技術】
[0002] 依存句法分析最近幾年在自然語言處理領域如信息抽取和機器翻譯等領域受到 越來越多的關注。理論上,它植根於依存語法,關注的是詞語之間的句法依存關係。
[0003] 對於名詞短語語義結構研宄,目前主要集中在NN名詞短語的語義解釋上,主要任 務是自動獲取修飾語和中心詞之間隱含的語義關係。一般有兩種策略:
[0004] 自上而下的策略(top-down strategy),這種方法首先定義好一組關係集合,然後 為每個名詞短語分配適當的關係。
[0005] 自下而上的策略(bottom-up strategy),這種方法不定義名名關係,而是通過大 規模的語料去發現詞語組合時隱含的語義關係,一般選擇包含相關動詞的釋義語句來解釋 名名關係。
[0006] 依存句法分析一直是自然語言處理領域的熱點和難點問題之一,近年來受到了越 來越多的關注。CONLL國際會議已連續多年將依存句法分析評測列入其共享任務。目前主 流的依存句法分析算法可以歸為三類:基於轉換的句法分析方法、基於圖的句法分析方法 和同時基於圖與轉換的句法分析方法。
[0007] 基於轉換的依存句法分析方法自左向右掃描輸入的對象,利用局部特徵逐步完成 對象依存關係的獲取。該方法速度快,卻是局部最優的,即在分析的過程中它能很好地應用 待分析節點的左邊特徵以及歷史分析所得到的特徵,卻無法充分利用右側文本特徵:一般 只能用到右邊一到兩個詞距離範圍內的特徵。這也直接導致其錯誤傳播和準確率的下降。
[0008] 基於圖的依存句法分析方法對一個句子所有可能的依存句法分析樹進行分析並 分別給予相應的分值,取分值最高者為依存句法分析樹的邊。該方法能充分利用全局特徵 從而達到全局最優,然而因計算的時間複雜度太高(0(π31 Ogn))而影響了分析的效率。
[0009] 結合以上兩種方法即得到同時基於轉換和圖的方法。這種方法能結合以上兩種方 法的優點,並已經得到了廣泛應用。此外針對中文的依存句法分析,目前已經提出了基於最 大熵的依存句法分析、基於詞彙支配度的中文依存句法分析等等。
[0010] Yoav等結合兩種思想,提出了計算複雜度為0(n21 ogn)的簡單邊優先算法,圖4 為簡單邊算法的測試結果。並證明該算法對完整句子進行依存句法分析結果的準確率接近 最大生成樹算法。
【發明內容】
[0011] 本發明所要解決的技術問題是,基於傳統的依存句法分析算法多著眼於整句的分 析,導致當遇到結構比較複雜的句子時,分析的準確率的不到保證的不足;提供一種結合基 於轉換的方法和圖的方法,在簡單邊優先算法的基礎上進行改進的對名詞短語進行依存句 法分析的方法及系統。使該算法能較好地應用於中文複雜名詞短語的依存句法分析。
[0012] 本發明解決上述技術問題的技術方案如下:一種對名詞短語進行依存句法分析的 方法,具體包括以下步驟:
[0013] 步驟1 :基於語料資料庫對權值向量和SVM分類器進行訓練,得到穩定的權值向量 和穩定SVM分類器;
[0014] 步驟2 :接收待分析的短語進行預處理,得到至少兩個規定格式的詞語;
[0015] 步驟3 :對所有詞語進行分析處理,得到依存句法分析樹。
[0016] 本發明的有益效果是:本方法可以分解為兩個步驟,即首先識別出句中的複雜名 詞短語,並利用本方法進行依存句法分析;然後用得到的子結構置換原句中的複雜名詞短 語,從而降低句子的複雜性。由於本算法是簡單邊優先算法的改進,保持了該算法高效的優 點。同時,針對名詞短語長度較短,特徵不夠明顯的特點,引進了 SVM分類器用於依存關係 方向的確定,保證了算法的有效性。
[0017] 在上述技術方案的基礎上,本發明還可以做如下改進。
[0018] 進一步,所述步驟1具體包括以下步驟:
[0019] 步驟1. 1 :對語料資料庫中的已知依存關係的短語進行標註,得到訓練語料;
[0020] 步驟I. 2 :SVM分類器調用SVM自帶的訓練函數,基於訓練語料完成訓練,得到穩定 SVM分類器;
[0021] 步驟1. 3 :基於訓練函數採用判別式的算法對初始值為零的權值向量進行迭代, 直到權值向量穩定,得到穩定權值向量。
[0022] 進一步,所述步驟2具體包括以下步驟:
[0023] 步驟2. 1 :接收待待分析的短語,將所述短語進行分詞;
[0024] 步驟2. 2 :對所有詞語進行詞性標註,得到至少兩個規定格式的詞語。
[0025] 進一步,所述步驟3具體包括以下步驟:
[0026] 步驟3. 1 :基於權值向量對所有詞語匹配出其最具依賴關係的一個詞語,每兩個 具有依賴關係的詞語構成一個子樹;
[0027] 步驟3. 2 :合併子樹使子樹數量變少,直到數量減少到一,構成依存句法分析樹。
[0028] 進一步,所述步驟3. 2具體包括以下步驟:
[0029] 步驟3. 2. 1 :基於權值向量對所有子樹匹配出最具依賴關係的一個子樹,每兩個 最具依賴關係的子樹構成一個子樹對;
[0030] 步驟3. 2. 2 :基於SVM分類器確定子樹對之間的依賴關係方向;並按照依賴關係方 向合併子樹對為一個子樹;
[0031] 步驟3. 2. 3 :判斷當前子樹數量是否為一,如果是,執行步驟3. 2. 4 ;否則,執行步 驟 3. 2. 1 ;
[0032] 步驟3. 2. 4 :當前子樹構成依存句法分析樹。
[0033] 本發明解決上述技術問題的技術方案如下:一種對名詞短語進行依存句法分析的 系統,包括訓練模塊、預處理模塊和分析模塊;
[0034] 所述訓練模塊用於基於語料資料庫對權值向量和SVM分類器進行訓練,得到穩定 的權值向量和穩定SVM分類器;
[0035] 所述預處理模塊用於接收待分析的短語進行預處理,得到至少兩個規定格式的詞 語;
[0036] 所述分析模塊用於對所有詞語進行分析處理,得到依存句法分析樹。
[0037] 本發明的有益效果是:本系統首先識別出句中的複雜名詞短語,並利用本方法進 行依存句法分析;然後用得到的子結構置換原句中的複雜名詞短語,從而降低句子的複雜 性。由於本系統是簡單邊優先算法的改進,保持了該算法高效的優點。同時,針對名詞短語 長度較短,特徵不夠明顯的特點,引進了 SVM分類器用於依存關係方向的確定,保證了有效 性。
[0038] 在上述技術方案的基礎上,本發明還可以做如下改進。
[0039] 進一步,所述訓練模塊包括語料模塊、SVM訓練模塊和向量訓練模塊;
[0040] 所述語料模塊用於對語料資料庫中的已知依存關係的短語進行標註,得到訓練語 料;
[0041] 所述SVM訓練模塊用於使SVM分類器調用SVM自帶的訓練函數,基於訓練語料完 成訓練,得到穩定SVM分類器;
[0042] 所述向量訓練模塊基於訓練函數採用判別式的算法對初始值為零的權值向量進 行迭代,直到權值向量穩定,得到穩定權值向量。
[0043] 進一步,所述預處理模塊包括接收模塊和標註模塊;
[0044] 所述接收模塊用於接收待待分析的短語,將所述短語進行分詞;
[0045] 所述標註模塊用於對所有詞語進行詞性標註,得到至少兩個規定格式的詞語。
[0046] 進一步,所述分析模塊包括子樹構建模塊和合併模塊;
[0047] 所述子樹構建模塊基於權值向量對所有詞語匹配出其最具依賴關係的一個詞語, 每兩個具有依賴關係的詞語構成一個子樹;
[0048] 所述合併模塊用於合併子樹使子樹數量變少,直到數量減少到一,構成依存句法 分析樹。
[0049] 進一步,所述合併模塊包括子樹對模塊、子樹合併模塊和判斷模塊;
[0050] 所述子樹對模塊基於權值向量對所有子樹匹配出最具依賴關係的一個子樹,每兩 個最具依賴關係的子樹構成一個子樹對;
[0051] 所述子樹合併模塊基於SVM分類器確定子樹對之間的依賴關係方向;並按照依賴 關係方向合併子樹對為一個子樹;
[0052] 所述判斷模塊用於判斷當前子樹數量是否為一,如果是,當前子樹構成依存句法 分析樹;否則,觸發子樹對模塊。
[0053] 依存句法分析的方法主要是利用統計的方法,利用名詞短語中詞語的詞、詞性以 及上下文特徵,確定詞與詞之間的依存關係。通過訓練得到的特徵向量和權值向量可以確 定哪兩個詞之間存在依存關係;利用SVM可以確定該依存關係的方向,即將上一步的到的 無向邊轉換為有向邊。最終得到以一個詞為樹根的句法分析樹。
【專利附圖】
【附圖說明】
[0054] 圖1為本發明所述的一種對名詞短語進行依存句法分析的方法流程圖;
[0055] 圖2為本發明所述的一種對名詞短語進行依存句法分析的系統結構框圖;
[0056] 圖3為應用本發明所述的方法對具體短語進行具體分析的過程圖;
[0057] 圖4為現有技術中簡單邊算法的測試結果圖;
[0058] 圖5為本發明的測試結果圖。
[0059] 附圖中,各標號所代表的部件列表如下:
[0060] 1、訓練模塊,2、預處理模塊,3、分析模塊,11、語料模塊,12、SVM訓練模塊,13、向量 訓練模塊,21、接收模塊,22、標註模塊,31、子樹構建模塊,32、合併模塊。
【具體實施方式】
[0061] 以下結合附圖對本發明的原理和特徵進行描述,所舉實例只用於解釋本發明,並 非用於限定本發明的範圍。
[0062] 如圖1所示,為本發明所述的一種對名詞短語進行依存句法分析的方法,具體包 括以下步驟:
[0063] 步驟1 :對語料資料庫中的已知依存關係的短語進行標註,得到訓練語料;
[0064] 步驟2 :SVM分類器調用SVM自帶的訓練函數,基於訓練語料完成訓練,得到穩定 SVM分類器;
[0065] 步驟3 :基於訓練函數採用判別式的算法對初始值為零的權值向量進行迭代,直 到權值向量穩定,得到穩定權值向量;
[0066] 步驟4 :接收待待分析的短語,將所述短語進行分詞;
[0067] 步驟5 :對所有詞語進行詞性標註,得到至少兩個規定格式的詞語;
[0068] 步驟6 :基於權值向量對所有詞語匹配出其最具依賴關係的一個詞語,每兩個具 有依賴關係的詞語構成一個子樹;
[0069] 步驟7 :基於權值向量對所有子樹匹配出最具依賴關係的一個子樹,每兩個最具 依賴關係的子樹構成一個子樹對;
[0070] 步驟8:基於SVM分類器確定子樹對之間的依賴關係方向;並按照依賴關係方向合 並子樹對為一個子樹;
[0071] 步驟9 :判斷當前子樹數量是否為一,如果是,執行步驟10 ;否則,執行步驟7 ;
[0072] 步驟10 :當前子樹構成依存句法分析樹。
[0073] 如圖3所示,為應用本發明所述的一種對名詞短語進行依存句法分析的方法的具 體分析過程圖,具體為對短語"小狐狸歡快的跳"的分析過程。
[0074] 如圖2所示,為本發明所述的一種對名詞短語進行依存句法分析的系統,包括訓 練模塊1、預處理模塊2和分析模塊3 ;
[0075] 所述訓練模塊1用於基於語料資料庫對權值向量和SVM分類器進行訓練,得到穩 定的權值向量和穩定SVM分類器;
[0076] 所述預處理模塊2用於接收待分析的短語進行預處理,得到至少兩個規定格式的 詞語;
[0077] 所述分析模塊3用於對所有詞語進行分析處理,得到依存句法分析樹。
[0078] 所述訓練模塊1包括語料模塊11、SVM訓練模塊12和向量訓練模塊13 ;
[0079] 所述語料模塊11用於對語料資料庫中的已知依存關係的短語進行標註,得到訓 練語料;
[0080] 所述SVM訓練模塊12用於使SVM分類器調用SVM自帶的訓練函數,基於訓練語料 完成訓練,得到穩定SVM分類器;
[0081] 所述向量訓練模塊13基於訓練函數採用判別式的算法對初始值為零的權值向量 進行迭代,直到權值向量穩定,得到穩定權值向量。
[0082] 所述預處理模塊2包括接收模塊21和標註模塊22 ;
[0083] 所述接收模塊21用於接收待待分析的短語,將所述短語進行分詞;
[0084] 所述標註模塊22用於對所有詞語進行詞性標註,得到至少兩個規定格式的詞語。
[0085] 所述分析模塊3包括子樹構建模塊31和合併模塊32 ;
[0086] 所述子樹構建模塊31基於權值向量對所有詞語匹配出其最具依賴關係的一個詞 語,每兩個具有依賴關係的詞語構成一個子樹;
[0087] 所述合併模塊32用於合併子樹使子樹數量變少,直到數量減少到一,構成依存句 法分析樹。
[0088] 所述合併模塊32包括子樹對模塊、子樹合併模塊和判斷模塊;
[0089] 所述子樹對模塊基於權值向量對所有子樹匹配出最具依賴關係的一個子樹,每兩 個最具依賴關係的子樹構成一個子樹對;
[0090] 所述子樹合併模塊基於SVM分類器確定子樹對之間的依賴關係方向;並按照依賴 關係方向合併子樹對為一個子樹;
[0091] 所述判斷模塊用於判斷當前子樹數量是否為一,如果是,當前子樹構成依存句法 分析樹;否則,觸發子樹對模塊。
[0092] 實現本發明目的的研宄路線是:
[0093] 1.分析已有的算法,重點關注簡單邊優先算法應用於中文複雜名詞短語的效果;
[0094] 2.針對該算法的不足,針對性的做出改進;
[0095] 3.將SVM引入依賴關係的識別,形成完整的方法,並用語料進行測試。
[0096] 實現本發明目的的關鍵技術有:
[0097] 1.子樹:複雜名詞短語的下級結構,即由位置上鄰接的詞語之間構成的子結構, 以樹根所代表的詞為該部分的中心詞,子樹包含了大量的特徵信息;
[0098] 本發明分析用到的子樹特徵如表1所示,
[0099]
【權利要求】
1. 一種對名詞短語進行依存句法分析的方法,其特徵在於,具體包括以下步驟: 步驟1 :基於語料資料庫對權值向量和SVM分類器進行訓練,得到穩定的權值向量和穩 定SVM分類器; 步驟2 :接收待分析的短語進行預處理,得到至少兩個規定格式的詞語; 步驟3 :對所有詞語進行分析處理,得到依存句法分析樹。
2. 根據權利要求1所述的一種對名詞短語進行依存句法分析的方法,其特徵在於,所 述步驟1具體包括以下步驟: 步驟1. 1 :對語料資料庫中的已知依存關係的短語進行標註,得到訓練語料; 步驟1. 2 :SVM分類器調用SVM自帶的訓練函數,基於訓練語料完成訓練,得到穩定SVM 分類器; 步驟1. 3 :基於訓練函數採用判別式的算法對初始值為零的權值向量進行迭代,直到 權值向量穩定,得到穩定權值向量。
3. 根據權利要求1所述的一種對名詞短語進行依存句法分析的方法,其特徵在於,所 述步驟2具體包括以下步驟: 步驟2. 1 :接收待待分析的短語,將所述短語進行分詞; 步驟2. 2 :對所有詞語進行詞性標註,得到至少兩個規定格式的詞語。
4. 根據權利要求1-3任一項所述的一種對名詞短語進行依存句法分析的方法,其特徵 在於,所述步驟3具體包括以下步驟: 步驟3. 1 :基於權值向量對所有詞語匹配出其最具依賴關係的一個詞語,每兩個具有 依賴關係的詞語構成一個子樹; 步驟3. 2 :合併子樹使子樹數量變少,直到數量減少到一,構成依存句法分析樹。
5. 根據權利要求4所述的一種對名詞短語進行依存句法分析的方法,其特徵在於,所 述步驟3. 2具體包括以下步驟: 步驟3. 2. 1 :基於權值向量對所有子樹匹配出最具依賴關係的一個子樹,每兩個最具 依賴關係的子樹構成一個子樹對; 步驟3. 2. 2 :基於SVM分類器確定子樹對之間的依賴關係方向;並按照依賴關係方向合 並子樹對為一個子樹; 步驟3. 2. 3 :判斷當前子樹數量是否為一,如果是,執行步驟3. 2. 4 ;否則,執行步驟 3. 2. 1; 步驟3. 2. 4 :當前子樹構成依存句法分析樹。
6. -種對名詞短語進行依存句法分析的系統,其特徵在於,包括訓練模塊、預處理模塊 和分析模塊; 所述訓練模塊用於基於語料資料庫對權值向量和SVM分類器進行訓練,得到穩定的權 值向量和穩定SVM分類器; 所述預處理模塊用於接收待分析的短語進行預處理,得到至少兩個規定格式的詞語; 所述分析模塊用於對所有詞語進行分析處理,得到依存句法分析樹。
7. 根據權利要求6所述的一種對名詞短語進行依存句法分析的系統,其特徵在於,所 述訓練模塊包括語料模塊、SVM訓練模塊和向量訓練模塊; 所述語料模塊用於對語料資料庫中的已知依存關係的短語進行標註,得到訓練語料; 所述SVM訓練模塊用於使SVM分類器調用SVM自帶的訓練函數,基於訓練語料完成訓 練,得到穩定SVM分類器; 所述向量訓練模塊基於訓練函數採用判別式的算法對初始值為零的權值向量進行迭 代,直到權值向量穩定,得到穩定權值向量。
8. 根據權利要求6所述的一種對名詞短語進行依存句法分析的系統,其特徵在於,所 述預處理模塊包括接收模塊和標註模塊; 所述接收模塊用於接收待待分析的短語,將所述短語進行分詞; 所述標註模塊用於對所有詞語進行詞性標註,得到至少兩個規定格式的詞語。
9. 根據權利要求6-8任一項所述的一種對名詞短語進行依存句法分析的系統,其特徵 在於,所述分析模塊包括子樹構建模塊和合併模塊; 所述子樹構建模塊基於權值向量對所有詞語匹配出其最具依賴關係的一個詞語,每兩 個具有依賴關係的詞語構成一個子樹; 所述合併模塊用於合併子樹使子樹數量變少,直到數量減少到一,構成依存句法分析 樹。
10. 根據權利要求9所述的一種對名詞短語進行依存句法分析的系統,其特徵在於,所 述合併模塊包括子樹對模塊、子樹合併模塊和判斷模塊; 所述子樹對模塊基於權值向量對所有子樹匹配出最具依賴關係的一個子樹,每兩個最 具依賴關係的子樹構成一個子樹對; 所述子樹合併模塊基於SVM分類器確定子樹對之間的依賴關係方向;並按照依賴關係 方向合併子樹對為一個子樹; 所述判斷模塊用於判斷當前子樹數量是否為一,如果是,當前子樹構成依存句法分析 樹;否則,觸發子樹對模塊。
【文檔編號】G06F17/30GK104516874SQ201410837967
【公開日】2015年4月15日 申請日期:2014年12月29日 優先權日:2014年12月29日
【發明者】滕順祥, 陳永波, 姬東鴻, 白旭 申請人:北京牡丹電子集團有限責任公司數位電視技術中心