一種隱式篇章關係的分析方法及系統的製作方法
2023-09-21 11:27:50 1
一種隱式篇章關係的分析方法及系統的製作方法
【專利摘要】本申請公開了一種隱式篇章關係的分析方法及系統,其中方法包括:接收輸入的包括前置論元和後置論元的待測隱式論元實例,在語料庫中篩選與其具有語義平行性且包含預設連接線索詞的顯式論元實例,計算每個顯式論元實例與待測隱式論元實例的語義平行度,按照第一預設規則篩選出若干個顯式論元實例,確定為平行顯式論元實例集合,計算每個平行顯式論元實例的篇章關係的置信度,至少利用每個平行顯式論元實例的語義平行度、篇章關係置信度及第二預設規則,計算平行顯式論元實例集合中每一類篇章關係與待測隱式論元實例的篇章關係的平行概率,將平行概率最大的一類篇章關係確定為待測隱式論元實例的篇章關係。實現了對於隱式篇章關係的識別的目的。
【專利說明】一種隱式篇章關係的分析方法及系統
【技術領域】
[0001] 本申請涉及自然語言處理【技術領域】,更具體地說,涉及一種隱式篇章關係的分析 方法及系統。
【背景技術】
[0002] 在篇章研究領域,篇章是論元經過語義關聯和結構化組織形成的自然語言文體。 篇章關係是同一篇章內部,相鄰論元或跨度在一定範圍內的論元間的語義關聯性質,如對 比關係、擴展關係等。其中,論元是篇章中具有獨立語義的文字片段,是形成篇章關係的基 本表現單元。篇章關係分析是解釋論元間的語義關係。
[0003] 根據論元間是否存在顯式連接詞(如"所以"等),篇章關係可以劃分為顯式關係 和隱式關係兩類。顯式關係因具有連接詞等指向特定篇章關係的直觀線索而易於檢測。但 是,隱式篇章關係由於缺乏連接詞,其檢測難度非常大,目前還沒有一種有效的方案,能夠 針對隱式篇章關係進行分析。
【發明內容】
[0004] 有鑑於此,本申請提供了一種隱式篇章關係的分析方法及系統,用於解決現有技 術缺乏對隱式篇章關係進行分析的有效方案。
[0005] 為了實現上述目的,現提出的方案如下:
[0006] -種隱式篇章關係的分析方法,包括:
[0007] 接收用戶輸入的包括前置論元和後置論元的待測隱式論元實例;
[0008] 在語料庫中篩選與所述待測隱式論元實例具有語義平行性且包含預設連接線索 詞的顯式論元實例;
[0009] 計算每個所述顯式論元實例與所述待測隱式論元實例的語義平行度;
[0010] 按照第一預設規則,篩選出若干個所述顯式論元實例並確定為平行顯式論元實例 集合;
[0011] 計算每一個平行顯式論元實例的篇章關係的置信度;
[0012] 至少利用每一個平行顯式論元實例的語義平行度、篇章關係置信度及第二預設規 貝1J,計算平行顯式論元實例集合中每一類篇章關係與待測隱式論元實例的篇章關係的平行 概率;
[0013] 將平行概率最大的一類篇章關係確定為所述待測隱式論元實例的篇章關係。
[0014] 優選地,所述在語料庫中篩選出與所述待測隱式論元實例具有語義平行性且包含 預設連接線索詞的顯式論元實例為:
[0015] 分別抽取所述待測隱式論元實例的前置論元、後置論元的二元文法,得到若干個 前置文法和若干個後置文法;
[0016] 將每一個所述前置文法分別與各個所述後置文法進行組合,並將每一個組合確定 為一個查詢條件;
[0017] 利用每一個所述查詢條件在所述語料庫中查找包含預設連接線索詞的顯式論元 實例。
[0018] 優選地,所述計算每個所述顯式論元實例與所述待測隱式論元實例的語義平行度 為:
[0019] 利用Jaccard算法,計算每個所述顯式論元實例的前置論元與所述待測隱式論元 實例的前置論元的平行度,確定為第一平行度;
[0020] 利用Jaccard算法,計算每個所述顯式論元實例的後置論元與所述待測隱式論元 實例的後置論元的平行度,確定為第二平行度;
[0021] 求取所述第一平行度與所述第二平行度的平均值,並確定為所述待測隱式論元實 例的語義平行度。
[0022] 優選地,所述第一預設規則為:
[0023] 選取順序排列的若干個顯式論元實例中預設比例的前η個顯式論元實例,確定為 平行顯式論元實例集合;或者,
[0024] 選取滿足預設語義平行度參考值的顯式論元實例,確定為平行顯式論元實例集 合。
[0025] 優選地,所述計算每一個平行顯式論元實例的篇章關係的置信度為:
【權利要求】
1. 一種隱式篇章關係的分析方法,其特徵在於,包括: 接收用戶輸入的包括前置論元和後置論元的待測隱式論元實例; 在語料庫中篩選與所述待測隱式論元實例具有語義平行性且包含預設連接線索詞的 顯式論元實例; 計算每個所述顯式論元實例與所述待測隱式論元實例的語義平行度; 按照第一預設規則,篩選出若干個所述顯式論元實例並確定為平行顯式論元實例集 合; 計算每一個平行顯式論元實例的篇章關係的置信度; 至少利用每一個平行顯式論元實例的語義平行度、篇章關係置信度及第二預設規則, 計算平行顯式論元實例集合中每一類篇章關係與待測隱式論元實例的篇章關係的平行概 率; 將平行概率最大的一類篇章關係確定為所述待測隱式論元實例的篇章關係。
2. 根據權利要求1所述的分析方法,其特徵在於,所述在語料庫中篩選出與所述待測 隱式論元實例具有語義平行性且包含預設連接線索詞的顯式論元實例為: 分別抽取所述待測隱式論元實例的前置論元、後置論元的二元文法,得到若干個前置 文法和若干個後置文法; 將每一個所述前置文法分別與各個所述後置文法進行組合,並將每一個組合確定為一 個查詢條件; 利用每一個所述查詢條件在所述語料庫中查找包含預設連接線索詞的顯式論元實例。
3. 根據權利要求2所述的分析方法,其特徵在於,所述計算每個所述顯式論元實例與 所述待測隱式論元實例的語義平行度為: 利用Jaccard算法,計算每個所述顯式論元實例的前置論元與所述待測隱式論元實例 的前置論元的平行度,確定為第一平行度; 利用Jaccard算法,計算每個所述顯式論元實例的後置論元與所述待測隱式論元實例 的後置論元的平行度,確定為第二平行度; 求取所述第一平行度與所述第二平行度的平均值,並確定為所述待測隱式論元實例的 語義平行度。
4. 根據權利要求3所述的分析方法,其特徵在於,所述第一預設規則為: 選取順序排列的若干個顯式論元實例中預設比例的前η個顯式論元實例,確定為平行 顯式論元實例集合;或者, 選取滿足預設語義平行度參考值的顯式論元實例,確定為平行顯式論元實例集合。
5. 根據權利要求4所述的分析方法,其特徵在於,所述計算每一個平行顯式論元實例 的篇章關係的置信度為: ? G丨.logiG) j fences Gj = I gj_gn〇rm(j) I 其中,j代表篇章關係,gj表示篇章關係j在平行顯式論元實例集合中的概率分布, gn_(j)表示篇章關係J在所述語料庫中的概率分布,G」表示篇章關係J的分布概率差異, j G sences,sences為篇章關係集合。
6. 根據權利要求5所述的分析方法,其特徵在於,所述至少利用每一個平行顯式論元 實例的語義平行度、篇章關係置信度及第二預設規則,計算平行顯式論元實例集合中每一 類篇章關係與待測隱式論元實例的篇章關係的平行概率為: 將每一個所述平行顯式論元實例的語義平行度與篇章關係置信度相乘,相乘結果確定 為平行概率P。:
其中,u為具有篇章關係c的所有平行顯式論元實例的集合,simi為第i個平行顯式論 元實例與待測隱式論元實例的語義平行度,氏為第i個平行顯式論元實例的篇章關係的置 信度。
7. 根據權利要求5所述的分析方法,其特徵在於,在所述計算每一個平行顯式論元實 例的篇章關係的置信度之後,還包括: 計算每一個平行顯式論元實例與待測隱式論元實例的同指焦點一致性概率,過程如 下: 利用下述公式分別計算待測隱式論元實例中的每個論元特徵作為論元焦點的概率,以 及計算各個平行顯式論元實例中的每個論元特徵作為論元焦點的概率:
其中,P(f| t)表示當前論元實例t中的論元特徵f作為論元焦點的概率,wi為論元特 徵,h表示當前論元實例所屬的篇章中TFIDF權重最高的nk個關鍵詞中的第j個,當前論 元實例t為待測隱式論元實例或者任意一個平行顯式論元實例; 其中,rel (Wi, kj)表示論元特徵&與篇章中某個關鍵詞kj的相關性,PMI (Wi, kj)表示 Wi與&的互信息,P (Key |kj表示關鍵詞&在篇章中的關鍵程度,由關鍵詞&在篇章中的 分散分布頻率除以關鍵詞頻率計算得出; 在以論元特徵為X軸,論元特徵作為論元焦點的概率為y軸的二維坐標系中,將表徵待 測隱式論元實例中各個論元特徵作為論元焦點的概率的點進行擬合,得到待測隱式論元實 例的焦點概率曲線,將表徵每個平行顯式論元實例中各個論元特徵作為論元焦點的概率點 進行擬合,得到每一個平行顯式論元實例的焦點概率曲線; 計算每一個平行顯式論元實例與待測隱式論元實例的同指焦點一致性概率Di ;
其中,h為平行顯示論元實例和待測隱式論元實例中所有不同的論元特徵的個數, fi(x)和A(X)分別表示待測隱式論元實例和平行顯式論元實例的焦點概率曲線。
8. 根據權利要求7所述的分析方法,其特徵在於,所述至少利用每一個平行顯式論元 實例的語義平行度、篇章關係置信度及第二預設規則,計算平行顯式論元實例集合中每一 類篇章關係與待測隱式論元實例的篇章關係的平行概率為: 將每一個所述平行顯式論元實例的語義平行度、篇章關係置信度和同指焦點一致性概 率相乘,相乘結果確定為平行概率P。:
其中,U為具有篇章關係C的所有平行顯式論元實例的集合,sinii為第i個平行顯式論 元實例與待測隱式論元實例的語義平行度,Hi為第i個平行顯式論元實例的篇章關係的置 信度,Di為第i個平行顯式論元實例與待測隱式論元實例的同指焦點一致性概率。
9. 一種隱式篇章關係的分析系統,其特徵在於,包括: 數據接收單元,用於接收用戶輸入的包括前置論元和後置論元的待測隱式論元實例; 第一篩選單元,用於在語料庫中篩選與所述待測隱式論元實例具有語義平行性且包含 預設連接線索詞的顯式論元實例; 第一計算單元,用於計算每個所述顯式論元實例與所述待測隱式論元實例的語義平行 度; 第二篩選單元,用於按照第一預設規則,篩選出若干個所述顯式論元實例並確定為平 行顯式論元實例集合; 第二計算單元,用於計算每一個平行顯式論元實例的篇章關係的置信度; 第三計算單元,用於至少利用每一個平行顯式論元實例的語義平行度、篇章關係置信 度及第二預設規則,計算平行顯式論元實例集合中每一類篇章關係與待測隱式論元實例的 篇章關係的平行概率; 關係確定單元,用於將平行概率最大的一類篇章關係確定為所述待測隱式論元實例的 篇章關係。
10. 根據權利要求9所述的分析系統,其特徵在於,所述第一篩選單元包括: 抽取單元,用於分別抽取所述待測隱式論元實例的前置論元、後置論元的二元文法,得 到若干個前置文法和若干個後置文法; 組合單元,用於將每一個所述前置文法分別與各個所述後置文法進行組合,並將每一 個組合確定為一個查詢條件; 查詢單元,用於利用每一個所述查詢條件在所述語料庫中查找包含預設連接線索詞的 顯式論元實例。
【文檔編號】G06F17/30GK104090868SQ201410379412
【公開日】2014年10月8日 申請日期:2014年8月4日 優先權日:2014年8月4日
【發明者】洪宇, 車婷婷, 姚建民 申請人:蘇州大學