不平衡數據集上生物醫學多參事件抽取的新方法與流程
2023-10-04 12:50:09 1

本發明涉及一種生物醫學多參事件抽取的新方法,特別涉及一種不平衡數據集上生物醫學多參事件抽取的新方法。
背景技術:
當前,生物醫學文獻提供了豐富的科學知識來源,由於非結構化或半結構化的生物醫學文獻的快速增長,科研工作者需要大量的精力和時間來獲得相關的科學知識。自動抽取生物醫學事件可以應用到許多生物醫學領域。在事件抽取任務中,基於規則的方法和基於機器學習的方法是目前主要的方法。基於規則的方法同生物醫學關係抽取中基於模式的方法類似,手工定義句法規則,然後在訓練數據集中學習得到規則,從而抽取出事件。基於機器學習的方法把抽取任務看成是分類問題。以上這些方法很少提及到的一個問題就是訓練數據是高度不平衡的,負樣本的數目遠低於正樣本的數目;而且大多數的多參事件抽取方法都遵循管道模型,在對抽取的基礎上,進一步抽取多元關係,這樣容易造成級聯錯誤。這種方法直接抽取多元關係的方法,對樣本進行過濾平衡訓練的正負樣本,得到用於分類的有意義的樣本集;以及採用聯合評分機制對預測結果進行修正,可提高預測的精度。
技術實現要素:
本發明的目的是為了在高度不平衡的生物醫學文獻上進行精確的生物醫學多參事件的自動抽取,而提供的一種不平衡數據集上生物醫學多參事件抽取的新方法。
本發明提供的不平衡數據集上生物醫學多參事件抽取的新方法,其具體方法如下所述:
所需條件:生物文獻的語料庫,nltk、nltk.org分詞和分句工具以及生物醫學依存路徑分析工具以及抽取模型特徵系統;待檢測的生物醫學文本,普通PC機;
實現步驟如下:
第一部分:通過對生物文獻語料庫進行預處理,獲取多參數事件的特徵,以及採用序列模式的方法平衡訓練的正負樣本,從而得到用於分類的有意義的樣本集,具體步驟如下:
步驟1:開始,對給定的語料庫進行分詞、分句、詞性標註和路徑依存分析獲取序列庫;
步驟2:定義句子中的候選觸發詞集,它們來源於觸發詞字典,而蛋白質、帶有標籤的觸發詞以及候選觸發詞構成參數集,這樣生成候選觸發詞和各個參數形成的對集,將這些對集所包含的依存路徑中的關鍵字構造序列資料庫S;
步驟3:給定最小支持度閾值,利用序列模式算法在生成的序列庫S中挖掘出頻繁的規則或者模式;
步驟4:對無標籤的樣本判斷其依存路徑是否包含足夠多的頻繁模式序列個數,即大於給定的閾值,否則將其過濾並去掉一些負樣本;
第二部分:在選擇的樣本特徵集上訓練得到基於支持向量機的預測模型,具體步驟如下:
步驟1:在選擇的樣本集上提取四類特徵,包括Token特徵、句子特徵、詞袋特徵和外部資源特徵;
步驟2:應用支持向量機方法進行訓練得到多類別的分類器;
第三部分:對新的待測樣本利用獲取的分類模型進行預測,對預測的結果,從句子的相似度和觸發詞的重要度兩方面來得到聯合評分,進行合理的糾正,以三元關係(ti,aj,ak)的事件預測,其中ti是觸發詞,而aj,ak是兩個參數,具體步驟如下:
步驟1:計算預測結果所在語句s'與d中所有語句的相似度Sim(s′d),這裡,d={s1,s2,...,sn}是包含與預測結果相同觸發詞的所有語句集合;
步驟2:計算觸發詞重要度
步驟3:合併重要度和相似度Sim(ti,aj,ak)得到聯合評分Score(ti,aj,ak);
步驟4:給定閾值δ,如果Score(ti,aj,ak)<δ,對預測的結果進行修正。
本發明的有益效果:
本發明公開了一種利用基於頻繁序列模式的訓練樣本過濾方法和基於聯合評分機制的預測結果修正方法,自動和直接地抽取生物醫學上多參事件的新方法。此方法利用數據挖掘和自然語言處理技術,在對生物文獻的多參事件自動抽取中,首先通過對生物文獻語料庫進行分詞、分句和詞性標註的預處理,構造觸發詞字典,根據觸發詞和參數的路徑依存分析來獲取序列資料庫,對其採用序列模式發現方法獲取頻繁模式,將它們應用到訓練樣本的選擇上;然後對多參數事件提取特徵集,訓練可直接抽取多元關係的支持向量機分類器。最後將訓練的分類器對待測文本進行預測,使用了基於句子相似度和觸發詞重要度的聯合評分機制來修正預測結果。這種方法能夠高效地抽取事件的多元關係。其優點在於採用數據挖掘和自然語言處理技術,方法靈活,易於實現,可達到很高的準確度。
附圖說明
圖1為本發明所述方法中第一部分流程示意圖。
圖2為本發明所述方法中第二部分流程示意圖。
圖3為本發明所述方法中第三部分流程示意圖。
具體實施方式
由圖1、圖2和圖3所示的多參數事件抽取的流程分為三部分,具體如下:
第一部分:基於序列模式的樣本選擇:
首先利用現有的分詞、分句、詞性標註和依存路徑分析工具對生物文本進行預處理,構造序列資料庫DS,設候選觸發詞集CS={ci},i=1,2,…,n,來源於觸發詞字典,候選參數集AS={aj},j=1,2,…,m,來源於訓練語料。定義PS={(ci,aj)|(ci,aj)∈CS×AS,ci≠aj}為(觸發詞,參數)對集。抽取候選對(ci,aj)中,ci到aj的依存路徑,構成依存類型序列。
通過得到的頻繁模式集合LS,對每一個無標籤候選樣本(ci,aj,ak),對(ci,aj).和(ci,ak)進行判斷,若這兩個樣本對的依存路徑序列的最短依存路徑包含集合LS中的序列個數足夠多,則該樣本對被選擇。
第二部分:在上述選擇的樣本集上進行特徵提取,並訓練基於支持向量機分類器。
首先在選擇的樣本集上提取四類特徵,包括:
(1)Token特徵:詞幹,詞性,拼寫特徵和n-grams(n={1,2,3})特徵;
(2)句子特徵:詞袋特徵和候選實體的數量;
(3)句子依存特徵:依存路徑特徵,最短依存路徑特徵;
(4)外部資源特徵:Wordnet上位詞。
然後訓練二分類的支持向量機,採用1:多的策略解決多類別問題,獲取預測模型。
第三部分:應用訓練得到的分類器對待測樣本進行預測,對每個預測出來的多參事件的結果採用聯合評分機制進行修正。以待預測的三元事件集{(ti,aj,ak)|j≠k,ti∈CS,ai∈AS,ak∈AS}為例,下面過程是對每個三元組進行事件類型的預測,其中CS為候選實體集,來源於觸發詞字典;AS為同語句S中的候選參數集。如果三元組(ti,aj,ak)預測的事件為typ,通過聯合評分機制判斷是否為真正例。
首先計算預測結果所在語句s′與d中所有語句的相似度Sim(s』,d),這裡,d={s1,s2,…,sn}是包含與預測結果相同觸發詞的所有語句集合,並獲取最大值。
其中R(s』,si)是採用卷積深度結構語義模型模型計算語句間的相似度,它將詞向量映射到相應的語義概念向量,再利用典型的卷積神經網絡(CNN,Convolutional neural network)結構,計算每個文檔和查詢之間的相關性,通過分值進行排序,分值由計算的語義概念向量的餘餘弦值來確定。
其次計算觸發詞重要度定義PR={(typ,(ti,aj,ak)),typ∈eventTyp,
其中,P1和P2為訓練預料中觸發詞的重要度,是觸發詞ti為事件類型typ的數量,w1是觸發詞ti在預測結果集PR中屬於事件類型typ的數量,w2是ti在預測結果集PR中為觸發詞的數量,eventTyp為生物事件類型集合,D為觸發詞集合。然後,權值化重要度和相似度Sim(s′,d)對預測結果進行評分。公式為:(ti,aj,ak)∈s′其中,o為權重。最後,給定閾值δ,如果score(ti,aj,ak)<δ,修正預測的正例為負例。