新四季網

不平衡數據集上生物醫學多參事件抽取的新方法與流程

2023-10-04 12:50:09 1


本發明涉及一種生物醫學多參事件抽取的新方法,特別涉及一種不平衡數據集上生物醫學多參事件抽取的新方法。



背景技術:

當前,生物醫學文獻提供了豐富的科學知識來源,由於非結構化或半結構化的生物醫學文獻的快速增長,科研工作者需要大量的精力和時間來獲得相關的科學知識。自動抽取生物醫學事件可以應用到許多生物醫學領域。在事件抽取任務中,基於規則的方法和基於機器學習的方法是目前主要的方法。基於規則的方法同生物醫學關係抽取中基於模式的方法類似,手工定義句法規則,然後在訓練數據集中學習得到規則,從而抽取出事件。基於機器學習的方法把抽取任務看成是分類問題。以上這些方法很少提及到的一個問題就是訓練數據是高度不平衡的,負樣本的數目遠低於正樣本的數目;而且大多數的多參事件抽取方法都遵循管道模型,在對抽取的基礎上,進一步抽取多元關係,這樣容易造成級聯錯誤。這種方法直接抽取多元關係的方法,對樣本進行過濾平衡訓練的正負樣本,得到用於分類的有意義的樣本集;以及採用聯合評分機制對預測結果進行修正,可提高預測的精度。



技術實現要素:

本發明的目的是為了在高度不平衡的生物醫學文獻上進行精確的生物醫學多參事件的自動抽取,而提供的一種不平衡數據集上生物醫學多參事件抽取的新方法。

本發明提供的不平衡數據集上生物醫學多參事件抽取的新方法,其具體方法如下所述:

所需條件:生物文獻的語料庫,nltk、nltk.org分詞和分句工具以及生物醫學依存路徑分析工具以及抽取模型特徵系統;待檢測的生物醫學文本,普通PC機;

實現步驟如下:

第一部分:通過對生物文獻語料庫進行預處理,獲取多參數事件的特徵,以及採用序列模式的方法平衡訓練的正負樣本,從而得到用於分類的有意義的樣本集,具體步驟如下:

步驟1:開始,對給定的語料庫進行分詞、分句、詞性標註和路徑依存分析獲取序列庫;

步驟2:定義句子中的候選觸發詞集,它們來源於觸發詞字典,而蛋白質、帶有標籤的觸發詞以及候選觸發詞構成參數集,這樣生成候選觸發詞和各個參數形成的對集,將這些對集所包含的依存路徑中的關鍵字構造序列資料庫S;

步驟3:給定最小支持度閾值,利用序列模式算法在生成的序列庫S中挖掘出頻繁的規則或者模式;

步驟4:對無標籤的樣本判斷其依存路徑是否包含足夠多的頻繁模式序列個數,即大於給定的閾值,否則將其過濾並去掉一些負樣本;

第二部分:在選擇的樣本特徵集上訓練得到基於支持向量機的預測模型,具體步驟如下:

步驟1:在選擇的樣本集上提取四類特徵,包括Token特徵、句子特徵、詞袋特徵和外部資源特徵;

步驟2:應用支持向量機方法進行訓練得到多類別的分類器;

第三部分:對新的待測樣本利用獲取的分類模型進行預測,對預測的結果,從句子的相似度和觸發詞的重要度兩方面來得到聯合評分,進行合理的糾正,以三元關係(ti,aj,ak)的事件預測,其中ti是觸發詞,而aj,ak是兩個參數,具體步驟如下:

步驟1:計算預測結果所在語句s'與d中所有語句的相似度Sim(s′d),這裡,d={s1,s2,...,sn}是包含與預測結果相同觸發詞的所有語句集合;

步驟2:計算觸發詞重要度

步驟3:合併重要度和相似度Sim(ti,aj,ak)得到聯合評分Score(ti,aj,ak);

步驟4:給定閾值δ,如果Score(ti,aj,ak)<δ,對預測的結果進行修正。

本發明的有益效果:

本發明公開了一種利用基於頻繁序列模式的訓練樣本過濾方法和基於聯合評分機制的預測結果修正方法,自動和直接地抽取生物醫學上多參事件的新方法。此方法利用數據挖掘和自然語言處理技術,在對生物文獻的多參事件自動抽取中,首先通過對生物文獻語料庫進行分詞、分句和詞性標註的預處理,構造觸發詞字典,根據觸發詞和參數的路徑依存分析來獲取序列資料庫,對其採用序列模式發現方法獲取頻繁模式,將它們應用到訓練樣本的選擇上;然後對多參數事件提取特徵集,訓練可直接抽取多元關係的支持向量機分類器。最後將訓練的分類器對待測文本進行預測,使用了基於句子相似度和觸發詞重要度的聯合評分機制來修正預測結果。這種方法能夠高效地抽取事件的多元關係。其優點在於採用數據挖掘和自然語言處理技術,方法靈活,易於實現,可達到很高的準確度。

附圖說明

圖1為本發明所述方法中第一部分流程示意圖。

圖2為本發明所述方法中第二部分流程示意圖。

圖3為本發明所述方法中第三部分流程示意圖。

具體實施方式

由圖1、圖2和圖3所示的多參數事件抽取的流程分為三部分,具體如下:

第一部分:基於序列模式的樣本選擇:

首先利用現有的分詞、分句、詞性標註和依存路徑分析工具對生物文本進行預處理,構造序列資料庫DS,設候選觸發詞集CS={ci},i=1,2,…,n,來源於觸發詞字典,候選參數集AS={aj},j=1,2,…,m,來源於訓練語料。定義PS={(ci,aj)|(ci,aj)∈CS×AS,ci≠aj}為(觸發詞,參數)對集。抽取候選對(ci,aj)中,ci到aj的依存路徑,構成依存類型序列。

通過得到的頻繁模式集合LS,對每一個無標籤候選樣本(ci,aj,ak),對(ci,aj).和(ci,ak)進行判斷,若這兩個樣本對的依存路徑序列的最短依存路徑包含集合LS中的序列個數足夠多,則該樣本對被選擇。

第二部分:在上述選擇的樣本集上進行特徵提取,並訓練基於支持向量機分類器。

首先在選擇的樣本集上提取四類特徵,包括:

(1)Token特徵:詞幹,詞性,拼寫特徵和n-grams(n={1,2,3})特徵;

(2)句子特徵:詞袋特徵和候選實體的數量;

(3)句子依存特徵:依存路徑特徵,最短依存路徑特徵;

(4)外部資源特徵:Wordnet上位詞。

然後訓練二分類的支持向量機,採用1:多的策略解決多類別問題,獲取預測模型。

第三部分:應用訓練得到的分類器對待測樣本進行預測,對每個預測出來的多參事件的結果採用聯合評分機制進行修正。以待預測的三元事件集{(ti,aj,ak)|j≠k,ti∈CS,ai∈AS,ak∈AS}為例,下面過程是對每個三元組進行事件類型的預測,其中CS為候選實體集,來源於觸發詞字典;AS為同語句S中的候選參數集。如果三元組(ti,aj,ak)預測的事件為typ,通過聯合評分機制判斷是否為真正例。

首先計算預測結果所在語句s′與d中所有語句的相似度Sim(s』,d),這裡,d={s1,s2,…,sn}是包含與預測結果相同觸發詞的所有語句集合,並獲取最大值。

其中R(s』,si)是採用卷積深度結構語義模型模型計算語句間的相似度,它將詞向量映射到相應的語義概念向量,再利用典型的卷積神經網絡(CNN,Convolutional neural network)結構,計算每個文檔和查詢之間的相關性,通過分值進行排序,分值由計算的語義概念向量的餘餘弦值來確定。

其次計算觸發詞重要度定義PR={(typ,(ti,aj,ak)),typ∈eventTyp,

其中,P1和P2為訓練預料中觸發詞的重要度,是觸發詞ti為事件類型typ的數量,w1是觸發詞ti在預測結果集PR中屬於事件類型typ的數量,w2是ti在預測結果集PR中為觸發詞的數量,eventTyp為生物事件類型集合,D為觸發詞集合。然後,權值化重要度和相似度Sim(s′,d)對預測結果進行評分。公式為:(ti,aj,ak)∈s′其中,o為權重。最後,給定閾值δ,如果score(ti,aj,ak)<δ,修正預測的正例為負例。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀