新四季網

一種基於深度學習的生物醫學命名實體識別和蛋白質交互關係抽取在線系統的製作方法

2023-06-15 07:35:46 1

一種基於深度學習的生物醫學命名實體識別和蛋白質交互關係抽取在線系統的製作方法
【專利摘要】一種基於深度學習的生物醫學命名實體識別和蛋白質交互關係抽取在線系統,屬於自然語言處理領域。本發明包括基於DBN的全局優化的生物醫學命名實體識別、基於深度神經網絡和L2-SVM結合的蛋白質交互關係抽取功能以及基於B/S模式的提供圖形交互界面的在線系統。使用本發明可以對用戶待解析的生物醫學文本進行生物醫學命名實體的識別和蛋白質交互關係的自動抽取,抽取過程發揮了深度學習對特徵進行深層優化的特點,較少的依賴人工特徵參與;本發明為用戶提供蛋白質交互關係數據檢索的服務;另外,本發明還為用戶提供了對自動解析結果的修正功能。
【專利說明】-種基於深度學習的生物醫學命名實體識別和蛋白質交互 關係抽取在線系統

【技術領域】
[0001] 本發明屬於自然語言處理領域,涉及一種對生物醫學文本進行高質量的生物醫學 命名實體識別和蛋白質關係抽取的方法,具體是指基於深度神經網絡分類框架的命名實體 識別和關係抽取。

【背景技術】
[0002] 生物醫學命名實體識別(Biomedical Named Entity Recognition,Bio-NER)是 指識別文本中具有特定意義的生物醫學實體,主要包括蛋白質、DNA、RNA、cell_type、cell_ line等。目前使用最廣泛的基於機器學習方法的基本過程包括:語料預處理、抽取特徵、模 型訓練、預測。語料預處理步驟包括對生物醫學文本的操作,如大小寫轉換、分詞、詞幹化、 去停用詞等步驟。運用到的特徵主要包括:核心詞特徵、字典特徵、構詞特徵、詞形特徵、 詞綴特徵、詞性特徵、組塊特徵等。機器學習構建模型的方法主要包括:隱馬爾可夫模型 (HMM)、支持向量機模型(SVM)、最大熵模型(ME)、最大熵馬爾可夫模型(MEMM)、條件隨機域 模型(CRF)等。
[0003] 例如,ABNER(http://pages. cs. wise, edu/?bsettles/abner/)是一個標準的 命名實體識別軟體工具,其核心基於線性鏈CRF。為減少人工抽取特徵的代價,半監督學 習也被引入到機器學習方法中。李彥鵬等(Incorporating Rich Background Knowledge for Gene Named Entity Classification and Recognition,2009,BMC Bioinformatics) 從獲得的海量未標註數據中提取有用信息,然後將其作為特徵去提高監督學習的效果,在 81〇(:代3衍¥6 11中取得?值為89.05%。
[0004] 蛋白質交互關係抽取(Protein-Protein Interaction Extraction, PPIE)目的是 判斷兩個蛋白質之間是否存在關係。蛋白質關係可以被看成是一個三元組,Relation〈Prot einl, Protein2, type〉,其中Proteinl和Protein2表示兩個蛋白質實體,type表示關係類 型(有關係或者無關係兩類)。
[0005] 基於特徵的機器學習方法利用大量的語言特徵,如詞法、語法、語義等特 徵來表示關係實例,從而完成抽取任務。Miwa等(A rich feature vector for Protein-Protein Interaction extraction from multiple corpora,2009, Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, 121-130)提出了一種基於豐富特徵向量的SVM-CW方法,抽取了詞 袋特徵、最短路徑特徵和圖特徵用於學習。該方法能夠同時在多個數據集上進 行學習,在五個公共語料AIMed,Biolnfer,HPRD50, ΙΕΡΑ, LLL上F值分別達到 了 64. 2 %,68. 3 %,74. 9 %,76. 6 %,84. 1 %。基於核函數的方法可以利用依存 角軍析樹等結構化信息,Miwa 等(Protein - protein interaction extraction by leveraging multiple kernels and parsers,2009,International journal of medical informatics, 39-46)通過把不同句法解析器的輸出結果結合起來,獲得 一個多層次的抽取模型,在AMed,Biolnfer,HPRD50, ΙΕΡΑ, LLL上F值分別達到了 60. 8%,68. 1% ,70.9% ,71.7%,80. 1%。基於特徵的方法過度依賴於選取的特徵,人工 對特徵幹預程度較大,並且忽略了句法等結構特徵的作用;而基於核函數的方法計算時間 過長,抽取效率較低,而且沒有考慮詞彙特徵。
[0006] 對於實際的PPIE在線系統,大都採用基於特徵的統計機器學習的方法。Kim 等(PIE:an online prediction system for protein-protein interactions from text, 2008, Nucleic Acids Research, 411-415)建立了在線蛋白質交互關係抽取系統PIE, 可以讓用戶以文本輸入或上傳文件的格式進行訪問,系統能識別出文本中的蛋白質名稱, 並輸出蛋白質關係,最後允許用戶對系統的分析結果進行評價。該系統藉助詞彙信息和句 法信息,對文檔中的蛋白質交互關係對進行打分並顯示。
[0007] 上述傳統的機器學習方法都是在選取合適特徵的基礎上進行訓練構建模型,從而 提高識別效果。人工抽取合適特徵對於構建生物醫學命名實體識別系統具有重要作用。但 同時這些系統對特徵的依賴程度較高,而特徵都是根據領域知識和經驗人工制定的,費時 費力,需要反覆實驗才能確定最優的特徵集合。雖然半監督學習方法在一定程度上減少人 工抽取特徵的代價,但如何從大規模未標語料中自動抽取特徵、獲取更多的潛在語義信息 是眾多研究者十分關注的研究課題。
[0008] 發明的內容
[0009] 本發明提供了一種基於深度學習的全局最優的生物醫學命名實體識別方法和線 性L2-SVM相結合的蛋白質關係抽取方法,解決了人工特徵帶來的高成本、低泛化能力等難 題,提高了現有生物醫學命名實體識別和蛋白質關係抽取的水平。
[0010] 該發明主要由三大部分組成:1、基於DBN的全局優化的生物醫學命名實體識別功 能;2、基於深度神經網絡和L2-SVM結合的蛋白質交互關係抽取功能;3、基於B/S模式的在 線系統,提供圖形交互界面。生物醫學命名實體識別是生物醫學信息抽取的關鍵環節,是進 行蛋白質關係抽取等任務的前提,最終以網頁的形式實現用戶的交互界面。
[0011] 本發明採用如下的技術方案包括如下步驟:
[0012] ( 一)構建基於滑動窗口的NER輸入向量
[0013] 如下表1-1所示,對句長為N句子進行實體識別時,首先利用大小為Μ的滑動窗口 依次構造輸入向量,將窗口內所有詞向量的連接作為當前詞的向量。如當窗口 Μ取3時,對 於詞wl而言,選用〈None〉, Wp w2對應的向量首尾相接作為&的輸入向量。其中〈None〉是 為填補首位位置窗口空白設計的補位符,對應的向量為〇向量;而每個單詞的向量則通過 word2vec工具所提供的Skip-gram語言模型在大規模未標記語料上訓練得到。
[0014] 表 1-1
[0015]

【權利要求】
1. 一種基於深度學習的生物醫學命名實體識別和蛋白質交互關係抽取在線系統,其特 徵包括如下步驟: (一) 構建基於滑動窗口的NER輸入向量 如下表1-1所示,對句長為N句子進行實體識別時,首先利用大小為Μ的滑動窗口依次 構造輸入向量,將窗口內所有詞向量的連接作為當前詞的向量;當窗口 Μ取3時,對於詞wl 而言,選用〈None〉, Wp w2對應的向量首尾相接作為&的輸入向量;其中〈None〉是為填補首 位位置窗口空白設計的補位符,對應的向量為0向量;而每個單詞的向量則通過word2vec 工具所提供的Skip-gram語言模型在大規模未標記語料上訓練得到; 表1-1
(二) 構建基於DBN全局優化的NER框架 NER看作是序列標註,描述為:對於給定觀測序列〇1:τ,對其賦予特定的標記序列11:τ, 採用經典的BIO標註集,即lt e {Β,I,0},t表示序列中第t個位置;經第一步操作後,每一 個單詞的輸入向量按照順序送入基於DBN全局優化的NER框架;一個η層的模型,該框架分 為預訓練和基於全局優化的微調兩個階段: 預訓練階段,每一層按照高斯-伯努利RBM的自由能公式,ν節點取值為實數; E(v,h; Θ) = - h)2 - (9-0) 條件概率為:= l|v; Θ) = + %) (9-1) pC^lh; e)^NQ:\hl1wijhj+^,1) (9-2) RBM的訓練目標最大化v的邊緣概率的期望,即argmaxenUph 0),在訓練過程當中w 權重的更新= data_〈v九>Π (Λ1,即訓練數據的觀察期望減去模型分布的期望;後 者;由Gibbs採樣獲得; 全局優化的微調階段,其中ν為輸入層,前η層各參數由預訓練階 段獲得;將ν記作h° ;為了實現全局範圍的優化,引入了一個轉移特徵, -
:目應的全局最優的條件概率為: P(,i:rlvi:r) = =
(9'3) 表1-2系統流程
其中是對應的需要進行訓練的係數;要計算的條件概率p(11:t|Vi:t)是在整個句子 的範圍內進行全局優化的,而不是局部優化後再做出調整;神經網絡的訓練,即後向傳播算 法,分成三個部分:λ的學習,Y的學習,權重W的學習;偏導公式分別如下:
(9-4) (9-5) (9 6) 其中,每一層的權重w ;通過鏈法則進行逐級求偏導,以上只給出對第η層w求偏導的 公式; (三) ΡΡΙ特徵提取 其中,抽取了四種常見的ΡΡΙ特徵: 1、 蛋白質特徵(Ρ):-個ΡΡΙ實例中涉及到的兩個蛋白質名; 2、 上下文特徵(C):蛋白質周圍的詞,在window中的詞(不包含蛋白質本身)被視為 context 特徵; 3、 中間詞特徵(B):在蛋白質之間的詞; 4、 句子特徵(S):整個句子; 表2-3特徵提取
(四) 向量組合 由於上述特徵的長度不固定,而算法的輸入向量是大小固定的,所以需要將原始特徵 變成大小固定的向量;採取向量組合的方法完成這一功能,具體如下: max :取η個向量每個維度的最大值; min :取η個向量每個維度的最小值; mean :η個向量相加後除以η ; sum :η個向量相加; 表3-4向量組合
(五)CNN與L2-SVM相結合的蛋白質關係抽取 表4_5蛋白質關係抽取
神經網絡與SVM的結合方式,頂層不再是softmax,而是L2-SVM ;將SVM最大間隔的思 想與深度神經網絡結合起來,在保證特徵優化的同時擁有更強的分類能力;SVM帶約束的 目標優化函數為: minWi£n ^wfw + C Ση=ι ε-η (s.t. wtxntn >1 - εη, Υηεη > 0) (9-7) 其中ε n是鬆弛變量,t即target,即實例x的標記,C是懲罰因子;通過引入拉格朗日 乘子,;將上述目標函數表示為不帶約束的目標函數,即L2-SVM的損失函數,記作: mmw^wtw + C Σ^=1 max (1 - wtxntn, Ο)2 (9-8) 對第n層1^求偏導公式如下: - W - 2Ctnw(max (1 - 0)) 19-9)。 抓η
【文檔編號】G06F17/20GK104298651SQ201410453911
【公開日】2015年1月21日 申請日期:2014年9月9日 優先權日:2014年9月9日
【發明者】李麗雙, 蔣振超 申請人:大連理工大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀