新四季網

基於蛋白質相互作用網絡和蛋白質組學的蛋白質鑑定方法

2024-04-03 03:35:05

基於蛋白質相互作用網絡和蛋白質組學的蛋白質鑑定方法
【專利摘要】本發明公開了一種基於蛋白質相互作用網絡和蛋白質組學的蛋白質鑑定方法。該方法基於相互作用蛋白質間的存在概率亦相互影響的現象,在鳥槍法蛋白質組學數據上融合蛋白質相互作用網絡信息,定義了新的蛋白質鑑定圖模型,利用圖模型中蛋白質的存在概率及其所獲得的鄰居蛋白質結點的支持度來調整肽映射到蛋白質的概率,從而調整蛋白質的存在概率。該方法能識別大部分的蛋白質,與其它鑑定方法比較,具有較的高的精確度。為生物學家通過蛋白質組學數據推斷和鑑定蛋白質的實驗以及進一步研究提供有價值的參考信息。
【專利說明】基於蛋白質相互作用網絡和蛋白質組學的蛋白質鑑定方法

【技術領域】
[0001] 本發明屬於系統生物學領域,尤其涉及一種基於蛋白質相互作用網絡和蛋白質組 學的蛋白質鑑定方法。

【背景技術】
[0002] 人類基因組測序的完成標誌著後基因組時代的來臨,而蛋白質組學是後基因組時 代中最重要的領域之一。蛋白質組學的目的是通過系統地、定量地研究蛋白質在細胞組織 中的表達情況,來揭示基因的功能、蛋白質之間的關係以及生命過程的運行機制。其主要任 務包括:蛋白質序列鑑定、蛋白質修飾鑑定、蛋白質定量分析、蛋白質結構預測和蛋白質功 能預測等問題,而確定出某種細胞器官或組織在一定條件下表達出了哪些蛋白質是其最基 本任務之一。
[0003] 目前,蛋白質鑑定主要是採用鳥槍法蛋白質組學研究方法,其步驟是先將標識生 物樣本中的蛋白質混合物經過簡單或不經過分離就被酶解為肽段混合物,肽段混合物經色 譜分離和離子化後,經串聯質譜儀產生質譜數據用於肽段鑑定,最後再從鑑定的肽段推導 可能的蛋白質。該方法可在短時間內獲得大量質譜數據並鑑定出蛋白質。
[0004] 目前,用於鳥槍法蛋白質組學中鑑定蛋白質的方法包括基於圖模型、基於統計模 型、基於優化模型、基於節儉模型、基於多信息集成的分析方法。
[0005] 基於統計模型鑑定方法主要包括 ProteinProphet、PANORAMICS、MSBayesPro、 Fido、Qscore等方法。其主要思想是用肽鑑定軟體得出的肽得分和相關信息,通過統計方 法估算出給定蛋白質存在的概率。基於統計模型方法可以分為非參數統計模型和參數統計 模型。非參數統計模式未考慮肽樣本的概率分布,較參數統計模型而言,非參數統計模型 具有更高的魯棒性。ProteinProphet是應用最廣泛的蛋白質推斷方法,該方法是採用一個 迭代過程來估計蛋白質概率,在迭代過程中不斷調整蛋白質概率。PAN0RAMICS也是一個與 ProteinProphet類似的方法,它在迭代推斷蛋白質過程中不斷的調整肽和蛋白質概率,直 到收斂。針對一個肽映射多個蛋白質的情況,MSBayesPro、Fido應用貝葉斯方法推斷蛋白 質存在概率。Qscore是一個參數統計模型來預測蛋白質概率,該方法應用一個類似於二項 式分布的統計算法,其參數使用如蛋白質大小、肽匹配質量、一個蛋白質匹配的肽數量、質 譜數據集大小等。PR0T_R0BE方法在蛋白質資料庫搜索能得到適當肽的概率時,使用二項式 分布模型推斷蛋白質概率,它還設計了一個多項式模型用於任何蛋白質資料庫搜索的肽結 果。ComByne應用p值方法對偶然出現的肽的概率進行建模,並充分利用蛋白質長度、保留 時間和譜相關係數等信息,採用多重假設檢驗方法來評估蛋白質存在可信度。
[0006] 基於節儉模型鑑定方法主要包括IDPicker、DBParser、MassSieve、LDFA、 ProteinLasso等方法。這些方法的主要思想是將肽和蛋白質描述為二分圖模型,使用最少 的蛋白質子集來解釋所有被標識的肽,將問題規約為集合覆蓋問題(NP難問題)。IDPicker 首先根據用戶設定的假陽率過濾低可信度的肽集合,然後使用貪婪算法去選擇候選的蛋白 質來覆蓋所有保留的肽。該方法還支持把重複的肽標識歸類。DBParser將蛋白質分成6個 層次,應用節儉模型分別得到每一個層次的蛋白質列表。該方法首先獲得無二義的蛋白質 列表,然後得出不明確的蛋白質列表,最後對已推斷的蛋白質去冗。LDFA是引入肽的可測 度,應用簡單的貪婪算法解決蛋白質集合覆蓋所有標識肽問題。ProteinLasso也引入了肽 的可測度,應用Lasso算法解決蛋白質集合覆蓋所有標識肽問題。
[0007] 基於優化模型的主要思想是:在二分圖的模型的基礎上,應用優化模型獲取所有 的滿足一些簡單標準的潛在蛋白質列表,這是基於蛋白質樣本中有一大部分是同源蛋白質 的假設。DTASelect是經典的優化模型,該方法能推斷出的包含充分數量肽的蛋白質。
[0008] 基於多元信息集成的分析方法的主要思想是引入一些額外已知信息,如原始的二 級質譜數據、一級質譜數據、mRNA表達數據、蛋白質相互作用網絡、基因模型等,來提高蛋白 質鑑定的準確度,以及推斷出一些未被肽識別的蛋白質。方法要包括PIPER、CEA、MSNet、 MSpresso、nested model、HSM、Barista、PSC、PeptideClassifier 等方法。HSM 融合了原 始的二級質譜數據,該方法構造了層次統計模型根據串聯質譜數據來評估肽和蛋白質自信 度。Nested model也融合了質譜數據,提出了一個反饋機制用於同時估計蛋白質和肽的 概率,但該方法沒有考慮一個肽映射多個蛋白質的情況。Barista應用三部圖來描述蛋白 質鑑定問題,三部圖中每層分別對應質譜、肽和蛋白質,三部圖和一些肽譜匹配的特徵作為 Barista的輸入,用機器學習方法直接優化蛋白質總數,並發掘在已鑑定蛋白質中肽譜匹配 得分低的肽和譜。Scaffold採用了肽-譜-蛋白質圖結構,該方法選擇沒有選擇一個最優 的肽,還是選擇了對應的多個可能的肽,然後構造肽組和蛋白質間的多對多的關係,最後採 用貪婪算法鑑定出最有可能的蛋白質。PIPER提出來源於相同蛋白質的肽具有相關的表達 譜的假設,融合肽表達譜信息來鑑定蛋白質,通過表達譜相關性過濾,該方法輸出結果包含 差異表達蛋白質和假陽錯誤率的估計。CEA和MSNet在進行蛋白質鑑定後,通過融合蛋白質 相互作用網絡信息推斷出高自信的蛋白質列表。MSpresso基於mRNA的表達越高的蛋白質 存在可能性越大的假設,通過融合mRNA表達信息對鑑定出的蛋白質得分進行重新調整。
[0009] 上述各類方法從不同的角度解決了從肽推斷蛋白質中存在的一些問題。其中,基 於二分圖模型的方法因其建模簡單而得到了廣泛應用。之前提出的絕大多數的方法都是基 於二分圖模型來設計的。但是,由於蛋白質推斷問題本身的複雜性,如:一個肽映射不同蛋 白質的問題(即共享肽問題),基於二分圖模型的方法無法準確推斷出共享肽歸屬哪個蛋 白質。此外,當前的很多鑑定方法仍然處於"黑盒子"階段,它們很少考慮共享肽,或者沒有 對共享肽映射到蛋白質的關係進行解釋,這不利於進一步的蛋白質鑑定和定量分析工作。 由於蛋白質並不是孤立地起作用,本發明從蛋白質之間相互作用的角度出發,借鑑融合多 元信息集成的分析方法,深層次使用蛋白質相互作用網絡對以前構建的二分圖模型(肽到 蛋白質模型)進行重新定義,在此基礎上設計蛋白質鑑定方法,從而提高蛋白質定性的精 確度。蛋白質鑑定時,存在一個肽映射不同蛋白質的情況(即共享肽),而現有技術很少考 慮共享肽,或者沒有對共享肽映射到蛋白質的關係進行解釋,這不利於進一步的蛋白質鑑 定和定量分析。


【發明內容】

[0010] 本發明所要解決的技術問題是:基於相互作用蛋白質間的存在概率亦相互影響的 現象,提出了一種基於蛋白質相互作用網絡和蛋白質組學的蛋白質鑑定方法,該方法識別 精度商。 toon] 本發明的技術方案為:
[0012] 一種基於蛋白質相互作用網絡和蛋白質組學的蛋白質鑑定方法,包括以下步驟:
[0013] 步驟一:通過質譜識別軟體比較理論質譜圖和實驗質譜圖,得到肽的存在概率 Probpep」,過濾概率小於0. 05的肽;
[0014] 步驟二:根據過濾後的肽建立肽映射蛋白質的二分圖匕(隊,1^,幻,其中附為肽結 點集合,M」為蛋白質結點集合,E為表示肽和蛋白質映射關係的邊的集合;
[0015] 輸入一組蛋白質相互作用數據,過濾掉其中的重複相互作用和自相互作用數據, 在二分圖上蛋白質側建立蛋白質相互作用無向圖G U(NU,E'),其中Nu為蛋白質結點集合,Nu 結點集合與二分圖中%結點集合相同,E'為表示蛋白質相互作用信息的邊的集合;
[0016] 步驟三:計算Gv中蛋白質的存在概率ProbpM_j :
[0017]

【權利要求】
1. 一種基於蛋白質相互作用網絡和蛋白質組學的蛋白質鑑定方法,其特徵在於,包括 以下步驟: 步驟一:通過質譜識別軟體比較理論質譜圖和實驗質譜圖,得到肽的存在概率Probpep i,過濾概率小於0. 05的肽; 步驟二:根據過濾後的肽建立肽映射蛋白質的二分圖Gv(Ni,E),其中Ni為肽結點集 合,M」為蛋白質結點集合,E為表示肽和蛋白質映射關係的邊的集合; 輸入一組蛋白質相互作用數據,過濾掉其中的重複相互作用和自相互作用數據,在二 分圖上蛋白質側建立蛋白質相互作用無向圖GU(NU,E'),其中Nu為蛋白質結點集合,N u結點 集合與二分圖中%結點集合相同,E'為表示蛋白質相互作用信息的邊的集合; 步驟三:計算G,,中蛋白質的存在概率Prob"" ;:
其中,ProbpM_j表示蛋白質j的存在概率,Proby表示肽i映射到蛋白質j的概率,根 據公式
十算得到,其中Probj^j表示肽i的存在概率,Deg(pep_i)表示二 分圖Gv中i結點的度;Deg(pr〇_j)表示蛋白質j所包含的實際肽的匹配數,即為二分圖G v 中j結點的度;Theory (pro_j)表示按某種酶切方式,蛋白質j所包含的理論肽的匹配數; 所述度是指和該結點相關聯的邊的條數; 步驟四:計算蛋白質j所獲得的鄰居蛋白質結點的支持度Support^」: Support.proj = ^ Probpro k * Weight(k, j) keGu;(k,i)eE, 其中ProbpM_k表示在Gu上蛋白質j的鄰居蛋白質結點k的存在概率,Weight(k, j)表 示蛋白質k與蛋白質j的相互作用權值;如果步驟二中輸入的蛋白質相互作用數據是加權 的,則Weight(k, j)依據蛋白質相互作用數據確定;如果步驟二中輸入的蛋白質相互作用 數據是非加權的,貝!]令1618111:〇^」)=1 ; 計算蛋白質j的每個鄰居蛋白質結點的貢獻度,計算公式為:ProbpM_k*Weight(k, j), 判斷其是否大於設置的閾值,若低於設置的閾值,認為該鄰居蛋白質結點的貢獻度為假陽 性,則在計算蛋白質j所獲得的鄰居蛋白質結點的支持度時,不考慮該鄰居蛋白質; 步驟五:調整共享肽i映射到蛋白質j的概率Probi」:
其中,SumSuppori^pj表示共享肽i所映射到的所有的蛋白質所獲得的支持度之和,計 算公式為:SumSupportpcp i = EiEGv;(i,j)EESupportproJ * ProbproJ; Supportpr。」表示蛋白質 j所獲得的鄰居結點的支持度,Prolvu表示第j個蛋白質的存在概率; 根據調整後共享肽i映射到蛋白質j的概率Pr〇bu,利用步驟三中的公式重新計算蛋 白質的存在概率ProbpM」; 步驟六:判斷蛋白質的存在概率是否收斂,即檢查本次計算得到的蛋白質的存在概率 與上一次計算得到的蛋白質存在概率有沒有變化;如果沒有變化,則輸出蛋白質的存在概 率列表;否則轉步驟四。
2. 根據權利要求1所述的基於蛋白質相互作用網絡和蛋白質組學的蛋白質鑑定方法, 其特徵在於,所述質譜識別採用Sequest、Mascot、X ! Tandem或PeptideProphet軟體。
3. 根據權利要求1所述的基於蛋白質相互作用網絡和蛋白質組學的蛋白質鑑定方法, 其特徵在於,所述酶切採用胰蛋白酶或甲酸。
4. 根據權利要求1所述的基於蛋白質相互作用網絡和蛋白質組學的蛋白質鑑定方法, 其特徵在於,所述蛋白質相互作用數據來源於DIP資料庫。
5. 根據權利要求1所述的基於蛋白質相互作用網絡和蛋白質組學的蛋白質鑑定方法, 其特徵在於,所述步驟四中閾值默認設置為0. 1。
【文檔編號】G06F19/00GK104156603SQ201410399487
【公開日】2014年11月19日 申請日期:2014年8月14日 優先權日:2014年8月14日
【發明者】王建新, 鍾堅成, 李敏 申請人:中南大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀