新四季網

一種基於子集錯誤率估計的肽鑑定方法

2023-08-22 18:12:26 2

一種基於子集錯誤率估計的肽鑑定方法
【專利摘要】本發明涉及一種基於子集錯誤率估計的肽鑑定方法,其步驟包括:1)用質譜儀分析需要鑑定的肽樣品以生成串聯質譜;2)把所述串聯質譜搜索包含目標肽序列的目標-誘餌蛋白質資料庫,將得到的肽鑑定結果按照打分從高到低排序;3)給定打分閾值x,採用遷移FDR方法估計打分高於x的第k類肽鑑定子集的錯誤率FDRk(x);4)通過調整打分閾值x找到的x最小值,使得估計出的FDRk(x)小於給定的錯誤率控制水平α,所得打分高於x的第k類肽鑑定結果即為可以接受的可靠鑑定結果。本發明通過遷移FDR方法估計子集錯誤率,進而通過該子集錯誤率得到肽的可靠鑑定結果,具有更高的鑑定準確率。
【專利說明】一種基於子集錯誤率估計的肽鑑定方法【技術領域】
[0001]本發明屬於蛋白質分析【技術領域】,具體涉及一種基於子集錯誤率估計的肽鑑定方法。
【背景技術】
[0002]眾所周知,絕大多數生物的遺傳信息保存在DNA中。DNA通過轉錄過程生成信使RNA,而信使RNA又通過翻譯過程生成蛋白質,從而實現了遺傳信息由DNA到RNA再到蛋白質的傳遞,這一過程也被稱為生命的中心法則。在從RNA翻譯生成蛋白質的過程中,20種胺基酸以肽鍵順序相連所形成的鏈狀分子被稱為肽,而其中分子量達到一定級別的肽則被稱為蛋白質。大多數蛋白質在翻譯形成後,會在蛋白質中的某些胺基酸上增加某種功能團(如在蛋白質的N末端加入乙醯),或增加了其他的蛋白質或肽,或改變了胺基酸的化學性質或結構,這一過程被稱為發生了化學修飾,由於該過程發生在前述的翻譯過程後,因此在蛋白質胺基酸上所發生的變化也被稱為蛋白質翻譯後修飾。
[0003]液相色譜與質譜儀聯用,並結合資料庫搜索計算是目前蛋白質組學中鑑定蛋白質及其翻譯後修飾的常用方法。在這種方法中,通過液相色譜與質譜儀聯用可以得到蛋白質樣品的實驗串聯質譜。實驗串聯質譜的獲取過程包括:蛋白質樣品首先被選定的蛋白酶水解,形成肽混合物;肽混合物通過液相色譜進行分離,不同物理化學性質的肽先後從色譜柱中流出;從色譜柱中流出的肽不斷進入質譜儀;肽在質譜儀中被離子化,具有特定質量電荷比的肽離子在能量作用下碎裂形成碎片離子,碎片離子被分離和檢測形成肽碎片離子譜;通過以上過程便得到蛋白質的實驗串聯質譜。在得到實驗串聯質譜後就可以從實驗串聯質譜中鑑定肽的胺基酸序列,進而鑑定蛋白質。
[0004]從實驗串聯質譜中鑑定肽的胺基酸序列時通常採用資料庫搜索計算的方法。在計算過程中,資料庫中所保存的蛋白質序列被模擬水解成候選肽,然後再將候選肽理論碎裂,生成理論串聯質譜;將模擬計算得到的多個理論串聯質譜依次與前述液相色譜與質譜儀聯用所得到的實驗串聯質譜相比較,根據相似度進行打分,得分最高的理論質譜對應的肽就是實驗質譜的鑑定結果。如果生成實驗串聯質譜的肽序列存在於資料庫中的話,就可能將其鑑定出來。為了鑑定發生翻譯後修飾的蛋白質,一種常見的基於串聯質譜的鑑定方法是在資料庫搜索時指定一些可變修飾類型,然後在生成候選肽時同時考慮發生和不發生指定修飾的情況,當候選肽中有多個可能的修飾位點時考慮所有可能的組合。
[0005]在基於質譜的蛋白質組學研究中,一次蛋白質組質譜實驗通常能夠產生數千至百萬規模的串聯質譜。通過資料庫搜索鑑定這些質譜圖,就產生了數目巨大的有待確認的肽鑑定結果。然而,由於譜圖信號差、存在未知修飾、以及打分算法的缺陷等原因,這些結果的一部分(往往是大部分)是不正確的。所以,需要根據鑑定分值對鑑定結果進行過濾以及FDR (False Discovery Rate,中文可翻譯為假髮現率或者錯誤發現率,參見參考文獻:Benjamini, Y.and Y.Hochberg,Controlling the false discovery rate:a practicaland powerful approach to multiple testing.Journal of the Royal StatisticalSociety, Series B (Methodological),1995.57 (I):p.289-300.)的估計和控制。目前最常用和有效的妝鑑定FDR估計方法是目標-誘傅庫搜索方法(參見文獻:Elias, J.E.andS.P.Gygi, Target-decoy search strategy for increased confidence in large-scaleprotein identifications by mass spectrometry.Nat Methods, 2007.4(3):p.207-14.X在這種方法中,通過搜索誘餌蛋白質序列(如目標庫的反序列構成的資料庫)來獲得錯誤的鑑定,而FDR就用分值閾值之上的誘餌肽鑑定數量除以目標肽鑑定數量來估計。當鑑定數量較大時,這種目標-誘餌庫搜索方法可以有效的估計肽鑑定FDR。但是如果鑑定數量較少的話,這種FDR估計方法就不準確了(參見文獻:Huttlin, E.L., et al., Prediction of errorassociated with false-positive rate determination for peptide identification inlarge-scale proteomics experiments using a combined reverse and forward peptidesequence database strategy.J Proteome Res, 2007.6(1):p.392-8.)?
[0006]在當前的肽和蛋白質鑑定研究中,各種形式的肽(例如帶有各種修飾的肽和非修飾的肽、特異性酶切肽和·非特異性酶切肽等等)通常都是混合在一起鑑定分析的,從最初的蛋白質樣品處理到最後的FDR估計都是如此。但最後經常是只強調或報導鑑定結果的某個子集(例如帶有某種修飾的肽,或者特異性酶切肽,或者含有某種特定胺基酸的肽等等),造成估計的FDR可能嚴重高於或低於真實的子集FDR。這種混合鑑定分析有多方面的原因。比如,質譜儀和鑑定軟體通常都無法有效識別不同種類的肽。並且,對所有鑑定結果進行整體的FDR估計也是容易計算的,並且這也是現有蛋白質組學軟體所提供的功能。各種肽的混合鑑定,降低了數據分析的複雜度,但卻使不同種類的肽的特性遭到掩蓋。這種「不分青紅皂白」的混合可能造成非常嚴重的後果,甚至錯誤的結論。但這一點尚未引起領域的重視,也沒有清晰的認識。一種解決辦法是將感興趣的肽鑑定子集分離出來,單獨用目標-誘餌庫方法估計FDR。但是如果子集較小的話,這種分離估計FDR的做法就不準確了。子集越小,誤差越大。極端情況下,如果子集只包含一個鑑定,那麼根本無法用目標-誘餌庫方法來估計該子集的FDR,從而無法實現肽的可靠鑑定。

【發明內容】

[0007]本發明的目的是提供一種基於子集錯誤率估計的肽鑑定方法,通過優化的子集錯誤率估計得到肽的可靠鑑定結果。
[0008]本發明採用的技術方案如下:
[0009]一種基於子集錯誤率估計的肽鑑定方法,其步驟包括:
[0010]I)用質譜儀分析需要鑑定的肽樣品以生成串聯質譜;
[0011]2)把所述串聯質譜搜索包含目標肽序列的目標-誘餌蛋白質資料庫,將得到的肽鑑定結果按照打分從高到低排序;
[0012]3)給定打分閾值X,採用遷移FDR方法估計打分高於X的第k類肽鑑定子集的錯誤率 FDRk(X);
[0013]4)通過調整打分閾值X找到X的最小值,使得估計出的FDRk(X)小於給定的錯誤率控制水平a,所得打分高於X的第k類肽鑑定結果即為可靠鑑定結果。
[0014]進一步地,採用所述遷移FDR方法得到的FDRk(X)的計算公式為:
【權利要求】
1.一種基於子集錯誤率估計的肽鑑定方法,其步驟包括: 1)用質譜儀分析需要鑑定的肽樣品以生成串聯質譜; 2)把所述串聯質譜搜索包含目標肽序列的目標-誘餌蛋白質資料庫,將得到的肽鑑定結果按照打分從高到低排序; 3)給定打分閾值X,採用遷移FDR方法估計打分高於X的第k類肽鑑定子集的錯誤率FDRk(X); 4)通過調整打分閾值X找到X的最小值,使得估計出的FDRk(X)小於給定的錯誤率控制水平a,所得打分高於X的第k類肽鑑定結果即為可靠鑑定結果。
2.如權利要求1所述的方法,其特徵在於:採用所述遷移FDR方法得到的FDRk(X)的計算公式為:
3.如權利要求2所述的方法,其特徵在於:所述Xk(x)的估計方法為:
4.如權利要求2或3所述的方法,其特徵在於:採用數據驅動的方法,將目標-誘餌庫搜索結果中所有誘餌肽鑑定作為訓練數據,用於估計所述YkOO。
5.如權利要求4所述的方法,其特徵在於:將所述Yk(X)用X的線性函數來近似,SP


6.如權利要求5所述的方法,其特徵在於:採用下式估計所述FDR(X):

7.如權利要求2或3所述的方法,其特徵在於,估計所述Yk(X)的方法是:將資料庫中的蛋白質模擬水解以生成所有候選肽,計算其中第k類肽所佔的比例,作為Yk(X)的值。
8.如權利要求1所述的方法,其特徵在於:所述給定的錯誤率控制水平a的值為0.01或 0.05。
【文檔編號】G01N30/72GK103439441SQ201310375508
【公開日】2013年12月11日 申請日期:2013年8月26日 優先權日:2013年8月26日
【發明者】付巖 申請人:中國科學院數學與系統科學研究院

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀