一種基於子集錯誤率估計的肽鑑定方法
2023-08-22 18:12:26 2
一種基於子集錯誤率估計的肽鑑定方法
【專利摘要】本發明涉及一種基於子集錯誤率估計的肽鑑定方法,其步驟包括:1)用質譜儀分析需要鑑定的肽樣品以生成串聯質譜;2)把所述串聯質譜搜索包含目標肽序列的目標-誘餌蛋白質資料庫,將得到的肽鑑定結果按照打分從高到低排序;3)給定打分閾值x,採用遷移FDR方法估計打分高於x的第k類肽鑑定子集的錯誤率FDRk(x);4)通過調整打分閾值x找到的x最小值,使得估計出的FDRk(x)小於給定的錯誤率控制水平α,所得打分高於x的第k類肽鑑定結果即為可以接受的可靠鑑定結果。本發明通過遷移FDR方法估計子集錯誤率,進而通過該子集錯誤率得到肽的可靠鑑定結果,具有更高的鑑定準確率。
【專利說明】一種基於子集錯誤率估計的肽鑑定方法【技術領域】
[0001]本發明屬於蛋白質分析【技術領域】,具體涉及一種基於子集錯誤率估計的肽鑑定方法。
【背景技術】
[0002]眾所周知,絕大多數生物的遺傳信息保存在DNA中。DNA通過轉錄過程生成信使RNA,而信使RNA又通過翻譯過程生成蛋白質,從而實現了遺傳信息由DNA到RNA再到蛋白質的傳遞,這一過程也被稱為生命的中心法則。在從RNA翻譯生成蛋白質的過程中,20種胺基酸以肽鍵順序相連所形成的鏈狀分子被稱為肽,而其中分子量達到一定級別的肽則被稱為蛋白質。大多數蛋白質在翻譯形成後,會在蛋白質中的某些胺基酸上增加某種功能團(如在蛋白質的N末端加入乙醯),或增加了其他的蛋白質或肽,或改變了胺基酸的化學性質或結構,這一過程被稱為發生了化學修飾,由於該過程發生在前述的翻譯過程後,因此在蛋白質胺基酸上所發生的變化也被稱為蛋白質翻譯後修飾。
[0003]液相色譜與質譜儀聯用,並結合資料庫搜索計算是目前蛋白質組學中鑑定蛋白質及其翻譯後修飾的常用方法。在這種方法中,通過液相色譜與質譜儀聯用可以得到蛋白質樣品的實驗串聯質譜。實驗串聯質譜的獲取過程包括:蛋白質樣品首先被選定的蛋白酶水解,形成肽混合物;肽混合物通過液相色譜進行分離,不同物理化學性質的肽先後從色譜柱中流出;從色譜柱中流出的肽不斷進入質譜儀;肽在質譜儀中被離子化,具有特定質量電荷比的肽離子在能量作用下碎裂形成碎片離子,碎片離子被分離和檢測形成肽碎片離子譜;通過以上過程便得到蛋白質的實驗串聯質譜。在得到實驗串聯質譜後就可以從實驗串聯質譜中鑑定肽的胺基酸序列,進而鑑定蛋白質。
[0004]從實驗串聯質譜中鑑定肽的胺基酸序列時通常採用資料庫搜索計算的方法。在計算過程中,資料庫中所保存的蛋白質序列被模擬水解成候選肽,然後再將候選肽理論碎裂,生成理論串聯質譜;將模擬計算得到的多個理論串聯質譜依次與前述液相色譜與質譜儀聯用所得到的實驗串聯質譜相比較,根據相似度進行打分,得分最高的理論質譜對應的肽就是實驗質譜的鑑定結果。如果生成實驗串聯質譜的肽序列存在於資料庫中的話,就可能將其鑑定出來。為了鑑定發生翻譯後修飾的蛋白質,一種常見的基於串聯質譜的鑑定方法是在資料庫搜索時指定一些可變修飾類型,然後在生成候選肽時同時考慮發生和不發生指定修飾的情況,當候選肽中有多個可能的修飾位點時考慮所有可能的組合。
[0005]在基於質譜的蛋白質組學研究中,一次蛋白質組質譜實驗通常能夠產生數千至百萬規模的串聯質譜。通過資料庫搜索鑑定這些質譜圖,就產生了數目巨大的有待確認的肽鑑定結果。然而,由於譜圖信號差、存在未知修飾、以及打分算法的缺陷等原因,這些結果的一部分(往往是大部分)是不正確的。所以,需要根據鑑定分值對鑑定結果進行過濾以及FDR (False Discovery Rate,中文可翻譯為假髮現率或者錯誤發現率,參見參考文獻:Benjamini, Y.and Y.Hochberg,Controlling the false discovery rate:a practicaland powerful approach to multiple testing.Journal of the Royal StatisticalSociety, Series B (Methodological),1995.57 (I):p.289-300.)的估計和控制。目前最常用和有效的妝鑑定FDR估計方法是目標-誘傅庫搜索方法(參見文獻:Elias, J.E.andS.P.Gygi, Target-decoy search strategy for increased confidence in large-scaleprotein identifications by mass spectrometry.Nat Methods, 2007.4(3):p.207-14.X在這種方法中,通過搜索誘餌蛋白質序列(如目標庫的反序列構成的資料庫)來獲得錯誤的鑑定,而FDR就用分值閾值之上的誘餌肽鑑定數量除以目標肽鑑定數量來估計。當鑑定數量較大時,這種目標-誘餌庫搜索方法可以有效的估計肽鑑定FDR。但是如果鑑定數量較少的話,這種FDR估計方法就不準確了(參見文獻:Huttlin, E.L., et al., Prediction of errorassociated with false-positive rate determination for peptide identification inlarge-scale proteomics experiments using a combined reverse and forward peptidesequence database strategy.J Proteome Res, 2007.6(1):p.392-8.)?
[0006]在當前的肽和蛋白質鑑定研究中,各種形式的肽(例如帶有各種修飾的肽和非修飾的肽、特異性酶切肽和·非特異性酶切肽等等)通常都是混合在一起鑑定分析的,從最初的蛋白質樣品處理到最後的FDR估計都是如此。但最後經常是只強調或報導鑑定結果的某個子集(例如帶有某種修飾的肽,或者特異性酶切肽,或者含有某種特定胺基酸的肽等等),造成估計的FDR可能嚴重高於或低於真實的子集FDR。這種混合鑑定分析有多方面的原因。比如,質譜儀和鑑定軟體通常都無法有效識別不同種類的肽。並且,對所有鑑定結果進行整體的FDR估計也是容易計算的,並且這也是現有蛋白質組學軟體所提供的功能。各種肽的混合鑑定,降低了數據分析的複雜度,但卻使不同種類的肽的特性遭到掩蓋。這種「不分青紅皂白」的混合可能造成非常嚴重的後果,甚至錯誤的結論。但這一點尚未引起領域的重視,也沒有清晰的認識。一種解決辦法是將感興趣的肽鑑定子集分離出來,單獨用目標-誘餌庫方法估計FDR。但是如果子集較小的話,這種分離估計FDR的做法就不準確了。子集越小,誤差越大。極端情況下,如果子集只包含一個鑑定,那麼根本無法用目標-誘餌庫方法來估計該子集的FDR,從而無法實現肽的可靠鑑定。
【發明內容】
[0007]本發明的目的是提供一種基於子集錯誤率估計的肽鑑定方法,通過優化的子集錯誤率估計得到肽的可靠鑑定結果。
[0008]本發明採用的技術方案如下:
[0009]一種基於子集錯誤率估計的肽鑑定方法,其步驟包括:
[0010]I)用質譜儀分析需要鑑定的肽樣品以生成串聯質譜;
[0011]2)把所述串聯質譜搜索包含目標肽序列的目標-誘餌蛋白質資料庫,將得到的肽鑑定結果按照打分從高到低排序;
[0012]3)給定打分閾值X,採用遷移FDR方法估計打分高於X的第k類肽鑑定子集的錯誤率 FDRk(X);
[0013]4)通過調整打分閾值X找到X的最小值,使得估計出的FDRk(X)小於給定的錯誤率控制水平a,所得打分高於X的第k類肽鑑定結果即為可靠鑑定結果。
[0014]進一步地,採用所述遷移FDR方法得到的FDRk(X)的計算公式為:
【權利要求】
1.一種基於子集錯誤率估計的肽鑑定方法,其步驟包括: 1)用質譜儀分析需要鑑定的肽樣品以生成串聯質譜; 2)把所述串聯質譜搜索包含目標肽序列的目標-誘餌蛋白質資料庫,將得到的肽鑑定結果按照打分從高到低排序; 3)給定打分閾值X,採用遷移FDR方法估計打分高於X的第k類肽鑑定子集的錯誤率FDRk(X); 4)通過調整打分閾值X找到X的最小值,使得估計出的FDRk(X)小於給定的錯誤率控制水平a,所得打分高於X的第k類肽鑑定結果即為可靠鑑定結果。
2.如權利要求1所述的方法,其特徵在於:採用所述遷移FDR方法得到的FDRk(X)的計算公式為:
3.如權利要求2所述的方法,其特徵在於:所述Xk(x)的估計方法為:
4.如權利要求2或3所述的方法,其特徵在於:採用數據驅動的方法,將目標-誘餌庫搜索結果中所有誘餌肽鑑定作為訓練數據,用於估計所述YkOO。
5.如權利要求4所述的方法,其特徵在於:將所述Yk(X)用X的線性函數來近似,SP
6.如權利要求5所述的方法,其特徵在於:採用下式估計所述FDR(X):
7.如權利要求2或3所述的方法,其特徵在於,估計所述Yk(X)的方法是:將資料庫中的蛋白質模擬水解以生成所有候選肽,計算其中第k類肽所佔的比例,作為Yk(X)的值。
8.如權利要求1所述的方法,其特徵在於:所述給定的錯誤率控制水平a的值為0.01或 0.05。
【文檔編號】G01N30/72GK103439441SQ201310375508
【公開日】2013年12月11日 申請日期:2013年8月26日 優先權日:2013年8月26日
【發明者】付巖 申請人:中國科學院數學與系統科學研究院