譜庫的生成方法和串聯質譜譜圖鑑定方法
2023-09-19 18:48:30 3
專利名稱:譜庫的生成方法和串聯質譜譜圖鑑定方法
技術領域:
本發明涉及蛋白質組鑑定方法,特別涉及一種譜庫的生成方法和串聯質譜譜圖鑑 定方法。
背景技術:
眾所周知,絕大多數生物的遺傳信息保存在DNA中。DNA通過轉錄過程生成信使 RNA,而信使RNA又通過翻譯過程生成蛋白質,從而實現了遺傳信息由DNA到RNA再到蛋白 質的傳遞,這一過程也被稱為生命的中心法則。在從RNA翻譯生成蛋白質的過程中,20種 胺基酸以肽鍵順序相連所形成的鏈狀分子被稱為肽,而其中分子量達到一定級別的肽則被 稱為蛋白質。大多數蛋白質在翻譯形成後,會在蛋白質中的某些胺基酸上增加某種功能團 (如在蛋白質的N末端加入乙醯),或增加了其他的蛋白質或肽,或改變了胺基酸的化學性 質或結構,這一過程被稱為發生了化學修飾,由於該過程發生在前述的翻譯過程後,因此在 蛋白質胺基酸上所發生的變化也被稱為蛋白質翻譯後修飾。蛋白質翻譯後修飾能夠改變氨 基酸的化學性質,引起蛋白質結構的改變,擴充蛋白質的功能。很多蛋白質的重要生物活性 都是在發生翻譯後修飾之後才具有的。此外,在體外的蛋白質樣品處理中,也經常會有意或 無意的人為引入一些化學修飾。修飾質量的絕對值通常都比較大,如大於10Da。目前已知的蛋白質修飾類型已有幾百種,檢測蛋白質樣品中發生了哪些翻譯後修 飾對於蛋白質鑑定是個重要而困難的問題。液相色譜與質譜儀聯用,並結合資料庫搜索計 算是目前蛋白質組學中鑑定蛋白質及其翻譯後修飾的常用方法。在這種方法中,通過液相 色譜與質譜儀聯用可以得到蛋白質樣品的實驗串聯質譜。實驗串聯質譜的獲取過程包括 蛋白質樣品首先被選定的蛋白酶水解,形成肽混合物;肽混合物通過液相色譜進行分離,不 同物理化學性質的肽先後從色譜柱中流出;從色譜柱中流出的肽不斷進入質譜儀;肽在質 譜儀中被離子化,肽段離子也被稱為母離子,具有特定質量電荷比的肽離子在能量作用下 碎裂形成碎片離子,碎片離子被分離和檢測形成肽碎片離子譜;通過以上過程便得到蛋白 質的實驗串聯質譜。在得到實驗串聯質譜後就可以從實驗串聯質譜中鑑定肽的胺基酸序 列,進而鑑定蛋白質。從實驗串聯質譜中鑑定肽的胺基酸序列時通常採用資料庫搜索計算 的方法。資料庫搜索計算的方法有多種,譜庫搜索方法是其中的典型代表。所述譜庫的全 稱為譜圖資料庫,它是由實驗譜圖數據組織而成的集合。譜庫搜索方法的基本實現步驟包 括在計算過程中,將待檢測蛋白質的實驗串聯質譜與譜庫中所保存的實驗串聯質譜進行 比較,從所述譜庫中選擇母離子質量(或質荷比)相同或相近的實驗串聯質譜作為候選結 果,最後再通過諸如打分機制等方式從所述候選結果中找出與待檢測蛋白質的實驗串聯質 譜相匹配的實驗串聯質譜圖。通常,譜庫中的實驗串聯質譜圖所對應的各種信息是已知的, 因此,也就可以由此鑑定出肽的胺基酸序列,進而鑑定蛋白質。從上述說明可以看出,所述譜庫中的實驗串聯質譜的母離子質量(或質荷比)只 有與待檢測蛋白質的實驗串聯質譜的質荷比相同或相近才有可能成為所述的候選結果,這種對候選結果的質荷比範圍有嚴格規定的譜庫搜索方法又被稱為限制性搜索方法。在現有的譜庫搜索方法及實際運用中,限制性搜索方法佔了絕大多數。但正如前文所提到的那 樣,蛋白質翻譯後修飾是本領域中的一種常見現象,如果待檢測蛋白質中的某個肽段發生 了某種翻譯後修飾,而之前生成的譜庫中由於譜圖覆蓋率的限制,只引入了該肽段的無修 飾形式或含有其它種類修飾形式的譜圖,那麼在利用前述的譜庫搜索方法時,正確的候選 肽的實驗串聯質譜可能根本就不會進入候選結果中,這必然會影響蛋白質鑑定的準確性。 在目前的蛋白質組實驗中,質譜儀產生的大部分譜圖不能有效解析,譜圖解析率只有10% 到30%,一個重要原因就是蛋白質中具有未知或未預料到的修飾,從而無法找到正確的候 選肽,影響了後續的鑑定過程。
發明內容
本發明的目的是克服現有的基於譜庫的鑑定方法由於蛋白質中所具有的未知或 未預料到的修飾而無法找到正確的候選譜圖,影響鑑定準確性的缺陷,從而提供一種高準 確性的譜圖鑑定方法。本發明提供了一種譜圖資料庫的生成方法,包括步驟1)、選取已解析的實驗串聯質譜譜圖,所述已解析的串聯質譜譜圖中包括母 離子肽序列、電荷、修飾類型和位點在內的信息;步驟2)、從所述已解析的實驗串聯質譜譜圖中去除冗餘譜圖,得到代表譜;步驟3)、將所述代表譜所代表的母離子肽序列按理論碎裂模式進行劃分,得到與 所述代表譜相對應的理論譜;步驟4)、合併所述代表譜與所對應的理論譜,得到優化譜;步驟5)、對所述優化譜做譜峰標註,由譜峰標註後的優化譜生成譜圖資料庫。上述技術方案中,還包括步驟6)、對保存在譜圖資料庫中的優化譜做譜峰處理,去除譜峰中的幹擾信息,保 留並調整有用的信息。上述技術方案中,還包括步驟7)、重排所述優化譜的母離子肽序列,根據重排後的母離子肽序列生成誘餌 譜,將所述誘餌譜保存在譜圖資料庫中。上述技術方案中,所述的步驟2)包括步驟2-1)、從所述已解析的實驗串聯質譜譜圖中選出冗餘譜圖;所述冗餘譜圖為 具有相同母離子肽序列、電荷、修飾類型和位點的譜圖;步驟2-2)、對所述冗餘譜圖做譜峰歸一化,將譜圖中每根譜峰的強度值改為該譜 峰原始強度值與該譜圖內強度最高譜峰的原始強度值之間的比值;步驟2-3)、為各張所述冗餘譜圖賦予權重;步驟2-4)、合併所述的冗餘譜圖。本發明還提供了一種串聯質譜譜圖鑑定方法,包括步驟1)、輸入待解析的串聯質譜譜圖,所述待解析的串聯質譜譜圖中已包含有該 譜圖的母離子質量和電荷,以及各譜峰的質荷比和強度;步驟2)、從譜圖資料庫中為所述待解析的串聯質譜譜圖找出候選譜,所述候選譜與待解析的串聯質譜譜圖的母離子電荷相同且質量誤差在第一閾值範圍內;所述第一閾值 的範圍大於常見蛋白質翻譯後修飾的質量範圍;步驟3)、將待解析的串聯質譜譜圖與所述候選譜中的各個譜圖做匹配打分,根據 匹配打分結果找出匹配度最高的候選譜作為鑑定結果。上述技術方案中,所述譜圖資料庫還包括誘餌譜圖,所述誘餌譜圖為預期作為錯 誤鑑定結果的譜圖;所述方法還包括步驟4)、根據待解析的串聯質譜譜圖鑑定結果來自所述優化譜和所述誘餌譜的數 量,對鑑定結果進行整體上的假陽率評估。上述技術方案中,所述步驟3)包括步驟3-1)、依次分析待解析的串聯質譜譜圖中的每一根譜峰,從所述候選譜中查找與其匹配的譜峰;在查找匹配譜峰的過程中要考慮由潛在修飾引入的部分譜峰質荷比的 改變;步驟3-2)、在確定待解析的串聯質譜譜圖與所述候選譜所匹配的譜峰後,根據譜 峰的匹配情況分別計算用于衡量某一候選譜與某一待解析串聯質譜譜圖間相似性的相似 性分數,以及用于衡量某一候選譜與某一待解析串聯質譜譜圖的匹配情況相對於其它候選 譜是否顯著的顯著性分數;步驟3-3)、根據所述的相似性分數與顯著性分數計算匹配得分,選擇匹配得分最 高的候選譜作為鑑定結果。上述技術方案中,所述相似性分數的計算公式如下
相似性分數=,旺配上的譜峰
γ待解析譜圖的譜峰γ候選譜圖的譜峰其中,Iq和L分別表示所涉及到的待解析譜和候選譜的譜峰強度。上述技術方案中,對所述顯著性分數的計算如下步驟a)、定義待解析譜圖中強度排名前η的譜峰為主力譜峰,定義發生在一根主 力譜峰和一根被標註譜峰之間的譜峰匹配叫做有力的匹配,設Hli為第i張候選譜圖中被標 注的譜峰個數,設h為待解析譜圖和第i張候選譜圖匹配時發生的有力的匹配次數;步驟b)、當該待解析譜圖與這W張候選譜圖匹配時,某一根主力譜峰與某一根被
標註譜峰匹配上的概率P為 w I 步驟C)、對於該待解析譜中的某一根主力譜峰與第i張譜圖中的譜峰進行匹配 時,發生有力的匹配的概率P為 步驟d)、該待解析譜與第i張候選譜圖進行譜峰匹配時,發生不少於ki次有力匹配的概率?]31116為 步驟e)、所述顯著性分數為 本發明的優點在於1、本發明所創建的譜圖資料庫在現有技術中常見的只包括實驗譜圖的譜庫的基 礎上加入了理論序列信息,從而結合了實驗譜圖和理論譜圖兩種不同數據類型的優點。2、本發明在將候選譜與待解析串聯質譜譜圖匹配的過程中,考慮了可能由潛在修 飾引入的譜峰質荷比偏移,使得含修飾的碎片離子譜峰得到匹配,達到更好的修飾譜圖鑑 定效果。3、本發明提供了背景無關和背景相關的兩種打分機制,使得最終分數既利用了匹 配結果的統計顯著性這一信息來提高鑑定精度,又不完全依賴於該信息從而避免了小庫問 題(候選譜圖過少時引發的統計顯著性失效問題)。4、本發明提供了用於開放式搜索的鑑定結果假陽率評價的誘餌譜圖,達到了有效 控制假陽性率的目的。
圖1為創建譜圖資料庫的流程圖;圖2為冗餘譜合併的示意圖;圖3為由代表譜與其對應的理論譜生成優化譜的示意圖;圖4為利用譜圖資料庫鑑定串聯質譜譜圖的流程圖。
具體實施例方式下面結合附圖和具體實施方式
對本發明做進一步說明。在背景技術的說明中已經提到,譜庫搜索的前提是存在一個譜圖資料庫,譜圖數 據庫中譜圖數據的完整與否對於蛋白質鑑定最終結果的正確率有著十分重要的影響。因 此,參考圖1,在本發明中首先對建立譜圖資料庫的過程加以說明。建立譜圖資料庫需要有一批已解析的實驗串聯質譜譜圖,這些已解析的實驗串聯 質譜譜圖的相關信息都是已知的,如母離子肽序列、電荷、修飾類型和位點等。本領域技術 人員很容易理解,已解析的實驗串聯質譜譜圖的數據量越多,則所建立的譜圖資料庫所包 含的數據就越完整,也就越有利於後續的鑑定工作。在由已解析的實驗串聯質譜譜圖建立譜圖資料庫的過程中,首先要去除已解析的實驗串聯質譜譜圖中的冗餘譜圖,從而減少譜圖中的譜圖數量。所述的冗餘譜圖是指具有 相同母離子肽序列、電荷、修飾類型和位點的譜圖。在本實施例中,去除冗餘譜圖的方法包 括對冗餘譜圖分別進行譜峰歸一化並賦予權重,然後將來自相同肽段序列、相同修飾和位 點、並具有相同母離子電荷的串聯質譜譜圖合併為一張譜圖。正如本領域技術人員所公知的那樣,譜圖中的譜峰(除少量的母離子峰和噪音峰)代表了碎片離子,譜峰在譜圖橫坐標上的取值代表質荷比,縱坐標上的取值代表了強度值。譜圖的譜峰歸一化操作是指把譜圖中每根譜峰的強度值改為該譜峰原始強度值與該 譜圖內強度最高譜峰的原始強度值之間的比值,這樣該譜圖中強度最高的譜峰強度值為1, 其餘譜峰的強度值為O到1之間的數值。譜峰歸一化操作可以克服不同譜圖中譜峰原始強 度值相差較大而給後續的譜圖合併所帶來的問題。從譜峰歸一化操作可以看出,譜峰歸一 化只是對各個冗餘譜圖內部的處理,冗餘譜圖的數量並不會發生改變。在完成譜峰的歸一 化以後,還要為各個冗餘譜圖賦予權重。為冗餘譜圖賦予權重的方法有多種,一種簡單的方 法是為每張冗餘譜圖賦予均一權重。另外也可以根據已解析譜圖的可信度來賦予權重,已 解析譜圖一般都是由某個鑑定算法鑑定出來的,那麼每張譜圖都會有一個鑑定得分,根據 鑑定得分的高低可以確定譜圖的可信度,可信度高的可以賦予相對較高的權重。在對各個譜圖做譜峰歸一化並賦予權重後,就可以對冗餘譜圖做譜圖合併。所述 的譜圖合併是要將多個冗餘譜圖合併成一個譜圖以減少冗餘譜圖數量,每個待合併譜圖都 有一個權重,合併後譜圖的母離子質量為所有待合併譜圖的母離子質量加權平均值;合併 後譜圖中的譜峰是所有待合併譜圖譜峰的併集,之後再將各組來自不同待合併譜圖的公共 譜峰分別合併為一根譜峰,其譜峰 值為相應的所有待合併譜峰 < 質荷比, 強度〉的加權平均值。在圖2中給出了冗餘譜圖合併前後的示意圖,在該圖中有三張冗餘 譜,分別為冗餘譜A、冗餘譜B、冗餘譜C,上述冗餘譜經過前述方法合併後得到一張合併後 的譜圖。在上述合併過程中所提到的公共譜峰是指相對於儀器精度來說,來自不同待合併 譜圖中質荷比鄰近的譜峰。也就是說,假如一個譜圖中的譜峰a與另一個譜圖中的譜峰b 的質荷比之差大於一個指定的閾值,那麼這兩個譜峰就不屬於公共譜峰,也就不能夠加以 合併。公共譜峰的定義與儀器精度有關,例如對於LTQ儀器,通常質荷比之差在士0. 5Th以 內的譜峰被稱為公共譜峰,而對於Orbitrap儀器,通常質荷比之差在士0. 02Th以內的譜峰 被稱為公共譜峰。在前述說明中給出了本實施例去除冗餘譜圖的方法,但去除冗餘譜圖的方法並不 局限於這一種。在其它實施例中,也可以採用其它方法來去除冗餘譜圖,例如,從多個冗餘 譜圖中選擇一張質量最好的譜圖,而將其它譜圖刪除。所述的已解析的實驗串聯質譜譜圖在經過去除冗餘數據的操作後所得到的譜 圖被稱為代表譜,所述代表譜反映了來自儀器的真實實驗譜圖的數據特點。正如背景技 術中所提到的,由於某些翻譯後修飾的引入會改變肽段的化學性質,從而導致修飾肽段 和非修飾肽段的碎裂模式產生差異,例如某非修飾肽段正常情況下發生碰撞_誘導碎裂 (Collision-InducedDissociated, CID)後y2和y3離子居多,沒有y4和y5離子;但這個肽 段發生某個翻譯後修飾以後,在相同的實驗條件下碎裂後y2和y3離子沒有了,而y4和y5 離子居多,因此僅僅包含代表譜的譜圖資料庫未必能夠反映蛋白質翻譯後修飾現象。為了 克服這一缺陷,在本發明中需要為譜圖資料庫添加理論肽序列的信息,以實現對譜圖數據 庫的優化。在本實施例中,對譜圖資料庫的優化包括首先根據代表譜生成與之對應的理論 譜,然後對所有代表譜和理論譜進行結合,將各理論譜與其對應的代表譜分別合併成優化 譜。例如,對於每張代表譜,根據其母離子肽序列信息產生一張理論譜圖,理論譜圖的母離 子質量和電荷與代表譜相同,其譜峰為在某質荷比範圍內的部分或全部理論離子譜峰(如 CID碎裂中的b、y離子及其中性丟失離子等,+1電荷及以上且不超過母離子電荷數的離子均可考慮),譜峰強度可以是均一的,也可以設定為其它值。對每張理論譜和代表譜分別進 行譜峰強度歸一化處理,並將代表譜與理論譜分別賦予權重後,合併生成優化譜。在圖3中 反映了代表譜、理論譜以及由代表譜和理論譜所生成的優化譜之間的關係。代表譜中包含 了某個肽序列碎裂後所能生成的部分碎片離子的質荷比與強度信息,理論譜中包含了某個 肽序列碎裂後理論上所能生成的所有碎片離子的質荷比,但缺少相應的強度信息,因此將 代表譜與理論譜做歸一化合併後所生成的優化譜能夠綜合代表譜與理論譜的優點。優化譜圖生成後需要對其進行譜峰標註,所述的譜峰標註是指根據譜圖對應的肽 序列信息來解釋譜峰。本實施例中根據譜圖對應的肽序列計算出理論碎片離子的質荷比 值,分析譜圖中的每一根譜峰,如果該譜峰與某個理論碎片離子的質荷比之差在某個給定 誤差閾值內,那麼就在該譜峰的標註信息中記錄此理論碎片離子的信息,包括離子類型, 碎裂位點,電荷數等。所述的誤差閾值通常由儀器精度而定,例如對於LTQ儀器,閾值為 士0. 5Th。對優化譜圖做譜峰標註有利於後續的鑑定過程。經過譜峰標註的優化譜圖被保存在譜圖資料庫中。需要說明的是,現有技術中的 譜圖資料庫只包含有實驗串聯質譜譜圖,而本發明中的譜圖資料庫所保存的優化譜圖除了 包括實驗串聯質譜譜圖的數據外,還包括有理論譜的信息。雖然在下文中依然用譜圖數據 庫這一名稱,但本領域技術人員應當了解,本發明中所涉及的譜圖資料庫與現有技術中所 提到的譜圖資料庫有著明顯的不同。通過對一批已解析的串聯質譜譜圖所做的上述操作生成相應的譜圖資料庫以後, 就可以利用這一譜圖資料庫進行鑑定。但為了提高後續鑑定的準確率,還可以對所述譜圖 資料庫做進一步優化。對譜圖資料庫的進一步優化包括對所述的優化譜進行譜峰處理,即去掉譜峰中的 幹擾信息,保留有用的信息,並對信息進行適當的調整。例如,去掉除離子單同位素峰之外 的同位素峰,去掉母離子及其相關譜峰;去掉噪音峰;對譜峰強度進行重度量處理。上述操 作都可通過現有技術中已披露的相關方法實現。對譜圖資料庫的進一步優化還包括創建並保存誘餌譜圖。所述的誘餌譜圖是 在譜庫搜索空間中的預期作為錯誤鑑定結果的譜圖,服務於鑑定結果的假陽率評估。它 可以是來自與帶搜數據實驗樣品不同源蛋白的真實實驗譜圖,也可以是由算法生成的譜 圖。在本實施例中,所生成的誘餌譜圖的數量與優化譜相同,對於每張優化譜,根據其母 離子肽序列信息產生誘餌肽序列作為誘餌譜所對應的母離子肽序列。誘餌肽序列可以是 優化譜母離子肽序列的一個重排,重排規則可以是假設優化過的代表譜母離子肽序列為 AAA3. An_iAn,其中n為肽段包含的胺基酸殘基個數,A,為從肽段N端開始的第i個氨基 酸殘基,則誘餌譜的母離子肽序列為An_iAn_2An_3. . . AAo誘餌譜的譜峰為優化過的代表譜譜 峰,其中對於根據優化過的代表譜的母離子肽序列無法解釋的譜峰,其質荷比和強度值均 不變;對於根據優化過的代表譜的母離子肽序列得到解釋的譜峰,其質荷比值更新為對應 到誘餌譜母離子肽序列計算得到的理論質荷比值,強度值不變。誘餌譜的其它信息(如母 離子質量,電荷等)與優化譜相同。在得到誘餌譜後,將其保存在譜圖資料庫中,此時的譜 圖資料庫是一個同時包含代表譜與誘餌譜的資料庫。誘餌譜圖的作用在於為鑑定結果預測 假陽率,因此,只有在鑑定過程中需要預測假陽率時才有必要創建並保存誘餌譜圖,否則就 無需創建。
以上是對譜圖資料庫創建過程的說明,如果在鑑定時已經有可用的譜圖資料庫, 則譜圖資料庫的創建過程可以省略,參考圖4,直接進入下面的搜索鑑定過程。搜索鑑定過程的對象是一批待解析的串聯質譜譜圖(以下簡稱待解析譜圖),如 何由蛋白質組得到待解析譜圖為本領域技術人員的公知常識,在背景技術中也有相應的說 明,因此不在此處重複。對於待解析譜圖,已經知道譜圖的母離子質量和電荷,以及譜圖中 各譜峰的質荷比和強度,並不知道母離子對應的肽序列,是否發生了翻譯後修飾,發生的修 飾類型和位點信息(如果該肽段為修飾肽段)。對這些待解析譜圖進行搜索鑑定就是要為 每張待解析譜圖從本發明所述的譜圖資料庫中找出一些合適的候選譜,並將這些候選譜與 待解析譜圖進行匹配打分,選擇匹配分數最高的候選譜作為鑑定結果。從上述說明可以看出,搜索鑑定時首先要找出合適的候選譜。在選定一張待解析 譜圖後,為該待解析譜圖找出候選譜的方法可以是從譜圖資料庫中找出與待解析譜母離子 電荷相同且質量誤差在一定閾值範圍內的譜圖;也可以是從譜庫中找出與待解析譜圖母離 子質荷比之差在一定閾值範圍內的譜圖。在本實施例中採用的是前一種方法。定義ΔΜ 為待解析譜圖的母離子質量減去候選譜圖的母離子質量所得到的值,母離子質量差閾值的 下、上界分別為^^和α2,則候選譜圖是譜圖資料庫中與待解析譜圖的母離子具有相同電 荷且ΔΜ在一定母離子質量差閾值內的譜圖,即滿足Ci1 < ΔΜ< α20用W表示待解析譜 對應的候選譜數目。在現有技術中常見的限制性搜索中,α / α 2的取值通常為-3/+3D a,這 樣絕大多數類型的修飾質量都在此範圍之外;而在以本發明為代表的開放式搜索中,CI1/ α 2的取值可以擴大到_300/+300Da,這樣大多數的常見修飾質量都不會逃出候選窗口。需 要說明的是,如果譜圖資料庫中包含有誘餌譜圖,則在為待解析譜圖查找候選譜時,誘餌譜 圖也可能會被包括到候選譜中。在得到待解析譜圖的候選譜以後,就要將該待解析譜圖與每張候選譜圖進行匹配 打分。需要注意的是,在匹配打分之前需要對待解析譜圖進行譜峰處理,處理方法可以採用 類似優化譜的譜峰處理方法。所述匹配打分首先要完成的是譜峰匹配,所述譜峰匹配的實施過程包括依次分析 待解析譜圖中的每一根譜峰,尋找候選譜圖中與其匹配上的譜峰。需要說明的是,在判斷 兩根譜峰是否匹配時需要考慮由潛在修飾引入的部分譜峰質荷比的改變,其具體規則可以 是設該待解析譜圖譜峰和候選譜圖譜峰的質荷比分別為mQ和π^,設碎片離子質荷比 誤差為Tp (這個誤差Tp是人為設定的參數,需要根據實驗儀器精度的不同而設置合適的值, 例如LTQ儀器可以設為0. 5Th, Orbitrap儀器可以設為0. 02Th),滿足以下條件時兩譜峰匹 配[1]、若該候選譜圖的譜峰未被標註|mQ_mL| < Tp ;[2]、若該候選譜圖的譜峰已被標註,其電荷為(Λ:|πιθ-ΠΙ」< Tp或ΙΠ^-Π^-ΔΜΑΛ < ΤΡ。值得一提的是,由於譜圖資料庫中的優化譜包含了所有可能的碎片離子,因此當 某種修飾對肽段碎裂模式產生較大影響時,待解析的修飾肽段譜圖中的碎片離子譜峰將有 機會匹配上譜庫中對應的非修飾肽段的譜峰。在確定待解析譜和候選譜所匹配的譜峰後,就可以進行打分。所述打分包含兩個部分一個是相似性分數,另一個是顯著性分數。最終匹配得分為相似性分數和顯著性分數 的組合。其中,相似性分數是指對該候選譜與某一張待解析譜之間做相似性度量所得出的 分數,與其它候選譜無關,為背景無關的分數;顯著性分數是衡量該候選譜圖與某一張待解 析譜圖的匹配情況相對於其它候選譜圖來說是否顯著,為背景相關的分數。相似性分數的計算方法有多種,如歐氏距離法,馬氏距離法,基於概率匹配的相似 性度量等方法,在本實施例中採用計算譜峰向量夾角餘弦值的方法,該計算方法如下 其中Iq和L分別表示所涉及到的待解析譜和候選譜的譜峰強度。顯著性分數的計算方法也有多種,如e_值法(e-value),p_值法(p-value),Ζ-分 數法(Z-score)等。在本實施例中採用了基於ρ-值法的顯著性計算方法,具體計算待解析 譜圖與第i張候選譜圖(1 < i < W)譜峰匹配情況的顯著性的方法如下定義待解析譜圖 中強度排名前η的譜峰為主力譜峰;定義發生在一根主力譜峰和一根被標註譜峰之間的譜 峰匹配叫做有力的匹配;設Hli為第i張候選譜圖中被標註的譜峰個數;設Ici為待解析譜圖 和第i張候選譜圖匹配時發生的有力的匹配次數。那麼當該待解析譜圖與這W張候選譜圖 匹配時,某一根主力譜峰與某一根被標註譜峰匹配上的概率P為 對於該待解析譜中的某一根主力譜峰與第i張譜圖中的譜峰進行匹配時,發生有 力的匹配的概率P為 那麼該待解析譜與第i張候選譜圖進行譜峰匹配時,發生不少於Ici次有力匹配的 概率p_value為 p_value越小說明顯著性越強,由此計算出來的顯著性分數為 最終該待解析譜圖與第i張候選譜圖的匹配得分為相似性分數和顯著性分數的 結合,可以是簡單的相乘,也可以是求加權和等。本實施例中採用了簡單相乘的方法,利用 該方法計算匹配得分的計算公式如下匹配得分=相似性分數X顯著性分數分別計算該待解析譜圖與前述W張候選譜圖的匹配得分後,選擇匹配分數最高的 候選譜作為鑑定結果。鑑定結果的內容包括母離子肽序列,電荷,修飾類型和位點,ΔΜ和匹配得分。如果鑑定結果的ΔΜ絕對值比較大(例如大於IODa),那麼這個ΔΜ很可能解釋 成為修飾質量,這時鑑定結果還要包括修飾發生的位點。修飾位點的定位方法可以是設鑑 定結果的肽序列長度為LjE △ M質量分別添加到L個胺基酸位點上生成L條肽段,並根據 這些肽段分別生成L張理論譜圖,然後分別計算出待解析譜圖與這L張理論譜圖之間的相 似性分數,選擇相似性分數最高的結果所對應的△ M所在位點作為鑑定結果的修飾位點。
待所有待解析譜圖鑑定完畢後,如果有需要,還可以針對搜索結果進行整體上的 假陽率評估。在進行假陽率評估時,可以是將所有鑑定到的譜圖按照一定規則排序(如按 照得分從高到低排序),則可以對前η張譜圖進行分析,過濾掉鑑定結果為誘餌譜的待解析 譜圖,並估計保留下來的鑑定結果中的假陽率;同時也可以用相同的方法根據某個確定的 假陽率閾值來過濾鑑定結果。例如,當搜索完畢一批待解析譜圖後,得到的結果是待解析譜1,結果1;待解析譜2,結果2;待解析譜3,結果3;......待解析譜η,結果η。對於上述η條結果,設這η個結果中有χ個是來自誘餌譜庫。那麼,這χ個結果肯 定是錯誤的鑑定,需要被過濾掉,剩下的η-χ個來自優化譜庫的才可能是正確的。我們想知 道這n-x個結果的可信度是多少,換句話說,想知道其中有多少結果可能被錯誤地鑑定,這 就是鑑定結果的假陽率。一種假陽率估算方法是,認為剩下的n-x個結果中,錯誤率是χ/(n-x);也有人認 為是2x/n。這兩個是最普遍使用的估計假陽率的公式,它們都是需要誘餌庫才能夠使用的, 譜庫中沒有誘餌庫就意味著沒有X,那就無法計算假陽率。以上是對本發明如何創建譜圖資料庫以及利用該譜圖資料庫鑑定串聯質譜譜圖 過程的說明。從中可以看出,本發明具有以下優勢1、本發明所創建的譜圖資料庫在現有技術中常見的只包括實驗譜圖的譜庫的基 礎上加入了理論序列信息,從而結合了實驗譜圖和理論譜圖兩種不同數據類型的優點。2、本發明在將候選譜與待解析串聯質譜譜圖匹配的過程中,考慮了可能由潛在修 飾引入的譜峰質荷比偏移,使得含修飾的碎片離子譜峰得到匹配,達到更好的修飾譜圖鑑 定效果。3、本發明提供了背景無關和背景相關的兩種打分機制,使得最終分數既利用了匹 配結果的統計顯著性這一信息來提高鑑定精度,又不完全依賴於該信息從而避免了小庫問 題(候選譜圖過少時引發的統計顯著性失效問題)。4、本發明提供了用於開放式搜索的鑑定結果假陽率評價的誘餌譜圖,達到了有效 控制假陽性率的目的。最後所應說明的是,以上實施例僅用以說明本發明的技術方案而非限制。儘管參 照實施例對本發明進行了詳細說明,本領域的普通技術人員應當理解,對本發明的技術方 案進行修改或者等同替換,都不脫離本發明技術方案的精神和範圍,其均應涵蓋在本發明 的權利要求範圍當中。
權利要求
一種譜圖資料庫的生成方法,包括步驟1)、選取已解析的實驗串聯質譜譜圖,所述已解析的串聯質譜譜圖中包括母離子肽序列、電荷、修飾類型和位點在內的信息;步驟2)、從所述已解析的實驗串聯質譜譜圖中去除冗餘譜圖,得到代表譜;步驟3)、將所述代表譜所對應的母離子肽序列按理論碎裂模式進行劃分,得到與所述代表譜相對應的理論譜;步驟4)、合併所述代表譜與所對應的理論譜,得到優化譜;步驟5)、對所述優化譜做譜峰標註,由譜峰標註後的優化譜生成譜圖資料庫。
2.根據權利要求1所述的譜圖資料庫的生成方法,其特徵在於,還包括步驟6)、對保存在譜圖資料庫中的優化譜做譜峰處理,去除譜峰中的幹擾信息,保留並 調整有用的信息。
3.根據權利要求1或2所述的譜圖資料庫的生成方法,其特徵在於,還包括步驟7)、重排所述優化譜的母離子肽序列,根據重排後的母離子肽序列生成誘餌譜,將 所述誘餌譜保存在譜圖資料庫中。
4.根據權利要求1或2或3所述的譜圖資料庫的生成方法,其特徵在於,所述的步驟 2)包括步驟2-1)、從所述已解析的實驗串聯質譜譜圖中選出冗餘譜圖;所述冗餘譜圖為具有 相同母離子肽序列、電荷、修飾類型和位點的譜圖;步驟2-2)、對所述冗餘譜圖做譜峰歸一化,將譜圖中每根譜峰的強度值改為該譜峰原 始強度值與該譜圖內強度最高譜峰的原始強度值之間的比值; 步驟2-3)、為各張所述冗餘譜圖賦予權重; 步驟2-4)、合併所述的冗餘譜圖。
5.一種串聯質譜譜圖鑑定方法,包括步驟1)、輸入待解析的串聯質譜譜圖,所述待解析的串聯質譜譜圖中已包含有該譜圖 的母離子質量和電荷,以及各譜峰的質荷比和強度;步驟2)、從由權利要求1-4之一所得到的譜圖資料庫中為所述待解析的串聯質譜譜圖 找出候選譜,所述候選譜與待解析的串聯質譜譜圖的母離子電荷相同且質量誤差在第一閾 值範圍內;所述第一閾值的範圍大於常見蛋白質翻譯後修飾的質量範圍;步驟3)、將待解析的串聯質譜譜圖與所述候選譜中的各個譜圖做匹配打分,根據匹配 打分結果找出匹配度最高的候選譜作為鑑定結果。
6.根據權利要求5所述的串聯質譜譜圖鑑定方法,其特徵在於,所述譜圖資料庫還包 括誘餌譜圖,所述誘餌譜圖為預期作為錯誤鑑定結果的譜圖;所述方法還包括步驟4)、根據待解析的串聯質譜譜圖鑑定結果來自所述優化譜和所述誘餌譜的數量, 對鑑定結果進行整體上的假陽率評估。
7.根據權利要求5或6所述的串聯質譜譜圖鑑定方法,其特徵在於,所述步驟3)包括 步驟3-1)、依次分析待解析的串聯質譜譜圖中的每一根譜峰,從所述候選譜中查找與其匹配的譜峰;在查找匹配譜峰的過程中要考慮由潛在修飾引入的部分譜峰質荷比的改 變;步驟3-2)、在確定待解析的串聯質譜譜圖與所述候選譜所匹配的譜峰後,根據譜峰的匹配情況分別計算用于衡量某一候選譜與某一待解析串聯質譜譜圖間相似性的相似性分 數,以及用于衡量某一候選譜與某一待解析串聯質譜譜圖的匹配情況相對於其它候選譜是 否顯著的顯著性分數;步驟3-3)、根據所述的相似性分數與顯著性分數計算匹配得分,選擇匹配得分最高的 候選譜作為鑑定結果。
8.根據權利要求7所述的串聯質譜譜圖鑑定方法,其特徵在於,所述相似性分數的計 算公式如下 v待解析譜圖的譜峰v候選譜圖& 候選譜圖的譜峰其中,、和L分別表示所涉及到的待解析譜和候選譜的譜峰強度。
9.根據權利要求7所述的串聯質譜譜圖鑑定方法,其特徵在於,對所述顯著性分數的 計算如下步驟a)、定義待解析譜圖中強度排名前n的譜峰為主力譜峰,定義發生在一根主力譜 峰和一根被標註譜峰之間的譜峰匹配叫做有力的匹配,設&為第i張候選譜圖中被標註的 譜峰個數,設ki為待解析譜圖和第i張候選譜圖匹配時發生的有力的匹配次數;步驟b)、當該待解析譜圖與這W張候選譜圖匹配時,某一根主力譜峰與某一根被標註 譜峰匹配上的概率p為 步驟c)、對於該待解析譜中的某一根主力譜峰與第i張譜圖中的譜峰進行匹配時,發 生有力的匹配的概率P為 步驟d)、該待解析譜與第i張候選譜圖進行譜峰匹配時,發生不少於&次有力匹配的 概率p_value為 步驟e)、所述顯著性分數為
全文摘要
本發明提供一種譜圖資料庫的生成方法,包括選取已解析的實驗串聯質譜譜圖,所述已解析的串聯質譜譜圖中包括母離子肽序列、電荷、修飾類型和位點在內的信息;從所述已解析的實驗串聯質譜譜圖中去除冗餘譜圖,得到代表譜;將所述代表譜所對應的母離子肽序列按理論碎裂模式進行劃分,得到與所述代表譜相對應的理論譜;合併所述代表譜與所對應的理論譜,得到優化譜;對所述優化譜做譜峰標註,由譜峰標註後的優化譜生成譜圖資料庫。本發明還提供了一種串聯質譜譜圖鑑定方法。本發明在將候選譜與待解析串聯質譜譜圖匹配的過程中,考慮了可能由潛在修飾引入的譜峰質荷比偏移,使得含修飾的碎片離子譜峰得到匹配,達到更好的修飾譜圖鑑定效果。
文檔編號G01N27/62GK101871945SQ201010208640
公開日2010年10月27日 申請日期2010年6月13日 優先權日2010年6月13日
發明者付巖, 葉叮, 孫瑞祥, 賀思敏 申請人:中國科學院計算技術研究所