新四季網

開放式蛋白質鑑定的資料庫搜索方法及其系統的製作方法

2024-04-03 03:34:05 2

開放式蛋白質鑑定的資料庫搜索方法及其系統的製作方法
【專利摘要】本發明有關於一種開放式蛋白質鑑定的資料庫搜索方法及其系統,其中該方法包括:步驟1,輸入蛋白質序列,模擬切分每一條蛋白質序列,並將所有生成的子序列按照質量排序,生成肽序列數據表,並根據該肽序列數據表建立索引文件;步驟2,輸入質譜圖,對每張質譜圖,提取譜峰生成查詢集合,查詢所述索引文件,得到序列集合;步驟3,對每張質譜圖及其對應的序列集合,根據修飾組合,生成候選肽段並打分;步驟4,對打分結果進行整合,並進行肽段到蛋白質的推斷,得到鑑定結果。本發明允許用戶不指定酶切和修飾的類型,或指定其中的任意類型進行蛋白質鑑定,用於解決任意類型的酶切和修飾的鑑定問題。
【專利說明】開放式蛋白質鑑定的資料庫搜索方法及其系統
【技術領域】
[0001]本發明涉及生物信息領域,特別是涉及一種開放式蛋白質鑑定的資料庫搜索方法及其系統。
【背景技術】
[0002]蛋白質組學研究是指在大規模水平上研究蛋白質的特徵,包括蛋白質的表達水平、翻譯後修飾研究以及蛋白質之間的互相作用等等。作為該領域的關鍵技術,生物質譜技術近年來發展十分迅速。利用質譜數據進行蛋白質的定性、定量分析,成為蛋白質組學研究的核心內容之一。其中,資料庫搜索方法是蛋白質組學中質譜數據解析的主要方法。
[0003]蛋白質組數據的形成過程比較複雜。蛋白質受到生物酶的作用分解,形成的許多子片段叫做肽或肽段。為了讓質譜儀檢測到,就要通過酶切的方式,將比較長的蛋白質水解為較短的序列(肽)。根據酶的不同,酶切分為特異性酶切、半特異酶切和非特異酶切。此外,大多數蛋白質在翻譯形成後,會在蛋白質中的某些胺基酸上增加某種功能團,或增加了其他的蛋白質或肽,或改變了胺基酸的化學性質或結構,這一過程被稱為發生了化學修飾。不同的修飾可以發生在肽段或蛋白質的N末端(肽段合成的起始端,通常為字面上的左端)或C末端(肽段合成的終 止端,通常為字面上的右端),或某些特定的胺基酸上。修飾可以改變胺基酸的化學性質,引起蛋白質結構的改變,擴充蛋白質的功能。很多蛋白質的重要生物活性都是在發生修飾之後才具有的。通常人們在使用資料庫搜索軟體時,會指定特異性酶切或半特異性酶切,以及幾種常見的修飾類型進行蛋白質檢索,這種搜索方式叫做限定式搜索。與之對應的非限定式搜索,或者說開放式搜索方式,則是在搜索過程中允許任意酶切和修飾類型。
[0004]目前的蛋白質鑑定軟體運行速度大多較慢。在數據規模日趨增大的形勢下,這一缺點體現得尤為明顯。目前的質譜儀每秒鐘可以產生10-20張質譜圖,而蛋白質鑑定軟體常規情況下每秒鐘只能處理不到10張。如果考慮到翻譯後修飾、酶切特異性等因素影響,那麼搜索速度將會進一步大幅降低。例如,對於非特異性酶切方式,由於其巨大的時間和空間開銷,當前的實際蛋白質鑑定中都會選擇儘量避開這種鑑定;此外,目前的修飾資料庫中約有1,000多種修飾,而目前的資料庫搜尋引擎大多無法同時支持如此多的修飾類型,更無法有效支持任意酶切與修飾類型的肽段的搜索。鑑定速度不高直接影響到對質譜數據的全面、細緻分析。在目前的蛋白質組實驗中,質譜儀產生的大部分質譜圖不能有效解析,質譜圖解析率只有10%到30%,一個重要原因就是肽序列的各種酶切方式均有可能存在,同時蛋白質中存在未知或未預料到的修飾,因而搜尋引擎無法找到正確的候選肽,影響了後續的鑑定過程。因此,實現有效的開放式搜索方法,對蛋白質鑑定的速度和精度均有重要的意義。通過本發明提供的資料庫搜索方法,可以使質譜圖解析率達到60%-80%,大大超過現有水平。

【發明內容】
[0005]本發明的目的在於提供一種開放式蛋白質鑑定資料庫搜索方法及其系統,用於允許用戶不指定酶切和修飾的類型,或指定其中的任意類型進行蛋白質鑑定,用於解決任意類型的酶切和修飾的鑑定問題。
[0006]為了實現上述目的,本發明提供一種開放式蛋白質鑑定的資料庫搜索方法,其特徵在於,包括:
[0007]步驟1,輸入蛋白質序列,模擬切分每一條蛋白質序列,並將所有生成的子序列按照質量排序,生成肽序列數據表,並根據該肽序列數據表建立索引文件;
[0008]步驟2,輸入質譜圖,對每張質譜圖,提取譜峰生成查詢集合,查詢所述索引文件,得到序列集合;
[0009]步驟3,對每張質譜圖及其對應的序列集合,根據修飾組合,生成候選肽段並打分;
[0010]步驟4,對打分結果進行整合,並進行肽段到蛋白質的推斷,得到鑑定結果。
[0011]所述的方法,其中,所述步驟I中,包括:
[0012]步驟11,讀取蛋白質資料庫文件,獲取蛋白質序列及名稱;
[0013]步驟12,遍歷蛋白質序列,按照非特異性酶切的方式模擬切分每條蛋白質序列為多個子序列;
[0014]步驟13,對每個質量值設定一個計數器並初始化為0,該計數器統計每個質量值對應的子序列數目;對每條子序列質量值對應的計數器加I;開闢一數組以存儲所有的子序列;以及
[0015]步驟14,按照非特異性酶切的方式遍歷蛋白質序列,將生成的每條子序列存儲到數組中,以使數組中的所有元素按照質量升序排列,生成索引文件。
[0016]所述的方法,其中,所述步驟11中,包括:
[0017]當蛋白質資料庫文件大於設置的單批次處理規模上限時,將該蛋白質資料庫文件按照該單批次處理規模上限劃分成多個子塊,每一個子塊對全部質譜圖完成索引文件獲取和查詢,然後處理下一個子塊,直到所有子塊處理完畢。
[0018]所述的方法,其中,所述步驟2中,包括:
[0019]步驟21,讀入質譜數據文件,獲取質譜圖,對每一張質譜圖進行預處理,挑選譜峰;以及
[0020]步驟22,對每一張質譜圖,基於挑選出的譜峰,生成查詢集合,檢索蛋白質資料庫,進行第一次打分,存儲分數較高的序列片段。
[0021]所述的方法,其中,所述步驟22中,包括:
[0022]對於每一個查詢,根據質量值及對應的N端或C端,檢索蛋白質資料庫中的序列片段;
[0023]對於蛋白質資料庫中的序列片段,包括N端片段和C端片段進行打分,分別存儲分數較高的序列片段。
[0024]所述的方法,其中,所述步驟3中,包括:
[0025]步驟31,對序列片段進行判斷,若該序列片段為N端片段,則對該序列片段的C端確認邊界;否則對該序列片段的N端確認邊界;
[0026]步驟32,計算所確認邊界的肽段與質譜圖的母離子的質量差,並將該質量差當作修飾質量查詢修飾資料庫;若存在合適的修飾,則生成修飾肽段;以及
[0027]步驟33,對質譜圖與該修飾肽段進行打分。
[0028]所述的方法,其中,所述步驟33中,包括:
[0029]當蛋白質資料庫文件大於設置的單批次處理規模上限時,將當前得到的質譜圖、候選肽及打分信息輸入中間文件。
[0030]所述的方法,其中,所述步驟4中,包括:
[0031]步驟41,收集所有質譜圖對應的候選肽結果,進行候選肽的E-value值計算,並存儲排名最高的結果;以及
[0032]步驟42,根據排名最高的結果,對每一個肽段查找其對應的蛋白質信息,生成鑑定結果。
[0033]為了實現上述目的,本發明提供一種開放式蛋白質鑑定的資料庫搜索系統,其特徵在於,包括:
[0034]索引文件獲取模塊,用於輸入蛋白質序列,模擬切分每一條蛋白質序列,並將所有生成的子序列按照質量排序,生成肽序列數據表,並根據該肽序列數據表建立索引文件;
[0035]查詢結果獲取模塊,連接索引文件獲取模塊,用於輸入質譜圖,對每張質譜圖,提取譜峰生成查詢集合,查詢所述索引文件,得到序列集合;
[0036]候選肽段生成模塊,連接查詢結果獲取模塊,用於對每張質譜圖及其對應的序列集合,根據修飾組合,生成候選肽段並打分;
[0037]鑑定結果獲取模塊,連接候選肽段生成模塊,用於對打分結果進行整合,並進行肽段到蛋白質的推斷,得到鑑定結果。
[0038]所述的系統,其中,所述索引文件獲取模塊包括:
[0039]文件讀取模塊,用於讀取蛋白質資料庫文件,獲取蛋白質序列及名稱;
[0040]序列切分模塊,連接文件讀取模塊,用於遍歷蛋白質序列,並按照非特異性酶切的方式模擬切分每一條蛋白質序列為多個子序列,每條子序列滿足指定質量值和長度的上下界限限制;
[0041]參數處理模塊,連接序列切分模塊,用於對每個質量值設定一個計數器並初始化為0,該計數器統計對每個質量值對應的子序列數目;對每個子序列,將其質量值對應的計數器加I;開闢一個數組以存儲所有的子序列;以及
[0042]序列處理模塊,連接文件讀取模塊和參數處理模塊,用於按照非特異性酶切的方式遍歷蛋白質序列;將生成的每條子序列存儲到數組中,以使數組中的所有元素按照質量升序排列,生成索引文件。
[0043]所述的系統,其中,所述文件讀取模塊,還用於當蛋白質資料庫文件大於設置的單批次處理規模上限時,將該蛋白質資料庫文件按照該單批次處理規模上限劃分成多個子塊,每一個子塊對全部質譜圖完成索引文件獲取和查詢,然後處理下一個子塊,直到所有子塊處理完畢。
[0044]所述的系統,其中,所述查詢結果獲取模塊包括:
[0045]預處理模塊,用於讀入質譜數據文件,獲取質譜圖,對每一張質譜圖進行預處理,挑選一定數目的譜峰;以及
[0046]質譜圖處理模塊,用於對每一張質譜圖,基於挑選出的譜峰,生成查詢集合,檢索蛋白質資料庫,進行第一次打分,存儲分數較高的序列片段。
[0047]所述的系統,其中,所述質譜圖處理模塊,還用於對每一個查詢,根據質量值及對應的N端或C端,檢索蛋白質資料庫中的序列片段;對於蛋白質資料庫中的序列片段,包括N端片段和C端片段進行打分,分別存儲分數較高的序列片段。
[0048]所述的系統,其中,所述候選肽段生成模塊包括:
[0049]邊界確認模塊,用於對序列片段進行判斷,若該序列片段為N端片段,則對該序列片段的C端確認邊界;否則對該序列片段的N端確認邊界;
[0050]肽段處理模塊,連接邊界確認模塊,用於將確定邊界的肽段與質譜圖的母離子的質量差作為可能的修飾質量,如果存在合適的修飾,則生成修飾肽段;以及
[0051]信息打分模塊,連接肽段處理模塊,用於將質譜圖與該修飾肽段進行打分。
[0052]所述的系統,其中,所述信息打分模塊,還用於當蛋白質資料庫文件大於設置的單批次處理規模上限時,將當前得到的質譜圖、候選肽及打分信息輸入中間文件。
[0053]所述的系統,其中,所述鑑定結果獲取模塊包括:
[0054]計算排名模塊,用於收集所有質譜圖對應的候選肽結果,進行候選肽的E-value值計算,並存儲排名最高結果;以及
[0055]結果生成模塊,連接計算排名模塊,用於對排名最高的結果,對每一個肽段查找其對應的蛋白質信息,生成鑑定結果。
[0056]與現有技術相比,本發明的有益技術效果是:
[0057]I)按照非特異酶切的方式組織資料庫,生成索引文件,方便資料庫檢索。
[0058]2)將質譜圖中的譜峰轉化為查詢集合,檢索資料庫索引,提高了檢索速度。
[0059]3)有效地支持發生任意酶切及修飾類型的肽段的查詢,提高資料庫檢索的規模,提高質譜圖的解析率。
【專利附圖】

【附圖說明】
[0060]圖1為本發明的開放式蛋白質鑑定資料庫搜索方法的流程圖;
[0061]圖2為本發明的開放式蛋白質鑑定資料庫搜索系統的結構圖。
【具體實施方式】
[0062]以下結合附圖和具體實施例對本發明進行詳細描述,但不作為對本發明的限定。
[0063]如圖1所示,為本發明的開放式蛋白質鑑定資料庫搜索方法的流程圖。該流程的具體步驟如下:
[0064]步驟101,設定必要的搜索參數。
[0065]步驟102,輸入蛋白質序列,按照指定類型的酶切方式模擬切分每一條蛋白質序列,並將所有生成的子序列按照質量排序,生成肽序列數據表。在此基礎上建立索引文件。
[0066]步驟103,輸入質譜圖,對每張質譜圖,提取一定數目的譜峰生成查詢集合,然後查詢步驟101中所述的索引文件,得到查詢結果。該查詢結果為序列片段,即相對可信的部分序列集合。
[0067]步驟104,對每張質譜圖及其對應的查詢結果,進行邊界的確認,並考慮可能的修飾組合,生成最終的候選肽段並打分。[0068]步驟105,對打分結果進行整合,並進行肽段到蛋白質的推斷,最後將全部鑑定結果輸出至文件。
[0069]上述步驟102中,包括:按照指定的文件路徑,讀取蛋白質序列及名稱。按照質量值限制,對每一個質量設置一個計數器並初始化為O。按照指定的酶切類型(非特異性酶切的方式),將每條蛋白質序列切分成子序列,該計數器統計每個可能的質量值對應的子序列數目,同時對每條子序列質量對應的計數器值增加I。遍歷完畢後,得到每一個質量值對應的子序列數目。開闢一個數組A,使之能夠容納所有子序列,然後再次將蛋白質序列按照指定的酶切類型生成子序列,並按照計數器的值,將子序列存儲到A的相應位置。這樣,所有子序列被按照質量由小到大排序。然後,生成索引文件,存儲每個質量值m對應的A中第一個質量值大於或等於m的元素下標。
[0070]每條子序列滿足指定質量值和長度的上下界限限制。每個子序列都會有一個質量值,比如100,128,356等等。「每個可能的質量值」是指滿足限制,比如從200到10000之間所有的值。計數器的作用是統計每種質量值對應的子序列數目。
[0071]上述步驟102中,若蛋白質資料庫文件大於限定的單批次處理規模上限,則將此文件按照處理規模上限劃分成若干子塊,每一個子塊完成步驟103和104,然後處理下一個子塊,直到所有子塊處理完畢。最後進行步驟105。
[0072]上述步驟103中,包括:
[0073]步驟1031,讀入質譜數據文件,獲取質譜圖,並對每一張質譜圖進行預處理,挑選一定數目的譜峰。
[0074]步驟1032,對每一張質譜圖,基於挑選出的譜峰,生成查詢集合。
[0075]步驟1033,檢索蛋白質資料庫,進行第一次打分,存儲分數較高的若干序列片段。
[0076]上述步驟1031,包括:按照參數中指定的質譜圖路徑讀入質譜圖,對於每張質譜圖進行預處理,去除同位素峰、噪音峰、中性丟失峰等幹擾譜峰,然後在其中挑選指定數目的最高的k個譜峰。
[0077]上述步驟1032中,包括:對於每個譜峰,生成若干個查詢,包括:1)譜峰對應為肽段N端部分時的質量值;2)譜峰對應為肽段C端部分時的質量值;3)互補譜峰對應為肽段N端部分時的質量值;4)互補譜峰對應為肽段C端部分時的質量值。最後,對於這張質譜圖,將所有譜峰生成的所有查詢組成一個統一的查詢集合。
[0078]上述步驟1033中,包括:建立兩個數組S。,分別存放N端子序列片段起始位置計數,以及C端子序列片段終止位置計數。兩個數組的大小均為蛋白質序列的總長度。對於步驟1032生成的查詢集合中的每個查詢q,其質量值為m,按照指定的參數,計算其質量的下界Hi1和上界m2,按照步驟102中生成的索引文件,查詢到質量值在Hl1與m2中的所有子序列集合。
[0079]如果該查詢q對應了肽段的N端部分,則將數組Sn中,對應到其所有子序列的起始位置,計數加I ;否則,則將數組S。中,對應到其所有子序列的起始位置,計數加I。
[0080]分別遍歷兩個數組,並從中取出k個計數較高的值及其對應的位置,作為查詢到的候選結果集合。
[0081 ] 上述步驟104中,包括:
[0082]步驟1041,對步驟103生成的片段,如果其為N端片段,則對其C端確認邊界;否則對其N端確認邊界。
[0083]步驟1042,對確定邊界的肽段,計算其與質譜圖的母離子的質量差,並將該質量差當作修飾質量查詢修飾資料庫。如果存在合適的修飾,則生成修飾肽段。
[0084]步驟1043,對質譜圖與該修飾肽段進行打分,並保存排名前η的肽段信息。
[0085]上述步驟1041中,包括:對步驟103生成的片段,如果其為N端片段,則枚舉其所有可能的C端邊界,這種可能受到預先指定的母離子差值d的限制,使得當前N端與C端之間形成的肽段的質量與母離子的質量差的絕對值不超過d ;如果該片段為C端片段,則同樣枚舉其所有可能的N端邊界。這樣可以生成所有的滿足條件的肽段,它們的N端和C端均為確定的。
[0086]上述步驟1042中,包括:步驟1041中確定邊界的肽段,將它與質譜圖的母離子的質量差作為可能的修飾質量,查詢指定的修飾類型資料庫;如果存在合適的修飾,即修飾的質量與上述質量差的差值不超過給定的誤差值,則尋找該修飾在肽段上所有可能的發生位置,將其加入肽段,生成修飾肽段。
[0087]上述步驟1043中,包括:對於每個修飾肽段,將當前處理的質譜圖與該修飾肽段進行肽-譜匹配打分。在這個過程中,隨時保存打分最高的前η個肽段的信息。
[0088]上述步驟105中,包括:對於每個質譜圖及其對應的候選肽段,根據它們的匹配分值計算E-value值,並把所有結果輸出到一個指定位置的文本文件中。
[0089]E-value的計算方法:隨機生成一定數量(比如5000)個肽段,與質譜圖進行打分,將所有分值進行背景分布的擬合。然後,計算每個候選肽段結果的分數在上述背景分布中的位置,計算該分數發生的p-value值。然後將該p-value值乘以質譜圖的候選肽段數目,得到e-value值。
[0090]上述步驟105中,包括:若蛋白質資料庫文件大於限定的單批次處理規模上限,則先對每一個子塊的鑑定結果進行合併,比如,資料庫被分成了 e個子塊,對於每張譜S,它在每個資料庫子塊內均得到η個候選肽段,則先要合併這en個結果,並取出整體上打分最高的η個結果,再進行步驟105的操作。
[0091]如圖2所示,為本發明的開放式蛋白質鑑定資料庫搜索系統的結構圖。該系統200為與圖1所述開放式蛋白質鑑定資料庫搜索方法對應的結構圖,圖1所述的方法內容同樣適應於圖2,該系統200包括:索引文件獲取模塊10、查詢結果獲取模塊20、候選肽段生成模塊30。
[0092]索引文件獲取模塊10,用於輸入蛋白質序列,按照指定類型的酶切方式模擬切分每一條蛋白質序列,並將所有生成的子序列按照質量排序,生成肽序列數據表。在此基礎上建立索引文件。
[0093]查詢結果獲取模塊20,連接索引文件獲取模塊10,用於輸入質譜圖,對每張質譜圖,提取一定數目的譜峰生成查詢集合,然後查詢索引文件,得到相對可信的部分序列集
口 ο
[0094]候選肽段生成模塊30,連接查詢結果獲取模塊20,用於對每張質譜圖及其對應的查詢結果,考慮可能的修飾組合,生成最終的候選肽段並打分。
[0095]鑑定結果獲取模塊40,連接候選肽段生成模塊30,用於對結果進行整合,並進行肽段到蛋白質的推斷,最後將全部鑑定結果輸出至文件。[0096]進一步地,上述索引文件獲取模塊10,包括:
[0097]文件讀取模塊11,用於讀取蛋白質資料庫文件,將蛋白質序列及名稱讀入內存。
[0098]序列切分模塊12,連接文件讀取模塊11,用於遍歷蛋白質序列,並按照非特異性酶切的方式模擬切分每一條蛋白質序列為若干子序列。每條子序列滿足指定質量值和長度的上下界限限制。
[0099]參數處理模塊13,連接序列切分模塊12,用於對每個質量值,設定一個計數器並初始化為O。這些計數器將對每個可能的質量值統計其相應的子序列數目;對於每個序列,將其質量值對應的計數器加I ;開闢一個數組A,用於存儲所有的子序列。
[0100]序列處理模塊14,連接文件讀取模塊11和參數處理模塊13,用於再次按照非特異性酶切的方式遍歷蛋白質序列;將生成的每條子序列存儲到數組A中的適當位置,保證最終生成A中的所有元素按照質量升序排列,生成索引文件。
[0101]進一步地,上述查詢結果獲取模塊20,包括:
[0102]預處理模塊21,用於讀入質譜數據文件,並對每一張質譜圖進行預處理,挑選一定數目的譜峰。
[0103]質譜圖處理模塊22,用於對每一張質譜圖,基於挑選出的譜峰,生成查詢集合,檢索蛋白質資料庫,進行第一次打分,存儲分數較高的若干序列片段。
[0104]進一步地,上述預處理模塊21,還用於對每一張質譜圖進行預處理時,去掉同位素譜峰、噪音譜峰、中性丟失峰等不相關的譜峰。
[0105]進一步地,上述預處理模塊21,還用於對不相關的譜峰,按照設定的參數值,挑選一定數目的譜峰。
[0106]進一步地,上述質譜圖處理模塊22,還用於對於每張質譜圖,基於生成的每一根譜峰,生成若干個查詢,包括:1)譜峰對應為肽段N端部分時的質量值;2)譜峰對應為肽段C端部分時的質量值;3)互補譜峰對應為肽段N端部分時的質量值;4)互補譜峰對應為肽段C端部分時的質量值。
[0107]進一步地,上述質譜圖處理模塊22,還用於對於每一個查詢,根據其質量值及對應的N端或C端,檢索資料庫中的合適的序列片段。
[0108]進一步地,上述質譜圖處理模塊22,還用於對於資料庫中的序列片段,包括N端片段和C端片段進行打分,分別存儲分數較高的若干片段。
[0109]進一步地,上述候選肽段生成模塊30,包括:
[0110]邊界確認模塊31,用於對生成的片段,如果其為N端片段,則對其C端確認邊界;否則對其N端確認邊界。
[0111]肽段處理模塊32,連接邊界確認模塊31,用於對確定邊界的肽段,將它與質譜圖的母離子的質量差作為可能的修飾質量,如果存在合適的修飾,則生成修飾肽段。
[0112]信息打分模塊33,連接肽段處理模塊32,用於將質譜圖與該修飾肽段進行打分。
[0113]進一步地,上述文件讀取模塊11,還用於當蛋白質資料庫文件大於限定的單批次處理規模上限時,將此文件按照處理規模上限劃分成若干子塊,每一個子塊對全部質譜圖完成索引文件獲取和查詢,然後處理下一個子塊,直到所有子塊處理完畢。
[0114]進一步地,上述信息打分模塊33,還用於當蛋白質資料庫文件大於限定的單批次處理規模上限時,將當前得到的質譜圖、候選肽及打分等結果信息輸入中間文件。[0115]進一步地,上述鑑定結果獲取模塊40,包括:
[0116]計算排名模塊41,用於收集所有質譜圖對應的候選肽結果,進行候選肽的E-value值計算,並存儲排名最高的若干結果。
[0117]結果生成模塊42,連接計算排名模塊41,用於對排名最高的若干結果,對每一個肽段查找其對應的蛋白質信息,生成最終的結果文件。
[0118]下面結合一具體實施例對本發明的技術方案作進一步詳細的描述:
[0119](I).本方法用於常規的質譜數據鑑定,需要首先給出一些必要的搜索參數,例如:
[0120]a)資料庫文件,即蛋白質的列表,包含一些待檢索的蛋白質名稱及序列信息。
[0121]b)串聯譜圖文件,包括多張串聯質譜圖(也叫二級質譜圖)。通常,一次實驗有數千到數百萬規模不等。每張質譜圖一般對應一個肽段,即由一個肽段碎裂形成的。質譜圖記載了肽段的母離子,也就是肽段本身的質量信息,同時,也包括它在質譜儀裡經過碎裂形成的所有離子的質荷比及離子強度信息。
[0122]c)輸入、輸出的路徑,線程數目等程序運行時需要的必備信息。
[0123](2).蛋白質需要進行理論酶切,形成若干子序列。例如,對於蛋白質序列AEHVAEADK,每個字母代表一個胺基酸,它可以形成45個子序列,每個子序列有質量和位置信息。
[0124](3).對所有蛋白形成的所有子序列按質量進行排序,並存儲到一個大的肽序列數據表中。目的是給定一個質量,以及具體的誤差範圍,找到所有符合這個質量範圍的子序列。例如,胺基酸八3、!1、¥、0、1(的質量分別是71,129,137,99,115和128 ;如果給定一個質量200,誤差範圍為[-1,I],那麼質量在[199,201]範圍內的子序列有:AE (蛋白質中第一個位置)、AE (蛋白質中的第五個位置)與EA (蛋白質中的第六個位置)。由於片段都排好序了,所以是容易查找到符合質量要求的片段的。進一步,創建質量到位置的索引,即存儲所有可能的質量值;對每一個可能的質量值,將其關聯到肽序列數據表中,第一個比它大或者和它相等的片段的位置上。
[0125](4).對於給定的每一個質譜圖,其中有數百個譜峰。根據同位素峰信息、強度信息等,提取出一定數目的譜峰,一般為10 - 30個,生成查詢集合。
[0126](5).查詢集合的形成,一般是把每個譜峰生成四個不同的查詢。具體如下:對於一個譜峰,它的離子類型未知,可能是N端的碎片,也可能是C端的碎片。如果有一個肽段AEHVK,它碎裂形成質譜圖S。那麼對於質譜圖S中的某個譜峰,它可能是該肽段碎裂後的N端部分,例如AEH,也可能是C端部分,如VK。在肽段鑑定出之前,是不清楚譜峰的具體身份的。所以,假想它為兩種可能:如果它是N端的碎片,那麼按照N端碎裂的規則,計算它碎裂前對應的質量(碎裂後形成的離子與不帶電的中性片段質量之間有固定的差值,不同的離子不同);C端亦然。
[0127](6).同時,由於母離子信息的存在,可以得到下面的查詢:假定某個譜峰是N端碎片,同時又知道母離子即整個肽段的質量,那麼,就把母離子減去這個碎片的值,當作可能的一個C端碎片去查詢。例如AEHVK碎裂形成的譜圖。其中AEH形成了一個譜峰。那麼,可以根據這個譜峰推算出VK的質量,儘管VK這個片段有可能沒有在譜圖中形成譜峰(由於肽段性質、測量誤差等,會有這種情況)。這樣查詢會更完善。這樣做對於修飾肽段的檢索有很大好處。比如,AHl上面可能存在某種修飾,不清楚其質量。但是用母離子減去它的質量時,得到的是另一端的質量,它有可能是不含修飾的,也就是說,是真正的VK的質量。
[0128](7).同理,對於C端碎片也是如此。這樣就有了上述4個查詢。每個查詢包括質量,同時也有對應的質量誤差範圍,以及它是N端還是C端的修飾。質量誤差範圍一般是事先指定好的參數,它與質譜儀的性能密切相關。
[0129](8).利用所有的查詢去檢索(3)中的索引,對於N端的查詢檢索到的所有子序列,統計它們對應到的N端位置的出現頻率;對於C端的查詢,統計C端位置的出現頻率。這樣,對於蛋白中的每個位置,可以得到每個位置對應多少個查詢。將對應查詢比較多的位置(N端和C端分別來看)提取出來,作為可能的候選肽段出現的位置,進行後續處理。
[0130](9).對於每個提取出的位置,也就是中間的結果,以N端位置為例,它代表了一個可能的肽段,以當前位置為N端,但是C端還不確定。此時枚舉所有可能的C端。由於母離子限制,比如母離子是1000,而不允許母離子的差值超過300,那麼就把所有的使得肽段N和C端質量差在[700,1300]之間的片段拿出來,作為備選的肽段。
[0131](10).對於每一個備選的肽段,它和母離子的質量差值作為一個可能的修飾值,到修飾資料庫中進行檢索,判斷有無質量一致的修飾。把所有這樣的修飾拿出來,加到該肽段上(一個修飾一般只發生在特定的位置,如NC端;或者特定的胺基酸,如C、K上。這裡只考慮修飾的所有合法位置)。這時候生成的肽段叫做修飾肽段。
[0132](11).將該譜圖與每一個修飾肽段打分。將打分最高的一些修飾肽段保留下來,作為最終結果輸出。
[0133]本發明提供了一種開放式蛋白質鑑定的資料庫搜索方法及其系統,可允許用戶不指定酶切和修飾的類型,或指定其中的任意類型進行蛋白質鑑定,用於解決任意類型的酶切和修飾的鑑定問題。
[0134]當然,本發明還可有其它多種實施例,在不背離本發明精神及其實質的情況下,熟悉本領域的技術人員當可根據本發明做出各種相應的改變和變形,但這些相應的改變和變形都應屬於本發明所附的權利要求的保護範圍。
【權利要求】
1.一種開放式蛋白質鑑定的資料庫搜索方法,其特徵在於,包括: 步驟1,輸入蛋白質序列,模擬切分每一條蛋白質序列,並將所有生成的子序列按照質量排序,生成肽序列數據表,並根據該肽序列數據表建立索引文件; 步驟2,輸入質譜圖,對每張質譜圖,提取譜峰生成查詢集合,查詢所述索引文件,得到序列集合; 步驟3,對每張質譜圖及其對應的序列集合,根據修飾組合,生成候選肽段並打分; 步驟4,對打分結果進行整合,並進行肽段到蛋白質的推斷,得到鑑定結果。
2.根據權利要求1所述的方法,其特徵在於,所述步驟I中,包括: 步驟11,讀取蛋白質資料庫文件,獲取蛋白質序列及名稱; 步驟12,遍歷蛋白質序列,按照非特異性酶切的方式模擬切分每條蛋白質序列為多個子序列; 步驟13,對每個質量值設定一個計數器並初始化為O,該計數器統計每個質量值對應的子序列數目;對每條子序列質量值對應的計數器加I ;開闢一數組以存儲所有的子序列;以及 步驟14,按照非特異性酶切的方式遍歷蛋白質序列,將生成的每條子序列存儲到數組中,以使數組中的所有元素按照質量升序排列,生成索引文件。
3.根據權利要求2所述的方法,其特徵在於,所述步驟11中,包括: 當蛋白質資料庫文件大於設置的單批次處理規模上限時,將該蛋白質資料庫文件按照該單批次處理規模上限劃分成多個子塊,每一個子塊對全部質譜圖完成索引文件獲取和查詢,然後處理下一個子塊,直到所有子塊處理完畢。
4.根據權利要求2或3所述的方法,其特徵在於,所述步驟2中,包括: 步驟21,讀入質譜數據文件,獲取質譜圖,對每一張質譜圖進行預處理,挑選譜峰;以及 步驟22,對每一張質譜圖,基於挑選出的譜峰,生成查詢集合,檢索蛋白質資料庫,進行第一次打分,存儲分數較高的序列片段。
5.根據權利要求4所述的方法,其特徵在於,所述步驟22中,包括: 對於每一個查詢,根據質量值及對應的N端或C端,檢索蛋白質資料庫中的序列片段; 對於蛋白質資料庫中的序列片段,包括N端片段和C端片段進行打分,分別存儲分數較聞的序列片段。
6.根據權利要求5所述的方法,其特徵在於,所述步驟3中,包括: 步驟31,對序列片段進行判斷,若該序列片段為N端片段,則對該序列片段的C端確認邊界;否則對該序列片段的N端確認邊界; 步驟32,計算所確認邊界的肽段與質譜圖的母離子的質量差,並將該質量差當作修飾質量查詢修飾資料庫;若存在合適的修飾,則生成修飾肽段;以及 步驟33,對質譜圖與該修飾肽段進行打分。
7.根據權利要求6所述的方法,其特徵在於,所述步驟33中,包括: 當蛋白質資料庫文件大於設置的單批次處理規模上限時,將當前得到的質譜圖、候選肽及打分信息輸入中間文件。
8.根據權利要求1、2、3、5、6、或7所述的方法,其特徵在於,所述步驟4中,包括:步驟41,收集所有質譜圖對應的候選肽結果,進行候選肽的E-value值計算,並存儲排名最高的結果;以及 步驟42,根據排名最高的結果,對每一個肽段查找其對應的蛋白質信息,生成鑑定結果O
9.一種開放式蛋白質鑑定的資料庫搜索系統,其特徵在於,包括: 索引文件獲取模塊,用於輸入蛋白質序列,模擬切分每一條蛋白質序列,並將所有生成的子序列按照質量排序,生成肽序列數據表,並根據該肽序列數據表建立索引文件; 查詢結果獲取模塊,連接索引文件獲取模塊,用於輸入質譜圖,對每張質譜圖,提取譜峰生成查詢集合,查詢所述索引文件,得到序列集合; 候選肽段生成模塊,連接查詢結果獲取模塊,用於對每張質譜圖及其對應的序列集合,根據修飾組合,生成候選肽段並打分; 鑑定結果獲取模塊,連接候選肽段生成模塊,用於對打分結果進行整合,並進行肽段到蛋白質的推斷,得到鑑定結果。
10.根據權利要求9所述的系統,其特徵在於,所述索引文件獲取模塊包括: 文件讀取模塊,用於讀取蛋白質資料庫文件,獲取蛋白質序列及名稱; 序列切分模塊,連接文件讀取模塊,用於遍歷蛋白質序列,並按照非特異性酶切的方式模擬切分每一條蛋白質序列為多個子序列,每條子序列滿足指定質量值和長度的上下界限限制; 參數處理模塊,連接序列切分模塊,用於對每個質量值設定一個計數器並初始化為0,該計數器統計對每個質量值對應的子序列數目;對每個子序列,將其質量值對應的計數器加I ;開闢一個數組以存儲所有的子序列;以及 序列處理模塊,連接文件讀取模塊和參數處理模塊,用於按照非特異性酶切的方式遍歷蛋白質序列;將生成的每條子序列存儲到數組中,以使數組中的所有元素按照質量升序排列,生成索引文件。
11.根據權利要求10所述的系統,其特徵在於,所述文件讀取模塊,還用於當蛋白質資料庫文件大於設置的單批次處理規模上限時,將該蛋白質資料庫文件按照該單批次處理規模上限劃分成多個子塊,每一個子塊對全部質譜圖完成索引文件獲取和查詢,然後處理下一個子塊,直到所有子塊處理完畢。
12.根據權利要求9、10或11所述的系統,其特徵在於,所述查詢結果獲取模塊包括: 預處理模塊,用於讀入質譜數據文件,獲取質譜圖,對每一張質譜圖進行預處理,挑選一定數目的譜峰;以及 質譜圖處理模塊,用於對每一張質譜圖,基於挑選出的譜峰,生成查詢集合,檢索蛋白質資料庫,進行第一次打分,存儲分數較高的序列片段。
13.根據權利要求12所述的系統,其特徵在於,所述質譜圖處理模塊,還用於對每一個查詢,根據質量值及對應的N端或C端,檢索蛋白質資料庫中的序列片段;對於蛋白質資料庫中的序列片段,包括N端片段和C端片段進行打分,分別存儲分數較高的序列片段。
14.根據權利要求9、10、11或13所述的系統,其特徵在於,所述候選肽段生成模塊包括: 邊界確認模塊,用於對序列片段進行判斷,若該序列片段為N端片段,則對該序列片段的C端確認邊界;否則對該序列片段的N端確認邊界; 肽段處理模塊,連接邊界確認模塊,用於將確定邊界的肽段與質譜圖的母離子的質量差作為可能的修飾質量,如果存在合適的修飾,則生成修飾肽段;以及 信息打分模塊,連接肽段處理模塊,用於將質譜圖與該修飾肽段進行打分。
15.根據權利要求14所述的系統,其特徵在於,所述信息打分模塊,還用於當蛋白質資料庫文件大於設置的單批次處理規模上限時,將當前得到的質譜圖、候選肽及打分信息輸入中間文件。
16.根據權利要求9、10、11、13或15所述的系統,其特徵在於,所述鑑定結果獲取模塊包括: 計算排名模塊,用於收集所有質譜圖對應的候選肽結果,進行候選肽的E-value值計算,並存儲排名最高結果;以及 結果生成模塊,連接計算排名模塊,用於對排名最高的結果,對每一個肽段查找其對應的蛋白質信息,生成鑑 定結果。
【文檔編號】G06F17/30GK103810200SQ201210451907
【公開日】2014年5月21日 申請日期:2012年11月12日 優先權日:2012年11月12日
【發明者】遲浩, 孫瑞祥, 王樂珩, 張文力, 賀思敏 申請人:中國科學院計算技術研究所

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀