一種檢測差異表達蛋白質的方法
2023-10-24 06:56:07 1
一種檢測差異表達蛋白質的方法
【專利摘要】本發明涉及一種檢測差異表達蛋白質的方法,面向定量蛋白質組學中的基於一級譜圖信息的標記和非標記的相對定量數據分析,包括肽譜匹配、可信度評價、肽段信號提取、肽段比值計算、蛋白質比值計算、統計學分析,根據某蛋白質在兩種或多種樣品中對應的質譜信號強度比值判斷其是否是差異表達蛋白質。對於近百GB的規模的質譜實驗採集的數據,快速地自動化分析,對不同蛋白質在質譜儀中的信號儘可能精準地提取蛋白質信號;從統計學意義上確定蛋白質差異表達,並對結果的準確性進行評價。
【專利說明】一種檢測差異表達蛋白質的方法
【技術領域】
[0001]本發明涉及定量蛋白質組學領域,特別涉及一種檢測差異表達蛋白質的方法。
【背景技術】
[0002]定量蛋白質組學主要通過生物質譜技術研究複雜生物樣品中蛋白質的表達情況,其中一項重要的研究目標是在不同生物樣品中檢測差異表達蛋白質。
[0003]對於某些重要的蛋白質,如與癌症相關的核心巖藻糖蛋白質,在癌症患者體內的表達量要遠遠高於正常人。該差異表達的核心巖藻糖蛋白質可以作為肝癌早期診斷標誌物。在其他諸如生物信號傳導、細胞衰老以及翻譯後修飾等生命過程中,差異表達蛋白質都起到了主導作用。據報導,2011年,美國藥品研究與製造商協會(PhRMA)的成員公司總共投入495億美元研究經費,其中絕大部分經費用於尋找疾病標誌物,即檢測和確認患者體內與正常人體內差異表達的蛋白質。這些差異表達蛋白質與疾病有直接關係,可以測量相關人群這些蛋白質的表達量,用於診斷是否患病。
[0004]傳統的生物化學方法,如蛋白質印跡法,一次實驗需要耗費數天的時間,卻只能檢測一個或數個高豐度蛋白質在兩個樣品中表達量的差異。生物體內含有數以千計的蛋白質,使用這類方法一一進行檢測需要消耗大量的人力和物力。而生物質譜技術具有靈敏度好、動態線性範圍大、通量高等優點,可以一次性分析數千蛋白質。德國和瑞士的科學家報導說使用生物質譜技術數個小時內即可檢測到大腸桿菌體內的5000個蛋白質,佔大腸桿菌全部蛋白質的90%以上;可以檢測到人體內I萬個以上蛋白質,並且數目還在增加。
[0005]生物質譜技術的核心功能是將蛋白質在生物體中的表達量的信息「數位化」,即對某複雜生物樣品採集質譜數據,而後使用計算技術分析這些數據,還原蛋白質的表達量信息。2009年,當今國際上蛋白質組學3大主要引領者之一,瑞士聯邦理工學院分子系統生物學研究所的Ruedi Aebersold教授在期刊《Nature Methods》上發表了一篇文章,認為使用計算技術分析質譜數據是整個定量蛋白質組學中最關鍵、最有挑戰性的研究問題。這裡面的難點包括:(I) 一次質譜實驗採集的數據可以達到近百GB的規模,需要有方法快速地自動化分析;(2)不同蛋白質在質譜儀中的信號可能會相互重疊、相互幹擾,需要專門的算法去幹擾,儘可能精準地提取蛋白質信號;(3)需要從統計學意義上確定哪些蛋白質是差異表達的,並對結果的準確性進行評價。
[0006]目前已有的面向蛋白質質譜數據的分析方法,最主要的問題是對信號重疊、信號幹擾的處理能力較弱,得出的定性、定量結果中有相當比例都是不準確的,並且幾乎沒有算法對蛋白質的定量結果的準確性進行評價。這導致使用該方法檢測的差異表達蛋白質無法完全信任,需要後續使用多種傳統的生物化學手段再進行一一驗證,還要耗費了大量的人力和物力,且增長了研究周期。該問題一直是限制標誌物檢測研究取得突破性進展的瓶頸。
[0007]目前蛋白質定量的主流技術是,面向定量蛋白質組學中的基於一級譜圖信息的標記和非標記的相對定量數據分析,廣泛應用於生物標誌物發現、臨床診斷、生物信號傳導過程以及翻譯後修飾研究等領域。
【發明內容】
[0008]為了解決上述問題,本發明的目的在於提出一種檢測差異表達蛋白質的方法,面向定量蛋白質組學中的基於一級譜圖信息的標記和非標記的相對定量數據分析,根據某一蛋白質在兩種或多種生物樣品中對應的質譜信號強度比值判斷其是否是差異表達蛋白質。
[0009]本發明公開了一種檢測差異表達蛋白質的方法,包括:
[0010]步驟1,對質譜數據進行預處理,用於將該蛋白質的原始二進位質譜數據轉換為文本格式,並建立索引;
[0011]步驟2,對二級譜圖進行肽譜匹配,確定樣品中含有的肽段,用於對二級譜圖與蛋白質資料庫中的記錄的肽段進行匹配打分,取高可信的匹配結果;或者直接從二級譜圖推測肽段序列,取高可信的結果;
[0012]步驟3,提取每個肽段在兩種生物樣品和多種生物樣品中的信號,以多個同位素曲線的形式進行表示;
[0013]步驟4,將相同肽段在不同樣品中的信號之間建立對應關係,計算其表達量差異的肽段比值和置信區間;
[0014]步驟5,將肽段比值歸併為蛋白質比值,並給出蛋白質比值的置信區間;
[0015]步驟6,確定差異表達的蛋白質。
[0016]所述的檢測差異表達蛋白質的方法,肽段信號以多個同位素色譜曲線的形式進行表不。
[0017]所述的檢測差異表達蛋白質的方法,基於幹擾最小的同位素色譜曲線計算肽段比值,具體方法為局部最小一乘法,並計算比值的置信區間。
[0018]所述的檢測差異表達蛋白質的方法,將肽段比值歸併為蛋白質比值採用核密度估計方法。
[0019]所述的檢測差異表達蛋白質的方法,步驟2還包括:
[0020]步驟11,對每張二級譜圖進行處理,只保留強度最大的前200個譜峰;
[0021]步驟12,對輸入的每張二級譜圖,在蛋白質資料庫中尋找最相似的肽段。
[0022]所述的檢測差異表達蛋白質的方法,步驟2還包括:
[0023]步驟21,對肽譜匹配按照打分從高到低進行排序;
[0024]步驟22,控制肽譜匹配的假髮現率。
[0025]所述的檢測差異表達蛋白質的方法,步驟3還包括:
[0026]步驟31,讀取肽段排序列表,並對一級譜圖進行預處理,同時設定必要的數據分析參數,包括要分析的質譜數據、數據的類型、所屬物種的蛋白質資料庫;
[0027]步驟32,提取肽段信號,以多個同位素色譜曲線的形式表示。
[0028]步驟321,對每個肽譜匹配,計算每個肽段的理論同位素分布;
[0029]步驟322,根據理論同位素分布,在鑑定到該肽段的二級譜圖前後2分鐘保留時間範圍內的一級譜圖上確定實際同位素峰;
[0030]對於這個範圍內的某張一級譜圖,如果某理論同位素峰的質荷比正負IOppm範圍內有譜峰,則記錄下來;如果IOppm範圍內有多根譜峰,那麼每次選其中一個譜峰,和理論同位素分布計算餘弦夾角,取值最高的那個組合為實際的同位素峰;[0031]步驟323,對於每一個實際的同位素峰,沿保留時間把它們連成一條曲線,表示該肽段從沒有信號到有信號再到信號消失的過程。
[0032]先根據鑑定到肽段的二級譜圖的掃描號,找到距離該二級譜圖最近的一級譜圖。而後以該一級譜圖所在掃描號為基準,在這條曲線上向前尋找起始點,向後尋找終止點,當曲線的上某點的強度低於最高曲線強度的10%時,停止;該曲線在原來的基礎上就小了一些;再以此曲線為基礎,尋找起始點和終止點附近的極值點,將該極值點與起始點或終止點之間的部分刪除;
[0033]步驟324,如果是標記定量實驗,那麼肽段有輕、重標兩種形式。
[0034]所述的檢測差異表達蛋白質的方法,步驟4還包括:計算肽段在兩個樣品中對應信號的強度差異,以比值的形式表示;取幹擾最小的曲線計算比值。
[0035]所述的檢測差異表達蛋白質的方法,步驟4還包括:
[0036]步驟41,對於一個肽段,用向量^=(麼...,麼...,?,丨)和?=(#,...,<,...,0表示計算的肽段同位素標記的輕、重標形式的理論同位素豐度講和!!!分別表示肽段輕、重標形式的同位素峰數目山=表示肽段輕標形式單同位素色譜曲線,k是色譜曲線跨越的一級譜圖的數目;12= (I2,I2,k)表示肽段輕標形式第一同位素色譜曲線,依次類推,In=(ln;1,ln,k)表示肽段輕標形式第η同位素色譜曲線;類似的,hi = (h1;1,...,h1;k)表示肽段重標形式單同位素色譜曲線,hm = (Inu,hm,k)肽段重標形式第m同位素色譜曲線.[0037]步驟42,對上一步的各同位素曲線進行歸一化,以確保肽段輕、重標記間各取任一同位素曲線都可用於計算肽段比值;
Yt1Yt1
[0038]歸一化方法如下
【權利要求】
1.一種檢測差異表達蛋白質的方法,其特徵在於,面向定量蛋白質組學中的基於一級譜圖信息的標記和非標記的相對定量數據分析,根據某一蛋白質在兩種或多種生物樣品中對應的質譜信號強度比值判斷其是否是差異表達蛋白質。
2.如權利要求1所述的檢測差異表達蛋白質的方法,其特徵在於,包括: 步驟1,對質譜數據進行預處理,用於是將該蛋白質的原始二進位質譜數據轉換為文本格式,並建立索引; 步驟2,對二級譜圖進行肽譜匹配,確定樣品中含有的肽段,用於對二級譜圖與蛋白質資料庫中的記錄的肽段進行匹配打分,取高可信的匹配結果;或者直接從二級譜圖推測肽段序列,取高可信的結果; 步驟3,提取每個肽段在兩種生物樣品和多種生物樣品中的信號,以多個同位素曲線的形式進行表示; 步驟4,將相同肽段在不同樣品中的信號之間建立對應關係,計算其表達量差異的肽段比值和置信區間; 步驟5,將肽段比值歸併為蛋白質比值,並給出蛋白質比值的置信區間; 步驟6,確定差異表達的蛋白質。
3.如權利要求2所述的檢測差異表達蛋白質的方法,其特徵在於,肽段信號以多個同位素色譜曲線的形式進行表示。
4.如權利要求2所述的檢測差異表達蛋白質的方法,其特徵在於,基於幹擾最小的同位素色譜曲線計算肽段比值,具體方法為局部最小一乘法,並計算比值的置信區間。`
5.如權利要求2所述的檢測差異表達蛋白質的方法,其特徵在於,將肽段比值歸併為蛋白質比值採用核密度估計方法。
6.如權利要求2所述的檢測差異表達蛋白質的方法,其特徵在於,步驟2還包括: 步驟11,對每張二級譜圖進行處理,只保留強度最大的前200個譜峰; 步驟12,對輸入的每張二級譜圖,在蛋白質資料庫中尋找最相似的肽段。
7.如權利要求2所述的檢測差異表達蛋白質的方法,其特徵在於,步驟2還包括: 步驟21,對肽譜匹配按照打分從高到低進行排序; 步驟22,控制肽譜匹配的假髮現率。
8.如權利要求2所述的檢測差異表達蛋白質的方法,其特徵在於,步驟3還包括: 步驟31,讀取肽段排序列表,並對一級譜圖進行預處理,同時設定必要的數據分析參數,包括要分析的質譜數據、數據的類型、所屬物種的蛋白質資料庫; 步驟32,提取肽段信號,以多個同位素色譜曲線的形式表示。
9.如權利要求8所述的檢測差異表達蛋白質的方法,其特徵在於,步驟32還包括: 步驟321,對每個肽譜匹配,計算每個肽段的理論同位素分布; 步驟322,根據理論同位素分布,在鑑定到該肽段的二級譜圖前後2分鐘保留時間範圍內的一級譜圖上確定實際同位素峰; 對於這個範圍內的某張一級譜圖,如果某理論同位素峰的質荷比正負IOppm範圍內有譜峰,則記錄下來;如果IOppm範圍內有多根譜峰,那麼每次選其中一個譜峰,和理論同位素分布計算餘弦夾角,取值最高的那個組合為實際的同位素峰; 步驟323,對於每一個實際的同位素峰,沿保留時間把它們連成一條曲線,表示該肽段從沒有信號到有信號再到信號消失的過程。
10.如權利要求9所述的檢測差異表達蛋白質的方法,其特徵在於,步驟323還包括:先根據鑑定到肽段的二級譜圖的掃描號,找到距離該二級譜圖最近的一級譜圖。而後以該一級譜圖所在掃描號為基準,在這條曲線上向前尋找起始點,向後尋找終止點,當曲線的上某點的強度低於最高曲線強度的10%時,停止;該曲線在原來的基礎上就小了一些;再以此曲線為基礎,尋找起始點和終止點附近的極值點,將該極值點與起始點或終止點之間的部分刪除; 步驟324,如果是標記定量實驗,那麼肽段有輕、重標兩種形式。
11.如權利要求8所述的檢測差異表達蛋白質的方法,其特徵在於,步驟4還包括:計算肽段在兩個樣品中對應信號的強度差異,以比值的形式表示;取幹擾最小的曲線計算比值。
12.如權利要求11所述的檢測差異表達蛋白質的方法,其特徵在於,步驟4還包括: 步驟41,對於一個肽段,用向量乂)和P=(C...,0表示計算的肽段同位素標記的輕、重標形式的理論同位素豐度;n和m分別表示肽段輕、重標形式的同位素峰數目山=表示肽段輕標形式單同位素色譜曲線,k是色譜曲線跨越的一級譜圖的數目;12= (I2,!,..., I2,k)表示肽段輕標形式第一同位素色譜曲線,依次類推,In =(^!,...,Injk)表示肽段輕標形式第η同位素色譜曲線;類似的,Ii1 = (h1;h1;k)表示肽段重標形式單同位素色譜曲線,hm = (Inu,hm,k)肽段重標形式第m同位素色譜曲線;步驟42,對上一步的各同位素曲線進行歸一化,以確保肽段輕、重標記間各取任一同位素曲線都可用於計算肽段比值; 歸一化方法如下:
13.如權利要求12所述的檢測差異表達蛋白質的方法,其特徵在於,步驟43中計算比值包括如下步驟: 給定X=U1, -Xk) (YV…,yk)表示分別從肽段輕標形式和重標形式中各取了一條同位素曲線。 步驟431,以兩個曲線的中心為基礎,取三個點為局部曲線:中點左邊的點,中點,中點右邊的點;即取
14.如權利要求2所述的檢測差異表達蛋白質的方法,其特徵在於,步驟5還包括: 步驟51,使用核密度估計的方法推斷蛋白質的比值; 步驟52,使用了高斯核,並假設每個肽段的比值服從一個高斯分布: 其中,^是第i個肽段比值,O i是其標準差,N是其所對應的蛋白質所鑑定或定量的肽段的總數; 步驟53,定義
15.如權利要求2所述的檢測差異表達蛋白質的方法,其特徵在於,步驟6還具體包括如下步驟: 步驟61,對所有比值取log2變換,並通過加或減一個常數,使其中值為O ; 步驟62,擬合所有比值的分布; 步驟63,根據擬合的分布計算每個比值的p-value ; 步驟64,計算假髮現率,報告假髮現率小於1%的那些蛋白質比值作為可信的顯著差異表達蛋白質,並以報表的形式展示給用戶。
【文檔編號】G01N27/62GK103776891SQ201310397694
【公開日】2014年5月7日 申請日期:2013年9月4日 優先權日:2013年9月4日
【發明者】劉超, 宋春青, 遲浩, 孫瑞祥, 董夢秋, 賀思敏 申請人:中國科學院計算技術研究所