一種基於最小二乘法的肽質譜峰特徵參數提取方法
2023-10-25 12:27:37 8
一種基於最小二乘法的肽質譜峰特徵參數提取方法
【專利摘要】本發明涉及一種肽質譜峰特徵參數提取方法。現有方法針對在肽段質譜圖中形成譜峰的各樣點其分布存在較大偏差時,存在難以保證所提取出的質譜峰特徵參數精準度的不足。本發明提出基於最小二乘法的肽質譜峰特徵參數提取方法,通過對待擬合的質譜峰函數進行非線性變換,並利用經過適當選擇的樣點數據,按照最小二乘法的原理進行函數擬合,再經過反變換從而獲得最終特徵參數估值。該方法無需迭代操作,實現簡單,可有效減少樣點分布偏差對高斯曲線特徵參數求解帶來的不利影響,提高特徵參數數值精準度,進而有利於肽段鑑定精度的改善。
【專利說明】一種基於最小二乘法的肽質譜峰特徵參數提取方法
【技術領域】
[0001]本發明屬於生物質譜數據預處理及信息提取【技術領域】,具體涉及一種基於最小二乘法的肽質譜峰特徵參數提取方法。
【背景技術】
[0002]目前蛋白質組研究領域中,基於串聯質譜的肽鑑定是一種廣泛使用的技術。待鑑定的肽在串聯質譜儀中被誘導碰撞碎裂為碎片離子,碎片離子的質荷比與豐度值被質譜儀器檢測出來,從而生成串聯質譜數據,隨後與理論串聯質譜庫進行比對及分析,最終完成對肽段的鑑定。
[0003]通常情況下,每個碎片離子及其同位素離子在質譜圖中並非表現為單一數值點,而是存在若干樣點形成相應的譜峰,其輪廓擬合後近似為高斯曲線,即高斯峰。為確定該離子的荷質比,需對這些樣點進行預處理,計算出其橫軸方向上的質心(Cent1id),即該離子的實測質荷比。根據所求質心,可進而推算出該離子最大豐度值等其他特徵參數。
[0004]目前質心求解方法有多種,比較常見的思路是:假定質譜圖上構成高斯峰的各個樣點均嚴格分布在某條高斯曲線上,利用各樣點的數值(質荷比和豐度值),代入到參數未知的通用高斯曲線函數表達式中,構造聯立方程組,從而解出相應高斯峰的特徵參數,包括質心,最大豐度值等。當前應用極為廣泛的一款蛋白質組學數據分析軟體MAXQUANT採用的即是這一方法。然而在實際檢測中,受實驗條件、所在環境以及儀器設備噪聲等因素的影響,質譜圖上各個樣點往往並非嚴格分布在高斯曲線上,而是存在一定偏差。當各個樣點偏差數值較大,則上述方法中的假設條件難以成立,因而勢必造成求解出的特徵參數在數值上存在較大誤差,進而影響到肽段鑑定的精度。採用非線性迭代擬合方式的特徵參數提取方法可以有效克服樣點偏差對參數估值精準度的影響,但此類方法往往比較複雜,運算時間長,工作效率低,同時還存在對初始值敏感現象,以及迭代無法收斂的風險。
【發明內容】
[0005]本發明的目的在於解決上述方法的缺點和不足,提出一種基於最小二乘法的肽質譜峰特徵參數提取方法。
[0006]設質譜圖中某離子的質譜峰由N個樣點組成,通常情況下N彡3。其坐標構成集合A0
[0007]A = {(Hi1, (I1),(m2, d2),…(mN, dN)}
[0008]其中,Hii表示質荷比,(Ii表示豐度,其值大於O, i e {1,2,3,…,N}。需要通過樣點擬合出的高斯曲線其函數形式設為:
_9]/⑴=價丨」
[0010]其中,高斯曲線函數f(x)代表豐度值,自變量X代表質荷比,a、b和c為待求解的高斯曲線特徵參數,分別表徵縮放因子、質心和標準差。所述的特徵參數提取方法處理步驟如下:
[0011]步驟(I)對各個樣點的豐度值進行排序,選取出數值最大的3個樣點,假設其質譜圖坐標分別為(m」,dj)、(mk, dk)和(mn, dn), j, k, n e {1,2,...,N}。
[0012]步驟(2)對選取的3個樣點的豐度值數據進行預處理,並構造豐度向量Y。
V, =1η(?/,)
[0013]V2 = \n{dk)
Vi=Hdn)
[0014]Y = [Yl y2 y3]T
[0015]其中,ln(.)表示取自然對數操作。
[0016]步驟(3)根據3個樣點的質荷比數據構造係數矩陣M。
mf Wil I
[0017]M= m; JtI2 I
ml m3 I
[0018]步驟⑷構造分解矩陣Q和R。
[0019][Q, R] = qr (M)
[0020]其中,qr (.)表示對矩陣進行QR分解,矩陣Q為分解出的正交矩陣,大小為3X3,矩陣R為分解出的上三角矩陣,大小為3X3。
[0021]步驟(5)計算特徵參數信息向量P。
[0022]P = R^1X (QtXY)
[0023]步驟(6)令P = [P1 p2 ρ3]τ,計算特徵參數a、b和C。
[0024]卜-彔)
a-eK y
a— 廠,
剛 bs
ΓΤ
[0026]C=——
V Pi
[0027]本發明中肽質譜峰特徵參數提取方法,採用最小二乘法求解特徵參數。和非線性迭代擬合方式相比,不存在初始值敏感現象和迭代無法收斂的風險,實現較為簡單,可有效減少樣點分布偏差帶來的不利影響,提升參數提取精準度,進而有利於肽段鑑定精度的改盡口 ο
【具體實施方式】
[0028]步驟(I)對各個樣點的豐度值進行排序,選取出數值最大的3個樣點,假設其質譜圖坐標分別為(nij,dj)、(mk, dk)和(mn, dn), j, k, n e {1,2,...,N}。
[0029]步驟(2)對選取的3個樣點的豐度值數據進行預處理,並構造豐度向量Y。
>1 =In(^7)
[0030]V-, = In^i)
y3=ln(dj
[0031]Y= [yi y2 y3]T
[0032]其中,In (.)表示取自然對數操作。
[0033]步驟⑶根據3個樣點的質荷比數據構造係數矩陣M。
ml ml 1
[0034]Μ - m; m2 1
7?3 m3 1
[0035]步驟⑷構造分解矩陣Q和R。
[0036][Q, R] = qr (M)
[0037]其中,qr (.)表示對矩陣進行QR分解,矩陣Q為分解出的正交矩陣,大小為3X3,矩陣R為分解出的上三角矩陣,大小為3X3。
[0038]步驟(5)計算特徵參數信息向量P。
[0039]P = IT1X(QTXY)
[0040]步驟(6)令P = [p! p2 ρ3]τ,計算特徵參數a、b和c。
[0041][Λ—ft)
a=eK J
,_ Pi
[0042]
ΓΤ
[0043]C = J——
V A
【權利要求】
1.一種基於最小二乘法的肽質譜峰特徵參數提取方法,其特徵在於: 設質譜圖中某離子的質譜峰由N個樣點組成,N ^ 3 ;其坐標構成集合A ;
A = {(Hi1, (I1),(m2, d2),…(mN, dN)} 其中,IHi表示質荷比,(Ii表示豐度,其值大於O, i e {I, 2, 3,..., N};需要通過樣點擬合出的高斯曲線,其函數形式設為:
/(.r) -a^c {) 其中,高斯曲線函數f (X)代表豐度值,自變量X代表質荷比,a、b和c為待求解的高斯曲線特徵參數,分別表徵縮放因子、質心和標準差; 具體步驟如下: 步驟(I)對各個樣點的豐度值進行排序,選取出數值最大的3個樣點,假設其質譜圖坐標分別為(nij,dj)、(mk, dk)和(mn, dn), j, k, n e {1,2,...,N}; 步驟(2)對選取的3個樣點的豐度值數據進行預處理,並構造豐度向量Y ; y, =Mdj)
■ y:.= ln(4)..V3 = ln("?)
Y = [yi I2 y3]T 其中,ln(.)表示取自然對數操作; 步驟⑶根據3個樣點的質荷比數據構造係數矩陣M ;
//Zj2 m' I
M = nu Imt ///, I 步驟⑷構造分解矩陣Q和R ;[Q,R] = qr(M) 其中,qr (.)表示對矩陣進行QR分解,矩陣Q為分解出的正交矩陣,大小為3 X 3,矩陣R為分解出的上三角矩陣,大小為3X3 ; 步驟(5)計算特徵參數信息向量P ;P = IT1X (QtXY) 步驟(6)令P = [P1 p2 p3]τ,計算特徵參數a、b和c ;
^Pi c=fl
【文檔編號】G01N27/62GK104297328SQ201410498617
【公開日】2015年1月21日 申請日期:2014年9月25日 優先權日:2014年9月25日
【發明者】易志強, 李芸, 章劍秋, 姚英彪, 曾嶸, 張福洪, 李希元 申請人:杭州電子科技大學