新四季網

一種蛋白激酶磷酸化特異位點計算識別方法

2023-11-05 16:52:22 1


專利名稱::一種蛋白激酶磷酸化特異位點計算識別方法
技術領域:
:本發明涉及一種蛋白質修飾化位點識別方法,特別是一種蛋白激酶磷酸化特異位點計算識別方法。
背景技術:
:蛋白質磷酸化和去磷酸化過程調節著細胞信號轉導、細胞分化、細胞生長、細胞凋亡等幾乎所有生命活動。蛋白質磷酸化位點主要發生於酪氨酸(Y)、絲氨酸(S)與蘇氨酸(T)殘基(Wuetal.,JProteomeRes,2007,6(5):1812)。蛋白質磷酸化的異常往往導致細胞生命活動的異常,甚至產生細胞損傷或細胞癌變(Yangetal.,JProteomeRes,2006,5(5):252)。因此,探索生理和病理狀態下蛋白質磷酸化規律對於闡述生命本質和疾病發生機制及研發新藥至關重要。實驗手段鑑定激酶特異性磷酸化位點是了解磷酸化機制以及藥物設計的基礎。目前已發展多種實驗鑑定蛋白質磷酸化位點方法,傳統鑑定方法如P32標記法和埃德曼降解法常用於磷酸化位點測定(Campbelletal.,JBiomolTech,2002,13:119),但其費時、費力、靈敏度低以及需要大量提純蛋白質。基於質譜高通量磷酸化位點鑑定方法是最近湧現出的檢測蛋白磷酸化強有力手段(Philipetal.,CellCo匪nAdhes,2006,13:249)。但該類方法大多仍處於實驗室研究階段未得到廣泛應用。隨著高通量鑑定蛋白質磷酸化技術發展,特別是質譜技術在蛋白組學上應用,磷酸化位點的數據不斷積累,已有多種計算機預測方法預測磷酸化位點,如遺傳算法-神經網絡(Tangetal.,ProteinEngineering.Design&Selection,2007,20(8):405),支持向量機(Kimetal.,Bioinformatics,2004,20:3179),隱Markov模型(Huangetal.,NucleicAcidsRes,2005,33:W226)及貝葉斯決策理論(Xueetal.,BMCBioinformatics,2006,7:163)等。但現有的磷酸化位點預測方法都存在無法同時獲得較高靈敏度和特異性的問題,並且預測正確率仍然不高(Tangetal.,ProteinEngineering.Design&Selection,2007,20(8):405),因此有必要開發具有高靈敏度、特異度和預測正確率的蛋白激酶磷酸化特異位點識別方法。
發明內容有鑑於此,為了解決上述問題,本發明提供了一種蛋白激酶磷酸化特異位點計算識別方法,可用於蛋白激酶磷酸化特異位點識別。本發明的目的是這樣實現的一種蛋白激酶磷酸化特異位點計算識別方法,包括如下步驟a)具體包括al)精選20種天然胺基酸的629種三維性質參數;a2)對629種性質參數做主成分分析,得到12個主成分;a3)計算各主成分得分,建立胺基酸三維性質得分;b)用胺基酸三維性質得分表徵蛋白激酶磷酸化特異位點的結構特徵,其中的每個胺基酸用12個胺基酸三維性質得分表徵;c)用費歇爾準則得分方法挑選與蛋白激酶磷酸化特異位點特徵密切相關的性質參數,並作為模型的輸入變量;d)應用徑向基核支持向量機建立蛋白激酶磷酸化特異位點識別模型,以自取代檢驗,留1/10法交互檢驗以及外部檢驗驗證模型的預測能力,將每個樣本的輸入變量帶入模型並識別蛋白激酶磷酸化特異位點。本發明的一種蛋白激酶磷酸化特異位點計算識別方法,其中選取的胺基酸三維性質得分所含信息量大、表徵能力強、拓展性能好及操作簡便;費歇爾準則得分可以很好地挑選與蛋白激酶磷酸化特異位點特徵密切相關的性質參數;徑向基核支持向量機通過核函數技術,可以有效的防止模型的過擬合,並具有良好的泛化性能;同時,採用的自取代檢驗,留1/10法交互檢驗及外部檢驗驗證方法可以較大程度地保證方法的預測能力。本發明的其它優點、目標和特徵在某種程度上將在隨後的說明書中進行闡述,並且在某種程度上,基於對下文的考察研究對本領域技術人員而言將是顯而易見的,或者可以從本發明的實踐中得到教導。本發明的目標和其他優點可以通過下面的說明書,權利要求書,以及附圖中所特別指出的結構來實現和獲得。具體實施例方式以下將對採用本發明的方法用於蛋白激酶磷酸化特異位點識別為例進行詳細的描述,包括以下步驟a)精選20種天然胺基酸的629種三維性質參數,包括Randic分子剖面參數,幾何特徵參數,基於不同原子間距的徑向基函數描述子(RDF),基於電衍射法的分子結構表徵(MoRSE)得到的描述子,加權整體不變分子的(WHIM)描述子及幾何、拓撲與原子重量的集合(GETAWAY)參數。採用主成分分析處理629種性質參數,得到12個主成分,其累計解釋原始數據矩陣(20X629)95.82%的方差,各主成分得分見表1,因此,可用此12個主成分得分矩陣(20X12)代替原始變量矩陣(20X629)。為方便,稱此12個主成分得分為胺基酸三維性質得分,因為此12個得分矢量綜合了629種三維性質參數的大部分信息,因此,可將其用於肽或蛋白質結構表徵。表120種天然胺基酸的629種三維性質參數的12個主成分得分tableseeoriginaldocumentpage5a20種天然胺基酸用常規的單個英文字母表示。b)用胺基酸三維性質得分表徵蛋白激酶磷酸化特異位點的結構特徵,其中的每個胺基酸用12個胺基酸三維性質得分表徵;所選數據來自Tang等(Tangetal.,Design&Selection,2007,20(8):405)的研究報導,該數據首先從Phospho.ELM(Version5.0)資料庫提取已知磷酸化位點,並過濾掉不含激酶蛋白信息的位點,然後,將所得到磷酸化位點按激酶家族進行分類後去除冗餘位點。這些磷酸化位點是經實驗充分驗證,將其作為正樣本集。晶體結構研究表明激酶與磷酸化位點(S,T或Y)旁側712胺基酸殘基發生相互作用(Songyangetal.,CurrBiol,1994,4:973)。所選擇的每個樣本是由位點和旁側序列組成25肽序列。由於數據集的負樣本過多不利於磷酸化預測,這裡採用1:1比例選取正負樣本。為了驗證預測性能,將樣本劃分訓練集和外部驗證測試集,其中訓練集樣本與測試集樣本的比例為l:1。25-肽序列中的每個胺基酸殘基用12個胺基酸三維性質得分表徵。每個25-肽序列以25X12個二300個變量表徵。c)用費歇爾準則得分方法挑選與蛋白激酶磷酸化特異位點特徵密切相關的性質參數,並作為模型的輸入變量;經比較,以300個原始自變量作為支持向量機的輸入,無論建模還是外部預測效果都較差,故用費歇爾準則得分(Webb-Robertsonetal.,Bioinformatics,2008,24:1503)選擇與蛋白激酶磷酸化特異位點特徵密切相關的變量,共得到68個費歇爾準則得分大於等於2.0的變量變量,作為模型的輸入變量。d)應用徑向基核支持向量機建立蛋白激酶磷酸化特異位點識別模型,以自取代檢驗,留1/10法交互檢驗以及外部檢驗驗證模型的預測能力,將每個樣本的輸入變量帶入模型並識別蛋白激酶磷酸化特異位點。分別定義A。。為計算識別正確樣本數目所佔總樣本數目百分比,Sp為識別正確的蛋白激酶磷酸化特異位點樣本數目的百分比,Sn為識別正確的非蛋白激酶磷酸化特異位點樣本數目的百分比,MCC為馬休斯相關係數。用格點搜索法確定支持向量機的參數C,e和Y,經自取代檢驗,留1/10法交互檢驗,外部檢驗驗證模型的預測能力,將每個樣本的自變量帶入模型並計算,識別結果如表2所示,可以看出,所得模型對於S、T和Y磷酸化位點識別都產生較高的預測正確率、靈敏度、特異度和MCC。特別地,外部驗證識別的MCC都大於0.600,這表明,所建模型具有較高的蛋白激酶磷酸化特異位點識別能力。經比較,本方法對於S、T和Y磷酸化位點識別結果明顯優於Tang等(ProteinEngineering.Design&Selection,2007,20(8):405)報導的結果。有四個原因可解釋為什麼本方法具有較高的識別正確率,一是胺基酸三維性質得分具有良好的蛋白質信息表達能力;二是費歇爾準則得分可以很好的選擇與蛋白激酶磷酸化特異位點特徵密切相關的結構參數;三是支持向量機具有良好的擬合和泛化能力;四是所採用的三種檢驗方法可以最大限度地保證方法的預測識別能力。表2蛋白激酶磷酸化特異位點識別結果位點支持向量機參數自取代檢驗留1/10法交互檢驗外部檢驗C£YAccSnSpMCCAccSnSpMCCAccsspMCCs640.03O扁89.986.588.20.80083.784.186.30.72]82.583.785.90.612T80.020.00589.679.383.50.75287.377.582.90.68983.676.8訓0.631Y1280.03O扁86.974.389.80.70883.377.187.00.67980.876,785.80.632以上所述僅為本發明的優選實施例,並不用於限制本發明,顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和範圍。這樣,倘若本發明的這些修改和變型屬於本發明權利要求及其等同技術的範圍之內,則本發明也意圖包含這些改動和變型在內。權利要求一種蛋白激酶磷酸化特異位點計算識別方法,其特徵在於包括如下步驟a)具體包括a1)精選20種天然胺基酸的629種三維性質參數;a2)對629種性質參數做主成分分析,得到12個主成分;a3)計算各主成分得分,建立胺基酸三維性質得分;b)用胺基酸三維性質得分表徵蛋白激酶磷酸化特異位點的結構特徵,其中的每個胺基酸用12個胺基酸三維性質得分表徵;c)用費歇爾準則得分方法挑選與蛋白激酶磷酸化特異位點特徵密切相關的性質參數,並作為模型的輸入變量;d)用徑向基核支持向量機建立蛋白激酶磷酸化特異位點識別模型,以自取代檢驗,留1/10法交互檢驗以及外部檢驗驗證模型的預測能力,將每個樣本的輸入變量帶入模型並識別蛋白激酶磷酸化特異位點。全文摘要本發明公開了一種蛋白激酶磷酸化特異位點計算識別方法,其特徵是a)基於主成分分析方法,建立一種新的蛋白質序列結構表徵方法-胺基酸三維性質得分;b)用胺基酸三維性質得分表徵蛋白激酶磷酸化特異位點的結構特徵;c)用費歇爾準則得分方法挑選與蛋白激酶磷酸化特異位點特徵密切相關的參數;d)以徑向基核支持向量機建立蛋白激酶磷酸化特異位點識別模型,分別以自取代檢驗,留1/10法交互檢驗以及外部檢驗驗證方法的預測能力。該發明方法可用於蛋白激酶磷酸化特異位點識別,可為探索生理和病理狀態下蛋白質磷酸化規律,進一步闡述生命本質和疾病發生機制及研發新藥提供重要支持。文檔編號G06F19/00GK101710365SQ200910191888公開日2010年5月19日申請日期2009年12月14日優先權日2009年12月14日發明者楊力,梁桂兆,梅虎,趙巍,馬秀巖申請人:重慶大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀