新四季網

一種真核生物蛋白質的亞細胞定位方法

2023-12-09 09:16:46

專利名稱:一種真核生物蛋白質的亞細胞定位方法
技術領域:
本發明涉及生物信息學技術領域,特別是一種真核生物蛋白質的亞細胞定位方法。
背景技術:
近年來,新的基因組和蛋白質序列的數據量以驚人的速度飛速發展著,因此,就需要大量可靠而高效的序列分析工具。蛋白質在細胞中的天然亞細胞位置對於理解基因/蛋白質功能具有十分重要的意義,在許多疾病(比如腫瘤,老年痴呆)中都發現了蛋白質亞細胞位置的異常。因此,知道了蛋白質的亞細胞位置對於理解其功能具有十分重要的意義。即使我們已經知道了蛋白質的功能,弄清楚其亞細胞位置也有助於我們理解酶的作用通道。用生物學實驗的方法確定蛋白質亞細胞位置不但費時費力而且還十分容易出錯。因為,開發預測蛋白質亞細胞位置的工具就成為生物信息學中心任務之一。
目前已有的亞細胞定位預測工具主要分為兩大類。一種是基於蛋白質N端信號的方法。另一種是基於蛋白質胺基酸成分的方法。第一種方法的優點是它具有明確的生物學含義,然而,大規模的測序工作往往不能保證N端序列的可靠性,而第一種方法對於N端序列的錯誤又是極其敏感的,因此現在大部分方法都主要是基於胺基酸成分的,或者是基於胺基酸成分和其他特徵的混合特徵。本方法也是基於胺基酸成分這一種特徵,目的就是預測真核細胞蛋白質的亞細胞位置。本方法還在傳統的真核細胞四定位預測和原核細胞三定位問題上作了檢驗,就目前所掌握的資料,本方法好於其他基於胺基酸成分的方法。
可對比的文獻有以下幾篇[1]Reinhardt,A.and Hubbard,T.Using neural networks forprediction of the subcellular localization of proteins.NucleicAcids Res.,1998,26,2230-2236. Cedano,J.,Aloy,P.,et al.Relation between amino acidcomposition and cellular localization of proteins.J.Mol.Biol.,1997,266,594-600. Chou,K.C.and Elrod,D.Protein subcellular localizationpredict ion.Protein Eng.,1999,12,107-118. Yuan,Z.Prediction of protein subcellular localizationsusing Markov chain models.FEBS Lett.,1999,451,23-26. Hua,S.J.and Sun Z.R.Support vector machine approach forprotein subcellular localization prediction.Bioinformatics.,2001,17,721-728. Feng,Z.P.and Zhang,C.T.Prediction of the subcellularlocalization of prokaryotic proteins based on the hydrophobicityindex of amino acids.Int.J.Biol.Macromol.,2001,28,255-261. Feng,Z.P.and Zhang,C.T.A graphic representation ofprotein sequence and predicting the subcellular localizations ofprokaryotic proteins.Int.J.Biochem.Cell.B.,2002,34,298-307.

發明內容
本發明的目的在於提供一種真核生物蛋白質的亞細胞定方法。
本發明是一種基於1-v-1(one-versus-one)支持向量機的真核生物蛋白質亞細胞定位新技術。
本發明的技術方案主要由兩部分組成1、最優分類器的獲得。
2、新的蛋白質序列亞細胞位置的預測。
亞細胞位置分為八種,允許用戶輸入未知亞細胞位置的蛋白質胺基酸殘基序列,輸出為本系統預測出來的該序列的亞細胞位置。本發明首先針對給定的訓練數據集對分類器進行訓練,然後通過交叉實驗確定出分類器的最優參數,最後得到針對亞細胞定位問題的最優分類器,這時就可以對未知亞細胞位置的蛋白質序列進行亞細胞定位了。本發明中所用到的數據文件的格式為蛋白質序列文件標準格式之一的FASTA格式提出了將1-v-1支持向量機用於蛋白質亞細胞定位,結果表明這種多分類的支持向量機優於1-v-r(one-versus-rest)支持向量機。


圖1、2是本發明的一種真核生物蛋白質的亞細胞定位方法的流程圖;
具體實施例方式
本發明的技術流程如圖1、2所示,主要包括兩個步驟1、最優分類器獲得的訓練步驟。
1)輸入原始的蛋白質序列數據集,數據格式為FASTA格式;2)將每一條蛋白質序列人工等分成兩段序列,對每一段序列統計胺基酸殘基頻率成分,即每種胺基酸出現的頻率,因為蛋白質序列有20種胺基酸,因為一共有20種胺基酸殘基,所以對於每一段序列,都產生一個20維的向量,該向量的每一個元素都對應著一種胺基酸殘基本在該段序列中出現的頻率;3)然後將前後兩段序列產生的兩個20維的向量合併產生一個40維的向量,作為最後的特徵向量;4)選擇高斯核函數作為支持向量機的核函數,並設置好支持向量機的參數,然後訓練分類器;5)經過交叉實驗,最後得到最優分類器。
2、新的蛋白質序列亞細胞位置的預測。
1)輸入需要預測的蛋白質序列;2)將該序列從中間一分為二,分別統計出兩段序列的胺基酸成分信息,即兩個20維的胺基酸頻率向量,最後將兩個20維的合併成一個40維的向量,作為最後的特徵向量得到的最優分類器;3)用訓練好的分類器對該特徵向量進行分類,輸出結果。
3、發明的優點和積極效果本發明具有所有基於胺基酸頻率成分的方法都具備的一個優點,那就是對蛋白質序列N端錯誤不敏感,這種錯誤在測序工作中發生的頻率是比較高的,因此本發明對於這種錯誤比較魯棒。本發明的另一個優點就是考慮到了蛋白質的空間信息,即序列的順序信息,這是以往基於胺基酸頻率的方法所忽略的。本發明通過將蛋白質序列一分為二的方法,對前後兩段序列分別統計胺基酸頻率信息,從而照顧到了部分序列的順序信息。另外,我們考慮到1-v-1支持向量機在大多數情況下優於1-v-r支持向量機的事實,將1-v-1支持向量機作為了訓練機器。結果表明這些改進均取得了積極效果,使預測準確率得到明顯提高。
本發明可以快速實現蛋白質序列的亞細胞定位,定位準確度比較高,同時也可以實現大批量蛋白質序列的亞細胞定位。
權利要求
1.一種真核生物蛋白質的亞細胞定位方法,基於1-v-1多分類支持向量機的八個亞細胞位置的蛋白質序列亞細胞定位。
2.根據權利要求1的真核生物蛋白質的亞細胞定位方法,其特徵在於,首次針對以往亞細胞定位方法沒有考慮到蛋白質胺基酸序列空間信息的缺點,提出了將蛋白質序列一分為二然後進行胺基酸成分統計的方法,結果表明預測精度得到了比較大的改善。
3.一種真核生物蛋白質的亞細胞定位方法,包括兩個步驟1)最優分類器獲得的訓練步驟;2)新的蛋白質序列亞細胞位置的預測。
4.根據權利要求4的真核生物蛋白質的亞細胞定位方法,其特徵在於,最優分類器的獲得的步驟包括1)輸入原始的蛋白質序列數據集,數據格式為FASTA格式;2)將每一條蛋白質序列人工等分成兩段序列,對每一段序列統計,3)然後將前後兩段序列產生向量合併產生一個向量,作為最後的特徵向量;4)選擇高斯核函數作為支持向量機的核函數,並設置好支持向量機的參數,然後訓練分類器;5)經過交叉實驗,最後得到最優分類器。
5.根據權利要求4的真核生物蛋白質的亞細胞定位方法,其特徵在於,將每一條蛋白質序列人工等分成兩段序列,對每一段序列統計胺基酸成分,即每種胺基酸出現的頻率,因為蛋白質序列有20種胺基酸,因此最後可得到兩個20維的向量;然後將前後兩段序列產生的兩個20維的向量合併產生一個40維的向量,作為最後的特徵向量;
6.根據權利要求4的真核生物蛋白質的亞細胞定位方法,其特徵在於,新的蛋白質序列亞細胞位置的預測的步驟包括1)輸入需要預測的蛋白質序列;2)將該序列從中間一分為二,分別統計出兩段序列的胺基酸成分信息,即兩個20維的胺基酸頻率向量,最後將兩個20維的合併成一個40維的向量,作為最後的特徵向量並得到的最優分類器;3)用訓練好的分類器對該特徵向量進行分類,輸出結果。
全文摘要
本發明涉及生物信息學技術領域的一種真核生物蛋白質的亞細胞定位方法。包括兩部分1.最優分類器的獲得。2.新的蛋白質序列亞細胞位置的預測。亞細胞位置分為八種,允許用戶輸入未知亞細胞位置的蛋白質胺基酸殘基序列,輸出為本系統預測出來的該序列的亞細胞位置。本發明首先針對給定的訓練數據集對分類器進行訓練,然後通過交叉實驗確定出分類器的最優參數,最後得到針對亞細胞定位問題的最優分類器,這時就可以對未知亞細胞位置的蛋白質序列進行亞細胞定位了。本發明可以快速實現蛋白質序列的亞細胞定位,定位準確度比較高,同時也可以實現大批量蛋白質序列的亞細胞定位。
文檔編號C12Q1/04GK1629307SQ20031012333
公開日2005年6月22日 申請日期2003年12月17日 優先權日2003年12月17日
發明者崔慶華, 蔣田仔 申請人:中國科學院自動化研究所

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀