新四季網

基於支持向量機的蛋白質與核酸相互作用在線預報方法

2024-04-04 00:22:05


專利名稱::基於支持向量機的蛋白質與核酸相互作用在線預報方法
技術領域:
:本發明涉及一種基於支持向量機的蛋白質與核酸(DNA-,RNA-,rRNA-)相互作用分類類型在線預報的實現方法。屬於生物信息學領域。
背景技術:
:與核酸作用的蛋白質在基因功能的許多方面扮演著極其重要的角色。與DNA作用的蛋白質在轉錄、包裝、重排、修復等各種過程都起到了關鍵作用。與RNA作用的蛋白質則在蛋白合成過程中通過和各種RNAs作用來控制合成過程。因此,與核酸作用的蛋白質在過去三十年來受到廣泛興趣。自人類基因組計劃以來,已測定的蛋白質序列逐漸增多,蛋白質各種數據資源急劇膨脹。而用實驗方法來確定蛋白質和核酸相互作用將十分耗時且相當昂貴。因此在生物信息學領域,與核酸作用蛋白質的預測逐漸受到關注。有必要發展可靠的方法來預測蛋白質與核酸相互作用。經檢索,未發現利用支持向量機對蛋白質與DNA、RNA、rRNA相互作用分類類型綜合在線預報的報導,但有相關文獻。2006年Cai等發表的"PredictingrRNA-,RNA-,andDNA-bindingproteinsfromprimarystructurewithsupportvectormachines,,(Yu,X.-J.,Cao,J.-P.,Cai,Y.-D.,Shi,T.-L,Li,Y.-X..Journaloftheoreticalbiology.[J]'2006,240(2):175-184.)在以前研究的基礎上(Cai,C.-Z.,Han,L.-Y.,Ji,Z.-L,;Chen,X.,Chen,Y.-Z..Nucl.AcidsRes.[J],2003,31(13):3692-3697.)以蛋白質序列胺基酸組成和物理化學性質作為參數,用支持向量機建模分類。預測與rRNA,RNA,DNA作用蛋白質,其10折交叉驗證的正確率分別為84%,78%,72%;但該文獻只是實現離線預測,其他研究人員特別是生物實驗人員不能使用。
發明內容本發明的目的是克服現有技術中的不足,提供一種基於支持向量機的蛋白質與核酸相互作用在線預報方法。該方法利用支持向量機分類技術在特徵映射方法的突出優點,實現蛋白質與rRNA,RNA,DNA相互作用分類類型在線預報,還能提高其預報準確率,為實驗工作者提供有益參考。為了達到上述目的,本發明的技術解決方案如下上述基於支持向量機對蛋白質與核酸4相互作用在線預報方法包括如下步驟(1)、建立蛋白質序列數據集的訓練樣本從網際網路上蛋白質資料庫SWISS-PROT採集構建蛋白質序列數據集的訓練樣本,該蛋白質序列數據集的訓練樣本包括與DNA作用蛋白質數據集、與RNA作用蛋白質數據集、與rRNA作用蛋白質數據集,並且根據需要可以添加或更新數據集,上述數據集分別包含兩類一類是與DNA、RNA、rRNA作用蛋白質的序列;另一類是不與DNA、RNA、rRNA作用蛋白質的序列。(2)、蛋白質序列數據集轉換將上述步驟(1)得到的蛋白質序列數據集轉換成可用於模型訓練的特徵數據集。即對蛋白質序列數據集中的每個蛋白質序列轉換成由胺基酸組成和胺基酸物理化學性質所構成的132個特徵集。對於每個蛋白序列,特徵向量是由胺基酸序列位置的代碼描述及計算性的取代基性質,包括憎水值、預測的二級結構、預測的溶劑可及性及標準範德華體積、極性、極化率。(3)、用支持向量機學習訓練蛋白質序列數據集用支持向量機(SVM)訓練的實質是利用支持向量機對上述步驟(2)生成的蛋白質特徵數據集進行學習訓練,得到支持向量機的蛋白質與核酸相互作用分類類型模型。(4)、需要預報蛋白質序列的讀入及其數據轉換,蛋白質與核酸相互作用分類類型在線預報利用通過J2EE規範編寫的Servlet組件讀入Web客戶端提交蛋白質序列數據後,Servlet組件先調用驗證組件對用戶提交數據進行檢測,確定是否有效數據。若為無效數據,告知可能原因。若為有效數據,調用預報器組件並使其完成初始化,再調用數據轉換器組件對蛋白質序列數據轉換為132維的特徵數據集。然後,輸入到預報器組件進行預報。最後,Servlet組件返回給Web客戶端預報結果。上述步驟(4)蛋白質與核酸相互作用分類類型在線預報,其具體步驟如下(4-1)、用J2EE規範編寫Servlet組件,將Web客戶端要預報蛋白質序列讀入並在線對其數據轉換;(4-2)、用戶通過支持向量機預報器組件協同蛋白質與核酸相互作用分類模型器預報蛋白質是否與核酸相互作用;(4-3)、調用上面的Servlet組件,將步驟4-2獲得的蛋白質與核酸相互作用分類類型預報結果輸出到Web客戶端在線頁面上顯示。5本發明的基於支持向量機的蛋白質與核酸作用在線預報方法與現有技術相比較,具有如下顯而易見的突出實質性特點和顯著優點1.準確性高。該方法能夠準確實現對未知與核酸作用的蛋白質是否與核酸作用。驗證結果表明,對與rRNA、RNA、DNA作用蛋白質的10折交叉驗證預報準確率分別達到93.75%、83.41%、81.85%。外部測試集驗證所得模型分別有93.8%、84.2%、81.9%的預測正確率。2.預報時間短。每一輪預報的計算時間視要預報的蛋白質序列的長度而定。一般在2分鐘左右。這遠遠小於通過實驗手段來測定蛋白質是否與核酸相互作用的時間。3.成本低。該發明需利用現有已知與核酸作用蛋白質作為訓練集建立模型,這可以通過國際上一些免費蛋白質資料庫獲得,無須其他設備和費用。4.方便快捷。在線預報時,用戶只需在預報網頁界面提供要預報的蛋白質序列。通過對該蛋白質序列的數據轉換,完成支持向量機的訓練和目標類型的預報,就可以輸出預報結果。圖1本發明的基於支持向量機的蛋白質與核酸作用在線預報方法的流程圖。具體實施例方式以下結合附圖對本發明作進一步詳細說明。如圖1所示,上述基於支持向量機對蛋白質與核酸相互作用在線預報方法包括如下歩驟(1)、建立蛋白質序列數據集的訓練樣本從網際網路上蛋白質資料庫SWISS-PR0T採集構建蛋白質序列數據集的訓練樣本,該蛋白質序列數據集的訓練樣本包括與DNA作用蛋白質數據集、與RNA作用蛋白質數據集、與rRNA作用蛋白質數據集,並且根據需要可以添加或更新數據集,上述數據集分別包含兩類一類是與DNA、RNA、rRNA作用蛋白質的序列;另一類是不與DNA、RNA、rRNA作用蛋白質的序列。具體分布如下表1:表l各類蛋白在蛋白質序列數據集中的分布tableseeoriginaldocumentpage6(2)、蛋白質序列數據集轉換將上述步驟(1)得到的蛋白質序列數據集轉換成可用於模型訓練的特徵數據集。即對蛋白質序列數據集中的每個蛋白質序列轉換成由胺基酸組成和胺基酸物理化學性質所構成的132個特徵向量。對於每個蛋白序列,特徵向量是由胺基酸序列位置的代碼描述及計算性的取代基性質,包括憎水值、預測的二級結構、預測的溶劑可及性及標準範德華體積、極性、極化率。(3)、支持向量機訓練,利用生成的蛋白質訓練數據集用機器學習方法支持向量機(SVM)訓練的實質是利用生成的蛋白質訓練數據集,對上述步驟(2)中可用於模型訓練的特徵數據集用支持向量機預報器進行學習訓練,輸出支持向量機的蛋白質與核酸相互作用分類類型模型,利用該模型能復現訓練數據的輸入輸出關係。本發明的建模方法支持向量機方法,是用java程式語言實現的SVM算法。本發明採用多項式形式的核函數(PolynomialKernelFunction,PKF),即《(X'X')=KXX')+1],對應SVM是一個q階多項式分類器。(4)、需要預報蛋白質序列的讀入及其數據轉換,蛋白質與核酸相互作用分類類型在線預報,其具體步驟如下(4-1)、用J2EE規範編寫Servlet組件,將Web客戶端要預報蛋白質序列讀入並在線對其數據轉換;Web客戶端提交蛋白質序列數據後,Servlet組件調用驗證組件對用戶提交蛋白質序列數據進行檢測,確定是否有效數據。若為無效數據,告知原因。若為有效數據,調用預報器組件並使其完成初始化,再從Servlet組件調用數據轉換器組件對蛋白質序列數據轉換為132維的向量表示。該132維的向量分別由蛋白質胺基酸組成和蛋白質胺基酸物理化學性質構成。然後讀入到預報器組件在線進行預報。(4-2)、用戶通過支持向量機預報器組件協同蛋白質與核酸相互作用分類模型器預報蛋白質是否與核酸相互作用;進行蛋白質與核酸作用的分類預報時,預報器從磁碟介質中讀取是否與核酸作用的蛋白質分類模型文件,載入模型完成初始化。輸入由數據轉換器輸出的數據,載入的蛋白質與核酸作用分類模型對此數據進行處理,獲得該蛋白質是否與核酸(DNA、RNA、rRNA)相互作用分類信息的預報結果,輸出。(4-3)、調用上面的Servlet組件,將步驟(4-2)獲得的蛋白質與核酸相互作用分類類型預報結果輸出到Web客戶端在線頁面上顯示。權利要求1、一種基於支持向量機對蛋白質與核酸相互作用在線預報方法,其特徵在於該方法包括如下步驟(1)、建立蛋白質序列數據集的訓練樣本從網際網路上蛋白質資料庫SWISS-PROT採集構建蛋白質序列數據集的訓練樣本,該蛋白質序列數據集的訓練樣本包括與DNA作用蛋白質數據集、與RNA作用蛋白質數據集、與rRNA作用蛋白質數據集,並且根據需要可以添加或更新數據集,上述數據集分別包含兩類一類是與DNA、RNA、rRNA作用蛋白質的序列,另一類是不與DNA、RNA、rRNA作用蛋白質的序列;(2)、蛋白質序列數據集轉換將上述步驟(1)得到的蛋白質序列數據集轉換成可用於模型訓練的蛋白質特徵數據集,即對蛋白質序列數據集中的每個蛋白質序列轉換成由胺基酸組成和胺基酸物理化學性質所構成的132個特徵集,對於每個蛋白序列,特徵集是由胺基酸序列位置的代碼描述及計算性的取代基性質,包括憎水值、預測的二級結構、預測的溶劑可及性及標準範德華體積、極性、極化率;(3)、用支持向量機學習訓練蛋白質序列數據集用支持向量機(SVM)學習訓練的實質是利用支持向量機對上述步驟(2)生成的蛋白質特徵數據集進行學習訓練,得到支持向量機的蛋白質與核酸相互作用分類類型模型;(4)、需要預報蛋白質序列的讀入、數據轉換及其蛋白質與核酸相互作用分類類型在線預報利用通過J2EE規範編寫的Servlet組件讀入Web客戶端提交蛋白質序列數據後,Servlet組件先調用驗證組件對用戶提交數據進行檢測,確定是否有效數據,若為無效數據,告知可能原因,若為有效數據,調用預報器組件並使其完成初始化,再調用數據轉換器組件對蛋白質序列數據轉換為132維的特徵數據集,最後,輸入到預報器組件進行預報。2、根據權利要求l所述的基於支持向量機對蛋白質與核酸相互作用在線預報方法,其特徵在於,上述步驟(4)需要預報蛋白質序列的讀入、數據轉換及其蛋白質與核酸相互作用分類類型在線預報,其具體步驟如下(4-1)、用J2EE規範編寫Servlet組件,從Web客戶端讀入預報蛋白質序列並在線對其數據轉換;(4-2)、用戶通過支持向量機預報器組件協同蛋白質與核酸相互作用分類模型器預報蛋白質是否與核酸相互作用;(4-3)、調用上面的Servlet組件,將步驟(4-2)獲得的蛋白質與核酸相互作用分類類型預報結果輸出到Web客戶端在線頁面上顯示。3、根據權利要求3所述的基於支持向量機對蛋白質與核酸相互作用在線預報方法,其特徵在於,上述步驟(4-2)用戶通過支持向量機預報器組件協同蛋白質與核酸相互作用分類模型預報蛋白質是否與核酸相互作用,其具體步驟進行蛋白質與核酸作用的分類預報時,預報器組件從磁碟介質中讀取是否與核酸作用的蛋白質分類模型文件,載入模型完成初始化,讀入由數據轉換器輸出的數據,載入的蛋白質與核酸作用分類模型對此數據進行處理,獲得該蛋白質是否與核酸(DNA、RNA、rRNA)相互作用分類信息的預報結果,輸出。全文摘要本發明公開了一種基於支持向量機對蛋白質與核酸相互作用在線預報方法,該方法包括如下步驟1.建立蛋白質序列數據集的訓練樣本集;2.蛋白質序列數據集轉換;3.支持向量機訓練生成的蛋白質特徵數據集;4.需要預報蛋白質序列的讀入、數據轉換及蛋白質與核酸相互作用分類類型在線預報。該方法能實現對未測出是否與核酸作用的蛋白質是否與核酸作用,驗證結果表明,對與rRNA、RNA、DNA作用蛋白質的10折交叉驗證預報準確率分別達到93.75%、83.41%、81.85%。外部測試集驗證所得模型分別有93.8%、84.2%、81.9%的預測正確率,在線預報時,用戶只需在預報網頁界面提供要預報的蛋白質序列,對其數據轉換,完成支持向量機的訓練和目標類型的預報,輸出預報結果。文檔編號G06F19/00GK101630346SQ20091005387公開日2010年1月20日申請日期2009年6月26日優先權日2009年6月26日發明者亮劉,彭淳容,袁友浪,冰鈕,陸文聰申請人:上海大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀