新四季網

一種人類基因啟動子識別方法

2023-10-05 06:44:59


專利名稱::一種人類基因啟動子識別方法
技術領域:
:本發明涉及一種人類基因識別方法,特別是一種人類基因啟動子識別方法。
背景技術:
:人類基因草圖的繪製成功加速了人類對整個基因的分析。對於每個基因的轉錄活性,啟動子是重要的調控區域。啟動子區域的確定及其結構功能的詮釋是理解基因表達方式、基因調控網絡、細胞分化和發育的基礎。啟動子預測對於發現新的未知基因,對於基因治療方法中改善表達載體或基因導入系統都具有至關重要的作用。啟動子預測已引起廣泛關注,其預測程序是建立在不同概念之上的,根本的原理是啟動子區域的特性不同於其它基因DNA特性,這些概念包括基於信號與基於內容的。對生物啟動子進行計算機預測和識別是一項具有挑戰性的工作,啟動子的多樣性和對轉錄調控機制認識的局限性,給相關的研究工作帶來很大的困難。同源比對算法已經用於核苷酸序列同源性比對,但用於啟動子預測仍處於幼年時期,雖可通過比對算法來聚類同源啟動子,但大多數情況下,同源基因啟動子元件的序列保守性遠遠低於其編碼序列,因此,相似性搜索不再對其功能識別提供有益的線索(Duretetal.,Curr.Opin.Struct.Biol.,1997,7:399)。此外,許多啟動子受多條信號通路的調節,特異性響應不同刺激的功能需求使啟動子的組織結構變得更加複雜多樣。有時甚至受同一條信號通路調節的啟動子也可能完全不具有序列同源性(Kirchhamer,etal.,Proc.Natl.Acad.Sci.U.S.A.,1996,93:9322)。另外,啟動子中存在許多像轉錄因子結合位點一樣的序列結構特徵,而這些特徵結構並不為啟動子所獨有,它們散布在整個基因組中,如何濾除這為數眾多的噪音信號也成為大片段基因組中啟動子的計算機預測所面臨的難題(Sap,etal.,Nature,1989,340:242;Bohjanen,etal.,NucleicAcidsRes"1997,25:4481;Wang,etal.,Proc.Natl.Acad.Sci.U.S.A.,199895:492)。有一些程序根據實驗獲得的轉錄因子結合特性來描述啟動子的序列特徵,並依次作為啟動子預測的依據,但實際的效果並不十分理想,遺漏和假陽性都較嚴重。
發明內容有鑑於此,為了解決上述啟動子預測所存在問題,本發明提供了一種人類基因啟動子識別方法,能夠用於人類基因啟動子區域的確定及其結構功能的論釋,可用於發現新的未知基因。本發明的目的是這樣實現的一種人類基因啟動子識別方法,包括如下a)基於主成分分析方法,建立鹼基廣義性質得分表徵體系;c)用自交叉協方差方法對每個人類基因啟動子和非啟動子的表徵變量做歸一化處理;d)用徑向基核支持向量機建立人類基因啟動子識別模型。進一步,在於步驟a)具體包括如下步驟al)選取5種鹼基的1209種0D-3D性質參數;a2)對1209種性質參數做相關性分析,精選得到41個性質參數;a3)用主成分分析法處理得到的鹼基性質參數,得到4個主成分;a4)計算各主成分得分,將得分矢量定義為鹼基廣義性質得分;進一步,步驟b)具體包括用鹼基廣義性質得分矢量所涉及的4個主成分對人類基因啟動子和非啟動子的序列沿5,—3'方向進行表徵,其中的每個鹼基用4個鹼基廣義性質得分矢量表徵;進一步,步驟c)具體包括如下步驟用自交叉協方差處理得到的每個啟動子和非啟動子序列的表徵變量,設置步長/為6,使每個序列的表徵變量數目一致,並將經自交叉協方差處理得到的變量作為啟動子識別^f莫型的自變量;進一步,步驟d)具體包括如下步驟首先定義兩個指示變量,分別用"l"表示啟動子樣本,用"-r,表示非啟動子樣本,以此指示變量作為啟動子識別模型的因變量,用徑向基核支持向量機建立人類基因啟動子識別模型。本發明的一種人類基因啟動子識別方法,其中選取的鹼基廣義性質得分所含信息量大、物理化學意義明確、表徵能力強、結果易解釋、拓展性能好及操作筒便;用自交叉協方差方法對每個啟動子和非啟動子的表徵變量做歸一化處理,該方法能夠較大程度地減少原始變量信息的損失,同時可充分考慮相鄰鹼基之間的交互效應及相互影響;而徑向基核支持向量機通過核函數技術,可以很好地相關經自交叉協方差轉換的序列表徵變量及觀測分類值之間的關係,可以有效的防止模型的過擬合,同時,所建模型具有良好的泛化性能。本發明的其他優點、目標和特徵在某種程度上將在隨後的說明書中進行闡述,並且在某種程度上,基於對下文的考察研究對本領域技術人員而言將是顯而易見的,或者可以從本發明的實踐中得到教導。本發明的目標和其他優點可以通過下面的說明書,權利要求書,以及附圖中所特別指出的結構來實現和獲得。為了使本發明的目的、技術方案和優點更加清楚,下面將結合附圖對本發明作進一步的詳細描述,其中圖1是本發明的支持向量才A4莫型識別結果的受試者操作特徵分析示意圖。具體實施例方式以下將參照附圖,對採用本發明的方法用於人類基因啟動子識別為例進行詳細的描述,包括以下步驟a)基於主成分分析方法,建立鹼基廣義性質得分表徵體系;收集5種鹼基(A,C,G,T與U)的1209種性質參數,包括構成特性,官能團數目,原子中心碎片和分子特性,分子電距矢量(MEDV),分子全息距離矢量(MHDV),拓樸,運轉和路徑數目,連接性指數,信息指數,自相關,邊緣鄰接指數,Burden特徵值,拓樸電荷指數,特徵值指數,Randic分子剖面,幾何,基於不同原子間距的徑向基函數描述子(RDF),基於電衍射法的分子結構表徵(MoRSE)得到的描述子,加權整體不變分子的(WHIM)描述子及幾何、拓樸與原子重量的集合(GETAWAY)描述子等;另外還包括其它相關性質最高佔據軌道(HOMO)能、偶極矩及Wiener指數等性質參數。釆用主成分分析壓縮描述子數量,為了避免變量之間嚴重的多重相關性對主成分的危害,首先對1209個原始變量做相關性分析,對於相關係數大於或等於0.90的各組變量,根據其在原始變量矩陣中的載荷大小,將其中的一個保留,其它的予以刪除,最終剩餘41個變量,其主要反應了鹼基的如下信息平均分子量、重鍵數目、平均芳香極化度、平均電拓樸狀態、電子總能量、熱力學性質、Moriguchi辛-分配係數(logP)、尿素衍生物的數目、氫鍵接受體原子數目(N、O、F)、E-狀態拓樸參數、Kier柔性指數、最高佔據軌道(HOMO)能、分子全息距離矢量、偶極矩、扭轉能及空間結構等。對41個變量經主成分分析變換後其前4個主成分累計解釋原始數據矩陣(5x41)99.99。/。的方差,經過轉換後的主成分得分見表1,因此,可用此4個主成分得分矩陣(5x4)代替原始變量矩陣(5x41)。表l5種鹼基的41種性質參數的4個主成分得分tableseeoriginaldocumentpage6對4個主成分載荷分析發現,對第1主成分正貢獻相對最大的是以原子質量為權重的第三成分對稱方向的WHIM指數,WHIM描述子屬於3D幾何類描述子,是對原子坐標權重矩陣協方差矩陣的PCA得到,其次是基於結構信息內容的描迷子,這兩類描述子都可視為立體(Steric)特性描述子。負貢獻較大的是以原子極化度為權重的Moran自相關描述子及扭轉能等變量。對第2主成分正貢獻較大的是基於電子衍射方法表徵分子3D結構而得到的非加權3D-MoRSE描述子分量和電子能等變量信息。負貢獻較大的是氮原子(N)與氧原子(O)之間的拓樸距離總和等變量。在第3主成分中,具有較大正載荷的變量是2-通道Kier修正a形狀指數和Kier柔性指數,兩者都屬於拓樸類描述子。具有較大負載荷的是平均原子極化度(針對碳原子)和平均分子量等信息,其都屬於分子構成類描述子。與第4主成分載荷正相關較大的是由本研究組提出的分子全息距離矢量的第7分量。分子全息距離矢量是將原子劃分為13種原子類型,進一步定義原子屬性及相對鍵長而得到的基於分子2D拓樸結構的描述子,其中第7分量表示原子環境C-與〉N-,〉P-之間的全息距離("-",">","<,,分別表示連有1,2,2個非氬原子或化學鍵與之相連)。呈現較大負相關的是非加權的3D-MoRSE描述子分量及以原子極化度為權重的Moran自相關描述子等變量信息。為方便,稱此4個主成分得分矢量為鹼基廣義性質得分,因為此4個得分矢量從多角度綜合了鹼基的1209種性質參數的大部分信息,因此,可考慮嘗試將其用於核酸序列表徵。b)應用鹼基廣義性質得分對人類基因啟動子和非啟動子的結構進行表徵;選擇565條人類基因啟動子序列、3819條非啟動子序列(890條外顯子和2929條內含子),用鹼基廣義性質得分矢量所涉及的4個主成分對所選序列沿5,—3'方向進行表徵,序列中的每個鹼基用4個鹼基廣義性質得分矢量表徵。每個序列根據其含有的》鹹基數目(定義為"),以wx4個變量表徵。c)用自交叉協方差方法對每個人類基因啟動子和非啟動子的表徵變量做歸一化處理;用自交叉協方差(ACC)處理得到每個啟動子和非啟動子序列的表徵變量,該法考慮了序列不同位點鹼基參數之間所有交互效應,因此,在數據變換過程中可最大程度地降低信息損失。設所研究的樣本集中最短序列長度為/+1,對任意一個含有w個鹼基的序列,ACC處理如下式中/為步長;z'和/+/為序列中鹼基所處位置;a和6分別為第/和/+/個鹼基相應描述子分量號,對於鹼基廣義性質得分矢量,其0,6=1,2,3,4。可看到,當計算所有可能步長時"=1,2,3,...,/,樣本集中不同長度的序列經ACC處理後其描述子數目最終都為4、/個,此處選擇步長/為6,這樣每條序列可由4、6=96個變量表徵,將經自交叉協方差處理得到的變量作為啟動子識別模型的自變量。d)用徑向基核支持向量機建立人類基因啟動子識別模型;首先定義兩個指示變量,分別用"l"表示啟動子樣本,用"-l"表示非啟動子樣本(外顯子與內含子),以此指示變量作為啟動子識別模型的因變量,用徑向基核支持向量機建立人類基因啟動子識別模型,其參數設置為C=200.0,《(x^.)-e^(-0.125IIx-x,.II2)。若分別定義^c為計算預測正確樣本數目所佔總樣本數目百分比,Sp為預測正確的啟動子樣本數目的百分比,&為預測正確的非啟動子樣本數目的百分比,JWCC為馬^f木斯相關係數等統計參數,則經留一法交互驗證,支持向量機模型對訓練集中565條啟動子與3819條非啟動子識別得Ac=83.8,Sn=67.1,Sp=86.3與AfCC=0.442,進一步採用留1/5法交互驗證得』cc=81.7,<Sn=66.9,^=83.8與MCC=0.406,這表明基於廣義鹼基性質得分表徵,自交叉協方差歸一化處理,徑向基核支持向量機建模過程所建模型可較好地識別人類基因啟動子。留一法及留1/5法得到的支持向量數目佔總樣本的數目分別為62.1°/。與68.3%,即有37.9%與31.7%的樣本可被安全地刪除而不影響其對新樣本的預測效果,進一步表明支持向量分類機具有良好的泛化性能。進一步以(1-Sp)為橫坐標(7軸),靈敏度(&)為縱坐標(F軸),繪製受試者操作特徵曲線,參見圖1,可看出,所建模型的留一法與留1/5法對應的面積分別為0.835和0.819。為進一步驗證所發明方法對於人類基因啟動子的預測效果,從EPD資料庫(http:〃www.epd.isb-sib.ch/)選擇與所用訓練集不同的100條啟動子與100條內含子序列進行預測,用徑向基核支持向量機模型對之預測的結果列於表2中,同時選擇7個預測伺服器對200條序列進行預測結果比較,經對比發現,本發明方法所得&及MCC最高,表明其對於人類基因啟動子預測具有較明顯的優勢。表2人類基因啟動子預測結果比較方法伺服器地址4&SpMX70.556.085.00.428http://bimas.dcrt.nih.gov/molbio/proscaji/55.529.082.00.130http:〃research.i2r.a-star.edu.sg/promoter/promoterl—5/DPF.Im58.538.079.00.186http:〃www.cbs.dtu.dk/services/Promoter/NNPP(Reese,Comput.Chem.,2001,26(1):51)http:〃www.fruitfly.org/seq_tools/promoter.htmlPromoterS咖(Prestridge,J.Mol.Biol"1995,249:923)DragonPromoterFinderversion1.5(Bajic,etal"J.Mol.Graph.Model"2003,21:323)Promoter2.0PredictionServer(Knudsen,etalBioinformatics,1999,15(5):356)FirstEF(Davuluri,etal.,Nat.Genet"2001,29:412)McPromoter(Ohler,etal.,Bioinformatics,1999,15(5):362)PromoSer(Halees,etal.NucleicAcidsRes.:2003,31:3554)鹼基廣義性質得分表徵-自交叉協方差歸一化-徑向基核支持向量機建模63.549.078.00.282http:〃rulai.cshl.org/tools/FirstEF/http:〃genes.mit.edu/McPromoter.h加lhttp://biowulf.bu.edu/zlab/PromoSer/^本發明方法61.540.083.00.25564.048.080.00.29663.048.078.00.27371.562.081.00.438以上所述僅為本發明的優選實施例,並不用於限制本發明,顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和範圍。這樣,倘若本發明的這些修改和變型屬於本發明權利要求及其等同技術的範圍之內,則本發明也意圖包含這些改動和變型在內。權利要求1.一種人類基因啟動子識別方法,其特徵在於包括如下步驟a)基於主成分分析方法,構建鹼基廣義性質得分表徵體系;b)應用鹼基廣義性質得分對人類基因啟動子和非啟動子的結構進行表徵;c)用自交叉協方差方法對每個人類基因啟動子和非啟動子的表徵變量做歸一化處理;d)用徑向基核支持向量機建立人類基因啟動子識別模型。2.根據權利要求1的一種人類基因啟動子識別方法,其特徵在於步驟a)具體包括如下步驟al)選擇5種鹼基的1209種0D-3D性質參數;a2)對1209種性質參數做相關性分析,精選得到41個性質參數;a3)用主成分分析法處理得到的鹼基性質參數,得到4個主成分;a4)計算各主成分得分,將得分矢量定義為-威基廣義性質得分。3.根據權利要求2的一種人類基因啟動子識別方法,其特徵在於步驟b)具體包括用鹼基廣義性質得分矢量所涉及的4個主成分對人類基因啟動子和非啟動子的序列進行表徵,序列中的每個鹼基用4個鹼基廣義性質得分矢量表徵。4.根據權利要求3的一種人類基因啟動子識別方法,其特徵在於步驟c)具體包括如下步驟用自交叉協方差處理得到的每個啟動子和非啟動子序列的表徵變量,設置步長/為6,使每個序列的表徵變量數目一致,並將經自交叉協方差處理得到的變量作為啟動子識別^f莫型的自變量。5.根據權利要求1至4中任一項的一種人類基因啟動子識別方法,其特徵在於步驟d)具體包括如下步驟首先定義兩個指示變量,分別用"l"表示啟動子樣本,用"-l,,表示非啟動子樣本,以此指示變量作為啟動子識別模型的因變量,用徑向基核支持向量機建立人類基因啟動子識別模型。全文摘要本發明公開了一種人類基因啟動子識別方法,能夠用於人類基因啟動子區域的確定及其結構功能的詮釋,可用於發現新的未知基因,包括如下步驟a)基於主成分分析方法,建立鹼基廣義性質得分表徵體系;b)應用鹼基廣義性質得分對人類基因啟動子和非啟動子的結構進行表徵;c)用自交叉協方差方法對每個啟動子和非啟動子的表徵變量做歸一化處理;d)用徑向基核支持向量機建立人類基因啟動子識別模型。文檔編號C12Q1/68GK101307359SQ20081006994公開日2008年11月19日申請日期2008年7月8日優先權日2008年7月8日發明者李志良,力楊,梁桂兆,虎梅,茂舒申請人:重慶大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀