新四季網

基於kendall相關係數的DNA序列相似性比對方法與流程

2023-05-08 13:45:21


本發明涉及計算機與生物信息學處理領域,尤其涉及基於kendall相關係數的DNA序列相似性比對方法。
背景技術:
:生物信息學的中心任務,是從浩如煙海的DNA序列數據中提取理性知識。生物信息學家所面臨的任務,不僅是解決高效的數據儲存手段,而且需要開發有效的數據分析工具。因為只有利用新的、有效的數據分析工具,才能將DNA序列信息轉換成生物學知識,並弄清它們所蘊含的結構和功能信息,進而徹底了解它們所代表的生物學意義。DNA序列比對的理論基礎是進化理論,如果兩個DNA序列之間具有足夠的相似性,就推測二者可能有共同的進化祖先,經過DNA序列內殘基的替換、殘基或DNA序列片段的缺失以及DNA序列重組等遺傳變異過程分別演化而來。DNA序列相似和DNA序列同源是不同的概念,DNA序列之間的相似程度是可以量化的參數,而DNA序列是否同源需要有進化事實的驗證。DNA序列比對實際上就是運用某種特定的數學模型或算法,找出兩個或多個DNA序列之間的最大匹配鹼基數。黃玉娟、王天明等人採用DNA序列中的k詞出現的頻率及位置信息構建了一個概率分布,這個分布表示兩個向量之間的距離,值越小物種越接近。Vinga和Almeida提出了基於詞頻率的DNA序列比較方法:通過滑動窗口的方式所有長度為k的詞出現的次數,得到k詞次數或頻率向量,這樣把一條DNA序列映射為高維歐式空間上的一個向量,從而將DNA序列之間的相似性比較轉換為向量之間的比較。雙DNA序列比對就是用特定的算法對兩條DNA序列進行比對,從而求出這兩條DNA序列之間最大的相似性的匹配。Kendall相關係數被廣泛用於時間DNA序列、水文、水質DNA序列等的相關性預測,但未曾被用於DNA序列相似性匹配。技術實現要素:本發明的目的在於克服現有技術的不足,提供基於kendall相關係數的DNA序列相似性比對方法,構建一個關於N條DNA序列的階相似係數矩陣,獲得N條DNA序列的進化關係,同時提高DNA序列相似性比對的效率及提高運算效率。本發明採用的技術方案是:基於kendall相關係數的DNA序列相似性比對方法,其包括如下步驟:1)獲取N條待比對的DNA序列;2)選取長度k,按滑動窗口的方式獲取每對組合DNA序列的相應的k詞,並組合成相應的向量3)以步驟2)所獲取的k詞,計算每個k詞在DNA序列中出現的次數,即計算k詞在DNA序列中出現的頻率向量,將其記為xi;4)對N條DNA序列k詞向量進行兩兩組合,即得到組合,每個組合向量記為X={xi},Y={yi}。5)每種組合的k詞頻率向量即xi,yi,計算其對應的kendall相關係數;6)建立N條DNA序列的N×N階相關係數矩陣,以獲取DNA序列的相似信息以及進化關係圖。進一步,所述步驟2)中,對DNA序列取其長度為k的詞頻向量。進一步,所述步驟5)中,可通過如下步驟獲得DNA序列的k詞的kendall相關係數;a)通過下式,獲取待比對DNA序列A的k詞,其中DNA序列A長度設為n:b)通過下式,計算k詞出現的頻率:xi={第i個k詞在DNA序列A中重複出現的次數};c)對組合的X,Y向量,通過下式,計算kendall相關係數其特徵在於:tx是{xi},{yi}中擁有一致性對數,ty是{xi,yi}擁有不一致性對數,T是{xi,yi}擁有不相同k詞總個數。d)步驟c)中的tx,ty可以由下式獲取,tx=(xi-yi)*(xi-yi)為同號,則稱為是{xi,yi}中一致性對數,ty可以由下式獲取,ty=(xi-yi)*(xi-yi)為異號,則稱為是{xi,yi}中不一致性對數所獲得的kendall相關係數τ是一個值為[-1,1]的數,當τ的值越接近於1則表示兩條DNA序列之間相關程度越強,當τ的值越接近-1則表示兩條DNA序列之間是負向相關,當τ的值接近於0則表示兩條DNA序列不存在相關性。構建N*N階的kendall相關係數矩陣,此矩陣為對稱矩陣,對角線上的值為1,可以得到N條DNA序列的兩兩相似性信息,由此構建出N條DNA序列的進化的關係。本發明基於kendall相關係數的DNA序列相似性比對方法,採用滑動窗口方式求取待分析DNA序列的k詞頻率向量,對N條DNA序列的k詞向量進行兩兩組合,利用kendall相關係數對相應DNA序列的k詞頻率向量求其相關係數,使得能夠對多條DNA序列進行相似性檢測,檢測結果有效地反映出DNA序列之間的進化關係。本方法較為簡潔,只需構建一個對稱矩陣,矩陣左上到右下的對角線上的值為1,簡化了計算複雜性,提高了運算效率,kendall係數可以作為描述DNA序列相似性預測的特徵值,可以獲得良好的準確度。附圖說明以下結合附圖和具體實施方式對本發明做進一步詳細說明;圖1為本發明基於kendall相關係數的DNA序列相似性比對方法的流程示意圖;圖2為本發明基於kendall相關係數的DNA序列相似性比對方法的DNA序列的進化關係圖。具體實施方式如圖1或圖2所示,對本發明的方法採用20個物種的DNA編碼DNA序列作為分析對象為例作進一步詳細闡述,包括以下步驟:如圖1所示,本實施例的基於kendall相關係數的DNA序列相似性比對方法包括如下步驟:1)選擇20個物種的DNA編碼DNA序列作為初始DNA序列,20個物種的DNA序列名稱及長度見表1;物種名稱DNA序列長度baboon16522bluewhale16403cat17010common_chimpanzee16564cow16339fin_whale16399gibbon16473gorilla16365grayseal16798harborseal16827horse16661human16570mouse16296opossum17085orangutan16390pigmy_chimpanzee16555platypus17020rat16301wallaroo16897whiterhinoceros16833表1:物種DNA序列信息2)對步驟1的初始DNA序列獲取其k詞,並組合這些k詞,得到初始DNA序列的k詞頻率向量(參見Vinga,S.Almeida,J.S.Alignment-freesequencecomparisonareareview[J].Bioinformatics.513-523.2003)。此方法的特點是對按滑動窗口方式求長度k的短DNA序列出現在待測DNA序列中頻率,對DNA的4個鹼基{A,T,G,C},取k長度為2,則對應k詞有42=16種,若k=3則對應k詞43=64種;如待測DNA序列片段的DNA序列A=ATAACTA,其k詞W2={AT,TA,AA,TT,AG,GA,AC,CA,CT….},其頻率向量值為{1,2,1,0,0,0,1,0,1,0…};待測DNA序列片段B=ACAACTTA,其k詞頻率向量為{0,1,1,1,0,0,2,1,1,0…};3)對應N條DNA序列,可以求出N個k詞頻率向量,將其兩兩組合,得到組合,每個組合頻率向量記為X,Y4)通過下式計算獲取kendall相關係數,其中tx是{xi,yi}與其他k詞頻率之間擁有一致性對數,ty是{xi,yi}與其他k詞頻率之間擁有不一致性對數,T是{xi,yi}擁有不相同k詞總個數,步驟2)中DNA序列A,B片段的k詞總個數為T=7;5)步驟4)中的tx,ty可以由下式獲取,tx=(xi-yi)×(xi-yi)為同號,則稱為{xi,yi}中一致性對數,ty可以由下式獲取,ty=(xi-yi)×(xi-yi)為異號,則稱為{xi,yi}中不一致性對數;6)構建矩陣為N*N階的kendall相關係數矩陣,此矩陣為對稱矩陣,對角線值為1,通常可以列為上三角矩陣。由於相似性與距離成負相關關係,所以,在構建進化關係圖之前,我們將相似性數值取相反數轉換為距離,並以此構建進化關係圖,請參看圖2。結果分析:通過計算與編輯距離之間的皮爾森相關係數,我們發現應用kendall計算出來的DNA序列相似性與編輯距離的相關係數為-0.94,說明應用本發明方法計算出來的DNA序列相似性具有精度高的特點,並且能夠通過快速計算得到,是一種替代編輯距離的非常有效的方法。以上所述僅為本發明的實施例,並非因此限制本發明的專利範圍,凡是利用本發明說明書及附圖內容所作的等效結構或等效流程變換,或直接或間接運用在其他相關的
技術領域:
,均同理包括在本發明的專利保護範圍內。當前第1頁1&nbsp2&nbsp3&nbsp

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀