新四季網

用於對查詢序列的基因型與亞型進行分類的方法

2023-05-24 00:24:01

專利名稱:用於對查詢序列的基因型與亞型進行分類的方法
技術領域:
本發明涉及一種用於對查詢序列的基因型與亞型進行分類的方法。更具體地,本發明針對一種用於對查詢序列的基因型與亞型進行分類的方法,包括(i)選擇不同病毒的鹼基序列作為參考序列,這些病毒的基因型或亞型是已知的,並且通過在所述參考序列的多重比對中計算序列之間的距離而獲得距離矩陣;以及(ii)開發一種判別方程,該判別方程可以對這些參考序列進行分類,這是通過對通過該距離矩陣的多維定標對所述參考序列成簇而獲得的聚簇執行判別分析來實現的,接著根據所述判別方程對查詢序列的基因型與亞型進行分類。
背景技術:
在理解趨異病毒的進化方面,精確的基因分型(或分亞型)是關鍵。近來,公共資料庫裡的病毒序列的數量的迅速增長被注意到。例如,NCBI基因庫(NCBI GenBank)擁有的 HIV-I與HCV序列條目幾乎每三年翻一番。這些病毒還顯示出非常好的基因型多樣性並且因此已經被分類成組,被稱作基因型與亞型(Robertson等人,2000 ;Simmonds等人,2005)。因此,基於這些病毒株的序列相似性對它們進行基因分型(或分亞型),在理解它們的進化、流行病學以及研發抗病毒療法或疫苗方面已經成為最基本的步驟之一。傳統的分亞型方法包括以下(I)最近鄰法,尋找該查詢序列與被稱作參考的每一亞型的代表的最佳匹配;(2)系統發育方法,尋找該查詢序列分支至其上的單系群。由於這些亞型原本已經被定義為單獨的聚簇群,所以這些直觀上合理的方法已經得以廣泛使用並且對於許多案例而言十分成功。然而,隨著序列數目的漸增,觀察到不能被確切地分亞型的離群值或對其而言這些方法不適宜的離群值。最近一份將這些不同的自動分亞型方法與HIV-I序列作比較的報告顯示,除了亞型B與C之外,它們之中的相符性低於50% (Gifford R、de Oliveira T、Rambaut A、Myers RE、GaleCVΛ Dunn D、Shafer R、Vandamme AM、Kellam P、Pillay D UKCollaborative Group on HIV Drug Resistance:Assessmentof automatedgenotyping protocols as tools for surveillance of HIV-Igeneticdiversity. AIDS2006, 20:1521-1529)。該不相符性的原因之一要歸結於由於重組而引起的增加的趨異性與複雜性。還應注意到,在那些方法中,緊密關聯的亞型(B與D)或分享共同起源的亞型(A和CRF01_AE)顯示出較差的一致性。本發明人認為,這一問題的根本是每一亞型的參考序列的數目太少。這些方法使用兩至四種手選的參考序列。它們是由各專家在高質量的全基因組序列中仔細挑選的,是要儘量覆蓋每一亞型的多樣性。然而,利用每一亞型的本質上小數目的參考序列,它們不能解決亞型預測的可信性;低E值的雙序列比對或高系統發育樹的高引導值(bootstrapvalue)表明單元操作的可靠性,但是就整體而言並不必然保證一個可信的亞型分類。對缺少統計置信測度這一問題的認識帶來了 STAR的引入,這是一種基於特定位點打分矩陣的統計模型的方法,該特定位點打分矩陣是從每一亞型的多重序列比對(MSA)建立的。然而,其當前的實施有一些限制它僅適用於HIV-I胺基酸序列,以小數目的參考(總共11個亞型的141種)為基礎,並且利用少於1000種序列進行了測試。最近,已經引入了新穎的基於核苷酸組成字符串的基因分型(或分亞型)方法。它的獨特在於它繞過了多重序列比對並且仍舊達到高精確度。然而,它也僅使用了 42種參考序列並且已經用1156種序列進行了測試。考慮到這些病毒序列數目的爆炸式增長,這些傳統方法的測試案例非常少,最多萬分之一。因此,本發明的目的是要提供一種新穎的用於對公知的查詢序列的基因型或亞型進行分類的方法。關鍵是在試圖對一種查詢序列進行分類之前,評估每一亞型群的聚簇程度如何。考慮這樣一個案例,其中這些參考序列大部分都被亞型很好地分開了,除了兩種或更多種亞型至少部分地重疊依賴少數參考的這些方法可能沒有注意到這一問題並且可能將高分分配給一種明顯的亞型。由於序列範圍內的不同突變率,所以每一基因片段的系統發育動力(phylogenetic power)也可能不同。這對於相對短的部分序列來說尤為關鍵。換言之,如果在基因分型(或分亞型)中僅考慮序列區域的一部分,那麼即使這些本應區別成 簇的、具有很好特徵的參考也不能被分辨出。這些最近鄰法不能評估該背景分類模型的這種有效性,因為它們僅關注查詢與參考之間的比對,而不是參考與參考之間。REGA,基於樹的方法之一,關注該查詢是在由一組參考形成的聚族的內部還是外部(deOliveira TDeforche K、Cassol S、Salminen Μ、Paraskevis D、SeebregtsC、Snoeck J>van Rensburg EJ>ffensing AM、van de Vijver DA、BoucherCA、Camacho R>Vandamme AM An automated genotyping system foranalysis ofHIV-Iand other microbial sequences. Bioinformatics 2005、21:3797-3800)。然而,就本發明人所知曉的,沒有工具定量地報導這樣一種測量。所以,本發明人提出一種方法,該方法基於這些參考序列之間的距離開發了這些背景分類模型,重新評估了它們對於每一查詢的有效性,並且就後驗概率報告了基因型(或亞型)賦值的統計顯著性。如此,本發明的方法適合於其中許多參考序列可用的案例。本發明通過將主坐標分析(PCoA)與線性判別分析(LDA)(兩者是使用生物科學中普遍的應用能很好建立的統計工具)結合起來而實現這些目標。PCoA (也稱為經典多維定標(MDS)),將這些序列標繪在高維主坐標空間,同時儘可能地盡力保持它們之間的距離關係。PCoA已經廣泛地應用於探索序列集中的全球趨勢,在系統發育分析方面對基於樹的方法進行了補充。因為亞型已經被定義為系統發育樹中的不同單系類群,所以如果選擇一種適當的高維,每一亞型應該在MDS空間裡形成良好分離的聚簇。在此類案例中,可以發現一組將這些聚簇分開的超平面並且與這些超平面相關的查詢可以得到分類。為了這一目的,本發明將LDA (—種直接的並且強大的分類方法)應用於MDS坐標並且將一種查詢分配給顯示出最聞的關係後驗概率的基因型(或亞型)。這種概率在檢測任何需要仔細檢驗的模糊案例時是有用的。本發明的方法通過留一法交叉驗證(L00CV)來測試這些LDA模型,該驗證可以用以通過檢測誤分類率來估測模型有效性。由於這些序列是由坐標來表示的,因此還可以開發一種簡單的措施用以檢測基因型(或亞型)離群值。本發明人實質上已經利用所有來自NCBI基因庫(核苷酸)與GenPept (蛋白質)的HIV-I和HCV序列對本發明進行了測試。披露內容技術問題本發明的主要目的是提供一種用於對查詢序列的基因型與亞型進行分類的方法,包括(i)選擇不同病毒的鹼基序列作為參考序列,這些病毒的基因型或亞型是已知的,並且通過在所述參考序列的多重對比中計算序列之間的距離而獲得距離矩陣;以及(ii)開發一種判別方程,該判別方程可以對這些參考序列進行分類,這是通過對通過該距離矩陣的多維定標對所述參考序列成簇而獲得的聚簇執行判別分析而實現的,接著根據所述判別方程對一種查詢序列的基因型與亞型進行分類。技術解決方案本發明的上述主要目的可以通過提供一種用於對查詢序列的基因型與亞型進行 分類的方法來達到,包括(i)選擇不同病毒的鹼基序列作為參考序列,這些病毒的基因型或亞型是已知的,並且通過在所述參考序列的多重對比中計算序列之間的距離而獲得距離矩陣;以及(ii)開發一種判別方程,該判別方程可以對這些參考序列進行分類,這是通過對通過該距離矩陣的多維定標對所述參考序列成簇而獲得的聚簇執行判別分析而實現的,接著根據所述判別方程對一種查詢序列的基因型與亞型進行分類。本發明的方法的步驟(i)可以進一步包括從所述多重比對中除去插入缺失。另外,本發明的方法的步驟(ii)的多維定標優選地是一種主坐標分析。此外,本發明的方法的步驟(ii)的判別分析可以選自不同的方法,比如線性判別分析、二次判別分析、最近鄰距離法、支持向量機或線性分類。有利效果本發明的方法可以被有效地用於通過分析快速進化的病毒(比如HIV-I與HCV)的序列而對病毒的基因型或亞型進行精確分類。另外,本發明的方法對核苷酸和蛋白質(多肽)序列都適用。而且,可以應用本發明的方法根據多態性標記(比如SNP)的距離矩陣將個別受試對象分類成群組。附圖簡要說明圖I示出了根據本發明的用於對病毒的基因型(或亞型)分析進行分類的方法的示意圖。這些球形表示已知被成簇為四種群簇A-D的序列,並且這些組群的分界面由隔離圓圈表示。每一群簇裡的實心球形分別地表示參考序列,並且查詢序列由星形表示。由於查詢序列位於群簇B與D之間的分界面內,所以難以查明該查詢序列的基因型(或亞型)。另一方面,可以通過最近鄰法來將查詢序列分配給最鄰近參考序列並且這種情況發生在群簇D中。根據最鄰近參考序列的距離,而不考慮已知分類方法的序列的聚簇模式,就該參考序列的選擇而言,這些結果可以並不穩健(robust)。圖2示出了沿第一(VI)、第二(V2)以及第三(V3)主坐標軸的HIV-I序列的示例性MDS示意圖。這些參考序列被示出為根據其亞型進行了顏色編碼的小圓圈。為了清楚起見,沒有對亞型F-K進行標記。該查詢位於亞型B的中間(『 + 』)。圖3示出了對每一基因片段而言通過MDS維數K示出的LOOCV錯誤率。對於(a)HIV-I核苷酸、(b)HIV-I蛋白質、(c)HCV核苷酸以及(d)HCV蛋白質序列的每一基因片段而言,參考序列的預測基因型(或亞型)的LOOCV錯誤率是通過使該MDS維數K從I到50進行變化來進行測量。一些顯示出與眾不同的較高錯誤率的基因片段被標記。與序列類型無關,這些錯誤率在k=10後都達到穩定期,這些錯誤率在隨後的分析中被使用。圖4示出了沿基因片段的LOOCV錯誤率的代表性滑動窗口繪圖。這些LOOCV錯誤率是沿(a)HIV-Ienv核苷酸與(b)HCV e2蛋白質序列的基因片段在滑動窗口中繪製的。對兩種情況而言,該MDS維數是設置在k=10。總類表示出於圖8與圖9中。圖5示出了用於HIV-1「主要」分析的離群值O的密度分布。在測試的161,440個案例中,根據本發明的方法的159,261個預測與LANL亞型信息(實線)相一致,而剩下的則不一致(虛線)。圖5是利用在R統計包中執行的核密度估計函數來產生的。通過0>2濾出的部分標為陰影。在過濾出很大部分的不一致案例的同時,一致性案例的丟失被最小化。圖6示出了 HIV-I超變異序列的離群度值的盒形圖。離群度(O)參數的盒形圖是針對由先前研究(Janini M、Rogers M、Birx DR、McCutchan FE Human immunodeficiency virus type IDNA sequencesgenetically damaged by hypermutationare often abundant in patient peripheralbolld mononuclear cells and maybe generated during near-simultaneousinfection and activation of CD4 (+)T cells.J Virol2001,75 (17) :7973-7986 ;Gandhi SK、Siliciano JD、Bailey JR、Siliciano RF、Blankson JN Role ofAP0BEC3G/F_mediated hypermutation in thecontrol of humanimmunodeficiency virus type Iin elite suppressors.J Virol2008,82 (6) : 3125-3130 ;Land AM、Ball TB、Luo M、PilonRm、Sandstrom P、Embree JE、Wachihi C、Kimani J、Plummer FA Human immunodeficiency virus(HIV)typelproviralhypermutation correlates with CD4count in HIV-infectedwomen from Kenya.JVirol2008,82(16) :8172-8182)報導的561種無功能性與1,519種功能性序列繪製的,這些研究明確地標記出每一序列是否為「無功能性的」。圖7示出了本發明對HIV-I進行分亞型的網頁伺服器屏幕截圖。圖7(a)示出了輸入屏並且圖7(b)-(d)分別示出了輸出的第一頁到最後一頁。圖8在滑動窗口中示出了針對HIV-I核苷酸(上圖)與蛋白質(下圖)序列((a) env、(b)gag、(c) nef、(d)pol、(e) vif > (f) vpu)的 L00CV 錯誤率。圖9在滑動窗口中示出了針對HCV核苷酸(上圖)與蛋白質(下圖)序列((a) utr、(b)arfp、(c)core、(d)el、(e)e2、(f)ns2> (g)ns3、(h)ns4a、(i)ns4b、(j)ns5a、(k)ns5b、(l)okamoto、(m)p7)的 L00CV 錯誤率。

圖10示出了針對該HIV-I 「主要」分析的離群度值的柱狀圖與L00CV錯誤率。對於基於本發明的預測與LANL —致的離群度值的分布示出了以大約I. O為中心的尖峰(a),而那些不一致的則示出了直到10.0的很長的尾巴(b)。在過濾掉低可信度的案例(離群度〈2. O)之後,對於不一致性預測(d)仍留下比一致性預測(c)相對更多的具有較高錯誤率的案例。然而,它們的比例不大並且任何基於這些值的過濾方案都沒有被執行過。最佳模式在下文中,將參考以下實例與附圖更詳細地描述本發明。這些實例與附圖僅給出用於說明本發明而不在於限制本發明。總體過程
本發明的方法通過創建該查詢與參考序列的多重序列比對(MSA)來開始該過程。不像常規的方法,本發明要求大量的參考,它們應該具有高質量並且具有謹慎指定的基因型(或亞型)。洛斯阿拉莫斯國家實驗室(Los Alamos National Laboratory (LANL))資料庫分配 HIV-1 (http://www.hiv. Ianl. gov/) and HCV (http ://hcv. lanl. gov/)序列的這樣的MSA。LANL還提供有關該MSA中每一序列的亞型信息。在2007年發布的HIV-IMSAs中包括總共3,591種核苷酸與3,478種蛋白質序列,而在HCV MSAs中總共有3,093種核苷酸與3,077種蛋白質序列。應該注意,對一些亞型而言,在該MSA中發現超過100種序列,同時有極少亞型僅包括少數參考序列。該樣品大小失衡是一個嚴重問題,但是本發明提出一種基於全局方差(global variance)的相當具有啟發性的解決方案。為了與其他方法公平比較,本發明人決定將該查詢與已經可從公共資料庫中得到的參考序列的MSA進行比對,而不是自己創建MSA,由而對該參考MSA表示尊重。這樣做具有節省執行時間的優點,這對網絡伺服器應用程式很關鍵。對於這一步驟,使用hmmbuild、hmmcalibrate、andhmmalign(http://hmmer. janeIia. org/)這套程序。在使用一種PERL腳本去除該MSA中的插入缺失之後,使用具有 Jukes-Cantor 修正的 EMBOSS 程序包(http://emboss, sourceforge. net/)的distmat來計算這些序列間的配對距離矩陣。 下一步驟是所謂的主坐標分析(PCoA),它將該距離矩陣轉變為其構成與所搜索的坐標的內積相等的矩陣。通過所得到的矩陣的奇異值分解,獲得直到指定的較低維的一組特徵向量以及相關特徵值。然後將配對歐氏距離近似於這些原始距離的那些序列的多維坐標從包括這些特徵向量與特徵值的簡單矩陣運算中恢復。每一特徵值是沿由相應特徵向量定義的軸而獲得的方差量,也稱作主坐標(PC)。為了方便,這些特徵值按降序排列並且通過採用最高的少數幾個來達到維數降低。如果組內變異是忽略不計的,則最高PCs的數目或該MDS維數k應該最多是N-1,其中N是參考組的數目。然而,根據所考慮的序列區域,一種亞型可能顯示出複雜的聚簇模式,分為一個以上的群簇,比如亞-亞型。因此,本發明人採用一種經驗性方法,該方法針對從I至50範圍的k來調查這些參考序列的交叉驗證誤差。這一步驟是利用R統計系統(http://www. r-project. org/)中的cmdscale來實現的(圖2示出了該MDS結果的一個示意圖)。然後,本發明的下一步驟是開發判別模型,這些判別模型根據他們的亞型對參考進行最佳地分類並且根據這些模型給該查詢分配亞型成員(membership)。在此,可以想像應用除其他以外的不同分類方法,比如K-最近鄰近法(K-NN)、支持向量機(SVM)、線性分類器。如果這種MDS步驟真正有效,則這些參考應該根據其亞型成員而被很好地聚簇,並且因此諸如線性判別分析(LDA)或二次判別分析(QDA)這些最簡單的方法應該有效。這兩者通過使高斯分布函數適於每一組的中心而起作用,兩者之間的不同之處在於是使用全局協方差(LDA)還是使用組協方差(QDA)。由於可以預計組內偏差可能組與組之間不同,因此QDA可能更合適。然而,以上提到的樣品大小失衡問題阻礙了應用QDA,因為對於一些基因型(或亞型)而言,在小量參考情況下它變得不穩定。另一方面,LDA通常應用全局協方差至所有這些亞型並且因此針對這一問題可以更穩健(robust)。儘管它不如QDA嚴謹,但是只要這些組偏差彼此之間不是過於不同,則這種啟發式方法運行地相當好。一旦基於這些參考序列計算這些線性判別,則屬於特定組的後驗概率是作為從該查詢至該組中心的所謂的馬氏距離函數而給出的。對於該查詢,之後分配後驗(MAP)估計的最大值,也就是,具有最大可能性的亞型。該後驗概率是通過與每一亞型的參考數目成比例的前者來進行衡量的。這一步驟是利用R統計系統(http://WWW.r-project. org/)中的MASS程序包的Ida來實現的。預測模型的交叉驗證這些線性判別模型的有效性是通過這些參考序列的基因型(或亞型)成員的LOOCV來進行評估。對於這些參考中的每一個而言,其基因型(或亞型)是通過從這些參考中的其餘參考產生的模型來進行預測的。誤分類錯誤率(它是誤分類參考的數量與參與驗證的參考總數量的比)是對該背景分類能力的一種敏感量。公共資料庫中的許多病毒序列並不是全基因組,而只覆蓋了一些基因或一個基因的一部分,並且因此它們的系統發育信號可以不同。因此,本發明人利用LOOCV重新評估了每一預測的分類能力。如果在針對一種給定查詢的MDS空間裡這些參考序列得不到很好的辨析,則在LOOCV中會很明顯,導致高誤分類率。離群值檢測 即使通過亞型使這些參考以低LOOCV失誤率得以很好地分開,該查詢序列本身還是可能異常它可以是兩種或更多種亞型的複合,位於數種亞型的中間(一種重組體情況);它可以僅接近一種亞型群簇(針對這種亞型具有接近I的P值)但是遠在該群簇邊界之外(一種趨異情況)。在多變量分析的領域內,習慣是通過計算自樣品中心的馬氏距離並且通過將其與卡方分布進行比較來檢測離群值。由於該馬氏距離已經結合在LDA後驗概率的計算中,因此本發明人提出一種有些不同的量,即,離群度0,它是從該查詢至與屬於沿該方向
的那種亞型的參考的最大趨異值有關的群簇中心的歐氏距離
j j 2'rrrrrrrr^ R\-\S
(Eq. I)其中XQ、Xe以及Xc分別是該查詢、這些參考之一以及該參考組S的中心的MDS向量。該組S包含所有屬於已經將該查詢分類給其的基因型(或亞型)的所有參考序列。如果O小於1.0,則該查詢是很好地在該群簇內部,否則就在外部。本發明人基於此開發了一種簡單的啟發式過濾器例如,可以將閾值設置在2. O以容許一些偏差。REGA還通過檢查樹形拓撲來執行離群值檢測方案以查看該查詢是在由參考序列組形成的群簇的內部還是外部。重組體檢測的套合分析(Nested Analysis)用於表徵重組體病毒株的標準過程包括沿該序列的靴掃描(bootscanning)以定位該重組點。它僅適用於長序列並且對於依賴於大樣品量的工具(比如本發明的方法)而言,要實用地通過網際網路而服務,它花費時間太多,除非採用具有數百CPU的群簇場(cluster farm)。與其執行靴掃描,本發明人通過以下途徑解決了該重組問題(a)對於包括多於一個基因的查詢而言,逐基因預測亞型;(b)以一種包括重組參考序列的「套合」方式對該分析進行再迭代。HIV-I與HCV包含順序的10個基因並且因此對整個基因組序列進行逐基因分析不會花費比單個基因分析長10倍的時間。如果不同亞型被以高可信度分配給了一種查詢的不同基因構成部分,則暗示了一種重組情況。對於一些重組體,斷點可以發生在一個基因的中間。在此類情況中,有可能的是,分類的後驗概率不是僅受一種亞型支配,但是第二個左右會具有一個不可忽略的P值。本發明人通過對具有大於O. Ol的P值的亞型以及相關的重組體亞型予以注意,以一種「套合」方式對該預測過程進行再迭代。例如,如果A組或G組的P值大於O. 01,則這些參考包括CRF02_AG組。網頁伺服器開發已經研發出接受核苷酸序列作為一種查詢並且預測該查詢的每一基因片段的基因型(或亞型)的阿帕奇(Apache)網頁伺服器,每個HIV-I與HCV有一個網絡伺服器。接受胺基酸序列作為一種查詢的相應蛋白質版本也已經得以開發。這些可以在http://WWW.muldas. org/MuLDAS/上免費取得。以PERL編寫的每一 CGI程序封裝了已從HMMER、EMB0SS以及R的各自發布網站上下載的組件程序。由於距離矩陣的運算耗費許多運行時間,因此本發明人將該任務分割為數個(典型地是四個)計算節點,其中每一個計算節點並行地計算這些行的多個部分,並且這些結果通過主節點進行整合。在英特爾至強CPU Linux盒(IntelXeon CPU Linux box)上,對一段1000-bp的HIV-I核苷酸序列的典型亞型預測要花費大約20秒。這些網頁伺服器報告該查詢的MAP基因型(或亞型)以及每一亞型的後驗概率 (posterior P)、這些預測模型的留一法交叉驗證結果、以及離群值檢測結果(圖7的屏幕截圖)。該查詢的3D示意圖與前三個PC中的參考是以PNG格式給出並且描述該查詢的所有PC以及這些參考的XML文件可以下載,用於隨後利用GGobi (http://www. ggobi. org/)的動態互動可視化(Fig. 2)。這對於可視地檢查聚簇的質量以及對於確定可以導致識別出潛在的新型或重組體的離群檢測結果來說尤其有用。對於HIV-1,以上描述的「套合」分析被進行再迭代並且該結果也被報告。該網站還運行存儲了 HIV-I亞型與HCV基因型的預計算結果的數據伺服器,這些結果是利用與這些預測伺服器完全一樣的方法預測的。定期地(典型地是每天)下載NCBI基因庫與GenP^t中HIV-I或HCV的所有新條目,並且預測它們的基因型(或亞型)並存儲在這些資料庫中。可以通過NCBI GI編號或主入藏號(primary accessions)檢索這些結果。還以利用由諸如後驗概率、L00CV率、離群度、基因型(或亞型)、或基因片段這些系統計算的性質來查詢這些條目。該檢索的結果包括從LANL資料庫裡讀取的基因型(或亞型)信息,如果有的話。結果本發明的方法是利用從NCBI基因庫與GenP印t下載的HIV-I與HCV的序列數據集進行測試的。針對還沒有用作參考序列的158,834種HIV-I序列(包括8,832種重組體)以及48,720種HCV序列,從LANL網站上檢索核苷酸序列的亞型信息並且將這些亞型信息用於探尋出源自該核苷酸序列的蛋白質序列的亞型信息。對於一些序列而言,這些基因型/亞型是由最初提交者給出的或由LANL分配。這些測試數據集的基因型(或亞型)命名法HIV-I序列被分組為M (主要(main))組、N (非主要(non-main))組、U (未經分類(unclassified))組、O (外類群(outgroup))組。多數可用的序列屬於M組。由於N組與O組距離M組非常遠,因此M組的亞型在包括這些遠離組的MDS示意圖中不能得到很好的解析。因此,本發明人集中於將M組序列分類為亞型A-D、F-H、J以及K。在M組的亞型中,有時將A與F進一步分別地分開為亞-亞型Al與A2以及Fl與F2。
然而,在LANL資料庫中仍有一些新序列在亞型等級上被報導。甚至對於包括在由LANL產生的MSA中的序列也是這種情況。利用本發明針對相對短的序列解析亞-亞型要求一種僅使用相關亞型序列的「套合」分析。由於這些原因,本發明人沒有試圖去區別亞-亞型並且在亞型等級上對它們進行分類。M組序列的不同亞型可以重組來形成一種新株。如果在三個以上流行病學上獨立的病人中發現這些株,則稱它們為流行重組形式((circulating recombinant forms) CRFs)。在這些 CRF 中,CRF01_AE 由 A 與現在已滅絕的E株重組形成,並且構成一個與A亞型不同的大家族。M組與CRF01_AE亞型已被稱為「主要」亞型並且本發明的方法針對它們作為「主要」分析來進行。表I列出了按照亞型以及所有已經被LANL分類為「主要」組的測試序列的基因片段統計的分項數據(相應的蛋白質序列參考表2)。該分布遠不一致,代表了研究偏差屬於亞型H、J以及K的序列稀少;特別對於諸如vif與vpr的輔助蛋白而言,非B株過於稀少,以至於不能精確評估該分類。 表I. HIV-IM組以及CRF01_AE核苷酸序列的基準測試的總結性統計(a)過濾之前每一亞型的基因片段的數目
權利要求
1.一種用於對查詢序列的基因型與亞型進行分類的方法,包括 (i)選擇不同病毒的鹼基序列作為參考序列,這些病毒的基因型或亞型是已知的,並且通過在所述參考序列的多重比對中計算序列之間的距離而獲得一種距離矩陣;以及 (ii)開發一種判別方程,該判別方程可以對這些參考序列進行分類,這是通過對通過該距離矩陣的多維定標對所述參考序列成簇而獲得的聚簇執行判別分析而實現的,接著根據所述判別方程對一種查詢序列的基因型與亞型進行分類。
2.根據權利要求I所述的方法,其中所述步驟(i)進一步包括從所述多重比對中除去插入缺失。
3.根據權利要求I所述的方法,其中所述步驟(ii)的所述多維定標是一種主坐標分析。
4.根據權利要求I所述的方法,其中所述步驟(ii)的所述判別分析是選自包括線性判別分析、二次判別分析、最近鄰點距離法、支撐向量機以及線性分類器的組。
全文摘要
本發明涉及一種用於對查詢序列的基因型與亞型進行分類的方法。更具體地,本發明針對一種用於對查詢序列的基因型與亞型進行分類的方法,包括(i)選擇不同病毒的鹼基序列作為參考序列,這些病毒的基因型或亞型是已知的,並且通過在所述參考序列的多重比對中計算序列之間的距離而獲得一種距離矩陣;以及(ii)開發一種判別方程,該判別方程可以對這些參考序列進行分類,這是通過對通過該距離矩陣的多維定標對所述參考序列成簇而獲得的聚簇執行判別分析而實現的,接著根據所述判別方程對一種查詢序列的基因型與亞型進行分類。
文檔編號G06F19/24GK102884203SQ201080066436
公開日2013年1月16日 申請日期2010年8月13日 優先權日2010年2月26日
發明者金尚洙 申請人:崇實大學校產學協力團

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀