新四季網

基於代表基因組的陣列對生物進行的分類的製作方法

2024-04-04 12:28:05

專利名稱:基於代表基因組的陣列對生物進行的分類的製作方法
技術領域:
本發明涉及陣列技術(array technology)、診斷學以及分子生物學領域。更特別的,本發明涉及利用核酸陣列對樣品核酸進行分型(typing)的方法。
背景技術:
陣列技術在與生物學和醫學相關的各個領域中已成為重要工具。這些年來已開發了幾種類型的陣列。隨著小型化和自動化的到來,越來越多的信息已經進入陣列。陣列技術的目前趨勢是產生更大的陣列,在它們之上攜帶越來越多的信息。
在基於陣列的診斷學中,雜交模式或者陣列上各種點與樣品核酸雜交的強度模式含有待與另一種樣品核酸的數據進行對比的數據。在傳統陣列中,為了經濟和精確性的原因,每個點的核苷酸數目保持在儘可能低。
陣列上所含的更高水平信息主要用於提供核酸樣品的更詳細的分析,即使得進行對比的兩個這種樣品之間的最小的差異變得可見或者被揭示。例如,在人類診斷學中,陣列被用於對具有相同疾病但不同預後的患者組進行分類,並由此揭示導致這種預後差異的基因。這些實驗大多數基於表達陣列進行,因為只有特定基因的表達水平被認為提供區分兩組患者必需的解決方案,即提供足夠的區分它們的能力。
在這些已知為表達譜分析(expression profiling)的診斷方法中,用於探查陣列的核酸(即表達的mRNA)提供了複雜的核酸(complex nucleic acid)。在陣列中導入較大數量的核苷酸導致另一難題,特別是當複合核酸被用於探查陣列時。在表達譜分析的情況下,大量的點具有值為0和1之間的信號,表明不是點中的所有核酸均與探針核酸雜交,而這是用於確定或量化所涉及的基因的表達水平的一個特徵。
最終,當對比不同的雜交模式時,需要決定陣列中的哪些信號包括在分析中,哪些不使用。通常這基於截斷值(cut-off value)進行,截斷值的引入使得分析偏向包括特定點的強度的最顯著或最大改變。參考模式在這一過程中起重要作用,該模式是用來與測試材料或樣品核酸所產生的模式進行對比的模式。現有技術方法的一個問題是核酸的表達代表了生物體所處的狀態,即根據環境不同,同一生物體可有不同的表達模式。現有技術方法由此不太適合在不考慮其代謝狀態的情況下對生物體進行分型。
發明概述本發明目的在於通過提供一種製備用於對比陣列雜交實驗的參考雜交模式的方法而克服上述問題。
本發明人現已發現一種製備參考雜交模式的方法,其提供了高分辨能力,使得能對樣品核酸在令人驚訝地詳細的水平上進行分型。例如,本發明人現發現了一種製備參考雜交模式的方法,其使得不同細菌菌株的樣品核酸在如抗生素抗性這樣詳細的表型參數的水平上進行分型,而分型本身基於全基因組陣列差異雜交(whole-genome-array differentialhybridization)而發生。在這些全基因組陣列差異雜交方法中,陣列上的核酸分子和樣品核酸均由(隨機)基因組DNA片段組成。獲得這一詳細水平是令人驚奇的,因為人們不會預期可以基於基因組DNA的組成而區分細菌菌株的抗生素抗性的和敏感的亞型。
本發明的一個方面提供了一種製備用於樣品核酸的參考雜交模式集群的方法,所述方法包括-提供包含多個核酸分子的陣列,其中所述多個核酸分子衍生自至少兩個不同來源;-通過將所述陣列與至少兩種不同的參考核酸雜交而提供至少兩種不同的參考雜交模式,其中所述至少兩種不同的參考核酸的來源基於至少一個表型參數的值可分成至少兩組;以及-通過無監督的多變量分析(unsupervised multivariate analysis)群集(clustering)參考雜交模式。
因此,本發明製備參考雜交模式的方法使用多個來源用於陣列核酸,也使用多個來源用於參考核酸。這些來源可以是相同的或不同的。優選地,參考雜交模式也通過衍生自用於陣列核酸的來源的核酸獲得,從而各種來源可以具有多個功能。因此,所述多個陣列核酸分子的所述至少兩個來源的至少一個也是所述至少兩個不同參考核酸的至少一個的來源。
在一個優選的實施方案中,本發明的方法支持全基因組陣列差異雜交方法。因此,優選地所述陣列由基因組DNA片段組成,優選地由隨機選自來自所述至少兩個不同來源的基因組DNA片段的混和物的基因組DNA片段組成。同時,所述樣品核酸優選地由基因組DNA組成,更優選地由基因組DNA片段組成。
在一個優選的實施方案中,用於多個陣列核酸分子的至少兩個不同來源是(至少猜想其是)(在分類學上)與樣品核酸的來源密切相關,即它們屬於相同的目,優選相同的科,更優選相同的屬,更優選相同的物種,更優選相同的遺傳學亞種。
在另一個優選的實施方案中,所述陣列中分子的平均大小在大約200至5000個核苷酸之間。
在另一個優選的實施方案中,所述陣列包括隨機選自所述至少兩個不同來源的大約1500至5000個核酸分子。
在另一個優選的實施方案中,所述多個陣列核酸分子衍生自天然來源,更優選來源於病毒、微生物、動物或植物,更優選來源於原核生物。
在另一個優選的實施方案中,用於所述多個陣列核酸分子的至少兩個不同來源是(在分類學上)密切相關的。
在另一個優選的實施方案中,所述多個陣列核酸分子衍生自原核生物的至少兩個不同物種。
在另一個優選的實施方案中,所述多個陣列核酸分子衍生自屬於相同的屬的至少兩個不同的原核菌株。
在另一個優選的實施方案中,所述多個陣列核酸分子衍生自屬於相同物種的至少兩個不同的原核菌株。
在另一個優選的實施方案中,所述多個陣列核酸分子衍生自一種原核生物的純培養物。
在另一個優選的實施方案中,所述多個陣列核酸分子衍生自真核DNA。
在另一個優選的實施方案中,所述多個陣列核酸分子衍生自至少3個,優選至少5個,更優選至少8個不同來源。
在另一個優選的實施方案中,所述方法進一步包括基於主成分分析(Principal Component Analysis,PCA)對代表模式進行群集。
在另一方面,本發明提供了對樣品核酸進行分型的方法,包括-通過使用本發明的製備樣品核酸的參考雜交模式集群的方法提供樣品核酸的至少兩種不同的參考雜交模式的集群;-將與用來製備所述參考雜交模式的陣列相同的陣列與樣品核酸雜交以獲得樣品雜交模式,以及-將所述樣品雜交模式歸於(assigning to)所述參考雜交模式的至少兩種不同的集群中的一種。
在一個優選的實施方案中,所述樣品核酸由基因組DNA,優選基因組DNA片段組成。
在另一個優選的實施方案中,所述樣品核酸中片段的平均大小在大約50至5000個核苷酸之間。
在另一個優選的實施方案中,所述方法包括將所述樣品雜交模式與包括至少3個、優選至少5個、更優選至少50個不同參考雜交模式的參考雜交模式集群進行對比。
在另一個優選的實施方案中,所述對比包括參考雜交模式與樣品雜交模式一起的無監督的多變量分析,優選地還進一步包括基於主成分分析(PCA)對代表模式進行群集。
在另一優選的實施方案中,所述歸於包括參考雜交模式與樣品雜交模式的偏最小二乘法判別分析(Partial Least Square-Discriminant Analysis,PLS-DA),其中至少一個其值對於參考雜交模式是已知的(並且其信息被用於監督所述PLS-DA分析)的表型參數被針對樣品核酸或其衍生來源而額外確定或估計。
在另一優選的實施方案中,所述方法進一步包括基於有監督的PLS-DA分析對代表模式進行群集。
在另一優選的實施方案中,所述方法進一步包括基於集群的存在與否對所述樣品核酸進行分型。
在另一個優選的實施方案中,所述集群代表了共享一個針對一種感興趣的表型參數的值的模式。
在另一個優選的實施方案中,所述用於多個陣列核酸分子的至少兩個不同來源(在分類學上)與樣品核酸的來源密切相關。
在另一個優選的實施方案中,所述參數是抗生素抗性。
在另一個優選的實施方案中,所述參數是流行性特徵、病原性、毒力、共棲、熱抗性、pH耐受力、持續性和/或細胞死亡。
在另一方面,本發明提供了一種試劑盒,所述試劑盒包括如前文所述的陣列的組合,以及至少兩個不同的如前文所述的參考雜交模式或參考核酸。


圖1示出了在研究中用到的31個金黃色葡萄球菌(Staphylococcusaureus)菌株的RiboPrintTM分類。所有的菌株除了一個來自典型菌株保藏機構(strain-type collection)(TTC 03.151)的參考菌株外都是金黃色葡萄球菌臨床分離株。本圖顯示了每一菌株的特定RiboPrintTM模式(中間的條帶模式),以及表示RiboPrintTM模式之間的(Pearson-)相關係數程度的系統樹圖(左)。在右側給出了每一個菌株的TTC編號(TNO Type Collection,TNO,Zeist,The Netherlands)(詳細信息參見圖3)。在最右邊的符號(▲,□, ,●,◇)表示基於圖2的PCA集群的菌株分類。
圖2示出了由全基因組陣列差異雜交數據的無監督的PCA分析得到的金黃色葡萄球菌菌株的集群。31個不同金黃色葡萄球菌菌株的Cy標記的基因組DNA與含有金黃色葡萄球菌基因組的代表的35個陣列雜交(4個菌株in duplo)。代表高度複雜的n維數據集的所述金黃色葡萄球菌菌株的定量的螢光雜交模式用主成分分析(PCA)分析。下面的PCA作圖顯示了每一個單一菌株複雜雜交模式在一個2維平面中的單點投影(小圈,其中文字表明菌株TTC.03編號,詳細信息參見圖3)。Duplo雜交的菌株用實心小圈和粗體文字表示。為了清楚,投影靠近在一起的菌株通過橢圓被手工群集。每一個集群用一個符號表示(▲,□, ,●,◇),所述符號在圖1中也被表示在每一個RiboPrintTM分類的菌株的右側。注Cy5/Cy3-比例通過截斷值0.5而被轉化為0和1數據集;平均中心化(meancentering)用於測量(scaling)。
圖3示出了金黃色葡萄球菌菌株及其抗性特徵的概況。抗生素抗性通過常規瓊脂擴散測試確定(2-3欄U=未知,S=敏感,I=中等,R=有抗性)。被研究的金黃色葡萄球菌菌株通過TNO Type Collection編號(TTC nr)表示。所有列出的菌株都是醫院分離株,除了最後一個是得自一個培養物保藏機構的模式株。
圖4顯示了通過全基因組陣列差異雜交數據的有監督的PLS-DA分析對金黃色葡萄球菌菌株的抗生素抗性進行群集。將31種不同金黃色葡萄球菌菌株的Cy標記的基因組DNA與含有金黃色葡萄球菌基因組的代表的陣列雜交。用偏最小二乘法判別分析(PLS-DA)基於每一金黃色葡萄球菌菌株的抗生素敏感性(S)或抗性(R)分析金黃色葡萄球菌菌株的量化的螢光雜交模式,這些模式代表了高度複雜的n維數據集。下方的PLS-DA圖顯示了每一單菌株複雜雜交模式在一2維平面的單點投影(小圈,文字表示菌株TTC.03編號)。In duplo雜交的菌株用粗體字表示。基於數據集的一個特異部分,PLS-DA分析能夠根據其已知的對2種不同抗生素的抗生素抗性在兩個單獨的集群中的菌株進行群集(手工橢圓,表示S和R)(圖4a-b)。注PLS-DA測量(scaling)是平均中心化(mean centering)。圖4a金黃色葡萄球菌慶大黴素抗性菌株和敏感菌株基於其通過PLS-DA分析的基因組組成進行群集。圖4b金黃色葡萄球菌苯唑西林抗性菌株和敏感菌株基於其通過PLS-DA分析的基因組組成進行群集。數據集編號是指圖3所示菌株編號。
圖5顯示了金黃色葡萄球菌菌株及其流行性特徵的概況。每一MRSA菌株由一獨特的TNO TYpe Collection編號(TTC nr,第1列)代表。每一菌株通過RiboprintTM分類被鑑定為金黃色葡萄球菌(第2列)。流行性特徵通過日常醫院實踐確定(第3列)。
圖6顯示了通過全基因組陣列差異雜交數據的有監督的PLS-DA分析對MRSA菌株的流行性進行群集。將19種不同MRSA菌株的Cy標記的基因組DNA與含有金黃色葡萄球菌基因組的代表的陣列雜交。用偏最小二乘法判別分析(PLS-DA)基於每一MRSA菌株的已知流行性特徵分析金黃色葡萄球菌菌株的量化的螢光雜交模式,這些模式代表了高度複雜的n維數據集。下方的PLS-DA圖顯示了每一單菌株複雜雜交模式在一2維平面的單點投影(小圈,文字表示圖5所提到的菌株TTC.03編號)。Induplo雜交的菌株用粗體字表示。基於數據集的一個特異部分,PLS-DA分析能夠根據其已知的流行性對在兩個單獨的集群中的菌株進行群集(手工橢圓,E=流行性,N=非流行性)。注Cy5/Cy3比例通過截斷值0.5而轉化為0和1數據集。PLS-DA通過平均中心化(mean centering)進行測量(scaling)。非流行性菌株「236」通過PLS-DA定位於E-集群和N-集群之間。數據集編號是指圖5所示菌株編號。
圖7顯示了金黃色葡萄球菌菌株及其侵染性(invasiveness)特徵的概況。每一MRSA菌株由一獨特的TNO Type Collection編號(TTC nr,第1列)代表。每一菌株通過RiboprintTM分類被鑑定為金黃色葡萄球菌(第2列)。流行性特徵通過日常醫院實踐確定(第3列)。
圖8顯示了通過全基因組陣列差異雜交數據的有監督的PLS-DA分析對金黃色葡萄球菌菌株的侵染性進行群集。將27種不同金黃色葡萄球菌菌株的Cy標記的基因組DNA與含有金黃色葡萄球菌基因組的代表的陣列雜交。用偏最小二乘法判別分析(PLS-DA)基於每一金黃色葡萄球菌菌株的已知侵染性特徵分析金黃色葡萄球菌菌株的量化的螢光雜交模式,這些模式代表了高度複雜的n維數據集。下方的PLS-DA圖顯示了每一單菌株複雜雜交模式在一2維平面的單點投影。基於數據集的一個特異部分,PLS-DA分析能夠根據其已知的侵染性特徵對在兩個單獨的集群中的菌株進行群集(o非侵染性,+侵染性)。數據集編號是指圖7所示菌株編號。
圖9顯示了陰溝腸桿菌(Enterobacter cloacae)菌株及其感染性特徵的概況(I=感染性,NI=非感染性)。每一陰溝腸桿菌菌株由一獨特的TNOType Collection編號(TTC nr,第1列)代表。每一菌株通過RiboprintTM分類被鑑定為陰溝腸桿菌(第2列)。感染性特徵通過日常醫院實踐確定(第3列)。
圖10顯示了通過全基因組陣列差異雜交數據的有監督的PLS-DA分析對陰溝腸桿菌菌株的感染性進行群集。將18種不同陰溝腸桿菌菌株的Cy標記的基因組DNA與含有陰溝腸桿菌基因組的代表的陣列雜交。用偏最小二乘法判別分析(PLS-DA)基於每一陰溝腸桿菌菌株的已知侵染性特徵分析陰溝腸桿菌菌株的量化的螢光雜交模式,這些模式代表了高度複雜的n維數據集。下方的PLS-DA圖顯示了每一單菌株複雜雜交模式在一2維平面的單點投影。基於數據集的一個特異部分,PLS-DA分析能夠根據其已知的感染特徵對在兩個單獨的集群中的菌株進行群集(o感染性,+非感染性)。數據集編號是指圖9所示菌株編號。
圖11顯示了嗜肺軍團菌(Legionella pneumophila)菌株及其病原性特徵的概況。每一嗜肺軍團菌菌株由一獨特的TNO Type Collection編號(TTC nr,第1列)和一實驗ID(第2列)代表。每一菌株通過RiboprintTM分類被鑑定為嗜肺軍團菌(第3列)。病原性特徵通過日常醫院實踐確定(第4列)。
圖12顯示了通過全基因組陣列差異雜交數據的有監督的PLS-DA分析對嗜肺軍團菌菌株的病原性進行群集。將30種不同嗜肺軍團菌菌株的Cy標記的基因組DNA與含有嗜肺軍團菌基因組的代表的陣列雜交。用偏最小二乘法判別分析(PLS-DA)基於每一嗜肺軍團菌菌株的已知病原性特徵分析嗜肺軍團菌菌株的量化的螢光雜交模式,這些模式代表了高度複雜的n維數據集。下方的PLS-DA圖顯示了每一單菌株複雜雜交模式在一2維平面的單點投影。上方的圖包含如圖11所描述的實驗命名,下方的圖是描述性命名。基於數據集的一個特異部分,PLS-DA分析能夠根據其已知的病原性特徵對在兩個單獨的集群中的菌株進行群集(pat=衍生自患者,omg=源自環境)。數據集編號是指圖11所示菌株編號。
圖13顯示了DA的規則,所述DA的目的是發現並鑑定在組平均值中顯示巨大差異的原始數據中的結構。這種方法涉及關於眾多樣品具有的相似特徵的預先的知識,所述方法並因此稱為有監督的分析技術。本圖的詳細解釋在本文下面給出。
發明詳述本發明跟隨陣列技術的潮流,產生比現有陣列更大的陣列,在其上攜帶了越來越多的信息。因此,本發明的陣列包含多個核酸分子,其中所述多個核酸分子衍生自至少兩個不同來源的核酸。本發明的陣列可包含其特徵(來源、數量、長度)被如此選擇的核酸分子,所述選擇使得通過一個單一分析獲得的信息最大化。
典型地,本發明的陣列上包含至少500000個核苷酸。優選地所述陣列上攜帶更多核苷酸。在一個優選得實施方案中,所述陣列包含至少1兆鹼基(106核苷酸)。優選地,它們包含至少2兆鹼基。與常規陣列不同的是,每個點的鹼基數是很高的,即在200至5000個核苷酸之間。
上述情況的一個缺點是在陣列上使用大量的核苷酸提高了寡核苷酸的成本,並且同時引發更高的相對於所希望的序列產生錯誤的傾向。所述缺點被本發明通過優選地使用得自或衍生自天然來源的核酸而至少部分克服,其中所述天然來源優選地是活體材料。
本發明的一個特徵是,與樣品核酸和參考核酸之間的遺傳對比一起(例如,同時、之前或之後),對於參考核酸的每一來源確定至少一個非基於核酸的參數(本文也稱為表型參數或表型特徵),例如形態學特徵、生理學特徵、血清學或病原學,然後使用該表型參數以促進雜交模式的統計學分類和/或預期所述表型參數屬於所述樣品核酸的所述來源。
在本發明中,形態學特徵是指在外部可以觀察到的特徵例如生物體的形式;具有特異的生物化學物質如膜肽、色素、(糖)蛋白、脂類或細胞壁成分如分枝菌酸;具有或缺乏特異受體;產生芽孢或孢囊;具有鞭毛;以鏈狀或絲狀生長,或另一種外部特徵例如細胞或菌落形態;或著色特徵,例如細菌的革蘭氏反應。
在本發明中,生理學特徵是指特異的分解代謝特徵例如蛋白裂解或能夠在特異底物例如多糖、蛋白質、脂肪或核酸上生長;特異的營養素需求;具有特異的代謝途徑;對氧敏感或抗生素易感性;溫度或酸度依賴性;產生特異的代謝終產物;分泌細菌素或抗生素;產生氣體;所述生物體的能量供給方式;所述細胞中蛋白質的集合(蛋白質組)的大小、組成或另一種特徵;或所述細胞中小分子量有機物質的集合(代謝組)的特徵。
在本發明中,血清學特徵是指能夠與特異抗體或單克隆抗體反應;具有或缺乏特異表面抗原或表位例如糖脂或糖蛋白。
在本發明中,病原學特徵是指一種生物體感染細胞的能力;分泌毒素;感染髮展的方式;所述生物體是否是流行的或非流行的;溶血性特徵或其他病原性特徵,例如被所述生物體影響的天然生活環境或組織或細胞類型。
本發明一般地利用差異雜交來進行樣品核酸分類並特別利用全基因組差異雜交來對生物體進行分類和分型。本發明在一個實施方案中涉及採用來自不同細菌菌株的集合的隨機基因組DNA片段的陣列來根據臨床相關特徵(如抗生素抗性、流行性、毒力、致病性等)對「新的」細菌進行分類的方法。
由此,當本發明規定至少兩個不同的參考核酸的來源必須是基於感興趣的至少一個表型參數的值而可分成至少兩組時,本發明的方法在一個優選的實施方案中使得可以區分抗性和敏感亞型、流行性和非流行性亞型、侵染性和非侵染性亞型、感染性和非感染性亞型、和/或環境和臨床亞型。
在本發明的一個方面,提供有關參考核酸的來源的至少一種表型特徵的信息的額外步驟提供了一種方法,其使用來自由不同生物體組成的組的例如基因組DNA片段的非特異性集合對用例如所述組內或組外的未知成員的gDNA獲得的雜交模式進行群集和分類,並且該方法能基於至少一種表型特徵進一步區分或分離那些集群。
術語非特異性(a-specific)是有意使用的,因為本發明的陣列提供了一種分析工具,其不是必須僅適合分析與點在陣列上的核酸相關的核酸,而是提供了原則上足夠的判別能力以分析與陣列上的核酸在分類學上遠離的或不相關的基因組。然而,最佳結果和最高判別能力是當選擇用於陣列的多個核酸分子的核酸以及用於參考雜交模式的參考核酸從而使樣品核酸是與其高度相關的(即其雜交模式在參考模式之間群集或與參考模式群集)時獲得的。
陣列上的多個核酸分子衍生自至少兩種不同的核酸來源,優選地,所述多個核酸分子衍生自至少3種、更優選地至少5種、更優選地至少8種不同的來源。這是為了提供陣列核酸分子的足夠的多樣性。對陣列核酸分子沒有其他必需的要求。
陣列核酸分子典型地是一種生物體的(通常單鏈的)基因組DNA片段,並且從而所述陣列核酸的來源典型地是一種生物體的基因組。
核酸的另一個來源是用於產生參考雜交模式的參考核酸的來源。在本發明的一個方法中,用於製備參考雜交模式的參考核酸來源基於表型特徵或參數可分成至少兩組,在本文中也稱為至少一個感興趣的表型參數的值。術語「值(value)」包括定量和定性的值。因此,例如,陣列包含來自流行性細菌菌株的基因組DNA片段和來自非流行性細菌菌株的基因組DNA片段。已發現本方法可例如非常適合於對微生物特別是細菌進行快速和精確分型。例如,在二甲氧基苯青黴素抗性金黃色葡萄球菌(MRSA)的情況下,甚至能區分流行性菌株和非流行性菌株。
因此,在本發明的一個特別優選的方面,得自或衍生自至少兩個原核菌株的(參考)核酸被用於產生參考雜交模式。優選地,通過得自或衍生自不同原核菌株的核酸產生至少5個、更優選至少50個參考雜交模式,並且所述參考雜交模式可被群集。在一個特別優選的實施方案中,基本上全部參考雜交模式通過原核菌株的核酸產生。優選地,所述不同的原核菌株屬於相同的原核生物屬。通過這種方式,可以對樣品中是否存在衍生自特定原核生物屬的核酸進行分型。更優選地,所述不同的原核菌株屬於相同的原核生物物種。通過這種方式,可以對樣品中是否存在衍生自特定原核生物物種的核酸進行分型。
這一特別優選的實施方案優選地與統計學分析組合以對比參考和樣品雜交模式。以這種方式可以確定樣品中的一種原核生物包含一特定原核生物物種的一些但不是全部菌株的特定表型特徵或基因型相關性的機率。所述原核核酸可以衍生自RNA但優選地衍生自或得自原核DNA,即衍生自基因組。因此,在本發明的一個優選實施方案中,核酸分子衍生自原核DNA。
參考雜交模式典型地通過將本發明的陣列與參考生物體雜交而衍生,其中典型地一個生物體給出一個參考雜交模式。優選地,為了確定相同物種的生物體之間的關係,所述至少兩種不同參考核酸和樣品核酸衍生自相同物種的不同菌株。在一個實施方案中,本發明涉及對一個生物體(即測試生物體)的基因組DNA進行分類的方法,包括將所述生物體的DNA與本發明的DNA陣列雜交,所述DNA陣列包含大量隨機選擇的基因組DNA片段,所述基因組DNA片段衍生自至少2種、優選地至少3種、更優選地至少4種、更優選至少8種不同的參考生物體,以在所述參考生物體中對所述生物體的基因組DNA進行分類。
本文所用的術語「生物體(organism)」包括微生物、植物和動物(包括人)。用於本發明的方法的優選的生物體是微生物和人。在植物或動物的情況下,所述方法可以在所述植物或動物的體液或組織上非常適合地進行。在微生物的情況下,所述方法可以在所述微生物的一或多個細胞上非常適合地進行。本文上下文中所提到的微生物包括病毒、細菌、酵母、真菌和寄生蟲,特別是原核生物,優選是細菌,最優選是引起感染性疾病的細菌。
在一個優選的實施方案中,所述DNA陣列包含約1000至約10000個、優選約1500至約5000個、最優選約1800至約2400個、更優選約1900至約2200個隨機選擇的基因組DNA片段。
在一個優選的實施方案中,所述隨機選擇的基因組DNA片段長度為約500至約5000、更優選約1000至約2000、更優選約1300至約1800、更優選約1400至約1600個核苷酸。因此,在最優選的實施方案中,本發明方法採用的DNA陣列包含約3兆鹼基。
在另一個實施方案中,本發明涉及一種對微生物進行分型的方法。
本發明的方法採用DNA陣列,所述陣列包含大量(約1000至約10000、優選約1500至約5000、最優選約1800至約2400、更優選約1900至約2200個)隨機選擇的基因組DNA片段(優選地長度為約500至約5000、更優選約1000至約2000、更優選約1300至約1800、更優選約1400至約1600個核苷酸),所述基因組DNA片段衍生自至少2種、優選地至少3種、更優選地至少4種、例如5、6或7種、更優選至少8種不同微生物的混和物,以對一種微生物的基因組DNA進行分類。所述混和物可以合適地代表微生物的各種菌株的gDNA庫,所述菌株優選地是一種微生物(優選細菌)的一個和相同物種的不同菌株。
本發明的方法優選地使用全基因組陣列以通過雜交研究或確定在其它生物體中是否存在相對的(即互補的)DNA區域。與現有技術方法不同,本發明優選地不採用所謂的開放讀框(ORF)-探針作為陣列上的核酸分子。這些探針衍生自並且僅檢測特異基因的片段或一個單一生物體或單一的一組生物體的gDNA片段。相反,本發明優選地採用消化的基因組DNA以獲得雙鏈gDNA片段,所述片段然後優選地被變性以作為單鏈隨機gDNA探針,其可以被組合以在適於構建本發明的陣列的多個核酸分子中形成。在本發明的用於對原核DNA進行分型的方法的另一優選的實施方案中,對現有技術方法的進一步改進通過提供衍生自各種不同菌株的gDNA庫的隨機基因組DNA片段的陣列而實現。這具有這樣的優點用一個單一實驗或分析,可以建立測試生物體與一組具有限定的分類學範圍和/或具有限定的表型特徵的參考生物體之間的關係。
本發明現在最終使得可以研究生物體中的多基因特徵。本文描述的方法因此支持或允許摻入生物體表型特徵的分類,例如測試生物體的抗生素抗性,而無論其遺傳基礎如何。因此,當將本發明方法用於對微生物進行分類並包括所述微生物的至少一個臨床相關參數(例如抗生素抗性或流行性)時,不僅基因型特徵用於對物種進行分類,而且該物種的組合的基因型和表型特徵也可用於對物種進行分類,而無論這兩者之間是否有因果關係。
不需要存在於陣列上的序列的詳細知識。在本發明中,模式之間互相對比。
為了構建含有至少兩種不同來源(生物體)的基因組範圍的代表性陣列,可以通過混和所述至少兩種生物體(例如特定物種的細菌菌株)的gDNA構建所述至少兩種生物體的混和基因組文庫。任選但不是必需地,選擇針對一個表型參數每一個生物體顯示不同值的多個生物體,例如在細菌的情況中,對一組廣泛的抗生素有不同的抗性譜,優選地總體覆蓋大多數類型的抗生素抗性。優選地,所述生物體在其分離的gDNA的瓊脂糖凝膠分析中不含顯著的質粒條帶。然後,所述gDNA混和物可被片段化(例如通過超聲剪切),片段可在例如瓊脂糖凝膠中分離。合適大小的DNA片段(優選約1-3kb)可隨後被分離(例如通過從凝膠中切下並結合於固體載體如玻璃乳而分離)。合適數量的gDNA片段隨機回收自所述gDNA混和物,因此數量可以是約1000至約10000,優選約1500至約5000,最優選約1800至約2400,更優選約1900至約2200個隨機選擇的基因組DNA片段。多個生物體的gDNA混和物的作用是在從其中分離DNA片段時,獲得來自各種生物體的片段的隨機庫,其用於構建陣列。
隨機選擇的分離的片段優選地進一步倍增以提供合適的原料儲備。所述片段的倍增例如可以通過下述實施例1所述的克隆和核酸擴增技術的組合而進行。雙鏈gDNA片段隨後可末端修飾以使它們固定在陣列表面上,例如通過進行PCR擴增反應修飾,其中一個引物或兩個引物都含有經一C6接頭與引物的5』末端偶聯的游離NH2基團。
隨機選擇的、分離的、以及任選地擴增的gDNA片段然後可以被點印(spotting)在表面上以提供DNA微陣列。為了促進片段的偶聯,所述陣列的表面(例如玻片,其表面可以是玻璃、金等)可以被改性(modified)。所述點印可以通過任何已知方法進行,例如通過使用ElectroSprayIonization(ESI)微陣列印刷進行。點印片段後,可以封閉玻片表面以防止核酸的進一步附著,例如,在甲醛改性的玻片表面情況下用硼酸酐處理。
各個生物體的原始gDNA材料的一部分被用於提供可與陣列雜交的材料,即提供參考核酸。為了促進檢測成功的雜交,將gDNA適當地標記,優選地螢光標記(例如使用CyTM標記[Amersham Pharmacia Biotech])。螢光標記試劑盒可商購自多個廠商。
樣品核酸的平均大小對陣列上信號分布有作用。較大的樣品分子包含更多的信息並因此更易於在更多個點中發現合適的雜交配體。降低樣品核酸的平均大小可降低這一現象。另一方面,當樣品核酸太小時,樣品中的核酸片段含有太少遺傳信息並且也在許多點中發現合適的雜交配體。樣品核酸中片段的平均大小優選地在50至5000個核苷酸之間。更優選地,樣品核酸中片段的平均大小包含約50至1000個核苷酸、更優選地約50至500個核苷酸的大小。
樣品核酸優選地代表完整樣品基因組。用陣列上的樣品核酸獲得的雜交模式與參考雜交模式對比。所述參考雜交模式可以人工產生,例如通過用參考樣品的核酸組成的知識產生,所述核酸組成是例如基因組序列已知的生物體的基因組序列。但是,在一個優選的實施方案中,所述參考雜交模式通過參考核酸與陣列雜交產生。樣品雜交模式與參考的對比可至少被用於確定樣品核酸是否與參考核酸相同或相似。當需要確定例如樣品核酸是否含有特定的原核生物時這是有用的。在這一情況下,用該特定原核生物的核酸產生參考雜交模式,並且當樣品雜交模式基本上與參考雜交模式相同時,該樣品被鑑定為含有該特定原核生物。在一個優選的實施方案中,本發明方法進一步包括對比樣品雜交模式和至少一種另外的參考雜交模式。以此方式,所述樣品可以與至少兩種不同的參考核酸對比。當然,通過持續使用該陣列,越來越多的模式被產生,所有這些均可用於與樣品核酸對比。因此,當用樣品核酸產生一種模式時,這一模式可以在隨後實驗中用作參考雜交模式。因此,在一個優選的實施方案中,本發明的方法進一步包括將雜交模式與至少2個、優選地至少5個參考雜交模式對比。更優選地與至少10個、更優選地至少100個參考雜交模式對比。
儘管本發明的陣列可以用於鑑別探針核酸中的特異序列,並且可因此基於一個或幾個點上的信號對所述探針核酸進行分型,但是所述陣列的完整潛力在於解釋在所述點中獲得的全部信號。這種解釋可以由人完成,但是典型地通過使用統計學軟體由計算機完成。樣品雜交模式和參考雜交模式可以是得自陣列的信號的一個亞集合。雜交模式可以由一個信號組成,優選地,所述雜交模式由與陣列雜交後獲得的信號的20%組成。更優選地,所述雜交模式由來自陣列的信號的至少50%組成。在一個特別優選的實施方案中,所述雜交模式包括陣列信號的至少80%。
本發明的方法不僅可用於確定一個生物體樣品核酸是否與一特定的參考核酸相同。特別地,當使用原核核酸作為樣品核酸時,如果發生樣品雜交模式,其可以與任何參考雜交模式不同。本發明的方法和陣列的一個特別有用的特徵是在這種情況下本發明的方法可以提供有用的信息。與衍生或獲得樣品核酸的生物體相關的表型特徵通常是大量不同序列和/或基因相互影響的結果。在這些情況下,不可能基於得自一或多個點的信號對一特定樣品進行分型。相反,非常多的不同點的信號需要被對比。本發明的方法和陣列特別適於對這一分析類型進行分型。為此參考雜交模式和樣品雜交模式用統計學軟體進行分析。在一個實施方案中,本發明方法進一步包括參考雜交模式與由樣品核酸產生的模式的無監督的多變量分析(PCA)。基於這一分析,一個模式被賦予一個n維值(n代表分析中包括的數據點總數),其可以被減少至其主要成分,優選的2個主要成分。這些成分可在多維顯像(multi-dimensional visualization)中顯現,優選地在二維顯像中顯現。成分的維量值(dimensional value)可以相對分析中包括的所有模式作圖,其中所述模式的優選的二維值的編組(grouping)或群集可被仔細觀察。在一個優選的實施方案中,樣品雜交模式的二維值與參考雜交模式的所有二維值進行對比。以此方式可以提供用於衍生或獲得樣品核酸的生物體與所包括的參考相對比的相關性(relatedness)的統計學估計。
術語「群集(clustering)」是指將具有相同或相似特徵的事件(item)收集、組裝或統一成一個或多個集群(cluster)的行為,「集群(cluster)」是指一組或一些聚集在一起的或緊密地在一起發生的相同或相似事件。「被群集的(clustered)」是指一個事件已被進行群集。本發明方法所用的群集方法可以用手、眼或任何已知的用於對比事件之間的特徵、屬性、性質、質量、作用等的相似性的(數學)方法通過來自可測量的參數的數據進行。可以使用統計學分析。
本發明的一個特徵是雜交模式用有關用於獲得或衍生參考和/或樣品核酸的生物體的進一步信息擴展。例如,模式可以用經不同於核酸雜交的方式確定的參數擴展。例如,當所研究的對象是原核生物時,通常重要的是知道所述原核生物的抗生素抗性表型。這一抗性參數可以被加入到統計學分析中。這一參數的值(抗性或敏感,或進一步微調)可以被加入到模式或模式的統計學分析中。隨後可基於這一附加參數進行群集。因此根據本發明,對於是參考雜交模式的來源的生物體,確定至少一種不是基於核酸(即表型)的參數。隨後可使用統計學分析確定或估計作為樣品核酸來源的生物體的這一參數的值。在一個優選的實施方案中,本發明的方法進一步包括參考雜交模式與由樣品核酸產生的模式的偏最小二乘法判別分析(Partial Least Square-Discriminant Analysis,PLS-DA),其中使用至少一個其值對於參考雜交模式是已知的的參數監督所述PLS-DA分析。
偏最小二乘法(Partial Least Squares,PLS)偏最小二乘法(PLS)已經在文獻中廣泛描述(P. Geladi and B.R.Kowalski,Partial Least Squares RegressionA Tutorial,Analytica ChimicaActa,185,1986,1-17.H.Martens andT.Naes,Multivariate Calibration,JohnWileySons,Chichester,1989.)。儘管主成分分析(PCA)模型具有描述性質,但是PLS模型具有預測性質。在PLS中,計算數值*加載對(loadingpairs)(也稱為潛變量(LV))不僅是為了在預測數據組(predicting data set)中使解釋方差(explained variance)最大化,也是為了使待預測數據的協方差(covariance)最大化。PLS模型可通過方程(1)和方程(2)而數學概括。
X=TPT+E (1)Y=TBQT+F(2)矩陣X(也稱為X-塊(block))代表自變量的n*p矩陣(例如,n個色譜圖,每個色譜圖p保留時間),Y(也稱為Y-塊)是含有因變量(例如濃度)的n*q矩陣;PT和QT是轉置S*p和S*q矩陣,分別含有因變量和自變量加載(loadings);T是S潛在值(latent scores)的n*S矩陣,B是S*S矩陣,代表X矩陣的值在Y-數據的值上的回歸;E和F是n*p和n*q矩陣,分別含有自變量和因變量的殘差。
提取A對潛變量後的驗證標準誤差(SEV)由方程(3)計算。
SEV=I=1Ic(Yi,j-yi,j)2Ic---(3)]]>其中Ic是校準樣品數目,yi,j是組分j在物體i中的濃度的真值;Yi,j是yi,j的PLS預測值;q是Y變量數目。只要SEV顯著改善則持續提取LV。
所選擇的LV數必須獲得感興趣的變量的最佳預測。但是,在方差和偏倚(bias)(或匹配(fit))之間有一個平衡(pay-off)一種太複雜的模型匹配良好,但是可能預測不好。這導致了最佳模型複雜度(optimal modelcomplexity)這一概念獲得匹配和方差之間的最佳平衡,即所述模型的增加的複雜度通常能夠匹配數據中的更多特徵,但是估計的參數的方差升高並且總體結果在最佳模型複雜度中得到最小值。
X和Y之間的純線性關係將產生通常具有2至5對LV的簡單模型。複雜的非線性關係也可以被建模。但是,這需要取顯著更多的LV以將Y與X相關聯。
偏最小二乘法判別分析(Partial Least Squares-Discriminant Analysis,PLS-DA)在PLS-DA中,類別(classes)(預先確定的組(predefined groups))被用作因變量。Y-塊Y是n*類別數的矩陣。Y-塊由0和1填充。
例如類別= Y=10010110]]>使用PLS中的依賴於每一樣品所屬類別的由0和1填充的Y-塊將PLS轉變成判別分析。作為PLS-DA的替代分析,可以使用任何一種最近開發的用於數據集分類的分析工具,例如nearest shrunken centroid(NSC)、Support Vector Machines(SVM)或Penalized Logistic regression(PLR)方法。
主成分判別分析(Principal Component-Discriminant Analysis,PC-DA)如果興趣集中於各樣品組之間差異,施用判別分析(DA)[D.L.Massart,B.G.M.Vandeginste,L.M.C.Buydens,S.De Jong,P.J.Lewi and J.Smeyers-Verbeke,Handbook of Chemometrics and QualimetricsPart A,Elsevier,Amsterdam,1997;B.G.M.Vandeginste,D.L.Massart,L.M.C.Buydens,S.De Jong,P.J.Lewi and J.Smeyers-Verbeke,Handbook ofChemometrics and QualimetricsPart B,Elsevier,Amsterdam,1998]。該技術基於同組樣品與其它組樣品相比更相似這一假設。DA的目的是發現和鑑別原始數據的結構,其顯示組平均值中的大的差異。這一方法涉及預先了解哪些樣品是相似的。因此,DA被稱為有監督的(supervised)分析技術。這使得其與其它無監督的技術如主成分分析(PCA)區分開來,後者不需要對樣品的預先知識。
DA中的第一個步驟是將原始變量組合成一組相互獨立的新變量,所述組合使得在由最小數目的這些新變量跨越的空間中原始樣品的投影使組平均值之間的差異最大化。這一原則示於圖13。測量兩組樣品的兩個變量X1和X2。使用主成分(PC)最大方差標準,這些樣品應被投影在由圖13的線P所示的穿過樣品的線上。為了區分不同樣品集群,這不是一個最佳方案。但是樣品在線D上的投影顯示了兩個集群之間的完全分離。計算出的因子被稱判別子(discriminant)或D-軸。所有其它投影給出亞最佳方案。這在圖13中通過對比樣品在D線上的投影與在X1或X2軸上的投影而示出。
DA最有效地描述樣品組之間的差異。但是,變量數相比於樣品數經常是大的。這可能導致簡併的方案。例如,三個樣品可以總是被兩個變量分開,而不論它們的相似性如何。如果包括更多的樣品,這一簡併作用會消失。通用經驗法則是樣品數應至少是變量數的4倍。這一法則可以導致例如核磁共振(NMR)譜檢查中的問題。在天然產物分析中每NMR譜的峰(變量)數通常是幾百個的量級。在正常情況下這意味著應當測量至少400-800個樣品。在實踐中這從未發生。基於這一點,不可能在天然產物的NMR譜上進行DA。但是這一問題有一個解決方案。Hoogerbrugge etal.[R.Hoogerbrugge,S.J.Willig and P.G.Kistemaker,Discriminant Analysisby Double Stage Principal Component Analysis,Analytical Chemistry,55,1983,1710-1712.]開發了一個方案,其中變量數首先被在第一PC軸上的樣品分值的PCA、隨後被DA減少。這一技術被稱為主成分判別分析(PC-DA)。確定所包括的PC的精確數目是困難的。數目應該不太小,因為僅包括前幾個可導致許多組之間信息(between-group information)的丟失。數目也不應太大,因為這會超出樣品數除以4的法則(number-of-samples-divided-by-four rule)。因此,看起來可推薦的是包括所有PC,其解釋了高達樣品數除以4這一最大值的顯著量的方差(例如高於原始方差的1%)。如果由這些PC解釋的方差總量非常低,則數目總是可以增加。但是,如果解釋的方差非常低,則原始變量之間的相關性也低。結果,DA將產生與原始問題一樣複雜的結果。
PLS-DA分析中所用的參數優選地是表型參數。術語「表型參數」用於本文是為了定義任何描述由生物體或其功能部分展現或表達的任何性質的參數。基於這一分析,一種模式被被賦予一個n維值(n代表分析中包括的數據點總數),其可以被減少至其(優選的2個)主要成分,以與在一個(優選為二維)顯像中的表型參數最佳相關。這一優選的二維值可針對所有雜交模式作圖,由此所述雜交模式的優選的二維值的分組或集群可被細察。在一個優選的實施方案中,所述樣品雜交模式的二維值與參考雜交模式的所有二維值相對比。以此方式,可以提供對用於獲得或衍生樣品核酸的生物體包含或不包含特定表型特徵的概率的統計學估計。這當然需要這種表型特徵對於用於獲得或衍生參考核酸的生物體是已知的。在一個優選的實施方案中,所述參考雜交模式的二維值基於有監督的PLS-DA分析被群集。
群集優選地基於表型特徵進行,針對該表型特徵,樣品雜交模式被細察。群集優選地產生兩個集群,其中一個集群具有特定的表型,而另一個沒有,由於這種差異性,所述兩種不同的參考核酸的來源基於一個表型參數的值可分成兩個集群。樣品雜交模式可因此被容易地鑑別為具有或不具有該特定表型。本發明的方法優選地進一步包括基於是否存在在一個集群中對所述樣品核酸進行分型。這一分型典型地與分類的統計學誤差幅度相關,所述分類的誤差幅度即樣品核酸被錯誤地分類為具有或不具有該特定表型特徵的統計學概率。集群的邊界可以被設定為容納誤差的較小或較大的統計學概率。在一個優選的實施方案中,所述參數包括抗生素抗性、流行性特徵、病原性、毒力、共棲、熱抗性、pH耐受力、持續性、細胞死亡以及其他潛在的感興趣的特徵。
對於大範圍的各種核酸,可以使用相似的方法。如上所述,陣列優選地從得自或衍生自天然來源的核酸產生。這一來源可以是病毒、微生物、動物或植物。在真核生物來源的情況下,優選地所述得自生物體的核酸首先經過某些類型的選擇系統,從而重複的核酸在產生陣列之前被至少部分地去除。通過這種方式阻止陣列包含大量重複信息。實現這個目的的一種途徑是選擇在所述真核生物內編碼功能性RNA的序列。這種所謂的編碼核酸典型地幾乎不包括重複核酸。或者,選擇可以基於其他方法。所述富集獨特序列的其他方法中的一種是在重複核酸優選地雜交的條件下使得自真核生物的核酸雜交(使用Cot曲線)。雜交的核酸可以從單鏈核酸分離,從而所述單鏈核酸可以被擴增和/或克隆。在一個優選的實施方案中,所述來源是簡單的真核生物,優選地是單細胞真核生物。這些來源包括簡單的基因組以及因此所產生的較不冗餘的核酸。在一個特別優選的實施方案中,所述來源是原核生物。原核生物基本上不包含冗餘核酸,因此對於產生高效陣列來說不需要進行特別的選擇步驟。在一個原核生物的特別的實施方案中,使用包含被認為是衍生自原核祖先的核酸的真核細胞細胞器作為用於陣列構建和/或樣品核酸的核酸的來源。
本發明方法的一個重要優點是無需首先在分類學上對菌株進行分類(例如鑑別),然後由此屬於所鑑別的菌株的臨床相關參數可以被例如基於與已知參考菌株的數據列表對比而確定。因此,本發明的一個優點是無需確定物種就可以確定測試生物對特定抗生素的例如敏感性(或抗性)的存在,或任何其它臨床相關參數。這通過如下事實實現這些信息現在可以在陣列的多個核酸分子「內」提供。
本發明的方法特別適於作為人類醫學診斷過程中的輔助手段。本發明的方法例如使得可以考慮個體間的差異以及特別可以考慮臨床相關參數例如易患癌症的體質和/或在診斷過程中產生的抑鬱。
在本發明的方法中,樣品核酸優選地包括衍生自與用於產生參考雜交模式的生物體、屬、物種或菌株相同的生物體、屬、物種或菌株的核酸。用於產生模式的樣品和/或參考核酸可含有其所衍生自或得自的生物體、屬、物種或菌株的核酸的亞集合。但是,優選地除了前面所述的對真核來源進行選擇外,不進行其他選擇。在任何情況下,樣品和參考核酸的選擇優選地是相同或相似的。這使得可以容易地對比參考和樣品雜交模式。
術語「得自或衍生自……的核酸」是指用於在陣列上雜交的核酸不一定是直接得自所述來源的。在用於雜交之前,其可經歷克隆、選擇和其它操作。樣品和參考核酸可例如得自克隆的文庫,如表達或基因組文庫。或者,樣品和參考核酸可以基於資料庫中的核酸信息而從最開始產生,所述資料庫例如是發展中的基因組學的努力的結果。
但是,優選地樣品和參考核酸直接從天然來源獲得或通過從其擴增獲得。樣品可以包含生物體的混和物,例如,在樣品得自包含多種微生物的菌群的情況下。在這種情況下,產生自各種微生物菌群的參考雜交模式可用於相對於樣品雜交模式進行對比,或與樣品雜交模式一起進行對比。如上所述,天然來源優選地是原核來源。優選地,所述樣品和參考雜交模式從原核生物的單培養物起始產生。以此方式,保證了在陣列上僅有一個生物體被分析,並且同時產生的模式是從一個原核菌株產生的雜交模式。
在一個優選的實施方案中,本發明在其各個方面提供了一種陣列,其包含多個核酸分子,其中所述核酸分子包含約200-5000個核苷酸的平均大小。優選地,所述核酸分子包含約200-5000個核苷酸的平均大小。本發明的陣列優選地包含至少500,000個核苷酸。優選地,所述陣列攜帶甚至更多的核苷酸。在一個優選的實施方案中,所述陣列包含至少1百萬個鹼基(106個核苷酸)。優選地,它們包含至少2百萬鹼基。與傳統陣列不同,每個點的鹼基數是高的,即多於200個核苷酸,優選地,所述鹼基數目200-5000個核苷酸之間。優選地,所述多個核酸分子衍生自天然來源。優選地,所述多個核酸分子衍生自原核DNA。已發現不同的原核菌株儘管屬於相同物種,但是其攜帶的DNA的種類可以有很大的變化。
因此,在一個優選的實施方案中,本發明的陣列包含衍生自至少兩種不同原核菌株的多個核酸分子,所述原核菌株優選地是相同物種。以此方式,所述陣列更代表一種原核物種的完整遺傳多樣性。在一個特別優選的實施方案中,陣列包含衍生自至少三種不同原核菌株的多個核酸分子,所述原核菌株優選地是相同物種。通過增加原核物種菌株的數目以產生陣列中的多個核酸,陣列越來越模擬原核物種的完整遺傳潛力並因此分型變得提供越來越多的信息。這不意味著用攜帶數量少的不同原核菌株的陣列進行分型不是一個有效的方法;它僅意味著預測和估計變得更精確和完整。
上述更詳細地描述的陣列其自身即作為本發明的一個方面。
本發明的另一方面是一種試劑盒,所述試劑盒包括上述陣列的組合以及亦在本文上面描述的至少兩種不同的參考雜交模式,所述雜交模式也可以例如以計算機可讀形式提供,從而使得更容易地分析樣品核酸。
現在通過下面的非限制性實施例舉例說明本發明。
實施例實施例1通過全基因組陣列差異雜交數據的無監督的PCA分析對金黃色葡萄球菌菌株進行群集一組31種不同金黃色葡萄球菌菌株的螢光標記的基因組DNA(gDNA)分別與用隨機選擇的8種不同金黃色葡萄球菌菌株的混和物的gDNA片段包被的陣列雜交(約2100個片段/陣列,約1500bp/片段)。對螢光雜交模式進行定量產生對於每種測試菌株的每個基因組DNA片段的雜交信號列表。為了更特異,將每個陣列同時與2種標記的gDNA雜交一種涉及進行調查的特異金黃色葡萄球菌菌株(用Cy5標記),另一種涉及用於製備陣列的8種金黃色葡萄球菌菌株的標準混和物,用作參考物以使在所有獨立的玻片上進行的雜交歸一化(用Cy3標記)。
接下來的數據分析包括數據的過濾、歸一化和截斷處理,然後進行主成分分析(Principal Component Analysis,PCA)。這導致相似金黃色葡萄球菌的基於全基因組差異雜交的群集。一些菌株的重複性通過完全相同的雜交示出。
不同細菌菌株的組一組31種金黃色葡萄球菌菌株用於實施例1(圖1)。該組由30種醫院分離株和1種來自典型菌株保藏機構(strain-type collection)(圖1,菌株TTC.03.151)的參考菌株組成。該組中不同菌株核糖體DNA(DuPontQualicon,3531 Silverside Rd,Bedford Building,Wilmington,DE 19810)的一部分的RiboPrintTM(DuPont Qualicon,Wihmington,Del.,USA)分析表示它們之間的各種相關程度(圖1)。
金黃色葡萄球菌菌株的生長和gDNA分離金黃色葡萄球菌分離株(經單菌落)生長在TSA瓊脂平板和/或TSA培養基上(過夜,37℃)並作為甘油培養物儲存(-80℃)。為分離gDNA,將平板生長的細菌(例如10-20個菌落的量)重懸於在2ml小瓶中的400μl TE緩衝液(10mM Tris-HCl,1mM EDTA,pH7.5)中。加入400μl水洗的0.1mm鋯玻璃珠懸浮液(Biospec Products,Inc.,Bartlesville,OK,USA)而裂解細胞,在冰上預冷,在細胞破壞儀(minibeadbeater 8,Biospec Products,Inc.)中中度振蕩120秒,並在冰上冷卻。離心後(5min,14krpm,4℃),gDNA根據標準程序(Sambrook,J.,Fritsch,E.F.Maniatis,T.(1989).MolecularCloning-A Laboratory Manual,2nd Edition.Cold Spring Habour LaboratoryPress,New York)經用酚/氯仿/異戊醇提取(室溫)、用氯仿/異戊醇提取(室溫)、用乙醇/醋酸鈉沉澱(-20℃,在4℃離心)、用70%乙醇(-20℃,4℃離心)洗滌、乾燥(真空)、沉澱溶解於含有RNAseA(1-100μg/ml)的100μl TE緩衝液中、以及在0.6%瓊脂糖溴化乙錠染色的凝膠中對gDNA的量進行半定量(例如1-5μl製備物/槽)而從澄清的裂解物中分離。
構建金黃色葡萄球菌gDNA陣列(玻片)為了製備含有金黃色葡萄球菌物種的基因組範圍的代表的陣列,通過混和8種金黃色葡萄球菌菌株的gDNA製備該生物體混和的基因組文庫(菌株選擇見圖3)。選擇這樣的菌株(a)對一廣泛組的抗生素各顯示一不同的抗性譜(總體上覆蓋大多數類型的抗生素抗性),和(b)在其分離的gDNA的瓊脂糖凝膠分析中不含顯著的質粒條帶。gDNA混和物用超聲剪切(Branson sonifier 450,Branson,Danbury,C T,USA)並在0.8%瓊脂糖凝膠中幾條泳道中分離。切下DNA片段(約1-3kb)並經與玻璃乳(Bio101-kit,Qbiogene,Irvine,CA,USA)結合而分離。分離的片段用DNA-terminatorEnd-repair試劑盒(Lucigen Corp.,Middleton,WI,USA)預處理以促進有效(平端)克隆進細菌質粒中(pSmartHCkan vector,CloneSmart Blunt CloningKit,Lucigen Corp.)。部分連接混和物(1μl)經電穿孔(0,lcm-gap cuvets[Eurogentec Ltd.,Southampton,United Kingdom],使用BioRad Gene Pulser[BioRad Laboratories,Hercules,CA,USA],在25μF,200ohms,1,6kV)轉化至25μl E.coli細胞(E.kloni 10G supreme electrocompetent cells,LucigenCorp.)並在TB培養基中再生並鋪板在含有30μg/ml卡那黴素的TY平板上,在37℃過夜生長。用牙籤將菌落轉移至96孔微滴板(32個板,150μl/孔含30μg/ml卡那黴素的TY培養基)。37℃過夜生長後,加入甘油(終濃度15%)並將甘油原液儲存在-80℃。
來自孔板中每一克隆的基因組插入物通過PCR擴增在96孔PCR平板中倍增(22個平板)。PCR反應含有50μl反應混和物/孔,其含有1×SuperTaq緩衝液,0.2mM每種dNTP(Roche Diagnostics GmbH,Mannheim,Germany),0.4 M引物L1(5′-cag tcc agt tac gct gga gtc-3′)和0.4 M引物R1(5′-ctt tct gct atg gag gtc agg tat g-3′),1.5 U SuperTaq-DNA-聚合酶和1μl來自gDNA庫相應孔的甘油原液溶液。兩種引物均含有游離的NH2-基團,其經C6接頭與引物的5』末端偶聯。使用下述PCR程序4min 94℃,30×(30sec 94℃,30sec 50℃,3min 72℃),10min 72℃和浸在4℃。擴增後,將50μl PCR產物轉移至96孔圓底板並通過加入150μl NaAc/異丙醇混和物(每一個0.2M NaAc,67%異丙醇終濃度)沉澱,在-80℃溫育1小時,離心(1hr,2.5krpm,4℃),除去上清並用100μl 70%乙醇洗滌。DNA沉澱重懸於5μl水/孔中,轉移至384孔平板,乾燥(speed vac)並重懸於10μl3×SSC-緩衝液/孔。6個所得的384孔平板含有約2100個PCR產物,被用於點印微陣列。用ElectroSpray Ionization(ESI)微陣列printer組合24TeleChem Stealth micro spotting quill-pins(約100μm直徑)(TeleChemInternational,Inc.,Sunnyvale,CA,USA)將PCR產物點在一系列最多75個「醛」包被玻片(Cell Associates,Inc.,The Sea Ranch,CA,USA)上。點印後,玻片表面通過在室溫用硼酸酐處理而封閉2×5min於0.2%SDS中,2×5min於水中,10min於硼酸酐緩衝液中(1.7g NaBH4於510ml PBS緩衝液和170ml 100%乙醇中),3×5min於0.2%SDS中,3×5min於水中,2sec於100℃水中,用N2流乾燥。PBS(磷酸鹽緩衝鹽水)是6.75mM Na2HPO4,1.5mM K2HPO4,140mM NaCl,和2.7mM KCl pH7.0.(1.2g Na2HPO4,0.2g K2HPO4,8.0g NaCl,0.2g KCl/升,pH7.0)。
gDNA標記
gDNA的螢光標記在基於BioPrimeDNA Labeling System (Invitrogen,Carlsbad,CA,USA;Cat.No.18094-011)的25μl反應中在0.5-2μg分離的金黃色葡萄球菌gDNA上在37℃進行1.5小時。反應含有(終濃度)1×RandomPrimer溶液(50mM Tris-HCl PH6.8,5mM MgCl2,30μg/ml隨機八聚物,Bioprime),1×lowT dNTP-混和物(0.25mM dATP,0.25mM dGTP,0.25mM dCTP,0.1mM dTTP),0.06mM Cy-dUTP(Cy=Cy5或Cy3,1μl1mM原液,Amersham Biosciences)和20單位DNA-聚合酶(Klenow片段;0.5μl 40U/μl原液,Bioprime)。反應後,通過在Autoseq G50柱(AmershamBiosciences)上純化除去鹽、未摻入的(標記的)核苷酸和引物。純化後,1/10部分的標記材料用於分光光度分析以確定DNA(A260nm)和Cy5(A649nm)或Cy5(A550nm)的量。剩餘的標記材料用於陣列雜交。
陣列的(預)雜交在雜交準備中,將玻片置於Petri皿中的20ml預雜交溶液(1%BSA,,5×SSC,0.1%SDS,經0.45μm濾器過濾,42℃)中並在42℃輕搖(溫和旋轉)45分鐘。接著玻片在40ml水中洗2次(在40ml加蓋試管中)並用N2槍迅速乾燥。
用Cy5-dUTP和Cy3-dUTP標記的合適的gDNA樣品與4μl酵母tRNA(25μg/μl)組合,乾燥(用SpeedVac,TeleChem International,Inc.),重溶於40μl EasyHyb溶液(Roche Applied Science,Roche DiagnosticsNederland B.V.,Almere,The Netherlands),變性(1.5min,95℃),短暫旋轉沉澱(1sec,10krpm),置於預保溫(42℃金屬板)的幹的預雜交陣列上,用塑料紙覆蓋(Hybrislip,Molecular Probes),插入到水蒸氣飽和的預加熱的(42℃)雜交室(Coming Life Sciences B.V.,Schiphol-Rijk,The Netherlands)中並在42℃水浴中雜交過夜。對於每一雜交,來自測試菌株的gDNA用Cy5-dUTP標記,而參考庫(來自用於陣列構建的菌株的gDNA混和物)用Cy3-dUTP標記。雜交後,通過在加蓋的40ml試管中的40ml(不同)緩衝液中搖動玻片4次而洗滌陣列(洗滌緩衝液11×SSC,0.2%SDS,37℃,5-10sec;洗滌緩衝液20.5×SSC,37℃,5-10sec;洗滌緩衝液3和40.2×SSC,20℃,各10min)。
掃描和圖像分析洗滌後,玻片儲存在黑暗中(以防止Cy螢光衰減)或直接用於用掃描裝置(來自PerkinEhmer(PerkinElmer,Wellesley,MA,USA)的ScanArray4000,帶有ScanAlyse軟體(Michael Eisen′s實驗室,University of Californiaat Berkeley(UCB),由Packard Bioscience,PerkinElmer Life And AnalyticalSciences,Inc.,Boston,MA,USA發布))掃描螢光Cy染料。進行快速掃描(解析度30μm/像素)以選擇最佳雷射(強度)和檢測(光電倍增管)設置以防止低信號或飽和信號的過量。玻片被掃描兩次針對Cy5和Cy3螢光。用ImaGene軟體(version4.2,BioDiscovery,Inc.El Segundo,CA,USA)量化數字掃描圖,產生針對陣列上每一點的點身份(spot identity)以及針對Cy5和Cy3的信號(S)和背景(B)值。數據儲存在電子文件中並用於進一步數據加工。
數據預加工通過使用空白表格軟體(Excel,Microsoft)對於每一點進行下列運算Cy3和Cy5的S-B值、Cy5/Cy3比率[R=Cy5(S-B)]/[(Cy3(S-B)]。去除低質量數據(例如具有S<2B的Cy3數據的點)。然後,對於每一玻片,基於玻片上的所有點的平均Cy5-和Cy3-信號計算歸一化因數N(N=[平均Cy5(S-B)]/[平均Cy3(S-B)]。接著,對於在所有陣列上的每一點計算歸一化比率(Rn)(Rn=R/N)。許多玻片(與金黃色葡萄球菌菌株相關的玻片)的每一點的歸一化比率的矩陣(=數據集)被用於進一步數據預加工。
由於Cy3信號通常存在於大多數點(8個菌株的Cy3標記的參考gDNA庫與所有玻片雜交),並且Cy5信號可以變化(不同菌株的Cy5標記的gDNA各自與單個玻片雜交),所以如果一個gDNA片段分別存在或不存在於Cy5測試的菌株中,則Cy5/Cy3比率在理論上可以有兩個值。但是在實踐中,這些值圍繞1和0變化。因此,在許多分析中在進一步分析之前對比率數據集施加0和1的截斷值(例如Rn<0.5和Rn>0.5分別由0和1代替,或者Rn<0.3和Rn>0.7分別由0和1代替,同時保持Rn值在0.3和0.5之間)。這些「截斷值數據集」用於最終數據分析。
PCA數據分析數據集用主成分分析(PCA)進行分析,其中使用平均中心化(Mean-Centering)作為選擇的測量方法。可以不用測量方法或用可替換的測量方法(例如自測量(autoscaling))或可替換的多變量統計學方法獲得相似的結果。
結果一組31種金黃色葡萄球菌菌株被加工以用於已建立的RiboPrintTM分類方法(圖1)和基於來自在全基因組微陣列上的差異雜交的數據的PCA分析的本發明的分類方法(圖2)。圖1和圖2的對比顯示本發明的方法(圖2)產生與現有技術方法(即圖1的RiboPrintTM分類方法)顯著不同的菌株群集。由於所述陣列/PCA方法基於全基因組差異雜交,因此對於對緊密相關的生物體進行分類來說,其比僅基於特異DNA序列(例如核糖體DNA序列多態性,圖1)或僅基於有限的表型信息(例如生長條件、細菌菌株等等)的傳統分類方法具有更大的潛力。
實施例2通過全基因組陣列差異雜交數據的有監督的PLS-DA分析,基於金黃色葡萄球菌菌株對特異抗生素的抗性進行群集具有已知的對2種不同抗生素的抗性/敏感性的一組31種不同金黃色葡萄球菌菌株的螢光標記的基因組DNA(gDNA)分別與用隨機選擇的8種不同金黃色葡萄球菌菌株的混和物的基因組DNA片段包被的陣列雜交(約2100個片段/陣列,約1500bp/片段)。對螢光雜交模式進行定量產生對於每種測試菌株的每個基因組DNA片段的雜交信號列表。為了更特異,將每個陣列同時與2種標記的gDNA雜交一種涉及進行調查的特異金黃色葡萄球菌菌株(用Cy5標記),另一種涉及用於陣列構建的8種金黃色葡萄球菌菌株的標準混和物,用作參考物以使在所有獨立的玻片上進行的雜交歸一化(用Cy3標記)。
接下來的數據分析包括數據的過濾、歸一化和截斷處理,然後基於所述菌株已知的對2種抗生素的抗性/敏感性進行偏最小二乘法判別分析(Partial Least Square-Discriminant Analysis,PLS-DA)(每個分析使用一種抗生素)。同一數據集的2個獨立的PLS-DA分析(僅在分析的菌株數量上有微小差別只選擇其抗性譜是清楚的的菌株進行進一步分析)導致所述金黃色葡萄球菌菌株組內部基於其對所述2種抗生素的每一種的已知敏感性/抗性的2個顯著的分離群。對於每一種抗生素,所述敏感的和抗性集群基於其已知的抗生素抗性/敏感性而包含不同的菌株亞集合。這表示對於每一種抗生素,總的差異雜交數據集的不同部分包含抗生素抗性的特異信息。
不同細菌菌株的組一組31種金黃色葡萄球菌菌株用於實施例2(圖3)。該組由30種醫院分離株和1種來自典型菌株保藏機構(圖3,菌株TTC.03.151)的參考菌株組成。對於幾乎所有菌株,其對於2種不同抗生素(慶大黴素和苯唑西林)的抗生素抗性/敏感性通過瓊脂擴散測試(根據NCCLS方案)確定。所有實驗程序如實施例1中所描述的進行。
PLS-DA數據分析數據集用偏最小二乘法判別分析(PLS-DA)基於菌株對單一抗生素的已知敏感性/抗性進行分析。可以不用測量方法或用可替換的測量方法(例如自測量(autoscaling))或可替換的多變量統計學方法獲得相似的結果。
結果一組31種金黃色葡萄球菌分離株被加工以用於來自在全基因組微陣列上的差異雜交的數據的PLS-DA分析(圖4)。
同一數據集的2個獨立的PLS-DA分析(僅在分析的菌株數量上有微小差別)導致所述金黃色葡萄球菌菌株組內部基於其對所述2種抗生素的每一種的已知敏感性/抗性的2個顯著的分離群。對於每一種抗生素,所述敏感的和抗性集群基於其已知的抗生素抗性/敏感性而包含不同的菌株亞集合。這表示對於每一種抗生素,總的差異雜交數據集的不同部分包含抗生素抗性的特異信息。抗生素特異性全基因組雜交數據可用於對未知金黃色葡萄球菌菌株的抗生素抗性/敏感性進行預期。
實施例3通過全基因組陣列差異雜交數據的有監督的PLS-DA分析,基於流行性和非流行性金黃色葡萄球菌菌株之間的區別進行群集不同細菌菌株的組一組19種多抗性金黃色葡萄球菌菌株用於實施例3(圖5)。該組由19種醫院分離株組成。對於所有菌株從日常醫院實踐中獲得其流行性特徵(圖5)。所有用於產生這些菌株的微陣列結果的實驗程序均參照實施例1的描述。
結果一組19種不同的金黃色葡萄球菌分離株被加工以用於來自在全基因組微陣列上的差異雜交的數據的PLS-DA分析(圖6)。
所述PLS-DA分析根據其已知的流行性特徵產生金黃色葡萄球菌菌株的顯著群集(圖6,E=流行性,N=非流行性)。
這表明總差異雜交數據集的一部分含有可用於預測未知金黃色葡萄球菌菌株的流行性的預測性信息。
實施例4通過全基因組陣列差異雜交數據的有監督的PLS-DA分析,基於侵染性和非侵染性金黃色葡萄球菌菌株之間的區別進行群集不同細菌菌株的組一組27種分離自醫院的金黃色葡萄球菌菌株用於實施例4(圖7)。對於所有菌株從日常醫院實踐中獲得其侵染性特徵(invasive character)(圖7)。所有用於產生這些菌株的微陣列結果的實驗程序均參照實施例1的描述,除了使用ImaGene version 5.6分析掃描的圖像並根據Kim et al.(Genome Biology 3research0065.1-research0065.17,Epub,Oct 29,2002)進行數據預處理。使用他們的EPP方法確定0%和100%EPP值(預期存在概率),數據點分為3組低於0%EPP的數據賦值為-0.5,高於100%EPP的數據賦值為0.5,介於0%和100%EPP之間的數據在-0.5和0.5之間被線性按比例測量。對於每一個獨立數據集(陣列)進行這種預處理。轉化的數據用於進一步分析。
結果一組27種不同的金黃色葡萄球菌分離株被加工以用於來自在全基因組微陣列上的差異雜交的數據的PLS-DA分析(圖8)。
所述PLS-DA分析根據其已知的侵染性特徵產生金黃色葡萄球菌菌株的顯著群集(圖8,I=侵染性,NI=非侵染性)。
這表明總差異雜交數據集的一部分含有可用於預測未知金黃色葡萄球菌菌株的侵染潛力的預測性信息。
實施例5通過全基因組陣列差異雜交數據的有監督的PLS-DA分析,基於感染性和非感染性陰溝腸桿菌菌株之間的區別進行群集實驗的詳細情況所有用於產生這些菌株的微陣列結果的實驗程序均參照實施例1的描述,除了使用圖9所示的8種陰溝腸桿菌菌株進行陣列構建,並且在所述陣列上設置3000個點。使用ImaGene version 5.6分析掃描的圖像並根據Kim et al.(Genome Biology 3research0065.1-research0065.17,Epub,Oct 29,2002)進行數據預處理。使用他們的EPP方法確定0%和100%EPP值(預期存在概率),數據點分為3組低於0%EPP的數據賦值為-0.5,高於100%EPP的數據賦值為0.5,介於0%和100%EPP之間的數據在-0.5和0.5之間被線性按比例測量。對於每一個獨立數據集(陣列)進行這種預處理。轉化的數據用於進一步分析。
不同細菌菌株的組一組18種分離自醫院的陰溝腸桿菌菌株用於實施例5(圖9)。對於所有菌株從日常醫院實踐中獲得其侵染性特徵(圖9)。
結果一組18種不同的陰溝腸桿菌分離株被加工以用於來自在全基因組微陣列上的差異雜交的數據的PLS-DA分析(圖10)。
所述PLS-DA分析根據其已知的感染性特徵產生陰溝腸桿菌菌株的顯著群集(圖10,I=感染性,NI=非感染性)。
這表明總差異雜交數據集的一部分含有可用於預測未知陰溝腸桿菌菌株的感染潛力的預測性信息。
實施例6通過全基因組陣列差異雜交數據的有監督的PLS-DA分析,基於源自環境的和源自患者的嗜肺軍團菌菌株之間的區別進行群集實驗的詳細情況所有用於產生這些菌株的微陣列結果的實驗程序均參照實施例1的描述,除了使用圖11所示的8種嗜肺軍團菌菌株進行陣列構建,並且在所述陣列上設置4000個點。使用ImaGene version 5.6分析掃描的圖像並根據Kim et al.(Genome Biology 3research0065.1-research0065.17,Epub,Oct 29,2002)進行數據預處理。使用他們的EPP方法確定0%和100%EPP值(預期存在概率),數據點分為3組低於0%EPP的數據賦值為-0.5,高於100%EPP的數據賦值為0.5,介於0%和100%EPP之間的數據在-0.5和0.5之間被線性按比例測量。對於每一個獨立數據集(陣列)進行這種預處理。轉化的數據用於進一步分析。
不同細菌菌株的組一組30種分離自患者和環境(主要是水源)的嗜肺軍團菌菌株用於實施例6(圖11)。對於所有患者菌株從日常醫院實踐中獲得其病原性特徵(圖11)。
結果一組30種不同的嗜肺軍團菌分離株被加工以用於來自在全基因組微陣列上的差異雜交的數據的PLS-DA分析(圖12)。
所述PLS-DA分析根據其已知的病原性特徵產生嗜肺軍團菌菌株的顯著群集(圖12,pat=源自患者,omg=源自環境)。
這表明總差異雜交數據集的一部分含有可用於預測未知嗜肺軍團菌菌株的病原性潛力的預測性信息。
權利要求
1.一種製備用於樣品核酸的參考雜交模式集群的方法,包括-提供包含多個核酸分子的陣列,其中所述多個核酸分子衍生自至少兩個不同來源;-通過將所述陣列與至少兩種不同的參考核酸雜交而提供至少兩種不同的參考雜交模式,其中所述至少兩種不同的參考核酸的來源基於至少一個表型參數的值可分成至少兩組;以及-通過無監督的多變量分析群集所述參考雜交模式。
2.權利要求1的方法,其中所述陣列由基因組DNA片段組成,優選地由隨機選自來自所述至少兩個不同來源的基因組DNA片段的混和物的基因組DNA片段組成。
3.權利要求1或2的方法,其中所述多個陣列核酸分子的所述至少兩個來源的至少一個也是所述至少兩種不同的參考核酸的至少一種的來源。
4.前述任一權利要求的方法,其中所述陣列中分子的平均大小在大約200至5000個核苷酸之間。
5.前述任一權利要求的方法,其中所述陣列包括隨機選自所述至少兩個不同來源的大約1500至5000個核酸分子。
6.前述任一權利要求的方法,其中所述多個陣列核酸分子衍生自天然來源,更優選來源於病毒、微生物、動物或植物,更優選來源於原核生物。
7.前述任一權利要求的方法,其中用於所述多個陣列核酸分子的至少兩個不同來源是(在分類學上)密切相關的。
8.前述任一權利要求的方法,其中所述多個陣列核酸分子衍生自原核生物的至少兩個不同物種。
9.前述任一權利要求的方法,其中所述多個陣列核酸分子衍生自屬於相同的屬的至少兩個不同的原核菌株。
10.前述任一權利要求的方法,其中所述多個陣列核酸分子衍生自屬於相同物種的至少兩個不同的原核菌株。
11.前述任一權利要求的方法,其中所述多個陣列核酸分子衍生自一種原核生物的純培養物。
12.前述任一權利要求的方法,其中所述多個陣列核酸分子衍生自真核DNA。
13.前述任一權利要求的方法,其中所述多個陣列核酸分子衍生自至少3個,優選至少5個,更優選至少8個不同來源。
14.前述任一權利要求的方法,進一步包括基於主成分分析(PrincipalComponent Analysis,PCA)對代表模式進行群集。
15.一種對樣品核酸進行分型的方法,包括-通過使用權利要求1-14任一項的方法提供樣品核酸的至少兩種不同的參考雜交模式的集群;- 將與用來製備所述參考雜交模式的陣列相同的陣列與樣品核酸雜交以獲得樣品雜交模式,以及-將所述樣品雜交模式歸於所述參考雜交模式的至少兩種不同的集群中的一種。
16.權利要求15的方法,其中所述樣品核酸由基因組DNA,優選基因組DNA片段組成。
17.權利要求15或16的方法,其中所述樣品核酸中片段的平均大小在大約50至5000個核苷酸之間。
18.權利要求15-17任一項的方法,其中所述方法包括將所述樣品雜交模式與包括至少3個、優選至少5個、更優選至少50個不同參考雜交模式的參考雜交模式集群進行對比。
19.權利要求18的方法,其中所述對比包括參考雜交模式與樣品雜交模式一起的無監督的多變量分析。
20.權利要求19的方法,進一步包括基於主成分分析(PCA)對代表模式進行群集。
21.權利要求15的方法,其中所述歸於包括參考雜交模式與樣品雜交模式的偏最小二乘法判別分析(PLS-DA),其中至少一個其值對於參考雜交模式是已知的(並且其信息被用於監督所述PLS-DA分析)的表型參數被針對樣品核酸或其衍生來源而額外確定或估計。
22.權利要求21的方法,進一步包括基於有監督的PLS-DA分析對代表模式進行群集。
23.權利要求15-22任一項的方法,其中所述集群代表共享一個針對一種感興趣的表型參數的值的模式。
24.權利要求15-23任一項的方法,其中所述用於多個陣列核酸分子的至少兩個不同來源(在分類學上)與樣品核酸的來源密切相關。
全文摘要
本發明涉及製備樣品核酸的參考雜交模式集群的方法,包括提供包括多個核酸分子的陣列,其中所述多個核酸分子來自至少兩個不同來源,通過將所述陣列與至少兩種不同的參考核酸雜交而提供至少兩種不同的參考雜交模式,其中所述至少兩種不同的參考核酸的來源可基於至少一個表型參數的值被分為至少兩組,以及通過無監督的多變量分析(unsupervised multivariate analysis)對所述參考雜交模式進行群集。所述方法進一步提供一種用於對樣品核酸進行分型(typing)的方法,包括通過使用本發明的方法提供樣品核酸的至少兩種不同的參考雜交模式集群,將與用來製備所述參考雜交模式的陣列相同的陣列與樣品核酸雜交以製備樣品雜交模式,以及將所述樣品雜交模式歸於(assign to)所述至少兩種不同的參考雜交模式集群中的一種。
文檔編號G06F19/20GK101027409SQ200580021736
公開日2007年8月29日 申請日期2005年4月29日 優先權日2004年4月29日
發明者弗蘭克·亨利·約翰·許倫, 馬丁努斯·彼得魯斯·馬裡亞·卡斯普爾斯, 比安卡·約翰娜·凱瑟裡娜·范德韋夫-範德瓦特, 羅伊·克裡斯蒂安·蒙泰因 申請人:荷蘭應用科學研究會(Tno)

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀