用於snp分析和基因組測序的系統和方法
2024-04-05 19:42:05 2
用於snp分析和基因組測序的系統和方法【專利摘要】本發明涉及用於SNP分析和基因組測序的系統和方法。在一個實施方案中,包含處理器和存儲可由處理器執行的指令的存儲器的系統創建核酸序列的索引。該索引包含多個元素。每個元素對應於核酸序列的排列。接收代表核酸序列的數據。在數據中在核酸序列的第一位置鑑定該核酸序列的子序列。計算子序列的散列以確定索引的相應元素。將反映第一位置的位置數據存儲於索引的相應元素中。【專利說明】用於SNP分析和基因組測序的系統和方法發明領域[0001]本文中公開的實施方案一般涉及在計算機系統上創建和使用專用索引(application-specificindices),更具體地,涉及基於接收的樣品創建核酸序列或胺基酸序列的索引的系統和方法。[0002]發明背景[0003]單核苷酸多態性,或SNP,是來自同一物種的個體的DNA序列之間或個體中成對染色體之間的單核苷酸差異。例如,在一個個體中(或在第一成對染色體上),DNA的區段可能包含核苷酸序列TTICTTGTA,而在另一個個體中(或在第二成對染色體上),相應的DNA區段可能包含核苷酸序列TT£CTTGTA。這些不同序列中的每一種被稱為等位基因。[0004]許多SNP不是有害的。大多數SNP見於基因間(例如外顯子中)或基因的非編碼區中。這些非編碼SNP在DNA指紋法技術中有用。[0005]即使當SNP存在於基因的編碼區中時,SNP也可能與野生型基因同義,[0006]如此,該SNP可能不影響最終轉錄的胺基酸序列。例如,TTI和Τ--兩者均轉錄為胺基酸苯丙氨酸。[0007]由編碼區SNP提供的遺傳變異導致給定物種中表型的正常變化。等位基因給予人類不同的遺傳性狀,例如如金色(blonde)、深色(brunette)、紅色或黑色頭髮。然而,一些編碼區SNP能導致遺傳關聯的疾病或病症。由於一些疾病可追溯到SNP,因此遺傳學家一直對定位(mapping)和檢測SNP感興趣。[0008]一個基因中的突變足以導致一些疾病如亨延頓氏病(Huntington'sdisease)和多囊性腎病(polysystickidneydisease)1和2。然而,更經常地,多個SNP牽涉導致複雜病症如哮喘、癌症、糖尿病、心臟病和許多其他病症。在這些複雜病症中,一個或多個SNP的存在可能充當某人有形成該病症的更高風險的指示物。SNP還與藥物代謝有關,從而產生個體化醫藥的可能性,其中根據他或她的遺傳構成為該個體提供治療。[0009]SNP以許多方式檢測。例如,一種方法使用SNP晶片,其為附接有單鏈DNA片段的小娃玻璃晶片(siliconglasswafer)。每條附接的單鏈DNA片段具有對應於已知SNP的獨特序列。DNA樣品被轉化成單鏈DNA,並添加螢光染料標記物。將經標記的樣品DNA片段在晶片上溫育,而具有匹配已知SNP的核苷酸序列的經標記的樣品DNA會與晶片上結合的已知SNP雜交。不結合的DNA被清洗掉,然後計算機掃描晶片以檢測螢光標記物的位置,由此檢測結合具有已知SNP的DNA的樣品DNA,且如此,鑑定出DNA樣品中的SNP。然而,該規程是費時的,且僅檢測已知的SNP。[0010]與SNP檢測有關的是DNA測序。為了開發已知SNP的集合,必須首先對DNA測序以充當未知樣品的參照。SNP晶片是用於鑑定SNP的一種可行方法,因為人類基因組(和其他基因組)均已完整測序。通過比較同一物種內的幾個基因組和/或來自幾個基因組的同一個基因,倉ij建共有序列(consensussequence),且來自共有序列的變異被鑑定為SNP。[0011]鳥槍測序(Shotgunsequencing)是用於對完整基因組測序的一種普遍使用的方法。在鳥槍測序中,DNA被片段化為隨機區段。這些區段被測序,且測定的核酸片段的序列被稱為"讀段(read)"。片段化過程生成重疊的讀段,基於其重疊區域將其比對。[0012]儘管序列比對由計算機完成,但測序仍然是一項耗時的過程。Bowtie,一種用於比對序列的軟體程序,聲稱能在每小時將2500萬個各35個鹼基對的讀段比對。Bowtie還使用Burrows-Wheeler索引為基因組創建索引。如此,使用Bowtie程序來為人基因組(其包含約30億個鹼基對)建立索引將花費超過8小時。此外,使用SNP晶片方法來檢測已知的人SNP可能需要數小時來製備和處理晶片(如上文描述的),且不能用SNP晶片檢測新的SNP。[0013]與DNA測序領域有關的是宏基因組學(metagenomics)的研究。宏基因組學是對從環境直接獲得的無數種基因組的研究,其在不能在實驗室中培養或容易研究的微生物的研究中尤其重要。宏基因組學用於理解環境中的遺傳多樣性。在宏基因組學中,可以將環境樣品的所有遺傳材料作為整體來研究,而不是首先分離和鑑定特定物種的遺傳材料。然而,宏基因組學研究的一個方面聚焦於確定哪些物種存在於未區分的樣品中,其通過對樣品中的DNA測序並將其與已知的DNA序列比較進行。當測序揭示新的基因組時,宏基因組學中的DNA測序還用於發現先前未知的物種。經常地,可通過屬對新基因組分類,即使該物種之前從未被鑑定出來。[0014]宏基因組學還牽涉開發一種途徑來確定特定物種是否在含有來自幾個物種的DNA的樣品中。一種在樣品中確定物種的方法可能牽涉對來自樣品的遺傳材料測序,然後將序列與已知序列的庫比較以確定存在哪些物種。經常地,在將序列與已知序列比較之前,不將序列解析到完整基因組中。而是,將序列"讀段"與序列庫比較以確定匹配庫中物種序列的樣品序列的百分數。對於特定物種的百分數匹配越高,則來自物種的DNA就越可能存在於樣品中。鑑於目前的序列分析技術,這是一項耗時的任務。[0015]根據以上內容,需要分析序列DNA和檢測SNP的更快方法。還需要對來自環境樣品的多個基因組測序和鑑定,並檢測含有許多基因組的樣品中單個基因組存在的更快的途徑。最後,存在對序列同時測序和比較的需要,使得能在完整基因組測序之前鑑定出SNP,從而可以在測序完成前鑑定基因組或序列。[0016]發明概述[0017]公開的實施方案包括用於使用索引對核酸序列,包括DNA、RNA和合成序列測序的系統和方法。還公開了使用索引在序列測定期間或之後鑑定序列內SNP和鑑定序列(例如通過屬或種)的系統和方法。公開的實施方案包括用於使用索引對肽和蛋白質(包括摻有標準和非標準胺基酸的序列)測序的系統和方法。還公開了用於使用索引在序列測定期間或之後鑑定序列內胺基酸取代的系統和方法。[0018]提供了一種用於為核酸序列創建索引的方法。所述方法生成索引。該索引包含多個元素且每個元素對應於核酸序列的排列。所述方法接收代表核酸序列的數據,並在所述數據中鑑定核酸序列的子序列。從核酸序列的第一位置檢索(retrieve)子序列。所述方法計算子序列的散列(hash)以確定所述索引的相應元素,並在索引的相應元素中存儲反映第一位置的位置數據。[0019]提供一種比對核酸序列的方法。所述方法接收代表核酸序列的數據,並在數據中鑑定所述核酸序列的子序列。所述方法計算子序列的散列以確定所述索引的相應元素。所述相應元素包括反映含有子序列部分的參照核酸序列的一個或多個位置的位置數據。所述方法在參照核酸序列的一個或多個位置處將所述子序列與參照核酸序列進行比較,並基於所述比較,確定是否錯配大於預定閾值的鹼基數目。當錯配鹼基的數目小於預定的閾值時,該方法確定子序列與參照核酸序列比對。[0020]提供一種檢測SNP的方法。所述方法接收代表多個比對的核酸序列的數據,並基於多個比對的核酸序列,生成共有序列。所述方法將共有序列與參照核酸序列比較。當共有序列的元素與參照核酸序列的相應元素錯配時,且當與共有序列元素相關的置信度水平超過預定的置信度閾值時,該方法確定所述共有序列的元素是SNP。[0021]提供在一種或多種核酸序列的樣品中鑑定一個或多個物種的方法。所述方法接收代表所述核酸序列的數據,並在數據中鑑定核酸序列的多個子序列。所述方法將多個子序列與多個索引中的每一個比對。每個索引代表至少一個參照核酸序列。對於每個參照核酸序列,所述方法計算與所述參照核酸序列比對的子序列數目相對於子序列的總數目的比率,並輸出計算比率。[0022]提供一種為胺基酸序列創建索引的方法。所述方法生成索引。該索引包含多個元素,且每個元素對應於胺基酸序列的排列。所述方法接收代表胺基酸序列的數據,並在數據中鑑定所述胺基酸序列的子序列。從胺基酸序列的第一位置檢索所述子序列。所述方法計算子序列的散列以確定所述索引的相應元素,並在索引的相應元素中存儲反映第一位置的位置數據。[0023]提供一種比對胺基酸序列的方法。所述方法接收代表胺基酸序列的數據,並在數據中鑑定所述胺基酸序列的子序列。所述方法計算子序列的散列以確定索引的相應元素。所述相應元素包括反映含有子序列部分的參照胺基酸序列的一個或多個位置的位置數據。所述方法在參照胺基酸序列的一個或多個位置處將子序列與參照胺基酸序列進行比較,並基於所述比較,確定是否錯配大於預定閾值的胺基酸數目。當錯配胺基酸的數目小於預定的閾值時,所述方法確定子序列與參照胺基酸序列比對。[0024]提供一種檢測胺基酸取代的方法。所述方法接收代表多個比對的胺基酸序列的數據,並基於多個比對的胺基酸序列,生成共有序列。所述方法將共有序列與參照胺基酸序列比較。當共有序列的元素與參照胺基酸序列的相應元素錯配時,且當與所述共有序列元素相關的置信度水平超過預定的置信度閾值時,該方法確定共有序列的元素是胺基酸取代。[0025]提供一種包含程序指令的非暫時性計算機可讀介質,所述程序指令在由處理器執行時,導致處理器實施用於創建核酸序列索引的方法。該方法生成索引。該索引包含多個元素,且每個元素對應於核酸序列的排列。所述方法接收代表核酸序列的數據,並在所述數據中鑑定所述核酸序列的子序列。從核酸序列的第一位置檢索所述子序列。所述方法計算子序列的散列以確定索引的相應元素,並在索引的相應元素中存儲反映第一位置的位置數據。[0026]提供一種包含程序指令的非暫時性計算機可讀介質,所述程序指令在由處理器執行時,導致處理器實施用於比對核酸序列的方法。所述方法接收代表核酸序列的數據,並在數據中鑑定所述核酸序列的子序列。所述方法計算子序列的散列以確定所述索引的相應元素。所述相應元素包括反映含有子序列部分的參照核酸序列的一個或多個位置的位置數據。所述方法在參照核酸序列的一個或多個位置處將所述子序列與參照核酸序列進行比較,並基於所述比較,確定是否錯配大於預定閾值的鹼基數目。當錯配鹼基的數目小於預定的閾值時,所述方法確定子序列與參照核酸序列比對。[0027]提供一種包含程序指令的非暫時性計算機可讀介質,所述程序指令在由處理器執行時,導致處理器實施用於檢測SNP的方法。所述方法接收代表多個比對的核酸序列的數據,並基於多個比對的核酸序列,生成共有序列。所述方法將共有序列與參照核酸序列比較。當共有序列的元素與參照核酸序列的相應元素錯配時,且當與所述共有序列元素相關的置信度水平超過預定的置信度閾值時,該方法確定所述共有序列的元素是SNP。[0028]提供一種包含程序指令的非暫時性計算機可讀介質,所述程序指令在由處理器執行時,導致處理器實施在一種或多種核酸序列的樣品中鑑定一個或多個物種的方法。所述方法接收代表所述核酸序列的數據,並在數據中鑑定核酸序列的多個子序列。所述方法將多個子序列與多個索引中的每一個比對。每個索引代表至少一個參照核酸序列。對於每個參照核酸序列,所述方法計算與所述參照核酸序列比對的子序列的數目相對於子序列的總數目的比率,並輸出計算比率。[0029]提供一種包含程序指令的非暫時性計算機可讀介質,所述程序指令在由處理器執行時,導致處理器實施用於為胺基酸序列創建索引的方法。所述方法生成索引。該索引包含多個元素,且每個元素對應於胺基酸序列的排列。所述方法接收代表胺基酸序列的數據,並在所述數據中鑑定所述胺基酸序列的子序列。從胺基酸序列的第一位置檢索所述子序列。所述方法計算子序列的散列以確定索引的相應元素,並在索引的相應元素中存儲反映第一位置的位置數據。[0030]提供一種包含程序指令的非暫時性計算機可讀介質,所述程序指令在由處理器執行時,導致處理器實施用於比對胺基酸序列的方法。所述方法接收代表胺基酸序列的數據,並在數據中鑑定所述胺基酸序列的子序列。所述方法計算子序列的散列以確定所述索引的相應元素。所述相應元素包括反映含有子序列部分的參照胺基酸序列的一個或多個位置的位置數據。所述方法在參照胺基酸序列的一個或多個位置處將子序列與參照胺基酸序列進行比較,並基於所述比較,確定是否錯配大於預定閾值的胺基酸數目。當錯配胺基酸的數目小於預定的閾值時,所述方法確定子序列與參照胺基酸序列比對。[0031]提供一種包含程序指令的非暫時性計算機可讀介質,所述程序指令在由處理器執行時,導致處理器實施用於檢測胺基酸取代的方法。所述方法接收代表多個比對的胺基酸序列的數據,並基於多個比對的胺基酸序列,生成共有序列。所述方法將共有序列與參照胺基酸序列比較。當共有序列的元素與參照胺基酸序列的相應元素錯配時,且當與共有序列元素相關的置信度水平超過預定的置信度閾值時,該方法確定所述共有序列的元素是胺基酸取代。[0032]提供了一種用於為核酸序列創建索引的系統。所述系統包括處理器和存儲可由所述處理器執行的指令以生成索引的存儲器。該索引包含多個元素且每個元素對應於核酸序列的排列。所述指令還能接收代表核酸序列的數據,並在所述數據中鑑定所述核酸序列的子序列。從核酸序列的第一位置檢索所述子序列。所述指令還能計算子序列的散列以確定索引的相應元素,並在索引的相應元素中存儲反映第一位置的位置數據。[0033]提供一種用於比對核酸序列的系統。所述系統包括處理器和存儲可由處理器執行的指令以接收代表核酸序列的數據的存儲器。所述指令還能在數據中鑑定所述核酸序列的子序列,並計算子序列的散列以確定所述索引的相應元素。所述相應元素包括反映含有子序列部分的參照核酸序列的一個或多個位置的位置數據。所述指令還能在參照核酸序列的一個或多個位置處將所述子序列與參照核酸序列進行比較,並基於所述比較,確定是否錯配大於預定的閾值的鹼基數目。當錯配鹼基的數目小於預定的閾值時,所述指令還能確定子序列與參照核酸序列比對。[0034]提高一種用於檢測SNP的系統。所述系統包括處理器和存儲可由所述處理器執行的指令以接收代表多個比對的核酸序列的數據的存儲器。所述指令還能基於多個比對的核酸序列,生成共有序列。所述指令進一步能將共有序列與參照核酸序列比較,並且當共有序列的元素與參照核酸序列的相應元素錯配時,且當與共有序列元素相關的置信度水平超過預定的置信度閾值時,確定所述共有序列的元素是SNP。[0035]提供在一種或多種核酸序列的樣品中鑑定一個或多個物種的系統。所述系統包括處理器和存儲可由所述處理器執行的指令以接收代表所述核酸序列的數據的存儲器。所述指令還能在數據中鑑定核酸序列的多個子序列並將多個子序列與多個索引中的每一個比對。每個索引代表至少一個參照核酸序列。對於每個參照核酸序列,所述指令進一步能計算與參照核酸序列比對的子序列的數目相對於子序列的總數目的比率,並輸出計算比率。[0036]提供一種用於為胺基酸序列創建索引的系統。所述系統包括處理器和存儲可由所述處理器執行的指令以生成索引的存儲器。該索引包含多個元素,且每個元素對應於胺基酸序列的排列。所述指令還能接收代表胺基酸序列的數據,並在數據中鑑定所述胺基酸序列的子序列。從胺基酸序列的第一位置檢索所述子序列。所述指令進一步能計算子序列的散列以確定所述索引的相應元素,並在索引的相應元素中存儲反映第一位置的位置數據。[0037]提供一種用於比對胺基酸序列的系統。所述系統包括處理器和存儲可由所述處理器執行的指令以接收代表胺基酸序列的數據的存儲器。所述指令還能在數據中鑑定所述胺基酸序列的子序列,並計算子序列的散列以確定索引的相應元素。所述相應元素包括反映含有子序列部分的參照胺基酸序列的一個或多個位置的位置數據。所述指令還能在參照胺基酸序列的一個或多個位置處將所述子序列與參照胺基酸序列進行比較,並基於所述比較,確定是否錯配大於預定閾值的胺基酸數目。當錯配胺基酸的數目小於預定的閾值時,所述指令進一步能確定子序列與參照胺基酸序列比對。[0038]提供一種用於檢測胺基酸取代的系統。所述系統包括處理器和存儲可由所述處理器執行的指令以接收代表多個比對的胺基酸序列的數據的存儲器。所述指令還能基於多個比對的胺基酸序列,生成共有序列,並將共有序列與參照胺基酸序列比較。當共有序列的元素與參照胺基酸序列的相應元素錯配時,且當與共有序列元素相關的置信度水平超過預定的置信度閾值時,該指令進一步能確定所述共有序列的元素是胺基酸取代。[0039]應理解前述的一般性描述和以下詳細描述均僅為例示性和解釋性的,且不限制所公開的實施方案。[0040]附圖簡述[0041]納入本說明書並構成本說明書一部分的附圖例示了幾個實施方案。在附圖中:[0042]圖1是例示與本文中公開的實施方案一致的計算系統的示例框圖。[0043]圖2例示與本文中公開的實施方案一致的核酸序列的示例索引。[0044]圖3是例示與本文中公開的實施方案一致的用於創建反映核酸序列或胺基酸序列的數字輸入的索引的示例方法的流程圖。[0045]圖4是例示與本文中公開的實施方案一致的使用參照核酸序列的索引比對反映核酸序列的數字輸入的示例方法的流程圖。[0046]圖5是例示與本文中公開的實施方案一致的用於在反映核酸序列的數字輸入中檢測SNP的示例方法的流程圖。[0047]圖6是例示與本文中公開的實施方案一致的使用至少一個參照核酸序列的至少一個索引在反映核酸序列的數字輸入中鑑定一種或多種物種的示例方法的流程圖。[0048]發明詳述[0049]現將對各個實施方案進行詳細提述,其例子在附圖中例示。在任何可能之處,將貫穿附圖使用相同的參考編號以指示相同或相似的部分。而且,除非另外指示,不定冠詞"一個"或"一種"在說明書和權利要求書中的使用意為包括其引入的一個/種或超過一個/種特徵。[0050]圖1顯示配置為實施一個或多個軟體過程的例示性系統,所述軟體過程在執行時提供所公開實施方案的一個或多個方面。圖1不意圖限於公開的實施方案,因為用於執行本文中公開的過程和特徵的組件可以變化。[0051]依照某些公開的實施方案,可以提供包括計算機101和網絡108的計算系統100。本領域普通技術人員已知的其他組件可以納入系統100中以處理、傳播、提供和接收與公開的實施方案一致的信息。[0052]計算機101可以包括計算機系統組件,如一個或多個伺服器,臺式計算機,工作站,輸入板(tablet),手持式計算設備,存儲器設備,和/或連接組件的內部網絡。在一個實施方案中,計算機101可以是包括一個或多個處理器、存儲器設備和界面組件104的伺服器。例如,計算機101可以包括處理單元102、存儲器106和界面組件104。計算機101可以是單個伺服器或者可以配置為分布式計算機系統,包括交互操作(interoperate)以實施與公開的實施方案有關的一個或多個進程和功能性的多個伺服器或計算機。[0053]處理單元102可以包括一個或多個已知的處理設備,如來自由Intel?製造的Pentium?家族或由AMD?製造的Turion?家族的微處理器。處理單元102可以包括單核或多核處理器系統,其提供同時實施並行進程的能力。例如,處理單元102可包括單核處理器,其配置為具有本領域技術人員已知的虛擬處理技術。在某些實施方案中,處理單元102可使用邏輯處理器以同時執行和控制多個進程。處理單元102中的一個或多個處理器可以執行虛擬機(virtualmachine)技術,或其他類似的已知技術來提供對多個軟體進程、應用、程序等進行執行、控制、運行、操作、存儲等的能力。在另一個實施方案中,處理單元102可包括多核處理器布置(例如雙核或四核),其配置為提供並行處理功能性以允許電子計算系統100同時執行多個進程。本領域普通技術人員會理解可以執行提供本文中公開的能力的其他類型的處理器布置,如Cray超型計算機中使用的那些。[0054]在一些實施方案中,計算機101可以是超型計算機,如CrayXMT或CrayXMT2。超型計算機可以包括與存儲器配對的多核處理器布置,其配置為提供相對於消費者級的臺式計算機、可攜式電腦(laptop)等更大的並行處理功能性。例如,CrayXMT可以包含128TB(百萬兆字節)的存儲器和能並行執行多達8,192個線程的處理器核。類似地,CrayXMT2可以包括512TB的存儲器和128個處理器核,其中每個處理器核能執行128個線程,總共16,384個線程。[0055]計算機101可以包含一個或多個存儲設備,其配置為存儲由處理單元102(或其他組件)使用以實施與所公開實施方案有關的某些功能的信息。在一個例子中,存儲器106可以包含指令以使得處理單元102中的一個或多個處理器能夠執行一個或多個應用,如伺服器應用、網絡通信過程、和已知在計算機系統上可用的任何其他類型的應用或軟體。或者,可將指令、應用程式等存儲於外存儲器(externalstorage)或經過網絡108可從存儲器獲得。所述一個或多個存儲設備可以是易失性(volatile)或非易失性、磁性、半導體、磁帶、光學、可移動、不可移動或其他類型的存儲設備或真實的計算機可讀介質。[0056]在一個實施方案中,存儲器106可以包含指令,該指令當由處理單元102中的一個或多個處理器執行時,實施與本文中公開的功能性一致的一個或多個進程。與公開的實施方案一致的方法、系統和製品不限於配置為實施專門任務的分別的程序或計算機。例如,計算機101可以包含存儲器,其可以包含一個或多個程序以實施一個或多個功能,該功能用於創建所公開實施方案的核酸元素序列或胺基酸元素序列的索引。而且,處理單元102中的一個或多個處理器可以執行與系統100遠程定位的一個或多個程序。例如,系統100可訪問一個或多個遠程程序,該遠程程序當執行時,實施與所公開實施方案有關的功能。存儲器106可以包含一個或多個存儲器設備,其存儲數據和用於實施所公開實施方案的一個或多個特徵的指令。存儲器106還可以包含由存儲器控制器設備(例如伺服器等)或軟體控制的一個或多個資料庫,如文件管理系統、MicrosoftSQL資料庫、SharePoint資料庫、Oracle?資料庫、Sybase?資料庫或其他關係資料庫的任意組合。[0057]計算機101還可以本地或經由網絡108通信連接至一個或多個存儲器設備(例如資料庫(未顯示))。遠程存儲器設備可以配置為存儲信息並且可由計算機101訪問和/或管理。例如,遠程存儲器設備可以是文件管理系統、MicrosoftSQL資料庫、SharePoint資料庫、Oracle?資料庫、Sybase?資料庫或其他關係資料庫。然而,公開的實施方案的系統和方法不限於分別的資料庫或甚至資料庫的使用。[0058]計算機101還可以包含一個或多個1/0設備,其可以包含用於接收來自輸入設備的信號或輸入並向一個或多個允許通過電子計算系統1〇〇接收和/或傳輸數據的輸出設備提供信號或輸出的一個或多個接口。例如,接口組件104可以向一個或多個輸入設備如一個或多個鍵盤、滑鼠設備等提供接口,所述輸入設備使得計算機101能夠接收來自一個或多個用戶的數據。另外,接口組件104可以包括配置為在計算機101的組件之間或計算機101的外部如網絡108發送和接收信息的組件。[0059]網絡108可以是提供通信、交換信息、和/或協助計算機101與其他用戶或計算系統之間的信息交換的任何類型的網絡。在一個實施方案中,網絡108可以是網際網路、區域網或其他適宜的連接,其使得計算機101能夠在系統100的組件之間發送和接收信息。[0060]計算機101可以創建核酸序列或胺基酸序列的索引。該索引可以包含多個元素,每個元素對應於核酸序列或胺基酸序列(或另一種序列類型)的排列。計算機101可以使用多種數據結構來執行索引,所述數據結構如資料庫、矩陣、陣列、鍊表、樹等。數據結構的選擇可以變化且對於任何實施方案均不是關鍵性的。計算機101可將索引存儲於存儲器106。更具體地,索引可以存儲於硬碟上;計算機101還可以將索引加載到RAM中用於提高性能。[0061]一種不例核酸序列顯不於下表1中。[0062]表1[0063]【權利要求】1.一種用於創建核酸序列的索引(index)的系統,其包含:處理器;和存儲可由所述處理器執行的指令的存儲器,所述指令用於:生成所述索引,其中所述索引包含多個元素(element),且每個元素對應於所述核酸序列的排列(permutation);接收代表所述核酸序列的數據;在所述數據中鑑定所述核酸序列的子序列,其中從所述核酸序列的第一位置檢索(retrieve)所述子序列;計算所述子序列的散列(hash)以確定所述索引的相應元素;並在所述索引的相應元素中存儲反映所述第一位置的位置數據。2.權利要求1的系統,其中所述存儲器還存儲可由所述處理器執行的指令,該指令用於:在所述數據中鑑定所述核酸序列的第二子序列,其中從所述核酸序列的不同於所述第一位置的第二位置檢索所述子序列;計算所述第二子序列的散列以確定所述索引的第二相應元素;並在所述索引的第二相應元素中存儲反映所述第二位置的位置數據。3.權利要求2的系統,其中所述第二位置相對於所述第一位置偏移所述核酸序列的一個喊基(thesecondpositionisoffsetbyonebaseofthenucleicacidsequencerelativetothefirstposition)〇4.權利要求1的系統,其中所述核酸序列包括DNA、cDNA、RNA、mRNA或PNA之一。5.權利要求1的系統,其中所述子序列的長度是16個鹼基。6.-種用於比對核酸序列的系統,其包含:處理器;和存儲可由所述處理器執行的指令的存儲器,所述指令用於:接收代表所述核酸序列的數據;在所述數據中鑑定所述核酸序列的子序列;計算所述子序列的散列以確定所述索引的相應元素,其中所述相應元素包括反映含有所述子序列部分的參照核酸序列的一個或多個位置的位置數據;在所述參照核酸序列的一個或多個位置處將所述子序列與所述參照核酸序列進行比較;基於所述比較,確定是否錯配大於預定閾值的鹼基數目;並當錯配鹼基的數目小於預定閾值時,確定所述子序列與所述參照核酸序列比對。7.權利要求6的系統,其中所述預定閾值是3個鹼基。8.權利要求6的系統,其中所述子序列是第一子序列,且其中所述存儲器還存儲可由所述處理器執行的指令,該指令用於:形成與所述第一子序列相等且偏移預定數目的鹼基的第二子序列(formasecondsubsequenceequaltothefirstsubsequenceoffsetbyapredeterminednumberofbases);計算所述第二子序列的散列以確定所述索引的第二相應元素,其中所述第二相應元素包括反映含有所述第二子序列部分的所述參照核酸序列的一個或多個位置的位置數據;並在所述參照核酸序列的一個或多個位置處將所述第二子序列與所述參照核酸序列進行比較。9.權利要求8的系統,其中所述預定數目的鹼基是16個鹼基。10.-種用於檢測SNP的系統,其包含:處理器;和存儲可由所述處理器執行的指令的存儲器,所述指令用於:接收代表多個比對的核酸序列的數據;基於所述多個比對的核酸序列,生成共有序列;將所述共有序列與參照核酸序列比較;並當所述共有序列的元素與所述參照核酸序列的相應元素錯配時,且當與所述共有序列元素相關的置信度水平超過預定的置信度閾值時,確定所述共有序列的元素是SNP。11.權利要求10的系統,其中所述預定的置信度閾值是〇.80。12.在一種或多種核酸序列的樣品中鑑定一個或多個物種的系統,其包含:處理器;和存儲可由所述處理器執行的指令的存儲器,所述指令用於:接收代表核酸序列的數據;在所述數據中鑑定所述核酸序列的多個子序列;將所述多個子序列與多個索引中的每一個比對,其中每個索引代表至少一個參照核酸序列;對於每個參照核酸序列,計算與所述參照核酸序列比對的子序列的數目相對於子序列的總數目的比率;並輸出計算比率。13.權利要求12的系統,其中輸出計算比率還包括:展示3個最高的計算比率和相關參照核酸序列的標識(identification);或展示超過預定的比率閾值的計算比率。【文檔編號】G06F19/22GK104217134SQ201410228956【公開日】2014年12月17日申請日期:2014年5月27日優先權日:2013年5月29日【發明者】S.託馬斯,N.德林傑申請人:諾布裡斯股份有限公司