呼吸系統對應的基因的突變位點的獲取方法及裝置與流程
2023-10-10 10:30:34 2

本申請涉及生物信息技術領域,具體而言,涉及一種呼吸系統對應的基因的突變位點的獲取方法及裝置。
背景技術:
隨著醫學、基因組學和高通量測序技術的發展和成熟,精準醫療(Precision Medicine)也在世界各國應用,成為新型的醫療模式。精準醫療為將個人基因、環境與生活習慣差異考慮在內的疾病預防與處置的醫療方法,依據每個人的遺傳信息,個性化、精準化的去制定醫療和健康管理方案。
而每個人的遺傳背景是有區別的,在此過程中,就需要確定每個人的基因組或者某些與相應器官或者位置相關聯的基因的突變情況,以使能夠根據該鹼基突變情況進一步分析對比,確定最終的患病可能性,以指定相應的醫療和健康管理方案。
呼吸疾病即為呼吸系統疾病,呼吸疾病的發病率較高,如肺氣腫、支氣管哮喘、肺纖維化症等均為高發疾病。
由於呼吸疾病的發病情況與遺傳基因具有一定的聯繫,呼吸系統對應的基因的位點鹼基突變情況不同,可能使呼吸系統的不同呼吸疾病的發病情況及發病機率不同。於是,可以利用精準醫療模式,根據呼吸系統對應的基因的鹼基突變情況以及其他信息的結合對呼吸疾病的發病情況及機率進行預測,以對呼吸疾病進行預防是一種有效的預防方式。
現有的對呼吸系統基因位點突變情況的確定,通常是通過化學方式獲取待測基因的某一指定位置的基因位點的鹼基突變情況,該獲取方式獲取的突變位點的數量有限,通常只能獲得某一個或某幾個鹼基的突變情況,不能同時確定待測基因中與呼吸系統對應的基因的儘可能多的多個變異位點的突變情況,使後續結合其他信息對呼吸疾病的患病情況的預測結果可能出現較大偏差。
技術實現要素:
有鑑於此,本申請實施例提供了一種呼吸系統對應的基因的突變位點的獲取方法及裝置,通過將待測基因的變異位點與呼吸系統基因庫中的呼吸系統對應的基因的多個變異位點進行比較,從而可以獲得待測基因中的呼吸系統對應的基因的多個變異位點的鹼基突變情況,以改善上述問題。
為了實現上述目的,本申請採用的技術方案如下:
一種呼吸系統對應的基因的突變位點的獲取方法,所述方法包括:將待測基因的多個短序列與參考基因組進行數據比對,獲得待測基因的初步變異位點信息,所述初步變異位點信息中包括多個初步變異位點的突變鹼基以及每個初步變異位點的位置信息;根據所述初步變異位點信息,將所述多個初步變異位點中不滿足預設保留條件的變異位點刪除,將刪除後獲得的所述待測基因中的變異位點作為待檢位點;將所述待檢位點與呼吸系統基因庫中的呼吸系統對應的基因的多個變異位點進行比較,所述呼吸系統基因庫中包括呼吸系統對應的基因的每個變異位點的突變鹼基以及每個變異位點所在位置;當所述待檢位點中存在與所述呼吸系統基因庫中位置相同且突變鹼基相同的變異位點,獲得所述待測基因中呼吸系統對應的基因的位點突變情況。
一種呼吸系統對應的基因的突變位點的獲取裝置,所述裝置包括:比對模塊,用於將待測基因的多個短序列與參考基因組進行數據比對,獲得待測基因的初步變異位點信息,所述初步變異位點信息中包括多個初步變異位點的突變鹼基以及每個初步變異位點的位置信息;過濾模塊,用於根據所述初步變異位點信息,將所述多個初步變異位點中不滿足預設保留條件的變異位點刪除,將刪除後獲得的所述待測基因中的變異位點作為待檢位點;比較模塊,用於將所述待檢位點與呼吸系統基因庫中的呼吸系統對應的基因的多個變異位點進行比較,所述呼吸系統基因庫中包括呼吸系統對應的基因的每個變異位點的突變鹼基以及每個變異位點所在位置;突變獲取模塊,當所述待檢位點中存在與所述呼吸系統基因庫中位置相同且突變鹼基相同的變異位點,用於獲得所述待測基因中呼吸系統對應的基因的位點突變情況。
本申請實施例提供的呼吸系統對應的基因的突變位點的獲取方法及裝置,在獲得待測基因的變異位點的情況下,將待測基因的變異位點中與呼吸系統基因庫中呼吸系統對應的基因的多個變異位點進行比較,呼吸系統基因庫中包括呼吸系統對應的基因的每個變異位點的突變鹼基以及每個變異位點所在位置。當待測基因中存在與呼吸系統基因庫中位置相同且突變鹼基相同的變異位點,可以確定該待測基因中存在呼吸系統對應的基因突變。
由於呼吸系統基因庫中包括與呼吸系統相關的多個變異位點,則本方案可以確定待測基因中與呼吸系統相關的多個變異位點,以及該多個變異位點的具體鹼基突變情況。
為使本申請的上述目的、特徵和優點能更明顯易懂,下文特舉較佳實施例,並配合所附附圖,作詳細說明如下。
附圖說明
為使本申請實施例的目的、技術方案和優點更加清楚,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本申請一部分實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本申請保護的範圍。
圖1示出了本申請實施例提供的計算機的結構示意圖;
圖2示出了本申請第一實施例提供的呼吸系統對應的基因的突變位點的獲取方法的一種流程圖;
圖3示出了本申請第一實施例提供的呼吸系統對應的基因的突變位點的獲取方法的部分步驟的流程圖;
圖4示出了本申請第二實施例提供的呼吸系統對應的基因的突變位點的獲取裝置的功能模塊圖;
圖5示出了本申請第二實施例提供的呼吸系統對應的基因的突變位點的獲取裝置的基因庫建立模塊的功能模塊圖;
圖6示出了本申請第二實施例提供的呼吸系統對應的基因的突變位點的獲取裝置的過濾模塊的功能模塊圖;
圖7示出了本申請第二實施例提供的呼吸系統對應的基因的突變位點的獲取裝置的比對模塊的功能模塊圖。
具體實施方式
下面將結合本申請實施例中附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。通常在此處附圖中描述和示出的本申請實施例的組件可以以各種不同的配置來布置和設計。因此,以下對在附圖中提供的本申請的實施例的詳細描述並非旨在限制要求保護的本申請的範圍,而是僅僅表示本申請的選定實施例。基於本申請的實施例,本領域技術人員在沒有做出創造性勞動的前提下所獲得的所有其他實施例,都屬於本申請保護的範圍。
應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨後的附圖中不需要對其進行進一步定義和解釋。同時,在本申請的描述中,術語「第一」、「第二」等僅用於區分描述,而不能理解為指示或暗示相對重要性。
如圖1所示,是本申請計算機100的方框示意圖。所述計算機100包括呼吸系統對應的基因的突變位點的獲取裝置200、存儲器101、存儲控制器102、處理器103、外設接口104、輸入輸出單元105及其他。
所述存儲器101、存儲控制器102、處理器103、外設接口104以及輸入輸出單元105各元件相互之間直接或間接地電性連接,以實現數據的傳輸或交互。例如,這些元件相互之間可通過一條或多條通訊總線或信號線實現電性連接。所述呼吸系統對應的基因的突變位點的獲取裝置200包括至少一個可以軟體或固件(firmware)的形式存儲於所述存儲器101中或固化在所述計算機100的作業系統(operating system,OS)中的軟體功能模塊。所述處理器103用於執行存儲器101中存儲的可執行模塊,例如所述呼吸系統對應的基因的突變位點的獲取裝置200包括的軟體功能模塊或電腦程式。
其中,存儲器101可以是,但不限於,隨機存取存儲器(Random Access Memory,RAM),只讀存儲器(Read Only Memory,ROM),可編程只讀存儲器(Programmable Read-Only Memory,PROM),可擦除只讀存儲器(Erasable Programmable Read-Only Memory,EPROM),電可擦除只讀存儲器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存儲器101用於存儲程序,所述處理器103在接收到執行指令後,執行所述程序,前述本申請實施例任一實施例揭示的流過程定義的計算機100所執行的方法可以應用於處理器103中,或者由處理器103實現。
處理器103可能是一種集成電路晶片,具有信號的處理能力。上述的處理器103可以是通用處理器,包括中央處理器(Central Processing Unit,簡稱CPU)、網絡處理器(Network Processor,簡稱NP)等;還可以是數位訊號處理器(DSP)、專用集成電路(ASIC)、現成可編程門陣列(FPGA)或者其他可編程邏輯器件、分立門或者電晶體邏輯器件、分立硬體組件。可以實現或者執行本申請實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器103也可以是任何常規的處理器等。
所述外設接口104將各種輸入/輸出裝置耦合至處理器103以及存儲器101。在一些實施例中,外設接口104,處理器103以及存儲控制器102可以在單個晶片中實現。在其他一些實例中,他們可以分別由獨立的晶片實現。
輸入輸出單元105用於提供給用戶輸入數據實現用戶與所述計算機的交互。所述輸入輸出單元可以是,但不限於,數據讀取裝置、滑鼠和鍵盤等。
可以理解的,圖1所示的結構僅為示意,計算機100還可以包括比圖1中所示更多或更少的組件,或者具有與圖1所示不同的配置。圖1中所示的各組件可以採用硬體、軟體或其組合實現。
第一實施例
本申請實施例提供了一種呼吸系統對應的基因的突變位點的獲取方法,用於獲取待測基因中與呼吸系統相關的基因的變異位點的鹼基突變情況。請參見圖2,該方法包括:
步驟S110:將待測基因的多個短序列與參考基因組進行數據比對,獲得待測基因的初步變異位點信息,所述初步變異位點信息中包括多個初步變異位點的突變鹼基以及每個初步變異位點的位置信息。
首先,獲取待測基因的多個短序列,該短序列可以是通過第二代測序平臺輸出。將待測基因的短序列與參考基因組進行比對。如,若待測基因為人類基因,該參考基因組則為人類參考基因組。
當然,該比對過程可以包括多次比對以及去重等過程,得到比對後的包括多個變異位點的初步變異位點信息。
具體的,如圖3所示,在本實施例中,本步驟中的數據比對以獲取初步變異位點信息的過程可以包括:
步驟S111:將所述待測基因的多個短序列與參考基因組進行首次比對,獲得SAM格式的比對結果。
將待測基因的短序列與參考基因組進行數據比對,該比對過程可以利用現有的比對軟體進行,如Bowtie2,可以獲得SAM格式的比對結果,該SAM格式的比對結果中存儲有比對後獲得的比對信息。可以理解的,在該SAM格式的比對結果中,包括了待測基因中各個鹼基的信息,如位置信息。
當然,具體使用的比對軟體以及比對結果的表示方式在本實施例中並不作為限制,以能將待測基因的多個短序列與參考基因組進行比對並獲得表示比對結果的比對信息為宜。
步驟S112:對所述比對結果進行去重,使對比到參考基因組的一個位置的短序列個數小於或等於1。
步驟S111獲得的比對結果中,有一定比例的重複序列和結果,例如,對比到參考基因組的同一位置可能有多個短序列,於是,在本步驟中,將比對結果進行去重。
在本實施例中,可以利用軟體Picard進行去重工作。具體的,利用的可以是Picard的MarkDuplicate工具去重,獲得bam格式的去重結果。
步驟S113:對去重後的對比結果進行本地重比對(local multiple alignment)。
由於獲得的與參考基因組進行比對的短序列很難精確的比對到高度相似的重複區域,於是在基因組的重複區域很容易得到假陽性的變異位點,如假陽性的SNPs。可以理解的,假陽性的變異位點即為比對結果錯誤的變異位點。為了降低假陽性變異位點的數量和比例,在本實施例中,對去重後的對比結果進行本地重比對。
具體的,該本地重比對(local multiple alignment)可以使用GATK中IndelRealigner進行,獲得bam格式的重比對後的比對結果。該比對過程一般有三個步驟,a.檢測到可疑的,需要進行重比對的區域;b.對這些可疑的區域進行重比對;c.修復在重比對過程中丟失的mate pairing信息。
步驟S114:重新計算本地重比對後的比對結果中的鹼基質量分數。
在前述處理過程中的步驟S111中,每個單一的鹼基都會在數據處理過程中被賦予一個質量分數(Quality scores),用於反映相應的鹼基被觀察到的核苷酸的可信度。
由於前述處理過程中獲得的質量分數沒有較好地和錯誤的分型結果可能性聯繫起來,同時單一鹼基的質量分數,沒有和其他參數相例子聯繫,比如在同一個樣品中不同測序平臺,不同測序循環,不同文庫等進行聯繫。
因此,在本步驟中S114中,將每個鹼基的質量分數與測序過程中的各個因子相聯繫,對每個鹼基的質量分數進行重新計算,生成新的質量分數,以用於判斷每個鹼基是否可信。
具體的,在本實施例中,可以使用GATK進行empirical quality score recalibration,獲得bam格式的結果。
步驟S115:根據所述鹼基質量分數,對本地重比對後的對比結果進行SNP和indel分析,獲得初步變異位點信息。
根據重新計算獲得的鹼基質量分數,對本地重比對獲得的比對結果進行SNP和indel的初步判讀,對其進行SNP和indel分型,以獲得包括多個變異位點的變異位點信息,該變異位點信息作為初步變異位點信息,該包括的多個變異位點作為初步變異位點。可以理解的,在該初步變異位點信息中,包括了多個初步變異位點的突變鹼基,以及每個變異位點所在位置。在本實施例中,變異位點為SNP和indel,優選的,在本實施例中,變異位點僅為SNP。
具體的,在本步驟中,可以是利用GATK的Unified Genotyper進行分析。因為在完成SNPs的分型後,採用了很多數據過濾參數對數據再次進行過濾,以進一步控制數據質量,所以在本步驟中將standard minimum confidence thresholds都設置為零。可以理解的,SNPs表示SNP的複數形式。
當然,該SNP和indel的初步判讀過程也可以用其他方式進行,在本實施例中並不作為限制,也可以是其他,如GATK的HaplotypeCaller進行。
在該步驟中,可以獲得包括初步變異位點信息的vcf文件,該vcf文件中的初步變異位點信息中包括在步驟S110中獲得的各個變異位點以及每個變異位點對應的位置信息,當然,還包括其他,在此不加贅述。
步驟S120:根據所述初步變異位點信息,將所述多個初步變異位點中不滿足預設保留條件的變異位點刪除,將刪除後獲得的所述待測基因中的變異位點作為待檢位點。
在步驟S110中,獲得的初步變異位點信息中的初步變異位點中,仍可能存在假陽性的變異位點,於是,本步驟對初步變異位點進行進一步過濾,刪除其中假陽性可能性較高的變異位點,以刪除後的結果中的變異位點作為該待測基因中的變異位點,使最後獲得的變異位點更加準確。可以理解的,刪除後的結果中還包括了每個變異位點的位置信息以及其他信息,在此不做贅述。
具體的,在本步驟中,可以包括如下一種或多種刪除不滿足預設保留條件的變異位點的方式:
方式一:去除所述多個初步變異位點中,等位基因的個數大於預設閾值的變異位點。
等位基因大於預設閾值的變異位點,是假陽性變異位點的可能性較高,對其進行去除。在本實施例中,該預設閾值可以根據實際需要取值,由於包含大於1個以上等位基因的位點就具有較高的基因分型錯誤,優選的,該預設閾值的取值可以為1。
當預設閾值取值為1,即去除獲得的多個初步變異位點中具有1個以上等位基因的變異位點。
方式二:刪除所述多個初步變異位點中,位於每個插入缺失(indel)的上遊範圍或者下遊範圍內的所有變異位點,所述上遊範圍和下遊範圍包括的鹼基個數為預設個數。
由於用於數據比對的短序列常由二代測向平臺輸出,而二代測序平臺的短序列在靠近插入缺失(indel)的區域更容易產生錯誤的比對,而上述處理過程中的本地重比對不能完全消除這一錯誤。於是,將插入缺失上遊範圍或者下遊範圍內的所有變異位點刪除,以降低假陽性結果的可能性。
該上遊範圍和下遊範圍包括的鹼基個數為預設個數,該預設個數可以由用戶根據實際需求確定,在本實施例中並不作限制,並且,上遊範圍以及下遊範圍的預設個數可以相同或者不同。
在本實施例中,上有範圍包括的鹼基個數優選為5個,下遊範圍包括的鹼基個數優選為5個。即,確定初步變異位點中的所有indel,針對每一個indel,將其上遊5bp(5個鹼基)之內的所有變異位點刪除,或者將其下遊5bp之內的所有變異位點刪除。
當然,在本實施例中,可以只刪除indel的上遊範圍內的變異位點或者下遊範圍內的變異位點,也可以將indel的上遊範圍內的變異位點以及下遊範圍內的變異位點都刪除。
優選的,在本實施例中,刪除的為插入缺失(indel)的上遊範圍或者下遊範圍內的所有SNPs。
方式三:將所述多個初步變異位點中,彼此之間間隔預設鹼基個數的變異位點刪除。
在本步驟中,將彼此靠近的變異位點刪除,即將彼此之間距離小於一定值的變異位點刪除。
在本實施例中,該預設鹼基個數並不作為限制,可以根據實際需要設定。
優選的,該預設鹼基個數為4個,若存在彼此之間間隔的鹼基個數小於4個的變異位點,將其刪除。也就是說,刪除在彼此上遊或下遊5bp之內的變異位點。
優選的,該步驟中,刪除的為彼此之間間隔預設鹼基個數的SNPs。
方式四:將所述多個初步變異位點中,對應的GQ(Genotype quality)值小於預設GQ閾值的變異位點刪除。
GQ(Genotype quality)是一個後驗概率(the phred-scaled probabilities)值,對於每一個位點,GQ值用以表示當前獲得的基因分型結果中該位點不是真實情況的可能性,即表示獲得的在該位點該基因型存在的可能性。計算方式為:
GQ值=-10*log10(P[error]),其中,P[error]表示相應的位點不是真實情況的概率。
優選的,在本實施例中,預設GQ閾值為20。經驗證,當GQ閾值為20時,理論上的錯誤率為1%。
方式五:將所述多個初步變異位點中,對應的MQ(Mapping quality)值小於預設MQ閾值的變異位點刪除。
MQ表示在比對序列時的專一性(uniqueness)。當同一個短序列可以比對到同一個基因組不同區域時,第一最好比對區域(the first best alignment)的比對分數(alignment's score)與第二最好比對區域(the second best alignment)的比對分數,兩者差異越大,表明比對的專一性越好,MQ的值就越高。
在本實施例中,認為MQ值小於預設MQ閾值的變異位點具有較高的可能性為假陽性,將其刪除。
優選的,在本實施例中,預設MQ閾值取值為30。經驗證,MQ取值為30時,P[error]=0.001,即相對於比對到當前位置,比對到另一個位置的可能性最高為0.1%。
在本發明實施例中,方式一至方式五為可選的執行方式,即在本步驟中,可採用其中的某一種方式、某幾種方式或者所有的方式。當使用多種方式進行不滿足預留條件的變異位點的刪除時,該多種方式之間的執行順序並不作為限制。當然,該多種方式也可以並行執行。
另外,該步驟120中,當有多種方式被順序執行時,後續的步驟可以在前續步驟的基礎上執行。例如,若執行方式一的去除所述多個初步變異位點中等位基因的個數大於預設閾值的變異位點,以及方式三中的,將所述多個初步變異位點中彼此之間間隔預設鹼基個數的變異位點刪除,且先執行方式一,再執行方式三。則在方式三中,刪除的可以是方式一處理後的變異位點中彼此之間間隔預設鹼基個數的變異位點。
步驟S120對初步變異位點進行刪除過濾後,獲得的最終結果中的變異位點作為待測基因的待檢位點,可以以vcf格式文件表示。
步驟S130:將所述待檢位點與呼吸系統基因庫中的呼吸系統對應的基因的多個變異位點進行比較,所述呼吸系統基因庫中包括呼吸系統對應的基因的每個變異位點的突變鹼基以及每個變異位點所在位置。
在本發明實施例中,首先建立呼吸系統基因庫,該呼吸系統基因庫中包括呼吸系統對應的基因的每個變異位點的突變鹼基以及每個變異位點所在位置。
該呼吸系統基因庫在步驟S130的比較之前建立。具體的,該建立過程可以是,獲取COSMIC基因資料庫、NCBI的clivar資料庫、其他國際國內各大權威學術期刊雜誌、基因檢測公司以及政府有關部門公布的基因資料庫中,與呼吸系統相關的基因位點信息。主要獲取的為包括呼吸系統對應的基因的每個變異位點的鹼基突變情況以及每個變異位點所在位置的所述基因位點信息。
當然,獲取基因位點信息的數據來源也可以是其他,在本實施例中並不作為限制。
進一步的,獲取的基因位點信息中還可以包括呼吸系統對應的基因的每個變異位點的每種突變鹼基對蛋白質功能的影響,即獲取到某個變異位點的鹼基由正常鹼基突變到當前的突變鹼基,會對相應的蛋白質的功能產生何種影響。
當然,在本實施例中,獲取的基因位點信息中還可以包括:每個突變位點對應的基因名字簡寫、基因名字全稱、此位點在人類基因組中的坐標、對應的組織器官類型、基因突變類型、正常基因在此位點的鹼基、臨床研究此位點的此種突變是否致病、原始突變發現的人群、原始突變攜帶者病人的性別、原始突變攜帶者病人的年紀、原始突變記錄的來源中的一種或多種。
再將所述基因位點信息中可信度低於預設標準的以及錯誤的基因位點信息刪除,獲得的基因位點信息形成所述呼吸系統基因庫。
在本實施例中,低於預設標準的基因位點信息包括以下至少一種:
1)從非SCI期刊或在業內聲譽很差的期刊獲取到的基因位點信息,該業內聲譽很差的期刊可以是影響因子低於一定值的期刊或其他評判標準下不滿足要求的期刊;2)記載該基因位點信息的原始文獻中所用的樣品數量低於一定值以至於不足以得出科學的結論的;3)在記載該基因位點的原始文獻中,該基因位點並不是文獻中發現的最重要基因位點,該最重要的基因位點可以是獲取到的結果中前10%的位點。
錯誤的基因位點信息包括以下至少一種:1)獲取的資料庫中記載該基因位點信息的原始文獻在實質上並沒有報導此位點;2)記載該基因位點的原始文獻中,該基因位點的結果在統計學上為非顯著。
當然,預設標準以及基因位點信息錯誤的判定標準,在本實施例中並不作為限制,可以根據實際情況確定。
進一步的,由於對呼吸系統相關的基因研究不斷進行,與呼吸系統相關的基因的變異位點的突變情況會處於更新中,且在當前的呼吸系統基因庫中並不一定存在所有呼吸系統的相關基因的變異位點突變情況,於是,在本發明實施例中,還包括每隔預設時間段對所述呼吸系統資料庫進行更新。
具體的更新過程可以是,每隔預設時間段,獲取最新發表在國際權威學術雜誌,如Nature,Nature Genetics等上發表的與呼吸系統相關的研究論文,將獲得的研究論文中最新的與呼吸系統相關的基因位點信息,刪除其中可信度低於預設標準的以及錯誤的基因位點信息,加入到呼吸系統資料庫中以實現更新。
獲得呼吸系統基因庫後,將待檢位點與呼吸系統資料庫中的呼吸系統對應的基因的多個變異位點進行比較。
在本實施例中,該比較過程可以是在步驟S120的獲得待檢位點後直接進行,也可以是由用戶觸發進行。即在接收到用戶觸發的查詢請求後,執行該步驟S130中的比較。
另外,也可以是,用戶輸入步驟S120中獲得的待檢位點中的一個或多個,步驟S130中將用戶輸入的待檢位點與呼吸系統基因庫中的呼吸系統對應的基因的多個變異位點進行比較。
另外,也可以是,用戶直接從呼吸系統基因庫中獲取呼吸系統相關的變異位點。具體的,用戶通過輸入輸出單元輸入基因名字、位點在基因組的坐標等信息。在接收到用戶輸入的信息後,根據用戶輸入的信息在呼吸系統基因庫中進行查找,將查找結果,如基因名字、位點坐標、鹼基突變類型等各種信息進行顯示。若呼吸系統基因庫中查找到用戶輸入的信息,則證明該輸入信息對應的基因位點與呼吸系統相關,且存在鹼基突變。可以理解的,位點在基因組的坐標即為位點的位置。
步驟S140:當所述待檢位點中存在與所述呼吸系統基因庫中位置相同且突變鹼基相同的變異位點,獲得所述待測基因中呼吸系統對應的基因的位點突變情況。
當比較結果為,待檢位點中存在與呼吸系統資料庫中相同的變異位點,則可以根據呼吸系統資料庫中該相同的變異位點確定該待測基因中有呼吸系統對應的基因的位點突變,且突變情況與呼吸系統資料庫中該相同的變異位點一致。於是,可以獲得待測基因中有哪些與呼吸系統相關的基因的變異位點以及每個與呼吸系統相關的變異位點的具體突變情況,該突變情況包括在哪個位置的哪一個鹼基突變為哪一個鹼基。
可以理解的,相同的變異位點指變異位點的位置相同且鹼基突變情況相同,即在同一個位置具有相同的突變鹼基,認為是待檢位點中與呼吸系統資料庫中相同的變異位點。呼吸系統對應的基因即與呼吸系統相關的基因。
於是,相關人員可以根據獲得的待測基因中呼吸系統對應的基因的位點突變情況,以及其他信息,如呼吸系統相關基因的每種突變情況下可能的患病情況,確定該待測基因對應的對象的呼吸系統患病情況。
進一步的,在本實施例中,還可以根據所述待測基因中呼吸系統對應的基因的位點突變情況,以及呼吸系統資料庫中呼吸系統對應的基因的每個變異位點的每種突變鹼基對蛋白質功能的影響,確定所述待測基因中每個變異位點的突變對蛋白質功能的影響,從而可以確定待測基因對應的對象(如對應的人)的哪些與呼吸系統相關的蛋白質功能受到了影響,受到了哪些影響。以使相關專業人員可以根據蛋白質功能的影響,結合其他信息,如蛋白質功能改變與器官具體功能的作用關係等,判斷該待測基因對應的對象的呼吸疾病患病機率以及可能患哪些呼吸疾病。
當然,在本發明實施例中,也可以是直接包括每種變異位點的突變情況對呼吸疾病的致病情況,如對支氣管哮喘的影響可能包括致病、可能致病、危險因素、不確定、有衝突的研究結果、良性,其中某個位置某種突變鹼基的致病情況為危險因素,表明該位置有該種突變鹼基的對象患支氣管哮喘的機率非常高,需要注意預防。
第二實施例
本實施例提供了一種呼吸系統對應的基因的突變位點的獲取裝置200,請參見圖4,該裝置200包括:
比對模塊210,用於將待測基因的多個短序列與參考基因組進行數據比對,獲得待測基因的初步變異位點信息,所述初步變異位點信息中包括多個初步變異位點的突變鹼基以及每個初步變異位點的位置信息。
過濾模塊220,用於根據所述初步變異位點信息,將多個初步變異位點中不滿足預設保留條件的變異位點刪除,將刪除後獲得的所述待測基因中的變異位點作為待檢位點。
比較模塊230,用於將所述待檢位點與呼吸系統基因庫中的呼吸系統對應的基因的多個變異位點進行比較,所述呼吸系統基因庫中包括呼吸系統對應的基因的每個變異位點的突變鹼基以及每個變異位點所在位置。
突變獲取模塊240,當所述待檢位點中存在與所述呼吸系統基因庫中位置相同且突變鹼基相同的變異位點,用於獲得所述待測基因中呼吸系統對應的基因的位點突變情況。
進一步的,呼吸系統基因庫中還包括呼吸系統對應的基因的每個變異位點的每種突變鹼基對蛋白質功能的影響,本實施例中的突變獲取模塊240還用於根據所述待測基因中呼吸系統對應的基因的位點突變情況,確定所述待測基因中每個變異位點的突變對蛋白質功能的影響。
進一步的,本實施例中,如圖4所示,還包括基因庫建立模塊250,用於建立呼吸系統基因庫,所述基因庫建立模塊250包括:數據獲取單元251,用於獲取COSMIC基因資料庫、NCBI的clivar資料庫中與呼吸系統相關的基因位點信息,所述基因位點信息中包括呼吸系統對應的基因的每個變異位點的突變鹼基以及每個變異位點所在位置。數據刪除單元252,用於將所述基因位點信息中可信度低於預設標準的以及錯誤的基因位點信息刪除,獲得的基因位點信息形成所述呼吸系統基因庫。
進一步的,如圖5所示,該基因庫建立模塊250還包括更新單元253,用於每隔預設時間段對所述呼吸系統基因庫進行更新。
進一步的,如圖6所示,在本實施例中,過濾模塊220包括以下一種或多種:第一刪除單元221,用於去除所述多個初步變異位點中,等位基因的個數大於預設閾值的變異位點。第二刪除單元222,用於刪除所述多個初步變異位點中,位於每個插入缺失的上遊範圍或者下遊範圍內的所有變異位點,所述上遊範圍和下遊範圍包括的鹼基個數為預設個數。第三刪除單元223,用於將所述多個初步變異位點中,彼此之間間隔預設鹼基個數的變異位點刪除。第四刪除單元224,用於將所述多個初步變異位點中,對應的GQ值小於預設GQ閾值的變異位點刪除。第五刪除單元225,用於將所述多個初步變異位點中,對應的MQ值小於預設MQ閾值的變異位點刪除。
在本實例中,請參見圖7,比對模塊210可以包括:比對單元211,用於將所述待測基因的多個短序列與參考基因組進行首次比對,獲得SAM格式的比對結果;去重單元212,用於對所述比對結果進行去重,使對比到參考基因組的一個位置的短序列個數小於或等於1;重比對單元213,用於對去重後的對比結果進行本地重比對;計算單元214,用於重新計算本地重比對後的比對結果中的鹼基質量分數;初判單元215,用於根據所述鹼基質量分數,對本地重比對後的對比結果進行SNP和indel分析,獲得初步變異位點信息。
綜上所述,本發明實施例提供的呼吸系統對應的基因的突變位點的獲取方法及裝置,在獲得待測基因的待測位點後,將待測位點與呼吸系統基因庫中對應的基因的多個變異位點進行比較,從而可以獲得該待測基因中的變異位點中與呼吸系統相關的多個變異位點的突變情況,以用於輔助呼吸系統疾病的可能患病情況的判斷。
需要說明的是,本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對於裝置類實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
在本申請所提供的幾個實施例中,應該理解到,所揭露的裝置和方法,也可以通過其它的方式實現。以上所描述的裝置實施例僅僅是示意性的,例如,附圖中的流程圖和框圖顯示了根據本申請的多個實施例的裝置、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。也應當注意,在有些作為替換的實現方式中,方框中所標註的功能也可以以不同於附圖中所標註的順序發生。例如,兩個連續的方框實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執行規定的功能或動作的專用的基於硬體的系統來實現,或者可以用專用硬體與計算機指令的組合來實現。
另外,在本申請各個實施例中的各功能模塊可以集成在一起形成一個獨立的部分,也可以是各個模塊單獨存在,也可以兩個或兩個以上模塊集成形成一個獨立的部分。
所述功能如果以軟體功能模塊的形式實現並作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基於這樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的部分可以以軟體產品的形式體現出來,該計算機軟體產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,伺服器100,或者網絡設備等)執行本申請各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:U盤、移動硬碟、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光碟等各種可以存儲程序代碼的介質。需要說明的是,在本文中,諸如第一和第二、另一等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語「包括」、「包含」或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句「包括一個……」限定的要素,並不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
以上所述僅為本申請的優選實施例而已,並不用於限制本申請,對於本領域的技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本申請的保護範圍之內。應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨後的附圖中不需要對其進行進一步定義和解釋。
以上所述,僅為本申請的具體實施方式,但本申請的保護範圍並不局限於此,任何熟悉本技術領域的技術人員在本申請揭露的技術範圍內,可輕易想到變化或替換,都應涵蓋在本申請的保護範圍之內。因此,本申請的保護範圍應所述以權利要求的保護範圍為準。