一種基於蛋白質質譜數據注釋真核生物基因組的生物信息學方法與流程
2023-06-03 04:42:51
本發明屬於生物信息學領域,具體涉及一種基於蛋白質質譜數據注釋真核生物基因組的生物信息學方法。
背景技術:
基因組測序只能測出整個dna的鹼基對排列順序,不能直接測出dna上的基因及其功能,必須通過生物信息學方法,結合蛋白組學、轉錄組學,對測出來的序列進行分析,將基因及其功能加以挖掘、注釋,這稱作基因注釋。
基因組注釋(genomeannotation)是利用生物信息學方法和工具,對基因組所有基因的生物學功能進行高通量注釋,是當前功能基因組學研究的一個熱點。
基因結構的預測對於發現新基因、了解基因組結構規律具有重要意義,是各類基因組計劃的重要內容。目前,無論是對於原核生物還是真核生物,對基因組的預測注釋方法主要有三種:第一種是利用已有的轉錄數據來識別基因組中基因編碼區的轉錄作圖法;第二種方法是利用計算算法從統計學的角度來預測基因和調節元件的基因結構統計建模法;第三種是比較其它物種基因組序列中的保守區域進行基因預測的同源建模法。
1、轉錄作圖法(transcriptionmapping)
轉錄作圖法是利用已有的轉錄數據來識別基因組中的基因編碼區。將反轉錄的cdna進行測序分析,以mrna轉錄本作為基因結構注釋的依據,被認為是基因序列結構注釋的「金標準」。但該方法存在一些不足:如由於mrna具有不穩定性,部分基因很難獲得全長mrna序列;某些物種中轉錄本編碼的是操縱子而不是基因;由於翻譯框的不確定性以及翻譯起始位點易受多種因素的影響,依靠mrna來決定起始密碼子和終止密碼子比較困難。也是由於上述原因,轉錄信息在大多數基於基因序列特徵的統計建模的基因預測軟體中僅作為補充。
2、基因結構統計建模法
基因結構統計建模法是利用計算算法從統計學的角度來預測基因和調節元件,是以從頭計算(abinitio)為基礎的軟體直接從序列本身提取有關基因的信息,基於廣義隱馬爾可夫模型(generalizedhiddenmarkovmodel,ghmm)的數據結構,並通過使用機器學習所構建的方法,例如glimmer、gfenesh、genemarks、mgene、evigan和genemark等方法。
3、同源建模法
同源建模法是基於基因組中的功能元件在進化過程中保守的特點,通過比較其它物種基因組序列中的保守區域進行基因預測,是整合了資料庫中已經存在的外部信息來進行預測注釋,例如augustus、jigsaw、eugene、geneid和critica等方法。
現今注釋流水線(annotationpipeline)已經被普遍採用,例如ensembl的流水線,ncbi的gnomon和ucsc的knowngenes。但是當同時使用多個基因組注釋軟體時就會出現注釋的差異性。排除基因組測序質量因素,此類差異首先與給定的注釋的證據的支持強度有關,如某一段序列的長度和上下遊信息不充足就會使得小基因、短外顯子和讀碼框移碼的預測變得很困難;某些特殊密碼子的使用也可能造成基因預測的錯誤;非標準的起始和終止密碼子可以用來標定orfs,然而在某些情況下,標準終止密碼在真核生物中編碼硒代半胱氨酸或古細菌中編碼吡咯賴氨酸。某些時候,即使預測是正確的,有些類型的基因僅僅編碼rna而不會翻譯,其最終產物可能是非編碼的rna(ncrna)或者可以部分激活的假基因,其rnas沒有編碼蛋白質的功能並會很快被降解。最後,由於不同的物種具有不同的基因組,導致使用從頭計算工具需要為每一個新的基因組進行機器學習訓練。
而傳統的基因組注釋方法(例如生物信息學預測和同源信息比對等)在鑑定精度和深度上受到了較大的限制。相對於基因組學和轉錄組學,基於質譜技術的蛋白質組學直接研究編碼基因翻譯出的蛋白質產物,比轉錄組學注釋基因組獲得的結果更直接,而且可以發現由於知識不足導致的基因從頭預測算法遺漏的基因和基因結構注釋的錯誤。因此,為了完善基因組注釋,使用蛋白質組學數據注釋基因組,即蛋白基因組學(proteogenomics),是繼基因組學和轉錄組學之後發展起來的又一項新興高通量基因組注釋技術。」蛋白質基因組學「一詞由jaffe等於2004年首次提出,作者採用串聯質譜數據匹配dna翻譯得到胺基酸序列的研究方法成功應用於運動型支原體(mycoplasmamobile)基因組的注釋過程中。後來這種分析方法被應用到注釋病毒基因組,原核生物基因組以及真核生物基因組。
蛋白基因組學直接對編碼基因的表達產物--蛋白質進行研究,不僅能在蛋白質水平上驗證基因表達和基因精細模式,還能提供蛋白質組層面特有的信息,如翻譯後修飾、信號肽等。該方法有別於基因組學、轉錄組學和功能基因組學,對解釋基因組注釋結果和理解生命現象來說是非常重要的。在無法獲得轉錄組數據的研究內容中,比如動物的血液和其他組織液中,蛋白質基因組學更是起到了不可替代的作用。另外,基於蛋白質基因組學的策略還可以被用在通過分析蛋白質水平來鑑定一些基於個體的序列變異導致的癌症,並確定其中最相關的變異上。2011年國際人類蛋白質研究組織(hupo)啟動人類蛋白質組計劃,通過整合多組學數據對可變剪接、snp以及三類主要翻譯後修飾(磷酸化、乙醯化、糖基化)進行注釋以加深人們對蛋白質(基因)功能的理解,從而指導疾病的研究,這是蛋白質基因組學一個重要的嘗試和應用。而2014年在nature雜誌上發布的人類蛋白質組草圖的工作標誌著蛋白基因組學已成為目前基因組注釋和功能研究的有力工具。越來越多的研究人員提倡在基因組注釋工程中加入標準蛋白質組分析作為互補,甚至直接採用蛋白質基因組學的方法對完成測序的基因組進行注釋,體現了蛋白質基因組學在蛋白質組層面上注釋基因組特有的優勢。
自2004年蛋白基因組學的概念被首次提出,10多年的時間已經過去了。這些年間,得益於質譜技術的重大突破及蛋白質分離和富集方法的進步和rna-seq等轉錄組學研究的飛速發展,使得蛋白質組學研究中的關鍵問題靈敏性和準確性得到很大的解決。這也推動蛋白基因組學分析方法、流程設計的發展,以及各種流程化和系統化分析軟體的產生。這些方法流程已被應用於一些物種基因組的重注釋。儘管能從這些方法流程的建立中獲益,但目前蛋白基因組學分析方法的研究尚處於起步階段,其分析方法在計算上仍具有挑戰,不可避免的存在一些問題:a.數據搜索的局限性:直接使用基因組構建真核生物蛋白基因組資料庫,加上其他搜索條件帶來的搜索空間的迅速膨脹,不可避免的會拉長搜索時間並降低質譜匹配的敏感性(鑑定數目)和特異性(正確鑑定數目)。面對真核生物龐大的基因組數據,通過何種方法構建蛋白基因組搜索資料庫,才能應對數據膨脹帶來的負面效應?b.精準鑑定:數據分析後端缺乏可靠而深入的信息學分析和評估策略,錯誤注釋沒有被有效地過濾,直接影響了基因組注釋質量。尤其對於真核蛋白基因組分析,關注重點在新肽段的鑑定,搜索結果混合有已注釋肽段和新肽段,傳統的全局發現錯誤率評估未考慮新肽段類別錯誤率問題,致使研究結果帶有較高的假陽性。雖然考慮了新肽段類別錯誤率問題,但數據分析端仍缺少準確評估新肽段類別錯誤率的策略。因此,如何正確的評估新肽段與已注釋肽段的發現錯誤率、提高鑑定結果的精準度仍然是一個具有挑戰性的問題。c.深度分析:目前的蛋白基因組學研究主要集中在核酸層(即編碼基因注釋和基因結構注釋),而更深入的、對蛋白功能研究更重要的蛋白組層面特有的現象卻很少觸及。比如翻譯後修飾-對基因組功能注釋具有重要的作用。翻譯後修飾的分析能開啟蛋白基因組學研究新的方向嗎?如何實現翻譯後修飾的大規模鑑定?d.標準化的應用:除了過高的新肽段發現錯誤率,數據分析端鑑定結果篩選標準的寬鬆性,也會使研究結果中混入過多的錯誤注釋。同時,由於篩選標準的多樣化,使得同一種分析手段確得到不同的研究結果。因此,建立蛋白質組基因學研究共同的數據分析的標準是極其有必要的。標準的蛋白基因組分析流程能提升研究結果的準確性和一致性,然而研究人員常常需要手動綜合多種工具來完成整個流程的數據分析,極大加重了研究人員的工作負擔。自動化的流程處理能為新物種的蛋白基因組分析帶來便利,如何將理論和實際分析的經驗想結合,開發一套完整而標準的適用於真核生物的蛋白基因組分析軟體來支持分析工作,是目前從事相關分析的研究人員急切希望解決的。此外,該領域內還存在著一些亟待解決的問題,比如,哪些新的剪切變異體片段可以被翻譯成穩定的有功能的蛋白質?dna變異的數據如何在蛋白質組水平調控發揮提供有價值的信息?
技術實現要素:
本發明的目的是為了克服上述現有技術的缺陷和問題而提供一種基於蛋白質質譜數據注釋真核生物基因組的生物信息學方法。具體方法包括(1)構建高覆蓋度的真核生物多組學序列資料庫;(2)去除真核蛋白序列資料庫冗餘;(3)質譜原始數據格式轉換;(4)採用多種不同算法的資料庫搜尋引擎,分別對質譜數據進行檢索;(5)對檢索及處理後的結果分別進行肽段圖譜匹配打分;(6)對經類別fdr體系評估後的結果數據進行篩選;(7)驗證已注釋編碼基因;(8)鑑定未注釋新基因;(9)可變剪接的鑑定;(10)功能性點突變的鑑定;(11)針對蛋白質翻譯後修飾進行大規模鑑定;(12)新基因和翻譯後修飾的功能性注釋。
1.構建高覆蓋度的真核生物多組學序列資料庫
(a)建立六閱讀框翻譯資料庫
使用真核生物的基因組序列進行六閱讀框翻譯。建庫時充分考慮真核生物的翻譯特性,例如採用真核生物的標準密碼子表和物種特異性的密碼子表進行資料庫序列翻譯。按照中心法則和終止子-終止子(stop-to-stop)翻譯方式,在真核基因組上三個連續鹼基翻譯成一種胺基酸,以三位為周期,加上dna雙鏈因素,翻譯出六種不同的、長度大於38的全酶切肽段,構建六閱讀框翻譯序列資料庫。
(b)建立n端肽段資料庫
已有文獻報導真核生物中存在除了以atg翻譯起始密碼子外的其他翻譯起始密碼子(比如gtg和ttg)。三連密碼子作為翻譯起始密碼子,只會翻譯成甲硫氨酸。所以同一種密碼子在一條蛋白序列中可能對於兩種不同的胺基酸,即起始的胺基酸和中間序列的胺基酸。且翻譯過程中無法確定蛋白的翻譯起始位點。為了校正已注釋基因的翻譯起始位點注釋錯誤或鑑定新的翻譯起始位點,我們在六閱讀框翻譯資料庫建立的基礎上,考慮多種起始密碼子,枚舉所有長度大於38且以甲硫氨酸開頭的全酶切肽段。
(c)建立從頭預測蛋白序列資料庫
為了提高鑑定翻譯起始位點的鑑定,同時為新基因的鑑定提供證據,我們使用開源的genemarks軟體包的隱馬爾可夫模型算法結合蛋白編碼模型、非編碼區域集和基因調控位點集,產生編碼蛋白基因的從頭預測序列,來構建從頭預測蛋白序列資料庫。
(d)建立轉錄組翻譯序列資料庫
考慮到不同的數據來源,擬通過兩種方式構建轉錄本翻譯序列資料庫。第一種方式,ncbi、ensemble、ucsc等公共資料庫上有該物種組裝好的轉錄本數據,直接下載到本地。逐一對其轉錄本序列,按照中心法則和終止子-終止子翻譯方式,考慮真核生物的特異性的密碼子,僅考慮單鏈因素,翻譯出三種不同的、長度大於38的全酶切肽段,構建三閱讀框翻譯的轉錄組序列資料庫。第二種方式,公共資料庫上沒有該物種組裝好的轉錄本數據,則可在ncbi上下載該物種的轉錄組測序數據,使用開源軟體trinity將轉錄組測序片段自組裝成轉錄組序列。根據(a)步驟的建庫策略,繼續構建三閱讀框翻譯的轉錄組序列資料庫。
(e)整合多組學資料庫
建立多組學資料庫會出現不同資料庫之間序列的重複,則需將其重複序列去除,降低資料庫的冗餘性。胺基酸序列相同而命名編號不同的序列,則保留一條胺基酸序列,命名編號需按單斜槓重新拼接成。同時由於基因組測序和組裝中存在準確性和完整性的局限,基因組序列中不可避免的會出現「n」,建庫過程中被翻譯成「x」。為了提高後續分析的精準性,出現三個以上「x」資料庫序列被過濾。
2.去除真核蛋白序列資料庫冗餘
(a)從對應的公共資料庫上下載該物種的非編碼rna、假基因、未編碼基因序列和est序列數據,分別按照中心法則和終止子-終止子翻譯方式,考慮雙鏈因素,翻譯成六種不同的、長度大於38的全酶切肽段序列。
(b)按照第一點(e)步驟的整合策略,將上一步驟中創建的四類資料庫,整合成去冗餘資料庫。
(c)對構建的真核蛋白序列資料庫進行過濾。假如真核蛋白序列資料庫中出現與去冗餘資料庫相同的序列,這些序列將從真核蛋白序列資料庫中移除,縮減其資料庫容量。
(d)對去冗餘的真核蛋白序列資料庫,根據序列長度和胺基酸字母排序,創建數據字典、建立序列索引,重建並優化其資料庫的存儲結構,為後續進一步的高效率的資料庫搜索和數據分析打下基礎。
3.質譜原始數據格式轉換
由於不同品牌的質譜儀產生的下機原始數據格式不同,為了提升後續資料庫搜索和數據分析的統一性與效用性,我們擬使用開源的proteowizard質譜數據轉換軟體,將每一個質譜原始數據轉換成標準的mgf數據格式。proteowizard軟體可以處理來自不同格式的質譜原始數據,也方便集成至現有的流程軟體中(比如gape軟體)。轉換後的mgf格式數據,使用來自openms的peakpickerhires工具進行質心校正,然後被openms中的filemerger工具統一進行數據融合。
4.複合式搜尋引擎策略
為了提升蛋白基因組學肽段鑑定的靈敏性,擬採用多種不同算法的資料庫搜尋引擎,分別對質譜數據進行檢索。比如,x!tandem(搜索算法基於超幾何分布模型),msamanda(基於累積二項分布函數來確定顯著性的譜圖肽段匹配),ms-gf+(使用標量積打分功能去評估計算譜圖肽段匹配),omssa(使用泊松分布算法來確定顯著性的譜圖肽段匹配),comet(則使用基於不同屬性的參數的經驗打分算法)等等。資料庫檢索完成之後,分別對五種搜尋引擎的結果進行格式歸一化,處理並整合成統一的結果數據格式。
5.建立新肽段類別發現錯誤率評估方法
對檢索及處理後的結果分別進行肽段圖譜匹配打分。將打分後的結果肽段使用內建的blastp算法回帖到物種蛋白庫和基因組上,並將結果肽段分類為已注釋肽段譜圖匹配(能夠比對到蛋白庫上)和廣義新肽段譜圖匹配(未能比對到蛋白庫上)。針對已注釋肽段譜圖匹配結果,根據打分結果利用靶標-誘餌資料庫搜索來計算全局fdr,對鑑定結果進一步的評價,以獲得可靠的肽段譜圖匹配結果;針對鑑定到的廣義新肽段譜圖匹配結果(突變肽段、可變剪接肽段、未注釋肽段等)建立假髮現率評估技術體系,主要結合全局fdr去推算各類別fdr,建立更加可信的適合蛋白質基因組學研究的肽譜匹配打分和評價方法,提高鑑定結果精準度。
6.建立嚴苛過濾標準
我們擬採用一套嚴苛的篩選標準體系,對經類別fdr體系評估後的結果數據進行篩選。首先,擬採用以下標準對其結果數據進行全局性過濾:(a)過濾同一張譜圖匹配到被不同搜尋引擎鑑定到的不同肽段序列的肽段譜圖匹配結果;(b)一個肽段比對到不同的基因組位置的肽段譜圖匹配結果(共享肽段),也被過濾掉;(c)過濾掉長度小於7的肽段結果;(d)過濾汙染庫序列以及反庫序列。其次,針對鑑定到的廣義新肽段結果(突變肽段、可變剪接肽段、未注釋肽段等)擬使用以下過濾標準:(e)過濾掉長度大於29aa的肽段結果;(f)僅保留全酶切的肽段結果;(g)含有脫醯胺化修飾或者脲甲基化修飾的肽段譜圖匹配被過濾掉;(h)過濾單肽段序列(一個肽段序列只對應一個蛋白)。
7.驗證已注釋編碼基因
已注釋肽段的結果經過嚴苛過濾標準過濾後,被回溯到基因組上用於驗證已注釋編碼基因的表達和結構。
8.鑑定未注釋新基因
建立轉錄本數據與基因組數據之間的索引文件,將經過第六步驟嚴苛篩選標準過濾後的廣義新肽段的結果比對到索引文件上,比對上的結果被用來篩選未注釋新肽段。該類肽段不包含在原注釋蛋白資料庫中,但可與核酸序列信息匹配(genomesearchspecificpeptide,gssp),它們被回溯至基因組進行重注釋並分類,同時通過自主研發的基因預測算法鑑定新基因和校正已注釋基因的結構。最後,綜合多組學的信息對重注釋的新基因結果進行驗證(如利用mrna表達數據輔助蛋白確認),提高注釋結果的可信度。
9.可變剪接的鑑定
廣義新肽段的結果經上一步篩選後,另一部分的新肽段集合首先被用來在肽段水平上鑑定跨越剪接位點的肽段。擬對該部分新肽段按位置從左至右依次循環分割成兩段胺基酸片段,通過直接枚舉的方法比對到六閱讀框翻譯資料庫上,參考標準剪接位點的組合形式(gt/ag,gc/ag或at/ac)在規定長度內枚舉可能的外顯子剪接位點,並確認跨越剪接位點的肽段。該種算法鑑定到的跨越剪接位點的肽段,可能會因字符排列上的隨機性和偶然性導致錯配。因此我們通過延長新肽段分割的兩段胺基酸片段分別匹配到的六閱讀框翻譯序列,建立一種評估方法來從鑑定的跨越剪接位點肽段中,篩選高可信度的可變剪接肽段。之後,基於自主研發的基因預測算法,針對篩選的高可信度可變剪接肽段集合進行新基因鑑定,以發現因可變剪接而未能預測到的新基因以及校正已注釋基因的結構。同時也會綜合多組學的信息(如mrna表達數據)對重注釋的新基因結果進行驗證。
10.功能性點突變的鑑定
擬對廣義新肽段集合過濾未注釋新肽段集合與跨越剪接位點肽段集合,來獲得可能存在功能性點突變的新肽段集合。點突變新肽段集合中長度小於10的肽段被過濾掉。之後,點突變的新肽段被比對到六閱讀框翻譯資料庫上,通過自主研發的功能性點突變搜索算法,搜索最多任意兩個點突變的新肽段。該點突變搜索算法在比對中可能會因胺基酸字符排列上的隨機性和偶然性導致錯配。所以我們通過上一步所述的評估方法從鑑定到的功能性點突變肽段中,篩選高可信度的點突變肽段。
11.針對蛋白質翻譯後修飾進行大規模鑑定
擬建立海量質譜數據中蛋白質非限制性翻譯後修飾分析的新算法,結合unimod蛋白質翻譯後修飾類型資料庫,通過開放式蛋白序列資料庫檢索,鑑定不同類型的已知和未知的蛋白質翻譯後修飾,並對翻譯後修飾位點實施精準定位評估,提升質譜數據鑑定的準確度,實現真核生物翻譯後修飾的快速大規模發現和精準解析。同時,建立質譜數據中蛋白質非特異酶切肽段鑑定的新算法,結合非特異酶切肽段檢索鑑定結果和預測工具(如signalp、predisi等),對蛋白質n端的信號肽進行注釋與驗證。
12.新基因和翻譯後修飾的功能性注釋
新基因(包括未被注釋肽段和可變剪接肽段注釋的新基因)的注釋通過執行go(geneontology)功能注釋來完成。鑑定到的新基因通過使用blastp算法比對到來自於ncbi的uniref資料庫上,並通過得到的每個新基因的e-value值來篩選。然後,再將其結果比對到go功能資料庫上,挑選最合適的功能標籤對新基因進行注釋。翻譯後修飾結果的注釋使用cog(clusteroforthologousgroupsofproteins)功能注釋來完成。鑑定到的翻譯後修飾蛋白被比對到cog資料庫上,同時進行數據轉換、處理和整合來實現翻譯後修飾的注釋。
附圖說明
為了更清楚地說明本發明專利的技術方案,下面將對本方法的技術路線以附圖的形式作簡單地介紹。
圖1為一種基於蛋白質質譜數據注釋真核生物基因組的生物信息學方法的路線圖。
具體實施方式
展示一下實例來具體說明發明的某些實施例,且不應解釋為限制本發明的範圍。對本發明公開的內容可以同時從材料、方法和反應條件進行改進,所有這些改進,均應落入本發明的的精神和範圍之內。
實施案例
黃麴黴菌質譜數據10g,建立六閱讀框翻譯資料庫、n端肽段資料庫、從頭預測蛋白序列資料庫、轉錄組翻譯序列資料庫、整合多組學資料庫,構建高覆蓋度的真核生物多組學序列資料庫。
從對應的公共資料庫上下載該物種的非編碼rna、假基因、未編碼基因序列和est序列數據,分別按照中心法則和終止子-終止子翻譯方式,考慮雙鏈因素,翻譯成六種不同的、長度大於38的全酶切肽段序列。
(b)按照第一點(e)步驟的整合策略,將上一步驟中創建的四類資料庫,整合成去冗餘資料庫。
(c)對構建的真核蛋白序列資料庫進行過濾。假如真核蛋白序列資料庫中出現與去冗餘資料庫相同的序列,這些序列將從真核蛋白序列資料庫中移除,縮減其資料庫容量。
(d)對去冗餘的真核蛋白序列資料庫,根據序列長度和胺基酸字母排序,創建數據字典、建立序列索引,重建並優化其資料庫的存儲結構。
用x!tandem(搜索算法基於超幾何分布模型),msamanda(基於累積二項分布函數來確定顯著性的譜圖肽段匹配),ms-gf+(使用標量積打分功能去評估計算譜圖肽段匹配),omssa(使用泊松分布算法來確定顯著性的譜圖肽段匹配),comet(則使用基於不同屬性的參數的經驗打分算法)進行資料庫檢索。資料庫檢索完成之後,分別對五種搜尋引擎的結果進行格式歸一化,處理並整合成統一的結果數據格式。
對檢索及處理後的結果分別進行肽段圖譜匹配打分。將打分後的結果肽段使用內建的blastp算法回帖到物種蛋白庫和基因組上,並將結果肽段分類為已注釋肽段譜圖匹配(能夠比對到蛋白庫上)和廣義新肽段譜圖匹配(未能比對到蛋白庫上)。針對已注釋肽段譜圖匹配結果,根據打分結果利用靶標-誘餌資料庫搜索來計算全局fdr,對鑑定結果進一步的評價,以獲得可靠的肽段譜圖匹配結果;
(a)過濾同一張譜圖匹配到被不同搜尋引擎鑑定到的不同肽段序列的肽段譜圖匹配結果;(b)一個肽段比對到不同的基因組位置的肽段譜圖匹配結果(共享肽段),也被過濾掉;(c)過濾掉長度小於7的肽段結果;(d)過濾汙染庫序列以及反庫序列。其次,針對鑑定到的廣義新肽段結果(突變肽段、可變剪接肽段、未注釋肽段等)擬使用以下過濾標準:(e)過濾掉長度大於29aa的肽段結果;(f)僅保留全酶切的肽段結果;(g)含有脫醯胺化修飾或者脲甲基化修飾的肽段譜圖匹配被過濾掉;(h)過濾單肽段序列(一個肽段序列只對應一個蛋白)。
最後,通過該方法鑑定到黃麴黴菌93.8%的全部預測的編碼基因,鑑定到的肽段序列覆蓋了81.2%的編碼基因序列,發現了39種蛋白質的翻譯後修飾,發現了219個新基因,校正了47個預測的基因。
綜上所述,本發明解決了常規方法注釋真核生物基因組效率低,準確度低、覆蓋度低等一系列問題,全面提升蛋白質質譜數據分析的準確度和靈敏度,實現了對真核生物基因組的深度解析和注釋,具體有高效、準確、全面的特點。
雖然已經針對具體特徵對本發明作了詳細描述,然而本領域技術人員明顯可知,該描述僅是優選的實施方式,並不限制本發明的範圍,因此,本發明的實質範圍將通過所附權利要求及其等同體來限定。