一種基於snp晶片的綜合基因組育種值估計方法及應用的製作方法
2024-04-05 15:10:05 1
一種基於snp晶片的綜合基因組育種值估計方法及應用的製作方法
【專利摘要】本發明屬於生物信息學【技術領域】,提供了一種基於SNP晶片的綜合基因組育種值估計方法,步驟S1,獲取數據文件,並對數據文件進行預處理,獲得可靠的預處理數據;步驟S2,對步驟S1獲得的預處理數據進行基因組育種值估計,利用GBLUP方法估計基因組育種值,或者利用貝葉斯方法估計基因組育種值,獲得單個性狀的個體基因組育種值;步驟S3,綜合基因組育種值估計,重複步驟S2,獲得多個性狀的個體基因組育種值,計算綜合基因組育種值。本方法整合了SNP晶片信息、系譜信息、表型信息,可對動物的育種選留做出判斷,可推進基因組選擇在國內動物育種領域的應用,可更好地發揮基因組選擇在動物育種領域的優勢。
【專利說明】—種基於SNP晶片的綜合基因組育種值估計方法及應用
【技術領域】
[0001]本發明屬於生物信息學【技術領域】,具體涉及一種基於SNP晶片的綜合基因組育種值估計方法及應用。
【背景技術】
[0002]遺傳學理論和計算機廣泛應用於動物育種是現代動物育種的基本特徵。自20世紀80年代以來,基於育種值進行的畜禽選種選配成為畜禽育種的主要方法,育種值估計成為動物遺傳育種的核心內容。育種值估計方法的實質就是利用個體本身和(或)親屬的性狀記錄,進行適當加權來提高選擇的準確性。
[0003]隨著分子生物學及計算機技術的發展,大量分子標記信息被發現,育種學家開始探索將基因組信息添加到畜禽的遺傳評定中,從而實現個體的早期選擇及降低世代間隔和育種成本,同時還可以實現對低遺傳力性狀和閾性狀較好的選擇效果。當前,應用基因組信息的模型主要包括兩種,一種是標記輔助選擇方法(MAS);另一種是基因組選擇方法(GS)。標記輔助選擇方法是應用了部分基因組信息作為多基因信息的輔助信息,而基因組選擇是標記輔助選擇的擴展,它試圖應用整個基因組信息對動物個體進行遺傳評定,從而實現對真實育種值的剖分。
[0004]基因組選擇方法的提出解決了標記輔助選擇所面臨的問題。基因組選擇方法的原理是應用整個基因組高密度標記圖譜信息和表型信息估計每個標記或染色體片段的效應值,通過所有效應值的加和從而得到基因組估計育種值。基因組選擇的一個基本假設是,影響數量性狀的每一個QTL都與高密度全基因組標記圖譜中的至少一個標記處於連鎖不平衡(linkage disequilibrium, LD)狀態。因此,基因組選擇能夠追溯到所有影響QTL,從而克服傳統標記輔助選擇中標記解釋遺傳方差較少的缺點,實現對育種值的準確預測。
[0005]目前,基因組選擇已廣泛應用於各國畜禽分子育種中,尤其在奶牛、豬和雞育種方面,我國也在此領域進行了初步研究和應用。與常規的僅基於系譜信息的動物遺傳評定不同,基因組選擇涉及到晶片數據的處理、動物個體基因組育種值估計和包含多個性狀的綜合育種值計算等多方面,其利用信息更多、計算量更大,因此需要一個高效的平臺進行分子數據、表型數據、系譜信息、基因組育種值計算等信息的整合,以實現畜禽分子育種的自動化和系統化。
【發明內容】
[0006]育種值:種畜的種用價值,在數量遺傳學中把決定某一數量性狀的基因加性效應總和稱為某一性狀的個體育種值。
[0007]基因組育種值:個體全基因組的SNP效應累加得到的育種值。
[0008]綜合育種值:根據不同性狀育種上和經濟上的重要性差異,將多個不同性狀的育
η
種值加權合併,可表示為,ai為某個體性狀i的育種值,Wi為性狀i的權重。
i=i[0009]參考群體:群體內個體具有SNP晶片基因型信息和表型數據信息,根據此參考群體可以估計整個基因組SNP標記效應,進而預測候選群體個體的基因組育種值。
[0010]候選群體:由僅具有SNP晶片基因型信息的個體組成。
[0011]針對現有技術不足,本發明的目的是提供一種基於SNP晶片的綜合基因組育種值估計方法及應用。
[0012]為實現上述目的,本發明提供了一種基於SNP晶片的綜合基因組育種值估計方法,包括以下步驟:
[0013]步驟SI,獲取數據文件,並對所述數據文件進行預處理,獲得可靠的預處理數據;
[0014]步驟S2,對步驟SI獲得的預處理數據進行基因組育種值估計,利用GBLUP方法估計基因組育種值,或者利用貝葉斯方法估計基因組育種值,獲得單個性狀的個體基因組育種值;
[0015]步驟S3,綜合基因組育種值估計,重複步驟S2,獲得多個性狀的個體基因組育種值,計算綜合基因組育種值。
[0016]優選的,所述步驟SI包括:
[0017]步驟S11,獲取SNP晶片數據及預處理,包括SNP晶片數據讀取、缺失基因型填充;
[0018]步驟S12,獲取系譜文件及預處理,向上追溯父母系譜5-10代;
[0019]步驟S13,獲取表型數據及預處理,篩選步驟S12中所述系譜文件中個體表型值。
[0020]更優選的,所述步驟SI具體包括:
[0021]步驟S11,獲取SNP晶片數據,並採用壓縮格式存儲文件以節省硬碟空間;所述缺失基因型填充利用Beagle程序將晶片基因型中存在缺失的SNP標記或個體進行填充,提高晶片基因型檢測質量;
[0022]步驟S12,根據所述步驟Sll中SNP晶片數據個體,從系譜文件中篩選具有SNP晶片信息的個體,向上追溯父母系譜信息5-10代,根據SNP信息對系譜文件父母及後代親緣關係進行親子鑑定並根據親子鑑定結果調整原始系譜文件,當原始系譜文件親子關係與親子鑑定結果不一致時,系譜文件按親子鑑定結果重新編排,其中,系譜文件包含個體、母號、父號三個欄位信息。
[0023]優選的,步驟Sll中,所述缺失基因型填充之後還包括基因型質量控制。
[0024]優選的,所述基因型質量控制的質量控制參數為每個SNP標記檢出率和最小等位基因頻率、哈代-溫伯格平衡檢驗、個體檢出率。
[0025]優選的,步驟S2中,
[0026]所述利用GBLUP方法估計基因組育種值,數據的選擇分為僅選擇基因組信息、或者選擇基因組信息和僅具有SNP基因型個體的系譜信息、或者選擇基因組信息和系譜信息;
[0027]所述利用貝葉斯方法估計基因組育種值,數據選擇僅基因組信息,通過馬爾科夫鏈蒙特卡洛算法估計SNP晶片中每個SNP標記的效應。
[0028]優選的,數據僅選擇基因組信息利用GBLUP方法估計基因組育種值,根據SNP晶片數據文件和表型數據文件,建立參考群體和候選群體間基於分子信息的個體親緣關係矩陣一G陣,並求逆,通過混合模型方程組求解候選群體的基因組育種值;
[0029]數據選擇基因組信息和剩餘多基因信息利用GBLUP方法估計基因組育種值,建立參考群體和候選群體間基於分子信息的個體親緣關係矩陣一G陣,並建立參考群體和候選群體個體間基於系譜信息的血緣關係矩陣一A陣,並對G陣和A陣求逆,通過混合模型方程組求解候選群體的基因組育種值;
[0030]數據選擇基因組信息和系譜信息利用GBLUP方法估計基因組育種值,根據參考群體和候選群體信息,增加有表型數據信息但無基因型信息的個體進入參考群體,擴大參考群體規模,建立參考群體和候選群體關係的親緣關係矩陣一H陣,並求逆,通過混合模型方程組求解候選群體的基因組育種值。
[0031]優選的,步驟S3中,所述綜合基因組育種值估計有兩種方法:
[0032](I)不考慮系譜指數(父母親育種值平均值),將每個性狀的經濟加權值作為權重,加權生成綜合基因組育種值,用於個體選擇;
[0033]或者,(2)考慮系譜指數,首先對單個性狀,將個體系譜指數與其基因組育種值加權合併為一個新值作為該性狀最終的基因組育種值,合併權重分別是該個體系譜指數和基因組育種值的可靠性,獲得所有性狀新的基因組育種值後,根據(I)所述計算綜合基因組育種值。
[0034]本發明的另一目的是,提供了一種基於SNP晶片的綜合基因組育種值估計方法在動物育種方面的應用。
[0035]本發明的有益效果:
[0036]1、本方法整合了 SNP晶片信息、系譜信息、表型信息,根據動物的SNP信息即可對動物的育種選留做出判斷,做到了動物分子育種的自動化和系統化;
[0037]2、本方法運用科學語言Fortran編寫而成,可以採用多線程計算,可加快計算,縮短計算時間,適合在Linux和Windows系統下進行運算;
[0038]3、本方法可推進基因組選擇在國內動物育種領域的應用,可更好地發揮基因組選擇在動物育種領域的優勢。
【專利附圖】
【附圖說明】
[0039]圖1實施例1中本發明方法的流程圖;
[0040]圖2實施例1中GBLUP類方法構建關係矩陣流程圖;
[0041 ] 圖3實施例3中本發明方法的流程圖。
【具體實施方式】
[0042]以下實施例用於說明本發明,但不用來限制本發明的範圍。
[0043]實施例1
[0044]實驗數據是5439頭中國荷斯坦牛母牛,出生於2004-2012年間,所有母牛進行了Illunima50K SNP晶片(含54001SNP標記)基因型測定,並對5個產奶性狀產奶量、乳蛋白量、乳蛋白率、乳脂量、乳脂率進行了傳統育種值估計,參見圖1,包括以下步驟:
[0045]步驟SI,獲取數據文件,並對所述數據文件進行編輯預處理,獲得可靠的預處理數據;
[0046]步驟SI I,讀取SNP晶片數據文件,首先用Beagle程序進行缺失基因型填充,然後選取SNP最小等位基因頻率(MAF)0.01作為質量控制標準,剔除最小等位基因頻率(MAF)低於0.01和染色體位置未知的SNP,最終47160SNP用於分析;
[0047]步驟S12,根據5439頭母牛系譜信息,向上追溯10代資料,包含130852個體,用於A陣構建;
[0048]步驟S13,選取步驟S12中130852頭個體5個產奶性狀育種值作為表型,生成最終表型數據文件。
[0049]步驟S2,對步驟SI獲得的預處理數據進行基因組育種值估計,利用GBLUP方法估計基因組育種值,獲得單個性狀的個體基因組育種值。
[0050]選定參考群體和候選群體:將5439頭母牛分為兩部分,4455頭2008年前出生的母牛作為參考群體,984頭2008年和2008後出生的母牛作為候選群體。
[0051]選擇利用基因組信息和系譜信息的GBLUP方法,如圖2所示,具體包括以下步驟:
[0052]①根據5439頭有基因型信息的母牛構建G陣並求逆。
[0053]其中,根據標記文件中SNP信息構建G陣。
[0054]
【權利要求】
1.一種基於SNP晶片的綜合基因組育種值估計方法,其特徵在於,所述方法包括: 步驟Si,獲取數據文件,並對所述數據文件進行預處理,獲得可靠的預處理數據; 步驟S2,對步驟SI獲得的預處理數據進行基因組育種值估計,利用GBLUP方法估計基因組育種值,或者利用貝葉斯方法估計基因組育種值,獲得單個性狀的個體基因組育種值; 步驟S3,綜合基因組育種值估計,重複步驟S2,獲得多個性狀的個體基因組育種值,計算綜合基因組育種值。
2.根據權利要求1所述的方法,其特徵在於,所述步驟SI包括: 步驟S11,獲取SNP晶片數據及預處理,包括SNP晶片數據讀取、缺失基因型填充; 步驟S12,獲取系譜文件及預處理,向上追溯父母系譜5-10代; 步驟S13,獲取表型數據及預處理,篩選步驟S12中所述系譜文件中個體表型值。
3.根據權利要求2所述的方法,其特徵在於,所述步驟SI具體包括: 步驟S11,獲取SNP晶片數據,並採用壓縮格式存儲文件以節省硬碟空間;所述缺失基因型填充利用Beagle程序將晶片基因型中存在缺失的SNP標記或個體進行填充,提高晶片基因型檢測質量; 步驟S12,根據所述步驟Sll中SNP晶片數據個體,從系譜文件中篩選具有SNP晶片信息的個體,向上追溯父母系譜信息5-10代,根據SNP信息對系譜文件父母及後代親緣關係進行親子鑑定並根據親子鑑定結果調整原始系譜文件,當原始系譜文件親子關係與親子鑑定結果不一致時,系譜文件按親子鑑定結果重新編排,其中,系譜文件包含個體、母號、父號二個欄位息。
4.根據權利要求2或3所述的方法,其特徵在於,步驟Sll中,所述缺失基因型填充之後還包括基因型質量控制。
5.根據權利要求4所述的方法,其特徵在於,所述基因型質量控制的質量控制參數為每個SNP標記檢出率和最小等位基因頻率、哈代-溫伯格平衡檢驗、個體檢出率。
6.根據權利要求1所述的方法,其特徵在於,步驟S2中, 所述利用GBLUP方法估計基因組育種值,數據的選擇分為僅選擇基因組信息、或者選擇基因組信息和僅具有SNP基因型個體的系譜信息、或者選擇基因組信息和系譜信息; 所述利用貝葉斯方法估計基因組育種值,數據選擇僅基因組信息,通過馬爾科夫鏈蒙特卡洛算法估計SNP晶片中每個SNP標記的效應。
7.根據權利要求6所述的方法,其特徵在於,數據僅選擇基因組信息利用GBLUP方法估計基因組育種值,根據SNP晶片數據文件和表型數據文件,建立參考群體和候選群體間基於分子信息的個體親緣關係矩陣一G陣,並求逆,通過混合模型方程組求解候選群體的基因組育種值; 數據選擇基因組信息和剩餘多基因信息利用GBLUP方法估計基因組育種值,建立參考群體和候選群體間基於分子信息的個體親緣關係矩陣一G陣,並建立參考群體和候選群體個體間基於系譜信息的血緣關係矩陣一A陣,並對G陣和A陣求逆,通過混合模型方程組求解候選群體的基因組育種值; 數據選擇基因組信息和系譜信息利用GBLUP方法估計基因組育種值,根據參考群體和候選群體信息,增加有表型數據信息但無基因型信息的個體進入參考群體,擴大參考群體規模,建立參考群體和候選群體關係的親緣關係矩陣一H陣,並求逆,通過混合模型方程組求解候選群體的基因組育種值。
8.根據權利要求1所述的方法,其特徵在於,步驟S3中,所述綜合基因組育種值估計有兩種方法: (1)不考慮系譜指數,將每個性狀的經濟加權值作為權重,加權生成綜合基因組育種值,用於個體選擇; 或者,(2)考慮系譜指數,首先對單個性狀,將個體系譜指數與其基因組育種值加權合併為一個新值作為該性狀最終的基因組育種值,合併權重分別是該個體系譜指數和基因組育種值的可靠性,獲得所有性狀新的基因組育種值後,根據(I)所述計算綜合基因組育種值。
9.根據權利要求1-8任一所述的方法在動物育種方面的應用。
【文檔編號】G06F19/24GK103914631SQ201410067189
【公開日】2014年7月9日 申請日期:2014年2月26日 優先權日:2014年2月26日
【發明者】丁向東, 張勤, 李秀金, 王勝, 張哲 , 王重龍, 黃菊, 李樂義 申請人:中國農業大學