一種基於基因對共表達模式動態關聯解析玉米籽粒類胡蘿蔔素代謝調控機制的方法與流程
2023-04-30 01:18:26 2

本發明屬於功能基因組學領域,具體涉及一種基於基因對共表達模式動態關聯解析玉米籽粒類胡蘿蔔代謝調控機制的方法。
背景技術:
玉米是一種類胡蘿蔔素含量豐富的作物,在主要的糧食作物中只有玉米含有維生素a源和對人體有益的葉黃素類的類胡蘿素,動物自身無法合成類胡蘿蔔素,須從食物中獲取。玉米籽粒中主要包括五種類胡蘿素:葉黃素,玉米黃素,β-隱黃質,α-胡蘿蔔素和β-胡蘿蔔素,約95%存儲在胚乳中,2-4%存儲在玉米麩皮中,胚中總類胡蘿蔔素的含量僅佔1%。玉米中類胡蘿蔔素的累積從授粉後10-15天開始,黃色籽粒玉米類胡蘿蔔素含量豐富並且遺傳力廣泛,是開發高維生素a源的良好材料。長期以來類胡蘿素含量等品質性狀在育種中並未被受到重視。據west統計發現:全球110多個國家,約有1億多兒童和700萬左右的孕婦受到維生素a缺乏的影響,每年有超過25萬的兒童因為維生素a缺乏失明,其中一半的失明兒童在1年內死亡。維生素a對視力和細胞的分化是必要的,嚴重的缺乏會導致夜盲以至於失明,發育緩慢,損害黏膜組織以及生殖紊亂。發展中國家是維生素a缺乏較為嚴重的地區之一。解決營養不良帶來的影響,對廣大發展中國家來仍是一大挑戰。
因此,解析類胡蘿蔔代謝途徑中關鍵基因之間的調控關係,結合關鍵基因對類胡蘿蔔素含量的表型貢獻,為分子標記輔助育種提供最佳的基因組合,對提高玉米中類胡羅素的含量對解決以玉米為主食的人群維生素a缺乏的現象有著重要的意義。
玉米籽粒類胡蘿蔔合成是複雜的數量性狀,受多基因控制,且具有較高的遺傳力。連鎖分析和關聯分析是目前較為常見的用來解析玉米類胡蘿蔔素合成和累積遺傳機理的方法,這兩種分析方法企在通過建立表型與基因型之間的聯繫,挖掘控制類胡蘿蔔表型性狀的遺傳位點,而這些遺傳位點之間相對獨立,它們之間的調控關係未知,並且傳統分析方法需要多年多點的表型鑑定,費時費力。我們將創新性的利用基因對共表達模式的動態關聯分析這一在酵母和人類中發展出來的新方法,挖掘類胡蘿蔔代謝途徑中上下遊基因之間的調控關係,解析籽粒類胡蘿蔔合成和累積的調控機制,為分子標記輔助育種提供最佳的基因組合。該研究思路創新,在植物學領域該項研究尚無報導。
技術實現要素:
針對現有問題中存在的類胡蘿蔔素累積的分子機制的研究的空白等問題,本發明提供了一種基於基因對共表達模式動態關聯解析玉米籽粒類胡蘿蔔代謝調控機制的方法,該方法通過動態關聯分析,以已知的玉米籽粒類胡蘿蔔代謝途徑中的關鍵基因為目標基因,鑑定關鍵基因之間的相互調控關係,從而解析玉米籽粒類胡蘿蔔代謝的調控機制,對玉米籽粒類胡蘿蔔生化強化提供優質的基因組合,以及為玉米其它農藝性狀的關鍵基因之間的調控關係研究提供思路和方法。
本發明所採用的具體技術方案為:
本發明提供了一種基於基因對共表達模式動態關聯解析玉米籽粒類胡蘿蔔代謝調控機制的方法,包括以下步驟:
(1)通過玉米基因組資料庫maizegdb下載類胡蘿蔔素代謝通路中的關鍵基因13個;
(2)收集玉米自交系授粉後15天的籽粒轉錄本測序獲得基因表達量數據,提取上述13個關鍵基因的表達量數據;
(3)動態關聯分析la模型的建立;
(4)利用動態關聯分析鑑定通路中關鍵基因之間的調控關係。
進一步的,所述玉米籽粒類胡蘿蔔素代謝通路中的關鍵基因為zds1,pds1,psy1,lcyb,lcye,hyd1,hyd4,cyp97a,crtrb1,cyp97c,zep2,zep1,vde。
進一步的,所述玉米自交系分成了2組:熱帶和亞熱帶、溫帶,小組內採用完全隨機區組法,設2個重複,每個自交系每個重複播種1行。所有材料均進行自交,收穫未成熟的授粉後15天的籽粒,每個自交系的兩個重複各取3-4穗,每穗取1-2粒籽粒,混合提取籽粒總rna,隨機選擇368個樣品用於rna-seq。
上述rna-seq具體包括以下步驟:首先,用ploy(t)寡聚核苷酸從總rna中抽取全部帶ploy(a)尾的rna,主要為mrna,然後將截獲的mrna隨機打斷成片段,用六鹼基隨機引物合成cdna第一鏈,並加入逆轉錄酶合成cdna第二鏈,經過試劑盒純化並對cdna片段進行末端修飾,連接測序接頭,再經瓊脂糖凝膠電泳回收目的大小片段,進行pcr擴增,從而完成整個文庫構建工作,構建好的文庫用illuminagaⅱ基因分析系統進行序列測定及分析,獲得基因表達量數據集。
本發明所得到的基因表達量數據集需要進行缺失值預處理:對於數據集中的每個基因,如果其表達值在高於30%的樣本中缺失,則在後續的分析中捨棄該基因。
進一步的,所述動態關聯分析方法為建立動態關聯分析模型,所述動態關聯分析模型la的數學定義如下:
la(x,y|z)=eg'(z)公式1
所述x,y和z表示玉米籽粒基因的表達量;
其中,所述x,y和z均為類胡蘿蔔代謝通路裡13個關鍵基因的表達量。假設x,y,z是均值為0,方差為1的連續隨機變量,則x,y的相關性表示為e(xy);la描述條件期望時,即當z=z,g(z)=e(xy|z=z),g(z)檢測的是當z=z時,xy基因對的共表達模式;g(z)的導數表示為g'(z),用於共表達模式變化的期望測定;la的數學定義如下:
當z符合標準正態分布時,la值可簡單的表示為la(x,y|z)=e(xyz);
則la(x,y|z)表示為:e(xyz)=(x1y1z1+x2y2z2+...+xmymzm)/m公式2。
la用來反應基因對共表達模式的動態變化,即當z基因表達量較高時,xy基因對的表達量呈正相關(co-regulated),e(xy|z=1)為正數;當z基因表達量較低時,xy基因對的表達量呈負相關(contra-regulated,),e(xy|z=0)為負數,因此基因對的表達調控模式由正相關(co-regulated)轉變為負相關(contra-regulated),la值記為正;相反,基因對的表達調控模式由負相關(contra-regulated)轉變為正相關(co-regulated),la值記為負。
進一步的,所述動態關聯分析模型通過隨機模擬的方法生成la值的參考分布,具體評估方法如下:混合所有基因的表達量值;在每次模擬中,用放回隨機抽樣法隨機抽取一對基因(x,y)的表達量值,z基因取全基因組所有基因,計算xy基因對在全基因組的la值,可分別得到la的正極大值和負極小值;重複模擬一百萬次,分別得到la的正值參考分布和負值參考分布。用la正負參考分布的99%分位數作為la正負顯著性閾值。
本發明的有益效果為:
(1)本發明基於動態關聯分析,挖掘類胡蘿蔔素代謝途徑中的13個關鍵基因的調控關係,解析籽粒類胡蘿蔔合成和累積的調控機制,為分子標記輔助育種提供最佳的基因組合,對提高玉米中胡蘿蔔素以及改善玉米品質有重要的意義。
(2)本發明基於同一個代謝途徑中的基因,表達模式相近這一科學假設,以類胡蘿蔔代謝途徑中關鍵基因的共表達模式動態關聯為突破口,可快速有效的解析類胡蘿蔔代謝途徑的調控機制;
(3)通過基因對共表達網絡的構建,可鑑定上下遊基因的調控關係;根據關鍵基因的調控關係,比如高表達的psy1以及低表達的lcye和crtrb1組合,為用於類胡蘿蔔的分子標記輔助育種中,可相較於傳統的單基因分子標記輔助育種,多基因組合可顯著提高育種效率。
附圖說明
圖1為本發明實施例1類胡蘿蔔素代謝通路圖。
圖2為本發明實施例1lcye調控基因對zep1和vde共表達模式
圖3為本發明實施例1vde調控基因對lcyb和cyp97a共表達模式。
圖4為本發明實施例1vde調控基因對lcyb和zep1共表達模式。
具體實施方式:
下面結合附圖和具體實施例對本發明作進一步說明,下述說明僅是實例性的,不限定本發明的保護範圍。
實施例1
一種本發明所述基於動態關聯分析挖掘玉米籽粒油脂代謝調控機制的方法,主要包括三步,類胡蘿蔔代謝通路中關鍵基因的收集、基因表達量數據的收集、關鍵基因之間調控關係的鑑定。
(1)類胡蘿蔔代謝通路中關鍵基因的收集:
通過maizegdb查找類胡蘿蔔素代謝通路中基因,分別為zds1,pds1,psy1,lcyb,lcye,hyd1,hyd4,cyp97a,crtrb1,cyp97c,zep2,zep1,vde。類胡蘿素代謝過程圖(1)。
(2)基因表達量數據的收集:
368份自交系(本發明所使用的玉米可為任意品種,本發明所使用的為中國農業大學宋同明教授培育的35份高油玉米自交系(yang等,2010b))於2010年在湖北荊州種植,根據系譜信息分成了2組(熱帶和亞熱帶、溫帶),小組內採用完全隨機區組法,設2個重複,每個自交系每個重複播種1行。所有材料均進行自交,收穫未成熟的授粉後15天(15dap)的籽粒,每個自交系的兩個重複各取3-4穗,每穗取1-2粒籽粒,混合提取籽粒總rna,隨機選擇368個樣品用於rna-seq。樣品的rna-seq工作是由深圳華大基因研究院(beijinggenomicsinstitute,bgi)完成,測序方法簡要描述如下:首先,用ploy(t)寡聚核苷酸從總rna中抽取全部帶ploy(a)尾的rna,主要為mrna,然後將截獲的mrna隨機打斷成片段,用六鹼基隨機引物(randomhexamers)合成cdna第一鏈,並加入逆轉錄酶等合成cdna第二鏈,經過試劑盒(ampurexpbeads)純化並對cdna片段進行末端修飾,連接測序接頭,再經瓊脂糖凝膠電泳回收目的大小片段,進行pcr擴增,從而完成整個文庫構建工作,構建好的文庫用illuminagaⅱ基因分析系統進行序列測定及分析。轉錄本測序獲得的368個玉米自交系中28769個基因的表達量數據,對基因表達量數據集進行的缺失值預處理如下:基因表達數據因為實驗中的噪聲、檢測技術等原因而存在缺失。對於數據集中的每個基因,如果其表達值在高於30%的樣本中缺失,則在後續的分析中捨棄該基因,獲取的13個基因的基因表達量見表1。
表1
(3)動態關聯分析模型的建立:
所述動態關聯分析方法為建立動態關聯分析模型,所述動態關聯分析模型la的數學定義如下:
la(x,y|z)=eg'(z)公式1
所述x,y和z表示玉米籽粒基因的表達量;
其中,所述x,y和z均為類胡蘿蔔代謝通路裡13個關鍵基因的表達量(表1,單位:rpkm),假設x,y,z是均值為0,方差為1的連續隨機變量,則x,y的相關性表示為e(xy);la描述條件期望時,即當z=z,g(z)=e(xy|z=z),g(z)檢測的是當z=z時,xy基因對的共表達模式;g(z)的導數表示為g'(z),用於共表達模式變化的期望測定;la的數學定義如下:
當z符合標準正態分布時,la值可簡單的表示為la(x,y|z)=e(xyz);
則la(x,y|z)表示為:e(xyz)=(x1y1z1+x2y2z2+...+xmymzm)/m公式2。
la用來反應基因對共表達模式的動態變化,即當z基因表達量較高時,xy基因對的表達量呈正相關(co-regulated),e(xy|z=1)為正數;當z基因表達量較低時,xy基因對的表達量呈負相關(contra-regulated,),e(xy|z=0)為負數,因此基因對的表達調控模式由正相關(co-regulated)轉變為負相關(contra-regulated),la值記為正;相反,基因對的表達調控模式由負相關(contra-regulated)轉變為正相關(co-regulated),la值記為負。
所述動態關聯分析模型通過隨機模擬的方法生成la值的參考分布,具體評估方法如下:混合所有基因的表達量值;在每次模擬中,用放回隨機抽樣法隨機抽取一對基因(x,y)的表達量值,z基因取全基因組所有基因,計算xy基因對在全基因組的la值,可分別得到la的正極大值和負極小值;重複模擬一百萬次,分別得到la的正值參考分布和負值參考分布。用la正負參考分布的99%分位數作為la正負顯著性閾值。
(3)關鍵基因之間調控關係的鑑定
以x&y&z=13個類胡蘿蔔素代謝途徑中的13個關鍵基因,結果按照p<0.01過濾後,具體調控關係如下:當lcye的表達量較高的時候,zep1和vde共表達模式呈正相關,當lcye表達量較低的時候zep1和vde表達模式不相關(圖2)。lcye編碼番茄紅素環化酶,zep1和vde都屬於β-胡蘿蔔素合成分支的基因。另外,紫黃質合成途徑主要有5個基因參與,分別是lcyb、cyp97a、zep1、crtrb1和vde。傳統的兩兩基因之間的共表達分析未發現任意兩個基因之間的表達相關性,但是動態共表達分析發現,lcyb和cyp97a以及lcyb和zep1兩個基因對的共表達模式受到第三個基因vde的調控(圖3,4)。當vde表達量較高時,lcyb和cyp97a以及lcyb和zep1表達模式正相關,進一步驗證了該途徑中,vde基因的反饋抑制作用。類似地,我們還分析了psy1、lcye和crtrb1三個基因之間的動態共表達模式,la結果顯示,當psy1表達量較高時,lcye和crtrb1共表達模式正相關,當lcye表達量較低時,psy1和crtrb1共表達模式負相關,當crtrb1表達量較低時,psy1和lcye共表達模式負相關,具體見表2。這些結果與先前的報導一致,即上調psy1基因表達量以及下調lcye和crtrb1基因表達量可提高維生素a的含量。
表2psy1、lcye和crtrb1基因之間的動態共表達模式
以上的這些結果證明了本發明的有效性,通過鑑定13個類胡蘿素代謝通路中關鍵基因的調控關係,從而解析玉米籽粒類胡蘿蔔素代謝的調控機制,為類胡蘿蔔的分子標記輔助育種提供了最優基因組合,顯著提高了育種效率,同時也為玉米其它數量性狀的調控機制研究提供了新的思路和方法。