結合基於下一代測序數據的植物microRNA靶位互作網絡預測的方法
2023-05-26 06:59:06
專利名稱:結合基於下一代測序數據的植物microRNA靶位互作網絡預測的方法
技術領域:
本發明涉及一種基於下一代測序數據的植物microRNA靶位互作網絡預測的方法。
背景技術:
植物microRNA是一類20-24鹼基長的非編碼RNA,是重要的基因調控元件[10]。 裝載到RNA引導沉默複合體(RISC)後,植物microRNA會引導與其高度互補的靶基因mRNA 在互補位點的切割,降低靶基因的表達水平[10]。靶基因中大部分編碼轉錄因子,這使得植 物microRNA的調控範圍幾乎遍及整個基因組[12]。因此microRNA在植物的多種生物過程 中都起到了重要作用,包括植物發育、應激反應以及microRNA途逕自身[12]。對植物microRNA的研究發現了大量的植物microRNA,在此基礎上建立了專門的 microRNA資料庫[9,19]。miRBase是一個綜合的microRNA資料庫,包含了動植物中已經 發表的microRNA,提供了 microRNA序列、前體序列、前體二級結構、基因組上下文及參考文 獻等信息[9]。PMRD是一個專門的植物microRNA資料庫,涵蓋了更多的植物物種,並包含 了大量預測到的無實驗驗證的micr0RNA[19]。對於水稻和擬南芥等有mRNA序列數據的物 種,PMRD還列出了預測到的靶基因[19]。作為重要的模式生物,水稻和擬南芥有大量的生物信息學資源,包括詳細注釋的 基因組序列,多態性數據,以及大量的高通量測序數[7,11,13-17]。這些數據中,很多可以 用於植物microRNA的研究。用測序數據或者微陣列實驗,探測到了水稻和擬南芥亞種間大量的單核苷酸多態 性(SNP) [7,13,15]。microRNA前體的SNP會影響microRNA前體的摺疊,進而影響到DCLl 對microRNA前體的識別與切割[10]。microRNA成熟體或者靶基因結合位點的SNP會改變 microRNA與靶基因mRNA的互補程度,從而改變microRNA對mRNA的切割效率[10]。可以 利用SNP數據來研究SNP在microRNA途徑層次對亞種間差異的貢獻。大規模並行信號測序(MPSS)是一種研究基因表達的高通量測序技術,水稻和擬 南芥有大量的MPSS數據[14]。植物microRNA是獨立的轉錄單元,與蛋白編碼基因一樣 由RNA 二型聚合酶轉錄,具有5』帽和3』聚腺苷酸尾[10]。因此,可以用MPSS數據來分析 microRNA基因的表達。另外,MPSS的轉錄信號可以為microRNA基因的轉錄區間及基因模 型提供參考。RNA末端並行分析(PARE)是一種降解組高通量測序技術,測定有聚腺苷酸尾的3』 端切割產物的5』端序列,水稻和擬南芥也有大量的PARE數據[14]。植物microRNA與靶基 因mRNA高度互補,主要引導靶基因mRNA的切割,切割產物能被PARE技術探測到[8]。因 此,PARE數據可以用於microRNA對靶基因mRNA切割作用的分析。另外,microRNA的生物 發生需要DCLl的切割,microRNA也可能引導microRNA前體自身的切割,可以用PARE數據 來分析這些切割作用[8]。
參考文獻[l]Apache HTTP Server Project :http://httpd. apache, org/.[2]PostgreSQL :http://www. postgresql. org/.[3] Scalable Vector Graphics :http://www. w3. org/Graphics/SVG/.[4] Vienna RNA Package :http://www. tbi. univie. ac. at/"lvo/RNA/.[5] S. F. Altschul,T. L Madden,A. A. Schaffer, J. Zhang,Z. Zhang,W. Miller,and D.J. Lipman. Gapped BLAST and PSI-BLAST :a new generation of protein database search programs. Nucl. Acids Res.,25 :3389_3402,1997.[6] R. Bruccoleri and G Heinrich. ComputerAppl icat ions in the Biosciences^ :167_173,1988.[7]F Alex Feltus,Jun Wan, Stefan R Schulze,James C Estill,Ning Jiang, and Andrew H Paterson. An SNP resource for rice genetics and breeding based on subspecies indica and japonica genome alignments. Genome Res. ,14 1812-9,2004.[8]Marcelo A German,Manoj Pillay,Dong-Hoon Jeong,Amit Hetawal,Shujun Luo,Prakash Janardhanan,Vimal Kannan,Linda A Rymarquis,Kan Nobuta,Rana German, Emanuele De Paoli, Cheng Lu, Gary Schroth, Blake C Meyers, and Pamela J Green. Globalidentification of microRNA—target RNA pairs by parallel analysis ofRNA ends. Nat. Biotechnol.,26 :941_6,2008·[9]Sam Griffiths-Jones, Harpreet Kaur Saini,Stijn van Dongen,and Anton J Enright. miRBase :tools for microRNA genomics. Nucleic Acids Res. , 36 :D 154—8, 2008.[10]MatthewW. Jones-RhoadesjDavid P. Bartel,and Bonnie Bartel. MicroRNAs and their regulatory roles in plants. Annual Review ofPlant Biology,57 :19_53, 2006.[11]Yong-Fang Li, Yun Zheng, Charles Addo-Quaye, Li Zhang, Aj ay Saini, Guru Jagadeeswaran,Michael J Axtel1,Weixiong Zhang,and Ramanjulu Sunkar. Transcriptome-wide identification of microRNA targets in rice.The Plant journal :for cell and molecular biology,2010.[12]Allison C Mallory and Hervr e Vaucheret. Functions of microRNAs and related small RNAs in plants. Nat. Genet. , 38 :S31-6,2006.[13]Kenneth L McNally, Kevin L Childs, Regina Bohnert, Rebecca M Davidson,Keyan Zhao,Victor J Ulat,GeorgZeller,Richard M Clark,Douglas R Hoen, Thomas E Bureau, Renee Stokowski, Dennis G Ballinger, Kelly A Frazer, David R Cox, Badri Padhukasahasram, Carlos D Bustamante, Detlef Weigel,David J Mackill, Richard M Bruskiewich,Gunnar R" atsch,C Robin Buel1,Hei Leung,and Jan E Leach. Genomewide SNP variation reveals relationships among landraces and modern varieties ofrice. Proc. Natl. Acad. Sci. U. S. A.,106 :12273_8,2009.[14]Mayumi Nakano, Kan Nobuta, Kalyan Vemaraju, Shivakundan Singh Tej, JeremyWSkogen, and Blake C Meyers. Plant MPSS databases :signature_basedtranscriptional resources for analyses of mRNA and small RNA. Nucleic Acids Res. ,34 :D731-5,2006.[15]Seung Yon Rhee, William Beavis, Tanya Z.Berardini, Guanghong Chen, David Dixon,Aisling Doyle,Margarita Garcia—Hernandez,Eva Huala,Gabriel Lander, Mary Montoya,Neil Miller,Lukas A. Mueller,Suparna Mundodi,Leonore Reiser,Julie Tacklind,Dan C. ffeems,Yihe Wu,Iris Xu,Daniel Yoo,Jungwon Yoon,and Peifen Zhang. The Arabidopsis Information Resource(TAIR) :a model organism database providing a centralized, curated gateway to Arabidopsis biology, research materials and community. Nucl. Acids Res. ,31 =224-228,2003.[16]Qiaoping Yuan, Shu Ouyang, Aihui Wang, Wei Zhu, Rama Maiti, Haining Lin, John Hamilton, Brian Haas, Razvan Sultana, Foo Cheung, Jennifer Wortman, and C. Robin Buel1. The Institute for Genomic Research Osal rice genome annotation database. Plant Physiol.,138 :18—26,2005.[17]Guojie Zhang,Guangwu Guo,Xueda Hu,Yong Zhang,Qiye Li,Ruiqiang Li, Ruhong Zhuang, Zhike Lu, Zengquan He, Xiaodong Fang, Li Chen, Wei Tian, Yong Tao, Karsten Kristiansen,Xiuqing Zhang,Songgang Li,Huanming Yang,Jian Wang,and Jun Wang. Deep RNA sequencing at single base-pair resolution reveals high complexity of the rice transcriptome. Genome Res. , 20 :646_54,2010.[18]Yuanji Zhang, miRU :an automated plant microRNA target prediction server. Nucleic Acids Res. ,33 :W701_4,2005.[19]Zhenhai Zhang, Jingyin Yu, Daofeng Li, Zuyong Zhang, Fengxia Liu, Xin Zhou, Tao Wang, Yi Ling, and Zhen Su. PMRD :plant microRNA database. Nucleic Acids Res. ,38 :D806-13,2010.
發明內容
本發明的目的是提供一種基於下一代測序數據的植物microRNA靶位互作網絡預 測的方法。基於下一代測序數據的植物microRNA靶位互作網絡預測的方法包括如下步驟1)收集植物microRNA和基因組數據;
2)處理植物microRNA數據;3)使用miRU預測植物microRNA的靶位點;4)收集PARE信號數據;5)建立PmiPKB資料庫的「MiR-Tar」模塊;6)利用PARE信號數據驗證植物microRNA靶位互作關係;7)構建植物microRNA靶位互作網絡。所述的收集植物microRNA和基因組數據步驟為水稻和擬南芥的microRNA數據 來自於版本15的miRBase,其中,水稻有成熟體序列498條,前體序列449條,擬南芥有成熟 體序列224條,前體序列199條,水稻的基因組數據來自於版本6. 1的TIGR,擬南芥的基因 組數據來自於版本9的TAIR。
所述的處理植物microRNA數據步驟為miRBase的microRNA數據為EMBL格式, 基因組坐標數據為GFF格式,使用PERL腳本解析這些數據,將其存入資料庫,所有的序列均 轉換成大寫字母。所述的使用miRU軟體預測植物microRNA的靶位點步驟為分別輸入水稻的 microRNA和水稻基因組數據,選擇miRU軟體的默認參數,然後對水稻microRNA的基因靶 位點進行預測;分別輸入擬南芥的microRNA和擬南芥基因組數據,選擇miRU軟體的默認參 數,然後對擬南芥microRNA的基因靶位點進行預測。所述的收集PARE信號數據步驟為PARE信號數據來自NGSD的10個數據集和 Yongfang Li的1個數據集,原數據進行歸一化處理。所述的建立PmiPKB資料庫的「MiR-Tar」模塊步驟為用SVG圖形表示microRNA 基因附近的PARE信號數據。圖示的範圍為microRNA前體基因組坐標左右共一萬鹼基對, 數據集縱向排列,方便用戶進行比較。所述的利用PARE信號數據驗證植物microRNA靶位互作關係步驟為使用PmiRKB 資料庫中的「MiR-Tar」模塊,圖形化輸出含PARE信號數據的全部靶位點互作關係,共計 8253對,再進行人工篩選校正,最終獲得3077對可靠性較高的microRNA靶位互作關係。所述的預測植物microRNA靶位互作網絡步驟為將獲得的3077對可靠性較高的 microRNA靶位互作關係存儲到以tab鍵分隔的文本文件中,利用NeAT將該文本文件轉化為 通用的GML網絡格式文件,使用yED網絡可視化工具對這3077對microRNA靶位互作關係 進行可視化處理,構建出植物microRNA靶位互作網絡。本發明整合了水稻、擬南芥的RNA末端並行分析數據,提供了映射到靶基因mRNA 與microRNA結合位點附近的PARE信號信息,可用於鑑別預測的microRNA-target mRNA 之間是否存在真實的切割調控關係;來自不同組織材料的PARE數據集間可以進行比較 以揭示這種調控關係的組織特異性。此外,又整合了已有的PARE數據,提供了映射到 pre-microRNA上的PARE信號情況,可用於監測DCLl對pri-或pre-microRNA的加工情況, 以及microRNA或microRNA*對其microRNA前體的自切割作用,組織間的差異依然可以通 過跨庫比較來觀察到。最後對水稻和擬南芥現有microRNA靶位互作關係進行人工篩選校 正,獲得3077對可靠性較高的microRNA靶位互作關係,構建了網絡模型並進行網絡可視化 處理,此網絡模型具有相當高的可靠性。
圖1是PmiRKB資料庫簡要的ER圖;圖2是PmiRKB資料庫的「MiR-Tar」模塊中使用PARE信號數據驗證擬南芥miR156h 對AT5G50570. 1的切割;圖3是預測到的水稻microRNA靶位互作網絡局部示意圖;圖4是預測到的擬南芥microRNA靶位互作網絡局部示意圖。
具體實施例方式基於下一代測序數據的植物microRNA靶位互作網絡預測的方法包括如下步驟1)收集植物microRNA和基因組數據;
2)處理植物microRNA數據;3)使用miRU預測植物microRNA的靶位點;4)收集PARE信號數據;5)建立PmiPKB資料庫的「MiR-Tar」模塊;6)利用PARE信號數據驗證植物microRNA靶位互作關係;7)構建植物microRNA靶位互作網絡。所述的收集植物microRNA和基因組數據步驟為水稻和擬南芥的microRNA數據 來自於版本15的miRBase,數據包括了 microRNA名稱、microRNA序列、前體名稱、前體序 列、前體的基因組坐標以及參考文獻。其中,水稻有成熟體序列498條,前體序列449條,擬 南芥有成熟體序列224條,前體序列199條,一條前體可能對應有多條成熟體。水稻的基因 組數據來自於版本6. 1的TIGR,擬南芥的基因組數據來自於版本9的TAIR。所述的處理植物microRNA數據步驟為miRBase的microRNA數據為EMBL格式, 基因組坐標數據為GFF格式,使用PERL腳本解析這些數據,將其存入資料庫,所有的序列 均轉換成大寫字母。水稻的MIR156f和MIR531前體都對應有兩個基因組坐標,為了簡 化資料庫結構,將對應於不同基因組坐標的同一前體分作多個前體來表示MIR156f(l)、 MIR156f (2)、MIR531 (1)和 MIR531 (2)。對於未給出 microRNA* 序列的 microRNA,根據前體 的二級結構,選擇microRNA*序列使雙鏈體3』端有兩個鹼基的突出[10]。所述的使用miRU軟體預測植物microRNA的靶位點步驟為分別輸入水稻的 microRNA和水稻基因組數據,選擇miRU軟體的默認參數,然後對水稻microRNA的基因靶 位點進行預測;分別輸入擬南芥的microRNA和擬南芥基因組數據,選擇miRU軟體的默認參 數,然後對擬南芥microRNA的基因靶位點進行預測。所述的收集PARE信號數據步驟為RNA末端並行分析(PARE)是一種降解組高通 量測序技術,PARE信號數據可以用於microRNA對靶基因mRNA切割作用的分析。PARE信號 數據來自NGSD的10個數據集和Yongfang Li的1個數據集,原數據進行歸一化處理,即利 用資料庫提供的算術運算對原數據進行歸一化處理,即將各個序列的讀數除以所在數據集 的總讀數,再乘以一百萬,得到序列的RPM(數據集每百萬讀數中序列的讀數)。所述的建立PmiPKB資料庫的「MiR-Tar」模塊步驟為用SVG圖形表示microRNA基 因附近的PARE信號數據。圖示的範圍為microRNA前體基因組坐標左右共一萬鹼基對,由於 範圍太大,在圖示的上方給出了縮略圖與可移動的窗口,通過JavaScript實現移動窗口查 看詳細信息的功能。PARE序列的RPM用不透明度表示,在滑鼠指到序列時顯示出該序列具 體的基因組坐標和RPM值。數據集縱向排列,方便用戶進行比較。在其中表示出microRNA 與靶基因mRNA間的配對,圖示範圍為mRNA上microRNA結合位點左右共約120鹼基對。對 於唯一映射到該位點的PARE序列,在表示信號的矩形外加邊框,以示區別。所述的利用PARE信號數據驗證植物microRNA靶位互作關係步驟為使用PmiRKB 資料庫中的「MiR-Tar」模塊,圖形化輸出含PARE信號數據的全部靶位點互作關係,共計 8253對,再進行人工篩選校正,最終獲得3077對可靠性較高的microRNA靶位互作關係。所述的預測植物microRNA靶位互作網絡步驟為將獲得的3077對可靠性較高的 microRNA靶位互作關係存儲到以tab鍵分隔的文本文件中,利用NeAT將該文本文件轉化為 通用的GML網絡格式文件,使用yED網絡可視化工具對這3077對microRNA靶位互作關係
8進行可視化處理,構建出植物microRNA靶位互作網絡。實施例1.數據來源水稻和擬南芥的microRNA數據來自於miRBaSe[9],版本為15。數據包括了 microRNA名稱、microRNA序列、前體名稱、前體序列、前體的基因組坐標以及參考文獻。其 中,水稻有成熟體序列498條,前體序列449條;擬南芥有成熟體序列224條,前體序列199 條。一條前體可能對應有多條成熟體。水稻microRNA前體的基因組坐標基於TIGR6.0偽 分子,擬南芥microRNA前體的基於TAIR9基因組。水稻的基因組數據來自於TIGR[16],版 本為6. 1。版本6. 1與6. 0僅有少數基因分類不同,因此miRBase提供的水稻microRNA前 體的基因組坐標適用於TIGR6. 1。擬南芥的基因組數據來自於TAIR,版本為9。(見表1)水稻的SNP 數據涉及 了 21 個亞種93-11、Nipponbare, Tainung 67、 Li-Jiang-Xin-Tuan-Hei-Gu> M 202、Azucena、Moroberekan> Cypress、Dom-Sufid> N 22、 Dular、FR13A、Aswina、Rayada>IR64-21、Shan-Huang Zhan-2、Pokkali、Swarna>Sadu-Cho> Minghui 63和Zhenshan 97B。其中Nipponbare為參考亞種。亞種93-11的SNP數據來自 於基因組的序列聯配,原數據提供了 SNP周圍共41鹼基長的序列用於定位[7]。其餘亞種 與Nipponbare間的SNP數據由重測序微陣列技術,結合基於模型(MB)或機器學習(ML)的 計算方法測定[13]。原數據提供了 SNP的TIGR5偽分子坐標和周圍共201鹼基長的序列, 可以用這些序列將SNP定位到TIGR6. 1上。取MB和ML方法的交集,以保證數據的高可靠 性。擬南芥的 SNP 數據涉及了 7 個亞種=Col-O,Bur-0,Tsu-ULer-UBay-O,Sha 和 Cvi-O0 其中Col-O是參考亞種。這些亞種的SNP數據來自TAIR的Polymorphism資料庫,原數據 直接提供了 SNP的TAIR9基因組坐標[15]。水稻和擬南芥的MPSS數據主要來自於NGSD (Next-Gen Sequence Database)的35 個數據集[14]。原數據提供了每一個序列標籤的讀數,需要歸一化處理以便進行數據集間 的對比。另外,Guojie Zhang等人用高通量方法得到的水稻亞種93-11的轉錄組數據,共2 個數據集,與MPSS數據類似,同樣適合做microRNA基因轉錄的分析[17]。因此,可以將這 2個數據作為MPSS數據進行處理。PARE數據主要來自NGSD的10個數據集[14],原數據需要歸一化處理。另外, Yongfang Li等人的水稻降解組數據,共1個數據集,與PARE數據類似,也可以用來分析 microRNA引導的mRNA切割[11]。因此,把這一數據集作為PARE數據進行處理,構建出植 物microRNA靶位互作網絡。(見表2)表1 植物microRNA及基因組的數據來源
權利要求
一種基於下一代測序數據的植物microRNA靶位互作網絡預測的方法,其特徵在於,包括如下步驟1)收集植物microRNA和基因組數據;2)處理植物microRNA數據;3)使用miRU預測植物microRNA的靶位點;4)收集PARE信號數據;5)建立PmiPKB資料庫的「MiR Tar」模塊;6)利用PARE信號數據驗證植物microRNA靶位互作關係;7)構建植物microRNA靶位互作網絡。
2.如權利要求1所述的一種基於下一代測序數據的植物microRNA靶位互作網絡預 測的方法,其特徵在於,所述的收集植物microRNA和基因組數據步驟為水稻和擬南芥的 microRNA數據來自於版本15的miRBase,其中,水稻有成熟體序列498條,前體序列449條, 擬南芥有成熟體序列224條,前體序列199條,水稻的基因組數據來自於版本6. 1的TIGR, 擬南芥的基因組數據來自於版本9的TAIR。
3.如權利要求1所述的一種基於下一代測序數據的植物microRNA靶位互作網絡預測 的方法,其特徵在於,所述的處理植物microRNA數據步驟為=HiiRBase的microRNA數據為 EMBL格式,基因組坐標數據為GFF格式,使用PERL腳本解析這些數據,將其存入資料庫,所 有的序列均轉換成大寫字母。
4.如權利要求1所述的一種基於下一代測序數據的植物microRNA靶位互作網絡預測 的方法,其特徵在於,所述的使用miRU軟體預測植物microRNA的靶位點步驟為分別輸入 水稻的microRNA和水稻基因組數據,選擇miRU軟體的默認參數,然後對水稻microRNA的 基因靶位點進行預測;分別輸入擬南芥的microRNA和擬南芥基因組數據,選擇miRU軟體的 默認參數,然後對擬南芥microRNA的基因靶位點進行預測。
5.如權利要求1所述的一種基於下一代測序數據的植物microRNA靶位互作網絡預測 的方法,其特徵在於,所述的收集PARE信號數據步驟為PARE信號數據來自NGSD的10個 數據集和Yongfang Li的1個數據集,原數據進行歸一化處理。
6.如權利要求1所述的一種基於下一代測序數據的植物microRNA靶位互作網絡預測 的方法,其特徵在於,所述的建立PmiPKB資料庫的「MiR-Tar」模塊步驟為用SVG圖形表示 microRNA基因附近的PARE信號數據。圖示的範圍為microRNA前體基因組坐標左右共一萬 鹼基對,數據集縱向排列,方便用戶進行比較。
7.如權利要求1所述的一種基於下一代測序數據的植物microRNA靶位互作網絡預測 的方法,其特徵在於,所述的利用PARE信號數據驗證植物microRNA靶位互作關係步驟為 使用PmiRKB資料庫中的「MiR-Tar」模塊,圖形化輸出含PARE信號數據的全部靶位點互作 關係,共計8253對,再進行人工篩選校正,最終獲得3077對可靠性較高的microRNA靶位互 作關係。
8.如權利要求1所述的一種基於下一代測序數據的植物microRNA靶位互作網絡預測 的方法,其特徵在於,所述的預測植物microRNA靶位互作網絡步驟為將獲得的3077對可 靠性較高的microRNA靶位互作關係存儲到以tab鍵分隔的文本文件中,利用NeAT將該文 本文件轉化為通用的GML網絡格式文件,使用yED網絡可視化工具對這3077對microRNA靶位互作關係進行可視化處理,構建出植物microRNA靶位互作網絡。
全文摘要
本發明公開了一種基於下一代測序數據的植物microRNA靶位互作網絡預測的方法。它包括如下步驟1)收集植物microRNA和基因組數據;2)處理植物microRNA數據;3)使用miRU預測植物microRNA的靶位點;4)收集PARE信號數據;5)建立PmiPKB資料庫的「MiR-Tar」模塊;6)利用PARE信號數據驗證植物microRNA靶位互作關係;7)構建植物microRNA靶位互作網絡。本發明整合了水稻、擬南芥的RNA末端並行分析數據,提供了映射到靶基因mRNA與microRNA結合位點附近的PARE信號信息,可用於鑑別預測的microRNA-target mRNA之間是否存在真實的切割調控關係;來自不同組織材料的PARE數據集間可以進行比較以揭示這種調控關係的組織特異性。對水稻和擬南芥現有microRNA靶位互作網絡進行預測,並人工進一步篩選得到最終網絡模型,具有相當高的可靠性。
文檔編號C12Q1/68GK101976296SQ20101028168
公開日2011年2月16日 申請日期2010年9月10日 優先權日2010年9月10日
發明者克裡斯汀·克魯卡斯, 孟一君, 白琳, 苟凌峰, 陳迪俊, 陳銘, 黃冬林 申請人:浙江大學