一種競爭性內源RNA網絡的識別方法與流程
2023-09-13 03:37:25

本發明涉及生物技術領域,尤其是一種競爭性內源rna網絡的識別方法。
背景技術:
競爭性內源rna(cerna)假說是近幾年來提出的一種全新的基因表達調控模式假說,其核心內容為:microrna(mirna)是一類真核生物的內源性小分子單鏈rna長度約為20-24個核苷酸,在生物進化中相對保守,不編碼蛋白質。mrna、假基因轉錄物和長鏈非編碼rna(lncrna)等轉錄本通過microrna應答元件競爭結合相同的microrna來調控各自的表達水平,從而影響細胞的功能。
目前各種rna和小rna測序手段已經十分成熟,通過測序手段找到各種樣本中具有顯著表達差異的各種轉錄本,但是卻無法識別他們之間所具有的關係,無法更加精確的闡明不同轉錄本之間的調控機理。miranda、targetscan等眾多軟體和手段被用來尋找不同轉錄本中的microrna應答元件,但是其無法驗證擁有同一個microrna應答元件的不同轉錄物之間是否構成競爭性調控關係。不僅如此,cerna調控網絡與實際生物學問題的聯繫,比如,該cerna網絡具體通過怎樣的機理髮揮著調控作用,cerna網絡又在生物體內受到怎樣的調控尚未被清楚地認識。
技術實現要素:
本發明的發明目的在於:針對上述存在的問題,提供一種競爭性內源rna網絡的識別方法,該方法將轉錄因子等經典的調控元件與競爭性內源rna假說相結合,從新的角度探索了發生在細胞中的複雜調控過程,更好的闡明了不同調控元件在細胞中的作用機理。
本發明採用的技術方案如下:
一種競爭性內源rna網絡的識別方法,其包括:
從細胞中提取總rna,對所述總rna進行鑑定、構建文庫並測序;
篩選差異表達的轉錄本;
篩選差異表達的microrna;
分別識別各差異表達的轉錄本的microrna結合位點;
檢驗各差異表達的轉錄本在所述結合位點的競爭關係,從而識別基因表達的競爭性內源rna網絡。
由於採用了上述技術方案,識別出了基因表達的競爭性內源rna網絡。該方法將轉錄因子等經典的調控元件與競爭性內源rna假說相結合,從新的角度探索了發生在細胞中的複雜調控過程,更好的闡明了不同調控元件在細胞中的作用機理。
本發明的實施例以識別肝癌細胞(hepg2)中p53的競爭性內源rna網絡為例,具體說明本發明的競爭性內源rna網絡的識別方法。
本發明較佳的實施例中,構建文庫後,檢測文庫濃度和插入片段大小,並對文庫的有效濃度進行定量。
對總rna進行鑑定,包括對rna的純度以及完整性進行鑑定,其標準為:濃度>50ug/ml,總量>3ug,體積≥10ul;rin值≥7.0;28s/18s≥1.0;基線無上抬或輕微上抬;5s峰正常;od260/280:1.7-2.2;od260/230≥0.5;260吸收峰正常不偏移。
文庫濃度即對構建的文庫進行濃度檢測,>1ng/ul即可判合格。文庫有效濃度是指有p5、p7序列的片段的濃度。
由於採取了上述技術方案,文庫質量得以保證。
本發明較佳的實施例中,測序為高通量測序,測序讀長為pe150。
高通量測序為大規模地全基因組重測序提供了方便,節約時間和成本。本發明中使用hiseq4000平臺進行測序,序列拼接效果好、測序速度快。測序讀長由預實驗確定,其能提高定位的準確性和效率。
本發明較佳的實施例中,選差異表達的轉錄本包括:去掉原始測序序列中帶接頭和低質量的reads得到cleanreads,將cleanreads比對到人參考基因組、組裝轉錄本、融合生成的注釋文件、識別差異表達的轉錄本,並對差異表達的轉錄本進行篩選。本發明中,主要針對差異表達的mrna和lncrna進行篩選。
本發明較佳的實施例中,對差異表達的轉錄本進行篩選的標準為:q<0.05,|log2(foldchange)|≥1。
原始測序序列中帶有接頭和低質量的reads將降低信息分析的質量,必須除去。本發明使用hisat2(2.03-beta)將cleanreads比對到人參考基因組(hg19)後使用cufflins(1.3.0)進行轉錄本組裝,靈敏度高,得到的轉錄本可靠程度高。本發明中使用cufflinks進行轉錄本組裝,cufflinks組裝輸出的轉錄本本身具有高可靠性。
本發明較佳的實施例中,篩選差異表達的轉錄本之後,進行測序結果的準確性驗證。
本發明較佳的實施例中,進行測序結果的準確性驗證包括:處理細胞,使基因表達上調或下調;提取總rna,將差異表達的轉錄本反轉錄成cdna以檢測其表達水平。
由於採取了上述技術方案,驗證了測序結果的準確性,進而保證了整個實驗發方法的準確性和科學性。將差異表達的轉錄本反轉錄成cdna後,用實時螢光定量pcr(qrt-pcr)定量,檢測轉錄本的表達與基因表達的一致性,從而驗證測序結果的準確性。
本發明較佳的實施例中,篩選差異表達的microrna包括:根據已知的調控基因的microrna的測序數據,統計readscount,利用edger計算,以q值<0.05,|log2(foldchange)|≥1為標準,篩選得到差異表達的microrna。
根據已知的調控基因的microrna的測序數據篩選差異表達的microrna,利用了經典調控元件理論,節約實驗時間。
本發明較佳的實施例中,分別識別各差異表達的轉錄本的microrna結合位點包括:識別差異表達的microrna與差異表達的轉錄本之間的第一結合位點;根據rna結合蛋白ago2與rna結合的高通量數據得到靶位點,將該靶位點轉換為人參考基因組版本得到第二結合位點;識別第一結合位點與第二結合位點的重合位點即為microrna在相應轉錄本上作用的結合位點。
microrna成熟後,需要ago2蛋白結合形成risc(rna沉默複合體),microrna靶向識別靶位點,ago2則能夠破壞靶位點從而使基因沉默。因此,通過ago2的結合位點,能夠進一步辨別預測到的microrna是否足夠可靠,從而降低結合點預測的假陽性。
本發明較佳的實施例中,檢驗各差異表達的轉錄本在所述結合位點的競爭關係包括:用超幾何檢驗檢測各差異表達的轉錄本在所述結合位點的競爭關係。
超幾何檢驗是一種傳統的統計學方法,通過這個檢驗,將競爭性內源rna位點識別的問題變成一個數學問題,可以用來衡量。每個mrna或者lncrna都具有多個microrna的結合位點,那麼對於一對潛在的cerna對來說,各自擁有k和m個不同microrna的結合位點,這一對cerna共有microrna的結合位點有c個,那麼c是否在原本的m和k中佔有足夠的比重,能夠產生足夠明顯的作用,兩個cerna之間microrna結合情況的改變,能夠對原本的cerna表達產生影響。檢驗式如下:
計算所得的p值使用benjamini-hochberg校正(fdr<0.01)。
綜上所述,由於採用了上述技術方案,本發明的有益效果是:
1.識別了肝癌細胞系中的競爭性內源rna的調控網絡,進一步完善p53在肝癌細胞中發揮功能的機理。
2.將轉錄因子等經典的調控元件與競爭性內源rna調控理論相結合,從新的角度探索了發生在細胞中的複雜調控過程,更好的闡明不同調控元件在細胞中的作用機理。
附圖說明
本發明將通過實施例並參照附圖的方式說明,其中:
圖1是競爭性內源rna網絡的識別方法的技術路線圖。
圖2總rna的nanodrop峰圖。
圖3是不同lncrna對rna測序結果的驗證圖。
圖4是不同mrna對rna測序結果的驗證圖。
具體實施方式
本說明書中公開的所有特徵,或公開的所有方法或過程中的步驟,除了互相排斥的特徵和/或步驟以外,均可以以任何方式組合。
本說明書(包括任何附加權利要求、摘要)中公開的任一特徵,除非特別敘述,均可被其他等效或具有類似目的的替代特徵加以替換。即,除非特別敘述,每個特徵只是一系列等效或類似特徵中的一個例子而已。
實施例1
構建測序文庫
人肝癌細胞(hepg2)復甦後,用含有10%胎牛血清(hyclone),100u/ml青黴素和100u/ml鏈黴素(hyclone)的dmem培養基(gibco)置於37℃、5%co2飽和溼度的細胞培養箱中進行培養。取對數期細胞以5.0×106個/ml的密度接種於60mm培養皿中,待長至80%左右,實驗組加入1µg/ml的阿黴素(北京華豐)處理hepg2細胞,對照組加入等體積pbs。24h後0.25%(質量百分數)胰酶消化後離心收集細胞。收集的hepg2細胞,按trizol(invitrogen)實驗說明書抽提細胞總rna,隨後鑑定rna的純度及完整性。隨後送樣測序。樣品檢測合格後,進行文庫構建,使用qubit2.0和agilent2100對文庫的濃度和插入片段大小進行檢測,使用q-pcr方法對文庫的有效濃度進行準確定量,以保證文庫質量。庫檢合格後,用hiseq4000進行高通量測序,測序讀長為pe150。
經檢驗,所提取的總rna濃度為1714.7ng/μl,體積為17μl,總量為29.1μg。rin值為9.60;28s/18s為1.80;基線正常;5s峰正常;od260/280為2.02;od260/230為1.76,260吸收峰正常不偏移,即rna樣品合格。rna的nanodrop峰圖由圖2所示。
原始測序結果(原始測序序列)是由hiseq4000產生的雙端數據序列,經過fastqc質量檢測,共產生91296400個cleanreads,絕大多數reads長度在150bp,整體gc含量在53~54%之間。reads的總體map率為84%,mappedreads中,uniquelymapped為80%,總體結果較好,初步證實測序結果較為可靠。
實施例2
篩選差異表達的mrna和lncrna以及microrna
hiseq4000得到的原始圖像經鹼基識別(basecalling)分析轉化為原始測序序列,結果以fastq文件格式存儲。過濾原始測序序列中帶接頭和低質量的reads,得到cleanreads。使用hisat2(2.03-beta)將cleanreads比對到人參考基因組(hg19),使用cufflins(1.3.0)組裝轉錄本,利用cuffmerge將生成的多個注釋文件融合,並以cuffdiff識別差異表達rna,利用edger計算,按照q值<0.05,|log2(foldchange)|≥1為閾值進行篩選分別得到差異表達的lncrna和mrna。
從geo(geneexpressionomnibus)資料庫獲取到通過小rna測序(smallrna-seq)在肝癌細胞hepg2中對p53調控microrna的測序數據,accessionnumbers為:gsm1923400、gsm1923402、gsm1923401、gsm1923403,使用miarma-seq(v1.5)統計readscount,利用edger計算,以q值1bp),即認為該重合位點處,存在ago蛋白的結合現象,該位點即為microrna在相應rna上作用的結合位點。
實施例5
超幾何檢驗識別競爭性內源rna網絡
用超幾何檢驗檢測一對潛在的競爭性內源rna(mrna和lncrna)之間的競爭關係。檢驗式為:
式中,n表示預測得到的能夠與靶轉錄本(mrna和lncrna)相互做用的microrna總數,k是能夠與該cerna對中候選cerna相互作用的microrna數,m則是與該cerna對中另一個rna相互作用的microrna數,c則表示能夠同時與與該cerna對中兩個rna作用的microrna數。計算所得的p值使用benjamini-hochberg校正(fdr<0.01)。
對經過ago2位點矯正過之後,存在有共同microrna的每一對rna之間進行超幾何檢驗,計算得到相應的q值,最終按照q<0.01的標準篩選得到了24779對潛在的cerna,從而組成了競爭性rna調控網絡。該網絡中一共有mrna1923個,lncrna505個,以及207個microrna。
需要說明的是,本發明的實施例以識別肝癌細胞(hepg2)中p53的競爭性內源rna網絡為例,具體說明本發明的競爭性內源rna網絡的識別方法,該方法具有通用性,適用於其他細胞系中其他基因的競爭性內源rna網絡的識別。本發明實施例中使用的軟體種類及版本也不用當理解為對本發明中方法的限制。
本發明並不局限於前述的具體實施方式。本發明擴展到任何在本說明書中披露的新特徵或任何新的組合,以及披露的任一新的方法或過程的步驟或任何新的組合。