一種快速和高效質檢文庫的引物序列組及方法與流程
2023-09-22 06:48:55
本發明屬於高通量測序領域,更具體涉及一種快速和高效對文庫進行質控的引物序列組及方法。
背景技術:
:隨著二代測序技術的發展,常規的液相捕獲流程分為:打斷、建庫和捕獲。此過程從基因組的打斷、捕獲和上機測序和數據分析至少需要6-7天時間,目前除了qbit和2100分別對文庫濃度和片段大小進行質控外,沒有一種有效快速的方法可以對建庫結果的好壞進行評判。而文庫質量的好壞對測序結果具有至關重要的作用,為了對文庫質量進行效地判斷,從而節約時間和測序成本,因此本領域急需快速質檢文庫的技術。技術實現要素:針對本領域中存在的問題。本發明人通過對基因組的gc含量為高、中和低三個區域設計3對引物,以基因組作為對照組,對建好的文庫和基因組進行qpcr實驗,根據低gc擴增倍數/中gc擴增倍數的比值與1的關係對文庫的質量好壞進行判斷。因此,在第一方面,本發明提供了一種快速對文庫進行質控的方法,所述方法包括:1)通過ngs-lqc-l1、ngs-lqc-m1和ngs-lqc-h1這3對引物打斷的對參照dna和待測文庫進行qpcr實驗,檢測每對引物對應於參照dna和待測文庫的6個ct值ct1-ct6,其中:ct1是指ngs-lqc-l1這對引物對參照dna進行qpcr擴增之後的ct值;ct4是指ngs-lqc-l1這對引物對待測文庫進行qpcr擴增之後的ct值;ct2是指ngs-lqc-m1這對引物對參照dna進行qpcr擴增之後的ct值;ct5是指ngs-lqc-m1這對引物對要檢測文庫進行qpcr擴增之後的ct值;ct3是指ngs-lqc-h1這對引物對參照dna進行qpcr擴增之後的ct值;ct6是指ngs-lqc-h1這對引物對要檢測文庫進行qpcr擴增之後的ct值;2)計算m=低gc擴增倍數/中gc擴增倍數低,n=高gc擴增倍數/中gc擴增倍數的值,計算公式為m=2(ct1-ct4)/2(ct2-ct5),n=2(ct3-ct6)/2(ct2-ct5),3)待測文庫均一性判斷:m值在0.3以上,優選在0.37以上,並且越接近1,表示待測文庫的均一性越好;同時n>1。在一個實施方案中,參照dna優選是基因組dna。在一個實施方案中,打斷的對參照dna打斷後的片段大小為150bp-200bp。在第二方面,本發明提供了一種快速對文庫進行質控的方法,所述方法包括:1)通過ngs-lqc-l1、ngs-lqc-m1和ngs-lqc-h1這3對待測文庫進行qpcr實驗,檢測每對引物對應於待測文庫的3個ct值ct4-ct6,ct4是指ngs-lqc-l1這對引物對待測文庫進行qpcr擴增之後的ct值;ct5是指ngs-lqc-m1這對引物對要檢測文庫進行qpcr擴增之後的ct值;ct6是指ngs-lqc-h1這對引物對要檢測文庫進行qpcr擴增之後的ct值;;2)計算m=低gc擴增倍數/中gc擴增倍數低,n=高gc擴增倍數/中gc擴增倍數的值,計算公式為m=2(ct1-ct4)/2(ct2-ct5),n=2(ct3-ct6)/2(ct2-ct5),其中ct1、ct2和ct3分別是約21、約21和約18,3)待測文庫均一性判斷:m值在0.37以上,越接近1,均一性越好;同時n>1。在一個實施方案中,待測文庫的建庫片段大小為150bp-200bp。在第三方面,本發明還提供了一種快速和高效質檢文庫的引物序列組:ngs-lqc-l1-f,ngs-lqc-l1-r;ngs-lqc-m1-f,ngs-lqc-m1-r;ngs-lqc-h1-f,ngs-lqc-h1-r。本發明的方法和引物序列組的優點:1)設計低gc的含量為20%,中gc含量為50%,高gc含量為80%,通過對基因組上每隔100個鹼基的gc含量進行分析,對高、中和低三個區域分別設計100對引物,通過序列比對發現,高中低各有3對引物擴增產物單一,通過實驗發現ngs-lqc-l1-f、ngs-lqc-l1-r;ngs-lqc-m1-f、ngs-lqc-m1-r;和ngs-lqc-h1-f、ngs-lqc-h1-r引物具有較好的特異性。2)巧妙地設計了文庫質量評判標準公式,m值越接近於1,說明文庫的均一性越好。具體實施方式在本發明中,優選使用本發明第一方面的方法,將參照dna與待測文庫進行qpcr實驗,這樣能夠有效避免實驗的偏差。在出於節約原因或出於其他原因不包括參照dna的情況,也可以使用發明人長期實驗獲得的經驗參照dna的ct值,即ct1、ct2和ct3分別是約21、約21和約18,這裡的「約」是指基準值上下浮動5%。本發明人研發出一種快速質檢文庫的方法,通過對基因組、文庫均一性在20%以上和20%以下的高中低3個區域分別設計3對引物,然後進行實時定量pcr實驗,分別計算出高中低3個區域相對於基因組ct值而言的擴增倍數之後,計算出m和n的大小,實驗結果發現對於均一性在20%以上的文庫來說,m大小在0.37以上,而對於基因組而言,比值大約為1,而n>1,其原因在於,qpcr聚合酶對高gc區域的擴增具有偏好性,很難找到規律。因此通過比較m與1的關係,來對文庫質量進行質控。實施例1)進行如下的引物篩選:對基因組gc含量分別為20%,50%和80%的三個區域進行引物設計100對引物,然後通過序列比對發現這3個區域各有3對引物擴增產物單一(所述9對引物見表1),分別用這9對引物進行pcr實驗,結果發現,ngs-lqc-l1-f,ngs-lqc-l1-r;ngs-lqc-m1-f,ngs-lqc-m1-r;和ngs-lqc-h1-f,ngs-lqc-h1-r引物具有較好的特異性。表1:9對引物形成三個引物序列表組:(1)seqidno.1和seqidno.4;seqidno.2和seqidno.5;seqidno.3和seqidno.6;(2)seqidno.7和seqidno.10;seqidno.11和seqidno.5;seqidno.9和seqidno.12;(3)seqidno.13和seqidno.16;seqidno.17和seqidno.5;seqidno.15和seqidno.18。2)通過ngs-lqc-l1(即seqidno.1和seqidno.4)、ngs-lqc-m1(即seqidno.2和seqidno.5)和ngs-lqc-h1(即seqidno.3和seqidno.6)這3對引物對基因組gdna、117r01129、117r01134和文庫117r01128-lib、117r01129-lib和117r01134-lib進行qpcr實驗。基因組gdna、117r01129和117r01134通過基因提取、打斷,通過超聲打斷儀bioruptorpico,待冷循環儀溫度降至4℃後,設置參數on30s,off30s為1個循環,每10循環為一輪,共進行3輪,每組結束後將樣品置于振蕩器上充分混勻,短暫離心後進行下一輪打斷,打斷後的片段大小為150bp-200bp。待測文庫117r01128-lib、117r01129-lib和117r01134-lib的建庫過程如下:通過基因提取、打斷,通過超聲打斷儀bioruptorpico,待冷循環儀溫度降至4℃後,設置參數on30s,off30s為1個循環,每10循環為一輪,共進行3輪,每組結束後將樣品置于振蕩器上充分混勻,短暫離心後進行下一輪打斷,打斷後的片段大小為150bp-200bp、對打斷片段進行末端修復和加a、連接、pcr擴增、捕獲117r01128-lib、117r01129-lib和117r01134-lib這3個文庫。本實施例的具體設計方案如下:分別配置3管含有ngs-lqc-l1、ngs-lqc-m1和ngs-lqc-h1這3對引物,2×itaqtmuniversalsybrgreensupermix的60份混合物,混勻之後,把這3管混合物分別加入到qpcr板中,每孔加入18ul,每管加入18個孔,共54個孔,之後把2ul,濃度為5ng/ul的gdna、117r01129、117r01134和文庫117r01128-lib、117r01129-lib和117r01134-lib這個6個模板分別加入到含有ngs-lqc-l1、ngs-lqc-m1和ngs-lqc-h1這3對引物的孔中,同一個模板對應的同一對引物,需要做3個復孔,重複實驗的結果在後文中使用的是平均值。3)根據每個孔內加入的樣品,設置qpcr反應程序,進行每個孔的ct值檢測,對同一個樣品中的對應同一對引物的3個不同的ct值求平均值,即為6個樣品對應於ngs-lqc-l1、ngs-lqc-m1和ngs-lqc-h1這3對引物的ct值。4)數據分析:m=2(ct低gc基因組-ct低gc待測樣品)/2(ct中gc基因組-ct中gc待測樣品),n=2(ct高基因組-ct高gc待測樣品)/2(ct中gc基因組-ct中gc待測樣品)ct值:指在基線上方可產生可檢測的統計學上顯著的螢光發射時所對應的pcr循環數。基線範圍從第3個循環起到ct值前3個循環結束,基線範圍內螢光強度標準差的10倍即為閾值,而閾值所在的橫線與pcr擴增曲線的交點就是ct值,一般取3-15個循環之間,ct值與起始模板的關係研究表明,每個模板的ct值與該模板的起始拷貝數的對數存在線性關係,起始拷貝數越多,ct值越小。ct低gc基因組是指ngs-lqc-l1這對引物對基因組進行qpcr擴增之後的ct值;ct低gc待測文庫是指ngs-lqc-l1這對引物對待測樣品進行qpcr擴增之後的ct值;ct中gc基因組是指ngs-lqc-m1這對引物對基因組進行qpcr擴增之後的ct值;ct中gc待測文庫是指ngs-lqc-m1這對引物對要檢測樣品進行qpcr擴增之後的ct值;ct高gc基因組是指ngs-lqc-h1這對引物對基因組進行qpcr擴增之後的ct值;ct高gc待測文庫是指ngs-lqc-h1這對引物對要檢測樣品進行qpcr擴增之後的ct值;基因組指的是gdna,gdna是通過購買於promega公司的標準品。待測樣品是指基因組117r01129、117r01134和對應文庫117r01129-lib,117r01134-lib和單獨文庫117r01128-lib這5個樣品;117r01129、117r01134、117r01128-lib、117r01129-lib和117r01134-lib均來自於不同健康志願者的白細胞基因組,通過按前文提供的方法製備得到。對基因組gdna、117r01129、117r01134和對應文庫117r01129-lib、117r01134-lib單獨文庫117r01128-lib,通過ngs-lqc-l1、ngs-lqc-m1和ngs-lqc-h1這3對引物對這個6個樣本分別進行qpcr實驗,復孔數為3。對h1、m1和l1這3對引物配置為混合物,體系按照樣本數量×3+2=20。反應體系如下:進行qpcr擴增,反應程序如下:95℃3min40個循環:95℃5s62℃30s讀取螢光信號反應結束後,導出ct值進行統計分析。文庫信息:編號平均深度兩側10%深度的目標區域比率117r01128-lib32.98%117r01129-lib23.5%117r01134-lib7.53%平均深度兩側10%深度的目標區域比率:代表測序數據的均一性,比值越高,說明文庫的均一性越高,說明文庫裡含有多種不同種類的片段。通過上表可以看出,117r01134-lib文庫的平均深度兩側10%深度的目標區域比率為7.53%,屬於不合格文庫,即為差文庫。這個比率一般至少要求在15%以上,才屬於合格文庫,更嚴格取>約20%的值。通過實驗結果發現對於測序均一性在23.5%以上的文庫來說,m在0.369078601-1之內,而n>1,這是由於itaqtmuniversalsybrgreensupermix對高gc區域的擴增具有偏好性,規律不明顯。所以可以以m作為文庫好壞判斷的依據,當比值越接近1,說明文庫的均一性越高,測序質量越高。基於上述,m值在約0.37對應於23.5%的均一性。對於>約20%的均一性值,取m值大於約0.3。sequencelisting艾吉泰康生物科技(北京)有限公司一種快速和高效質檢文庫的引物序列組及方法cp2017065118patentinversion3.5154dna人工序列1atcagtggaaaaatagcctcaattcttaccgcctgaaaaagtaagtatgaagag54225dna人工序列2ggtaatttctggtgctctcccttat25318dna人工序列3gactccgcactcacctgc18430dna人工序列4acatcatgttcaataccttaaatatagaca30522dna人工序列5agtacaggagaagtggtccaca22615dna人工序列6cccagggccttgcgc15730dna人工序列7ataatctcttctaggtgatatgatgacatt30825dna人工序列8ctctgcataactcccttcttctgaa25917dna人工序列9ccatcccatcccggcca171029dna人工序列10catattacccatcctttaagttttagcaa291123dna人工序列11gaagttccaagtctcctcacctc231217dna人工序列12ccatcccatcccggcca171330dna人工序列13ggaaattgagttacataacatagcaattga301426dna人工序列14ctgattcatctgtgacaaaggtgatg261515dna人工序列15cgcgggcgccatgaa151630dna人工序列16agttttgcttttatcaaacaataattcaca301722dna人工序列17gacagagaagaacatggcccat221816dna人工序列18gcgccaggtagagcag16當前第1頁12