新四季網

通用RGEN基因編輯靶位點快速篩選系統的製作方法

2023-07-27 02:17:01 2


本發明屬於基因編輯技術領域,涉及利用算法和功能模塊高效率篩選自定義基因編輯打靶序列,特別涉及rna引導的核酸內切酶靶位點篩選。



背景技術:

近二十年來,基因組編輯技術的發展促進了生物技術領域和醫學領域研究的不斷進步。rna介導核酸內切酶(rgens:rna-guideddnaendonucleases)是近幾年來發展最迅速、研究最深入的基因組精確打靶體系,由於其具有易操作、高效率、普遍適用性等特點而取代了鋅指核酸酶(zfns)和類轉錄激活因子核酸酶(talens),成為目前廣泛應用於生物學、醫學、分子遺傳學等領域的技術。

rgen是crispr/cas及其衍生體系的核酸內切酶蛋白總稱,以cas9和cpf1蛋白為代表,通過嚮導rna(sgrna:single-guiderna)的引導識別基因組中靶位點的pam區域,切割與sgrna匹配的目標序列,形成雙鏈、單鏈或粘性末端切口。利用dna斷裂切口引發片段插入、缺失或突變,從而對基因功能研究和轉基因模式生物構建提供基礎。

隨著高通量測序技術的發展,利用rgen進行的與細胞活性、抗藥性和腫瘤發生發展等相關的大規模基因篩選和鑑定成為當前的研究熱點。現有的crispr/cas相關程序僅能篩選cas9和cpf1兩種亞型核酸酶位點,在大批量靶位點查找方面具有很大缺陷,不能滿足長片段序列的分析。由於rgen系統的研究不斷擴展和深入,越來越多的具有不同模式識別序列的核酸內切酶蛋白投入應用,因此迫切需要具有通用性和高效率的可以進行全基因組大規模快速篩選靶位點序列的系統。



技術實現要素:

針對目前現有的rgen靶位點篩選工具的不足,本發明提供一種兼容性強、方便快捷的通用rgen基因編輯靶位點快速篩選系統。

為達到上述目的,本發明採用了以下技術方案:

該篩選系統整體採用「流水-管道」思想進行設計。流水即為待分析的核酸序列(目標核酸序列),流水簡化為由連續排列的水滴組成,每滴水代表核酸序列的一個核苷酸鹼基;管道具有預設的長度,即僅能容納預設數量(數量根據靶位點的模式序列長度確定)的水滴(核苷酸)。當計算機讀取核酸序列後,核酸序列中的核苷酸依次通過管道,即水滴按順序一滴一滴流入管道又流出管道。每流動一滴水,管道就對內部的有序水滴(即核酸序列中的一段)分析一次,匹配該段核酸序列是否和模式序列、gc含量、連續相同鹼基個數等要求相符,如果相符則輸出。

所述篩選系統包括核酸序列讀取模塊、集合容器以及綜合分析功能模塊,所述綜合分析功能模塊包括鹼基模式匹配模塊。

核酸序列讀取模塊:以緩衝字符流形式讀取核酸序列,可以降低計算機i/o消耗,提高字符處理速度。

集合容器:集合容器用於存儲核酸序列中的一段,長度與模式序列一致,在對集合容器中的該段核酸序列完成一次分析後,集合容器對所存儲的核酸序列片段進行更新,更新後進行下一次分析。

以集合容器採用數組為例,更新的優選方案為:對於數組中單獨存儲的一段核酸序列中的各個核苷酸鹼基,將其中排列於該段核酸序列中上遊第一個位置的核苷酸鹼基替換為與該段核酸序列緊鄰的下遊第一個核苷酸鹼基,並利用遊標變量對所存儲的所有核苷酸鹼基在該段核酸序列中的位置進行坐標標註。

集合容器也用於記錄模式序列。

鹼基模式匹配模塊:建立模式序列匹配機,包括所有簡併鹼基及其相應的核苷酸字符集,初始化時針對模式序列中每個核苷酸位點(包括簡併鹼基位點和非簡併鹼基位點)記錄其坐標(即在序列中的位置)及鹼基符號,簡併鹼基的鹼基符號通常包括n、s、k、r、w、d、v、h、b等,對於非簡併鹼基,鹼基符號就是相應的核苷酸字符。集合容器內的每個核苷酸按序列順序依次進入模式序列匹配機,模式序列匹配機根據該核苷酸的坐標找到模式序列中相同坐標的鹼基符號,然後按字符的形式進行判斷。若該鹼基符號屬於集合{a,t,c,g},則直接判斷集合容器中具有相同坐標的核苷酸字符和該鹼基符號是否相同;若該鹼基符是簡併鹼基,例如v={a,c,g},則判斷集合容器中具有相同坐標的核苷酸字符是否屬於該鹼基符號代表的核苷酸字符集。如果判斷結果為true,則判斷集合容器中下一個核苷酸;如果判斷結果為false,則終止判斷;如果集合容器中所有核苷酸都判斷為true,則表示核酸序列當前處於集合容器中的那一部分序列片段符合模式序列,可進入下一步進行gc含量分析或/和連續相同鹼基識別。

為此,所述綜合分析功能模塊還包括gc含量分析模塊或/和連續相同鹼基識別模塊。

gc含量分析模塊:採用入記錄、出記錄、中間過程不記錄的思想。g以及c的數量統計主要步驟為:設定一整數變量gc_num記錄管道中所有核苷酸是g或c的數量。每個剛進管道的核苷酸判斷一次它是否屬於{g,c},若是則gc_num數值加1;每個剛出管道的核苷酸判斷一次它是否屬於{g,c},若是則gc_num數值減1。對於集合容器而言,所述剛進及剛出管道的核苷酸就是在集合容器更新中用於替換及被替換的核苷酸鹼基。gc_num的初始化值在上述初始化中確定,即通過對最先存儲在集合容器中的位於核酸序列起始部分的核苷酸進行g及c數量統計而得到。

連續相同鹼基識別模塊:可採用以knuth-morris-pratt算法作為核心的字符串快速匹配機。當預設的連續相同鹼基參數為n個時,初始化時分別生成用於查找長度為n且核苷酸字符分別為a、t、g、c的連續相同鹼基序列的匹配機。集合容器中的每個核苷核按序列順序同時進入四個匹配機,按字符的形式進行判斷是否存在相匹配的n個連續相同的鹼基。

在尋找rgen靶位點時,當集合容器中的核酸序列符合鹼基模式匹配和gc含量兩個條件時,再進行連續相同鹼基識別,一旦發現匹配成功,則終止所有字符串匹配機進程;若集合容器中的核酸序列不包含有n個以上連續相同的鹼基,則輸出靶位點結果,然後更新集合容器。

與現有技術相比,本發明具有以下有益的技術效果:

本發明採用「流水-管道」思想來處理核酸序列,通過模擬水滴通過管道的過程,從而能夠邊讀邊處理,具有高通量的特性,且計算機內存佔用率低,對待處理核酸序列長度無限制,適合任意模式序列在全基因組範圍的匹配與查找,有效應對rna介導核酸內切酶的快速發展。同時,本發明對任意形式、任意長度的字符序列都能查找,兼容性強。

進一步的,本發明中建立了核酸字符集庫,同時採用剪枝算法思想,即鹼基模式匹配模塊根據設定的模式序列,在進行核酸與模式序列匹配時,一旦某個核苷酸匹配不成功,則終止核酸後續所有核苷酸的匹配運算,避免無效運算,在讀取入新的核苷酸後重新開始匹配,使核酸序列的匹配判斷具有通用性和高效性。

進一步的,本發明提供的gc含量分析模塊和連續相同鹼基識別模塊,能方便的篩選出符合用戶要求的靶位點核酸子序列。其中,gc含量分析模塊根據「流水-管道」思想,採用入記錄、出記錄、中間過程不記錄g或c鹼基統計方式。使得每個核苷酸實際僅在進行入管道和離開管道時各判斷一次,中間過程不用判斷,保證低運算量。另外變量gc_num動態記錄管道中核苷酸的gc含量,可方便調用。連續相同鹼基識別模塊建立了字符串快速匹配機並採用剪枝算法思想,即在連續相同鹼基識別時,一旦四個匹配機中任意一個發現匹配成功,則終止所有匹配機進程,判斷相應段核酸序列不符合要求,避免無效運算,節約了大量計算時間,避免了大量無用偏移匹配的判斷。

附圖說明

圖1為本發明實施例中通用rgen基因編輯靶位點篩選系統結構示意圖。

圖2為本發明實施例中通用rgen基因編輯靶位點篩選系統工作界面示意圖。

圖3為本發明實施例中通用rgen基因編輯靶位點篩選系統輸出結果示意圖。

具體實施方式

下面結合附圖和實施例對本發明做進一步詳細說明。所述是對本發明的解釋,而不是限定。

本發明所述通用rgen基因編輯靶位點篩選系統整體採用「流水-管道」思想,參見圖1,所述靶位點篩選系統包括工作界面(模式序列輸入及參數設定)、核酸序列讀取模塊、鹼基模式匹配模塊、gc含量分析模塊(可選)以及連續n個相同鹼基識別模塊(可選)。

流水即為需要進行靶位點篩選的核酸序列,在工作界面上利用「dnasequencefile」指定文件目錄(圖2)。核酸序列讀取模塊令計算機以緩衝字符流形式讀取文件中的核酸序列。然後以循環的方式按5』至3』方向每次僅拋出一個核苷酸字符傳遞至管道進行處理,直到最後一個核苷酸被處理。

管道被設計為一個對象,具有四個屬性:gc含量、連續n個相同鹼基的排除閾值(eliminaten…n,圖2,即n)、一定長度模式序列,以及當前分析的核酸序列的片段。對前兩項均採用數值變量記錄,後兩項均採用相同大小的集合容器來記錄,例如,用戶輸入的模式序列(inputpattern,圖2),在初始化時,其各個核苷酸位點的鹼基符號可按5』至3』方向順序存儲在一個數組a中(點擊圖3中所示「gettargetsresult」即開始初始化以及分析過程,結果保存在「resultdirectory」給定的目錄下)。

核酸序列按5』至3』方向依次進入管道中,每進一個核苷酸,就有一個核苷酸被擠出管道。需要設計兩個遊標變量以及一個數組b來完成這一過程。遊標變量中,一個(稱首遊標)記錄管道中第一個核苷酸位置,一個(稱末遊標)記錄最後一個核苷酸位置,管道中每個核酸都可以通過遊標變量轉換成其坐標值而在數組b中找到。如果輸入模式序列包括4個核苷酸,那麼初始化時,數組b的大小自動設定為4,即可存儲核酸序列中的一段長度為4個核苷酸的片段。匹配運算開始時,首先將核酸序列5』端起始的四個核苷酸存儲在數組b中,此時,首遊標取值為1,末遊標取值為4,分別標識核酸序列片段的首末核苷酸在數組b中的位置,當需要讀入核酸序列中第5個核苷酸時,將其替換第1個核苷酸,替換的同時,令首末遊標取值分別增加1,即首末遊標數值分別為2和5,對於超過4的取值需要通過與4相除取餘數變換為4以內的自然數(本例為1),即數組b中存儲了核酸序列第2至第5位的核苷酸,且首核苷酸在數組b第2位,末核苷酸在數組b第1位。儘管隨模式序列長度增加,數組的大小也會增加,但在存儲待分析的核酸序列片段時,無需對其所包括的所有核苷酸在數組中的位置進行調整或更新全部坐標,因此,極大的減低了計算量。

鹼基模式匹配模塊:根據用戶輸入的模式序列,建立模式序列處理對象,其中內置所有簡併鹼基及其相應核苷酸字符集。初始化時,針對模式序列中每個核苷酸記錄其坐標及鹼基符號。當一個新核苷酸進入管道,自動觸發一次管道中的新核酸序列與模式序列匹配。核苷酸按遊標變量的記錄從第一個到最後一個核苷酸字符依次作為參數傳遞給處理對象。對象中的判斷函數可根據該核苷酸的坐標找到模式序列中對應坐標的鹼基符號,並按字符的形式進行判斷。若該鹼基符號是{『a』,『t』,『c』,『g』}之一,則直接判斷管道中該核苷酸字符和鹼基符號是否相同;若該鹼基符是簡併鹼基,則調出其代表的核苷酸字符集,例如』v』={『a』,『c』,『g』},再判斷管道中該核苷酸字符是否屬於核苷酸字符集。如果判斷結果為true,則判斷管道中下一個核苷酸;如果判斷結果為false,則終止判斷;如果管道中所有核苷酸都判斷為true,則表示管道中核酸序列符合模式序列,進入下一步gc含量分析。

gc含量分析模塊:設定一整數變量gc_num記錄管道中所有核苷酸是g或c的數量。每個剛進管道的核苷酸都判斷一次它是否屬於{g,c},若是,則gc_num數值加1;每個剛出管道的核苷酸都判斷一次它是否屬於{g,c},若是,則gc_num數值減1。當管道中的核酸序列符合模式序列樣式,即通過模式匹配模塊檢測,則計算該核酸序列gc百分比(gc_ratio),即gc_num除以管道中所有核苷酸個數,再判斷gc_ratio是否在用戶設定的gc含量百分比範圍(gcpropotion,圖2)內。若結果為false,則返回,管道新進一個核苷酸,重新進行鹼基模式匹配;若結果為true,則進入連續相同鹼基識別分析。

連續n個相同鹼基識別模塊:採用knuth-morris-pratt算法作為核心,開發字符串快速匹配對象。當預設的連續相同鹼基數為n個,例如n=4,程序在初始化時自動生成匹配對象為「aaaa」、「tttt」、「cccc」、「gggg」四個字符串匹配機。當管道中的核酸序列符合鹼基模式匹配和gc含量兩個條件時,再進行連續相同鹼基識別。管道中的核酸按遊標變量記錄的核苷酸從第一個到最後一個依次作為參數傳遞給字符串匹配機,每個核苷酸同時進入四個匹配機,並按字符的形式進行判斷。一旦發現匹配成功,即管道中的核酸序列包含有4個連續相同的鹼基,則終止所有匹配機進程,管道新進一個核苷酸,重新進行鹼基模式匹配;若最後一個核苷酸被四個匹配機處理後仍無成功匹配,則說明管道中的核酸序列不包含有4個及以上的連續相同鹼基,輸出該核酸序列作為潛在靶位點,然後管道新進一個核苷酸,繼續進行靶位點尋找,直至核酸序列分析完畢,輸出結果如圖3所示。

本發明在各個模塊中均採用了快速算法設計思想,保證快速分析。對於人一號染色體(約250mb)尋找cas9/cpf1共同靶位點,即模式序列為「tttvnnnnnnnnnnnnnnnnnnnnngg」,整個分析過程僅需15秒。其他形式的模式序列,例如「awdnnnnskr」僅需15秒、「atcgnnnnnnnnnnnnkhatcg」僅需15秒以及「bwknnnnnnnnnnnnnnnnnngg」僅需18秒。

本發明重新設計算法和功能模塊,rgen中的任意核酸酶本篩選系統都能適用。另外,本系統的模塊構架也適用於解決「從任意長度字符串中抓取特定要求的子字符串」這一類問題。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀