使用體外區室化選擇和富集蛋白質的製作方法
2023-06-01 16:04:11 1
專利名稱::使用體外區室化選擇和富集蛋白質的製作方法使用體外區室化選擇和富集蛋白質發明背景0001達爾文演化產生多樣性並使得個體的組成部分在變化的環境中進行改進。設計具有改變特異性的酶的一種方法是利用可在體外進行控制的環境中進化。這種方法要求基因型和表型之間的關聯以及不同基因型的選擇和富集策略。基於這些考慮的方法包括噬菌體展示(參見,例如,Sm池,5W朋ce228:1315-1317(1985),和美國專利號7,211,564);mRNA展示(Hanes等,屍rac.淑細a/^cad考94:4937-4942(1997),和Tawfik等,Ato5z'o&c/mo/.16:652-656(1998));以及核糖體展示(Roberts等/VocA^"cadSc/94:12297-12302(1997))。這些方法利用在能夠複製的粒子表面上展示所期望的表型。0002定向進化的一種可選方法一一其己被稱為體外區室化G"v"racompartmentalization,IVC)依賴於形成油中的水液滴乳液,其中所述水液滴含有可控制數量和類型的多核苷酸,連同允許被包封的多核苷酸編碼的任何基因表達的最少的轉錄和翻譯系統。這些乳液中的水液滴在至少一些下列出版物中也稱為微膠囊。然後,轉錄和翻譯的蛋白質產物可由一些分析形式檢測,其優選地允許富集最初可以以在101個液滴中低至l個的量存在的靶基因(參見,例如,Doi等iVMc/dcA油32:e95(2004),美國專利號6,184,012、6,489,103、6,495,673、7,138,233和7,252,943,美國公開號2005/0221339、2006/0153924、2006/0154298、2006/0078893、2007/0077572、2007/0092914、2007/0184489和2008/0004436,以及國際申請號WO2006/04055l和WO2006/051552)。0003如果選擇和富集的問題可解決,在單一乳液中穩定地產生多至109~101個單獨水液滴的能力一一其中每個液滴含有來自分子文庫的不同分子——可提供在廣泛的序列空間內對編碼所期望表型的靶基因的快速篩選方法。0004不幸地是,已報導的使用IVC的篩選和富集方法一直是令人失望的。例如,Doi等描述了用於選擇和富集表達限制性內切核酸酶表型的基因型的篩選方法。Doi等使用DNA聚合酶將dUTP-生物素摻入由限制性內切核酸酶切割產生的粘性末端以允許進行鏈黴親和素親和純化。在一輪體外區室化中僅獲得單一多核苷酸的10倍富集。因此,需要很多輪的富集,以便從隨機化的FokI文庫選擇活性表型FokI。0005使用乳液的體外區室化提供了潛在有效的定向進化方法——如果蛋白質活性的選擇和其在溶液中的富集可被優化以便使得能夠從廣泛的序列空間內有效回收靶基因。發明概述0006在本發明的一個實施方式中,描述了用於靶基因的選擇和富集的方法,其中所述方法包括提供多核苷酸片段文庫,所述文庫中的一個或更多個多核苷酸片段包括編碼具有期望活性的蛋白的靶基因。所述文庫中的多核苷酸被包封在乳液中的多個水液滴中,其中所述多個液滴中的每個水液滴含有(i)具有轉錄和翻譯活性的酶混合物,和(ii)來自所述多核苷酸片段文庫的一個或更多個多核苷酸片段。來自所述文庫的所述靶基因被轉錄和翻譯以提供蛋白,所述蛋白具有在由連接酶催化的反應中使所述多核苷酸片段共價連接至多核苷酸銜接頭的活性。儘管連接優選地發生在多核苷酸片段上的互補粘性末端和多核苷酸銜接頭之間,但在本發明的一個實施方式中,也可通過平端連接來實現連接——只要多核苷酸片段上的平頭末端是可連接的。例如,這可以通過限制性內切核酸酶活性實現。在任一情況下,靶基因隨後可使用銜接頭-特異性引物被選擇性地擴增。銜接頭-特異性引物優選地具有僅存在於銜接頭中而不存在於多核苷酸片段中的序列。但是,引物可具有大部分定位於銜接頭中、但與多核苷酸片段末端的短序列(例如,小於20個核苷酸)重疊的序列。耙基因的例子包括編碼具有下列活性的蛋白的那些基因,所述活性選自連接酶活性,例如RNA或DNA連接酶活性;多核苷酸切割活,例如限制性內切核酸酶活性、切口核酸內切酶(nickingendonuclease)活性或回歸核酸內切酶活性;轉錄或翻譯活性,例如tRNA合成酶活性或RNA聚合酶活性;以及逆轉錄活性。0007在一個進一步的實施方式中,在聚合酶-依賴性擴增中利用第二引物,其可與文庫中所有多核苷酸片段中共有的序列雜交,其中所述序列定位於多核苷酸的銜接頭-連接的末端的相反末端。優選地,所述特異性序列也在基因外部。0008在一個實施方式中,所述水液滴在所述耙基因轉錄和翻譯後以及所述銜接頭連接至多核苷酸片段之前被破壞。在另一個實施方式中,所述水液滴可在連接之後和擴增所述基因之前被破壞。0009在一個實施方式中,某些水液滴可包括多個多核苷酸片段,其中所述多個片段進一步包括多個基因。在另一個實施方式中,上述每個水液滴可進一步含有一個或更多個第二多核苷酸片段,其非來自於所述文庫並且含有編碼規定的第二蛋白的基因。在一個例子中,編碼規定的第二蛋白的基因具有多核苷酸切割活性。在另一個實施方式中,上述每個水液滴含有具有聚合酶-切割活性的試劑酶。0010一旦靶基因被擴增,額外一輪或多輪的選擇和富集可以是可期望的,在這種情況下,在用於轉錄和翻譯所述基因的酶混合物存在的情況下,擴增產物被包封在乳液中的多個水液滴中,這使得靶基因能夠被表達並使其連接至第二多核苷酸銜接頭或另外的多核苷酸銜接頭並使用對所述第二銜接頭具有特異性的引物擴增所述靶基因。每輪中應用的銜接頭優選地不同於前一輪中的銜接頭。但是,在另一個實施方式中,銜接頭可再利用,條件是在下一輪包封之前將其從擴增的靶基因中去除。0011在本發明的一個進一步的實施方式中,一輪選擇後的靶基因富集可以是至少50倍、70倍或100倍。0012在一個進一步的實施方式中,文庫中的各個多核苷酸片段含有限制性內切核酸酶和切口核酸內切酶中的至少一個的識別序列,所述識別序列在基因序列以外的片段區域中。0013在一個進一步的實施方式中,通過切割多核苷酸片段在多核苷酸片段上形成粘性末端,所述切割利用靶基因表達的蛋白並任選地與酶試劑或第二多核苷酸片段編碼的蛋白提供的第二酶活性聯合。在後一種情況下,由第二多核苷酸上的基因編碼的蛋白的表達和/或活性可依賴於耙基因表達的蛋白。0014例如,當靶基因表達的蛋白具有tRNA合成酶活性時,該活性使第二多核苷酸片段上的基因編碼的限制性內切核酸酶被轉錄和翻譯並切割含有靶tRNA合成酶基因的多核苷酸片段,以產生粘性末端用於連接至銜接頭,因此引起靶基因的選擇和富集。0015在另一個例子中,耙基因表達的蛋白是限制性內切核酸酶,其切割DNA以在多核苷酸片段上形成平頭末端。任選地,提供第二酶活性以將平頭末端轉換為粘性末端,其中所述第二酶活性可以是切口核酸內切酶。具有可相容粘性末端的銜接頭可隨後被連接至含有靶基因的多核苷酸片段。在另一個例子中,靶基因表達的蛋白具有切口核酸內切酶活性,並且第二酶活性是限制性內切核酸酶活性。兩種酶的活性導致多核苷酸上粘性末端的產生,用於連接至銜接頭和進行隨後的擴增。0016在一個進一步的實施方式中,多核苷酸片段文庫含有基因組DNA(gDNA)。在一個例子中,靶基因是天然發生基因,其中所述方法另外包括從擴增的DNA克隆所述天然發生的靶基因,從而提供易於從環境獲得具有靶功能的新的天然發生基因的方式。0017在本發明的一個進一步的實施方式中,靶基因是誘變的基因,其具有所期望的切割、合成或連接蛋白活性。0018來自基因組文庫或誘變文庫的靶基因的例子包括編碼具有下列活性的蛋白的那些基因,所述活性選自連接酶活性,例如RNA或DNA連接酶活性;多核苷酸-切割活性,例如限制性內切核酸酶活性、切口核酸內切酶活性或回歸核酸內切酶活性;轉錄或翻譯活性,例如tRNA合成酶活性或RNA聚合酶活性;以及逆轉錄活性。0019可被選擇的活性的例子包括期望特異性由天然發生蛋白中發現的特異性的改變。在一個實施方式中,可尋求限制性內切核酸酶的切割-位點特異性的改變。在這個例子中,期望的非天然切割位點會被引入文庫中的多核苷酸片段末端處或接近文庫中的多核苷酸片段末端,以使只有所編碼的蛋白在所期望的非天然位點切割以產生用於連接至銜接頭的粘性末端時,靶基因才會被選擇和富集。另一個例子包括對增強的多核苷酸切割活性的選擇和富集。可選地,可根據編碼蛋白在與野生型蛋白相比距其識別位點非天然距離處切割DNA序列的能力,對靶基因進行選擇和富集。0020其他例子包括對誘變多核苷酸片段文庫進行靶基因的篩選,所述靶基因編碼的蛋白具有新的連接酶活性,例如改變的最適連接溫度,或改變的輔因子要求。0021上述這些例子不試圖限制方法的實施方式的使用。0022本發明的實施方式已通過從自然界克隆新的限制性內切核酸酶而示例,所述內切核酸酶在本文中命名為TspMI。本發明的另外實施方式進一步包括含有編碼TspMI的基因的載體和用所述載體轉化的宿主細胞。0023在本發明的一個實施方式中,提供了組合物,其中所述組合物是疏水液體中的親水溶液的乳液,所述親水溶液形成多個液滴,每個液滴含有(i)具有轉錄和翻譯活性的酶混合物;和(ii)來自多核苷酸片段文庫的多核苷酸片段,所述多核苷酸片段具有粘性末端或使得酶能夠切割所述多核苷酸以產生粘性末端的識別位點。乳液中的液滴可進一步包括具有粘性末端的多核苷酸銜接頭,所述粘性末端與所述多核苷酸片段上產生的或存在的粘性末端互補。乳液中的液滴可進一步包括限制性內切核酸酶試劑。乳液中的液滴可包括多個多核苷酸片段,其中一個所述多核苷酸片段編碼限制性內切核酸酶試劑。附圖簡述0024圖1A示出編碼限制性內切核酸酶的靶基因的體外選擇和富集的示意圖。0025將DNA片段文庫與轉錄和翻譯試劑一起分散至乳液中的水液滴中(l)。如果活性限制性內切核酸酶在液滴中體外表達,則含有編碼基因的DNA片段的末端的切割在多核苷酸片段上的核酸內切酶識別序列處發生,以產生粘性末端。這由——X表示。乳液中的反應通過例如加熱和/或添加EDTA來猝滅。通過添加水飽和醚來破壞乳液。從水相回收DNA片段(2)。將具有可相容粘性末端(X~~)的過量雙鏈DNA銜接頭片段添加至DNA片段。連接僅發生在具有粘性末端的回收DNA片段和具有可相容粘性末端的銜接頭之間(——X——)(3)。進行銜接頭-特異性PCR擴增,隨後純化的擴增DNA或是進入下一輪選擇或是被克隆(4)。0026圖1B示出編碼具有連接酶活性的蛋白的靶基因的選擇。0027將DNA片段文庫與轉錄和翻譯試劑以及多核苷酸銜接頭一起分散至乳液中的水液滴中。連接發生在含有編碼連接酶活性的DNA片段(——X~-)的各個液滴中。連接不發生在不存在連接酶-編碼基因的那些液滴內(l)。在用於轉錄和翻譯的有效時間段後,停止反應並破壞乳液。從乳液中回收DNA多核苷酸(2)。進行銜接頭-特異性PCR擴增,隨後回收的擴增DNA或是進入下一輪選擇或是被克隆(3)。0028圖1C示出酶的偶聯選擇(coupleselection)。將多核苷酸文庫、銜接頭、去除特定tRNA合成酶的體外轉錄和翻譯試劑、以及編碼限制性內切核酸酶的第二多核苷酸片段乳化至水液滴中。如果編碼具有特定tRNA合成酶活性的蛋白的靶基因在液滴中表達,則編碼限制性內切核酸酶的第二多核苷酸也會被轉錄和翻譯(l)。該核酸內切酶可切割含有靶基因的多核苷酸片段上靶基因以外的位點以產生粘性末端。停止反應並破壞液滴。從乳液中回收DNA片段(2)。需要連接步驟以將銜接頭連接至切割的DNA片段(3)。使用回收的DNA片段進行銜接頭-特異性PCR(4)。結果,具有被連接的銜接頭的模板DNA優先地被擴增。PCR產物用於下一輪選擇或被克隆。0029圖2提供用於酶體外選擇的基因組文庫構建的示意圖。使用霧化器剪切基因組DNA以產生具有小於5Kb大小的片段(1),隨後DNA片段在凝膠上進行大小-選擇(lK-3K)並使用PhusionTM聚合酶(Finnzymes,Espoo,Finland)進行末端-修復(2)。然後,用T4多核苷酸激酶磷酸化片段(3)並在對應於NruI切割位點的克隆位點處(5)插入pLT7K載體中(Kong等W"c/e/cA^i^s28:3216-3223(2000))(4)。進行液滴的製備,其中液滴含有單一載體和用於進行乳液PCR的擴增試劑。然後破壞乳液並且擴增產物形成多核苷酸文庫用於靶基因的選擇和富集(6)。因此,多核苷酸文庫與用於轉錄和翻譯的試劑(PURETM系統,GenomeInstitute,Japan)混合12並包封在乳液中的水液滴中。如果限制性內切核酸酶由源於基因組的DNA片段編碼,然後會發生切割並會如圖1A所述來鑑定。如果待從基因組克隆的基因是連接酶,那麼連接酶基因的富集會如圖1B所述發生。在該方法中,酶可從其天然宿主在少至三輪選擇內進行克隆(7)。0030圖3A-F示出與第二模板相比靶基因富集的例子。泳道E顯示乳液中的轉錄和翻譯產物,其隨後與銜接頭連接並進行PCR擴增。當與陽性對照比較時,擴增產物相對於綠色螢光蛋白(GFP)是充分富集的。0031泳道NC是陰性對照,其示出在缺乏連接和不使用乳液時兩個基因的擴增產物。0032泳道PC是陽性對照,其示出在限制性內切核酸酶和連接酶存在以致所有片段被連接和擴增的情況下兩個基因的擴增產物。如所期望的,與PstI相比,GFP表現出絕對優勢。0033圖3A示出用於模式文庫中的DNA模板的示意圖。靶基因是PstI-可讀框-編碼PstI限制性內切核酸酶,而對照是編碼GFP的基因。Pstl和基因在大小上不同。0034圖3B示出l:100比例的Pstl和GFP起始混合物的擴增的第一循環的結果。泳道從左至右是如上述解釋的E、NC、PC。0035圖3C和D分別示出擴增的第一循環和第二循環的結果,其中起始混合物含有l:1000比例的Pstl和GFP基因。泳道從左至右是如上述解釋的E、NC、PC。0036圖3E和3F分別示出擴增的第一循環和第二循環的結果,其中起始混合物含有l:10,卩l:lS比例的Pstl和GFP。泳道從左至右是對於每個比例的E和PC。E中的殘留量GFP可產生於單一液滴中兩個基因的偶然存在,其中由Pst堪因產生的限制性內切核酸酶也作用於GFP。0037注意在泳道E中,Pstl基因的量大大增加。0038圖4A-D示出來自斯氏普羅威登斯菌(/VoW(ie"c/aW而W/)的PstI基因的基因組選擇。0039圖4A:4Ai示出起始基因組文庫。1kb和3kb之間的成片條帶含有在富集前產生於乳液中的擴增的基因組模板。泳道2中的單一條帶相應於空質粒。00404Aii和4Aiii分別示出使用PstI基因-特異性引物和M.PstII-特異性引物,基因組文庫擴增的結果。0041圖4B:4Bi示出在E中基因第一輪選擇和富集之後的基因組文庫。NC是來自4Ai的總DNA。00424Bii示出乳液選擇後Pstl基因的增加量。在4Biii中未觀察到M.PstII的富集。0043圖4C:4Ci示出在E中第二輪基因選擇和富集之後的基因組文庫。NC相對應於第一輪選擇後破壞乳液產生的總DNA片段的擴增。00444Cii示出乳液選擇後Pstl基因的增加量。使用M.PstI基因-特異性引物不再檢測到M.PstII基因(4Ciii)。0045圖4D:4Di示出在E中第三輪基因選擇和富集之後的基因組文庫。NC相對應於第二輪選擇後破壞乳液產生的總DNA片段的擴增。00464Dii示出乳液選擇後Pstl基因的增加量。使用M.PstI基因-特異性引物不再檢測到M.PstII基因(4Diii)。0047圖5示出在1%瓊脂糖凝膠上來自棲熱菌某種(TTzernn/s^.)的TspMI基因的基因組選擇。泳道lst、2nd和3rd顯示每輪選擇後的銜接頭-特異性PCR擴增。3rd泳道中的條帶被克隆並證實編碼TspMI基因。0048圖6示出Aval(SEQIDNO:l)、NspIII(SEQIDNO:2)、BsoBI(SEQIDNO:3)和TspMI(SEQIDNO:4)家族之間的多重比對。預測催化基序(EXK)顯示於框中。催化殘基組氨酸在110位與120位之間用箭頭突出顯示。除了用於催化的高度保守區域,TspMI與其他蛋白序列相似性較遠。290位與310位之間的箭頭顯示BsoBI家族中負責簡併鹼基識別的殘基。比對由ClustalW(Roberts,7VocAto/Jcad5W102:5905-5908(2005))產生並由ClustalX(Alves等,NucleicAcidsandMolecularBiology,Pingoud,A.(ed.),Spring-Verlag:Berlin,Germany,Vol.14,pp.393-411(2004))顯示。0049圖7示出TspMI的核苷酸序列(SEQIDNO:5)。實施方式詳述0050如果耙基因的選擇和富集可被優化以便能夠從廣泛的序列空14間內進行有效回收,那麼體外區室化提供定向進化的有效方法。在本發明的實施方式中,巳發展了一種選擇和富集方法,其涉及將銜接頭分子連接至多核苷酸,其中靶基因已從所述多核苷酸被表達和任選地被修飾。該方法在每一輪選擇過程中提供多達100倍或高於100倍的富集,並可應用至寬範圍的編碼可選擇酶活性的基因。0051體外區室化依賴於乳液的形成,所述乳液可從不混溶的液體的任何合適組合產生。優選地,親水溶劑形成顯微尺寸或膠態尺寸的"水"液滴。"液滴(droplets)"在本領域中也稱為"微膠囊"。膠體中的水液滴可由任何親水材料形成,所述材料適於形成乳液、含有穩定形式的生化組分、並提供其中可發生所述反應的環境。液滴懸浮於其中的疏水液體不含有任何反應物。0052可通過添加一種或更多種表面-活性劑(surface-activeagents)(表面活性劑,surfactants)來穩定乳液。這些表面活性劑被命名為乳化劑並在親水/疏水界面發揮作用以防止(或至少延遲)相分離。許多疏水液體例如油和許多乳化劑可用於兩相乳液的產生;一個近期的彙編物列舉了16,000種以上表面活性劑,其中的許多種被用作乳化劑(Ash,M.和Ash,I.Handbookofindustrialsurfactants,GowerPublishingLtd:Aldershot,Hampshire,UK(1993);禾口Schick,Nonionicsurfactants.MarcelDekker:N.Y.(1996)),例如失水山梨糖醇單油酸酯(SPAN.RTM.80;ICI))和聚氧乙烯山梨糖醇酐單油酸酯(TWEEN.RTM.80;ICI))。0053陰離子表面活性劑的使用也可以是有益的。合適的表面活性劑包括膽酸鈉和牛磺膽酸鈉。特別優選的是脫氧膽酸鈉,優選地,處於0.5。/。w/v或更低的濃度。將陰離子表面活性劑添加至待乳化混合物確保反應只在區室化後進行。0054乳液的產生通常需要應用機械能促使各相混合在一起。存在多種迸行該過程的方法,它們利用多種機械裝置,包括攪拌器(例如磁攪拌棒、螺旋槳和渦輪攪拌器、槳裝置和攪乳器)、均化器(包括轉子-定子均化器、高壓閥均化器和噴射均化器)、膠體碾磨機、超聲波和"膜乳化"裝置(Becher,Emulsions:theoryandpractice.Reinhold:N.Y.(1957;Dickinson,Emulsionsanddropletsizecontrol,pp.191-257Wedlock,D.J.15(ed.),Butterworth-Heinemann:Oxford,U.K.(1994))。0055對應於直徑為O.lpm至10nm之間的球體,水液滴的體積優選地為5.2Xl(T221113至5.2Xl(T161113之間的量級,更優選地在約5.2X10"9m3至6.5XKT171113之間(lnm與5)im之間),例如2-6|im。0056如果液滴之間存在遺傳元件或基因產物的任何交換,乳液中形成的水液滴通常很不穩定。存在產生體積一路升至數千升的工業規模的乳液的技術(Becher,Emulsions:theoryandpractice,Reinhold:N.Y.(1957);Sherman,Emulsionscience.AcademicPress:London,U.K.(1968);禾口Lissant,ed."Emulsionsandemulsiontechnology"inSurfactantScience,MarcelDekker:N.Y.(1974和1984版)。0057"多核苷酸片段"是指雙鏈或單鏈分子或構建體,其選自DNA分子、RNA分子或部分RNA和部分DNA、由單鏈RNA和單鏈DNA構成的雙鏈雜合體、或由全部合成的鹼基或天然發生鹼基和合成鹼基的混合物組成的部分或全部人工核酸分子。前述任何一種可在一個末端連接至多肽或其他分子基團或構建體,以使另一端是粘性末端或能夠轉變成粘性末端,用於連接至銜接頭分子。有利地,"其他"分子基團或構建體可選自核酸;聚合物質,尤其是珠子,例如聚苯乙烯珠子;磁性物質例如磁性珠子;標記物例如螢光團或同位素標記物;化學試劑;結合劑例如大環類(macrocycles)等等。0058多核苷酸片段可包括合適的調節序列,例如基因產物有效表達所需的那些調節序列,例如啟動子、增強子、翻譯起始序列、多聚腺苷酸化序列、剪接位點等等。0059"多核苷酸片段文庫"是指多個多核苷酸片段,其具有在各個多核苷酸片段之間變化的基因序列。優選地,所述基因序列中的一個或更多個編碼所期望的蛋白活性,其中這些基因序列被稱為"靶基因"。靶基因能夠編碼具有所期望酶活性或結合活性的蛋白,其中所述活性是通過粘性末端方法將銜接頭連接在含有靶基因的多核苷酸的末端所需的。0060進行選擇和富集方法,用於從多核苷酸片段中的遺傳元件群獲得一個或更多個靶基因。因此,在開始時假定,所述多核苷酸片段文列的一個或更多個多核苷酸片段。不存在靶基因時,不能發生耙基因的選擇和富集。0061"酶混合物"是指包括多種酶的轉錄和翻譯系統,所述系統可購得(參見,例如,theNEBcatalog,Ipswich,MA)並且任選地為另外的試劑酶。0062"連接"是指兩個多核苷酸的共價連接。在該方法的實施方式中,連接需要含有編碼蛋白活性的靶基因的多核苷酸片段;通常具有粘性末端的多核苷酸銜接頭;以及具有連接酶活性的蛋白一一如果具有連接酶活性的該蛋白不被靶基因編碼。另外的組分可能任選地包括限制性內切核酸酶試劑或基因,其用於切割多核苷酸片段以產生粘性末端;和/或切口核酸內切酶試劑或基因,其與平頭末端-切割限制性內切核酸酶一起應用。限制性內切核酸酶不總是引起連接所需的,因為多核苷酸文庫的特徵可以是所有片段都具有粘性末端,但只有那些編碼連接酶活性的片段會通過銜接頭-依賴性選擇被選擇。0063在本發明的實施方式中,銜接頭的連接是通過IVC進行選擇和富集的先決條件。如果靶基因表達,那麼連接可在多核苷酸片段和銜接頭之間發生,這是因為靶基因編碼具有連接酶活性或核酸內切酶活性的蛋白,或靶基因必須表達以允許限制性內切核酸酶在含有靶基因的多核苷酸片段上產生粘性末端,或者靶基因具有允許連接酶通過連接粘性末端將銜接頭連接至多核苷酸的其它活性。0064"增強的活性"是本領域術語,其指活性的增加,其可使用本文描述方法的實施方式進行選擇。0065"粘性末端"是指雙鏈多核苷酸片段的規定末端,其中具有單鏈突出端,所述突出端在DNA或RNA連接酶存在的情況下能夠共價地結合至多核苷酸銜接頭的互補單鏈。"粘性末端"可在雙鏈RNA、雙鏈DNA或雙鏈RNA/DNA雜合體上產生。粘性末端可通過酶切割形成,或可通過化學合成形成,所述酶例如但不限於限制性內切核酸酶。0066"擴增"是指本領域已知的DNA序列的任何基於引物的複製。例如,擴增可通過聚合酶鏈式反應(Saiki等,S"'e"ce239:487-91(1988))或使用多種其他基因擴增技術中的一種進行,所述其他基因擴增技術包括Q卩複製酶擴增(Cahill等C"".Ozem.37:1482-5(1991);Chetverin等/Vogr&w7Vwc/ez'cJczWi&searc/zAfo/.Jz'o/.51:225-70(1995);以及Katanaev等F血丄e"359:89-92(1995);連接酶鏈式反應(LCR)(Landegren等,5Wewce241:1077-80(1988);Barany戶C7Me/Zzotfe1:5-16(1991);自動維持序列擴增系統(Fahy等,戶OMeAoAJp//1:25-33(1991),鏈置換擴增(Walker等,A^c/e/cA^/ie"arc/z20:1691-6(1992),以及解旋酶-依賴性擴增(美國專利號7,282,328)。0067"一(A)"不意圖限制於"一個(one)"。0068多核苷酸片段文庫可表達來自靶基因的蛋白,所述靶基因通過其與銜接頭連接的能力從文庫中被選擇,其中所述連接事件依賴於靶基因的表達。然後,靶基因可通過銜接頭-特異性擴增而富集。0069為確定該方法實施方式的效力,下文提供的實施例描述了如何進行模式選擇,所述選擇使用摻有各種量的編碼PstI限制性內切核酸酶(識別序列CTGCAiG)以產生4鹼基3'-突出端的基因的過量GFP基因的文庫。擴增後,觀察到大於50倍的富集,更具體地,在單輪選擇中100倍的富集(圖3)。進行多輪選擇以實現連續的富集。0070耙基因的富集提供了本實施方式也適於從生物體的基因組中選擇和富集新基因的可信度。以下實施例描述了如何將編碼已知的測試限制性內切核酸酶PstI和以前未描述的限制性內切核酸酶TspMI的靶基因從它們發生的細菌(斯氏普羅威登斯菌基因組(PstI)和棲熱菌某種(TspMI))的基因組中選擇和富集出來。文庫從單一細菌種類的gDNA構建。在三輪重複體外選擇中,核酸內切酶基因成為所產生文庫中的唯一佔優勢的DNA種類。隨後,TspMI被克隆並第一次測序。0071該方法的實施方式提供改進的系統,用於克隆已知使用標準技術難以克隆的限制性內切核酸酶。表達的由多核苷酸片段中的靶基因編碼的限制性內切核酸酶在假定基因外部的特異性位點切割多核苷酸。如果限制性內切核酸酶被表達,則在多核苷酸片段上產生粘性末端或平頭末端。如果限制性內切核酸酶切割DNA以產生平頭末端,那麼然後另外的切口核酸內切酶可摻入水液滴並且適當的識別和切口位點可引入多核苷酸片段中的基因和限制性內切核酸酶切割位點之間。在該方法中,在靶基因產物進行平頭末端切割後,在多核苷酸片段上產生粘性末端。連接酶可作為試劑添加至水液滴或破壞的乳液中,以促進具有與多核苷酸互補的粘性末端的銜接頭和含有靶基因的多核苷酸片段之間的連接。然後進行擴增以提供其中靶基因已被富集的DNA製備物。0072限制性內切核酸酶可涉及銜接頭-依賴性選擇和富集,其不但用於克隆限制性內切核酸酶,而且用於以幾種方式選擇和富集多種其他基因。這些包括(a)切割多核苷酸片段以產生粘性末端,其在將所述片段引入IVC中之前進行,例如,在選擇具有連接酶活性的蛋白和富集該蛋白的溶液中;(b)切割多核苷酸片段,其在由多核苷酸片段編碼的切口核酸內切酶切割之前、之中或之後進行;(c)作為靶基因的表達產物;作為第二多核苷酸片段的表達產物,例如,在選擇具有轉錄或翻譯酶活性例如tRNA合成酶活性的蛋白中;和/或富集該蛋白的溶液中;或(e)作為包含在水微粒中的試劑酶,例如,在選擇具有逆轉錄酶或連接酶活性的蛋白中;和/或富集該蛋白的溶液中。0073觀察到的靶基因的選擇性和富集是可應用的,所述應用不只限於限制性內切核酸酶,也用於多種其他酶,僅受要求銜接頭連接至編碼靶基因的多核苷酸片段的實驗設計的限制。銜接頭的使用允許在大量序列空間內對期望蛋白的有效搜索。0074該方法實施方式的應用包括下列(1)限制性內切核酸酶突變體的選擇和富集。可產生DNA片段文庫,其中每個片段含有編碼感興趣酶的基因和在同一DNA片段中突變基因外的限制性內切核酸酶切割序列。多核苷酸片段的來源可以是隨機誘變基因的文庫。可選地,所述文庫可以是源於體內樣品的不同基因的集合,例如,其中所述體內樣品是細胞、生物體、或不同生物體的群體,例如,來自土壤樣品的微生物。在本發明的一個實施方式中,多核苷酸片段文庫可由例如以下描述的用於DNA的策略產生。單一細菌種類的gDNA被剪切為ORF-大小的片段(例如l-3Kb)。然後將DNA片段在任一末端按需要進行平頭末端化並連接至已知序列(例如,T7啟動子和特異性限制性內切核酸酶識別/切割序列加上另外的序列)。然後,基因組片段可通過乳液PCR擴增(Zheng等M/c/e/cJcW^^wc/35:e83(2007)),以便在基因外部摻入限制性內切核酸酶識別/切割序列。然後,所述擴增的線性片段被併入IVC中。通過體外區室化,個體DNA片段被摻入液滴,並且任何表達的限制性內切核酸酶一一其在插入的切割位點切割DNA以產生規定的粘性末端——會根據DNA連接至銜接頭的能力被選擇。添加連接至這些粘性末端的銜接頭導致所期望基因的選擇。只有那些己被編碼的核酸內切酶切割的模板可被有效連接。然後,使用銜接頭-特異性PCR擴增銜接頭-連接模板來富集靶基因。每一輪使用不同銜接頭,通過三輪反覆體外選擇,限制性內切核酸酶基因成為在產生的文庫中唯一佔優勢的DNA種類。使用該方法,克隆來自斯氏普羅威登斯菌的Pst堪因和來自棲熱菌某種的TspMI基因(參見實施例)。因為連接反應是選擇中的關鍵步驟,所以對於產生較短突出端或平頭末端的那些核酸內切酶,該方法可被修改。在這些情況下,切口酶的識別位點可位於平頭末端附近,以使切口酶對多核苷酸的切割產生粘性末端。常用的切割物,例如識別4-鹼基位點的那些,有時落入應用範圍之外,因為它們趨向於破壞它們自己的基因。這些酶在活細菌中是無毒的,因為伴隨的DNA甲基轉移酶保護宿主。然而,顯示的是,具有自我破壞位點的選擇性劣勢已使得相當比例的常用切割物在它們的基因內喪失識別位點。表1列出在它們基因內具有它們自己的識別位點的那些限制性內切核酸酶基因的統計結果。例如,根據泊松分布,對於大小為lkb的基因,其不具有特定4-鹼基位點的概率是大約6-4(即0.01S)。這與半數以上的4-鹼基識別限制性內切核酸酶基因在它們的編碼序列中不具有其自身位點的觀察結果形成明顯對比(表l)。一旦多核苷酸片段已被選擇,可使用標準克隆技術克隆靶基因(Sambrook等,Molecularcloning:alaboratorymanual.ColdSpringHarborLaboratoryPress:NewYork(1989))。但是,可應用可選的技術,這對本領域技術人員會是顯而易見的。例如,摻入基因產物中的遺傳信息可被摻20入合適的表達載體中並從而被表達。(2)具有與野生型酶相比降低的星號活性的突變體的選擇和富集。不同於識別單一序列進行切割,具有星號活性的限制性內切核酸酶在不同位點切割,所述位點通常由於一個核苷酸而彼此不同。通過設計在不同粘性末端之間進行區分的銜接頭,選擇具有降低的星號活性的修飾酶是可能的。(3)通常在識別位點外部切割(例如,距識別位點20個核苷酸)的那些天然或重組限制性內切核酸酶的突變體的選擇和富集。在距識別位點增加的距離處切割的突變體的選擇和富集可這樣實現設計DNA序列,所述DNA序列具有在識別位點下遊的預定數目的核苷酸,其產生靶粘性末端用於連接銜接頭。(4)僅具有切口活性的突變限制性內切核酸酶的選擇和富集可這樣實現例如,使多核苷酸片段中的突變基因表達,以至在接近DNA片段末端的位點產生切口。結果會產生銜接頭可與之連接的粘性末端。(5)連接酶活性的選擇和富集。多核苷酸片段可由限制性內切核酸酶消化以產生規定末端。銜接頭和多核苷酸片段被分散到體外區室中以允許體外轉錄和翻譯。銜接頭-特異性PCR可用於擴增編碼連接酶活性的DNA片段。(6)編碼具有涉及轉錄和翻譯的酶活性的蛋白的基因的選擇和富集。這可以通過將來自文庫的一個或更多個多核苷酸片段,以及含有限制性內切核酸酶基因的多核苷酸片段連同用於轉錄和翻譯的酶混合物摻入乳液中的各個水液滴而實現,所述乳液缺乏由靶基因編碼的單一轉錄或翻譯蛋白。所述文庫可以是基因組文庫或誘變靶基因文庫。所述選擇方法依賴於在缺乏靶基因編碼的蛋白的情況下、所述靶基因編碼的蛋白通過轉錄翻譯混合物的產生。隨後,編碼限制性內切核酸酶的多核苷酸可在含有靶基因編碼的蛋白的轉錄和翻譯混合物中被轉錄和翻譯。然後,具有限制性內切核酸酶活性的蛋白可切割來自同一液滴中含有的文庫的多核苷酸片段,在多核苷酸片段上產生粘性末端,用於連接至水液滴內部或外部的銜接頭。然後,可使用銜接頭-特異性引物擴增靶基因。(7)編碼功能蛋白的誘變基因的選擇和富集。乳液可用於有效地篩選具有功能性的隨機誘變蛋白。傳統的基因篩選文庫通過各種標準產生突變體選擇。由於與功能性無關的因素,例如翻譯效率、摺疊效率、對特定緩衝液的優選或催化效率,突變體可選自文庫中的混合物。這些複雜因素中的許多因素可通過使用乳液選擇和富集步驟而避免。在轉錄和翻譯系統存在的情況下,各個基因在不連續的水液滴中被分離。確定多核苷酸片段選擇的主要標準是蛋白是否被表達,以及如果蛋白被表達,蛋白是否具有在多核苷酸片段上產生粘性末端和通過粘性末端將銜接頭連接至多核苷酸片段的活性。不同程度的酶活性或特異性之間的差異可在各個液滴中或在擴增後獲得。如上所述,多輪選擇可提供具有所期望性質的變體的回收的增加。而且,也可能的是,使用本文描述的實施方式通過多輪選擇和富集來闡明耙基因中的特定核苷酸,當所述核苷酸突變時顯示所期望的產物、改變的性質或至少保持功能性。(8)逆轉錄酶活性的分離。多核苷酸片段可以是單鏈RNA。如果RNA片段含有編碼逆轉錄酶的序列,那麼在所需附助因子一一例如逆轉錄和水液滴中互補鏈合成所需的RNA和DNA引物——存在的情況下,會形成雙鏈DNA。限制性內切核酸酶進一步包括在用於逆轉錄雙鏈產物切割的酶混合物中,從而使得連接到銜接頭。0075本文引用的所有參考文獻以及2007年2月23日提交的美國臨時申請系列號60/903,258通過引用併入本文。實施例0076根據廠商說明使用高保真PhusionTM聚合酶(Finnzymes,Espoo,Finland)進行所有PCR。所有寡聚物在NewEnglandBiolabs(NEB,Ipswich,MA)合成(寡聚物詳述參見表3)。若無另外說明,DNA純化使用旋轉-柱方法(QiagenInc.,Valencia,CA)。若無另外說明,酶均來自NEB,Ipswich,MA。模式文庫構建0077首先將Pstl基因克隆至pLT7K載體中(Kong等,A^c/e/d/Ai^s28:3216-3223(2000)),然後從質粒擴增。從pIVEX-GFP載體(Roche,Basel,Switzerland)擴增GFP基因。對於兩個模板,T7啟動子上遊的5'-非翻譯區相同。兩個反向引物具有兩個串聯重複的PstI識別位點(CTGCAG)(圖2A)。PCR產物用凝膠純化。純化DNA的濃度由A260讀數和凝膠電泳測定。通過以變化的摩爾比l:100、1:103、1:104和1:105混合PstI和GFP模板來構建模式文庫,終濃度為10ng/pl。基因組文庫構建0078從NEB(Ipswich,MA)菌株保藏中心獲得細菌菌株。根據廠商說明使用霧化器(Invitrogen,Carlsbad,CA,K7025-05)剪切約IO昭純化的gDNA。用異丙醇沉澱剪切的gDNA,重懸於水中並通過瓊脂糖凝膠電泳從lkb至3kb按大小選擇。按大小選擇的gDNA的末端是不均一的,並使用PhusionTM聚合酶(3'—5'exo+)(Finnzymes,Espoo,Finland)用dNTP在72'C進行平頭末端化2小時。使用T4多核苷酸激酶在37'C對純化的平頭末端化gDNA片段磷酸化1小時。0079載體pYZ6源自pIVEX2.4(Roche,Basel,Switzerland),其具有下列修飾(1)Nrul位點(TCGICGA)和MscI位點(TGGICCA)已在緊接核糖體-結合位點之後添加至多克隆區以允許平頭末端化DNA片段的插入;(2)將兩個PstI位點添加至多克隆區之後(在TspMI基因組選擇中的兩個TspMI位點)。將環狀pYZ6質粒通過NruI消化而線性化並純化。使用T4連接酶在NruI(1U/10pl)存在下進行gDNA片段和pYZ6之間的連接,室溫下過夜。從連接混合物純化DNA。將l(il純化的DNA轉化至化學感受態細胞(NEB,Ipswich,MA,Turbo)中,以判斷文庫質量並評價基因組覆蓋程度。0080然後,進行乳液PCR,以便使用引物561和825III從連接的gDNA"克隆地"擴增線性DNA模板(Williams等,7Va/M^/zoA3:545-550(2006))。在1.5分鐘內,在1000rpm下以滴加方式將200iil的PCR混合物水溶液添加至400jil攪拌油混合物(4.5。/。v/vSpan80(Fluka,Sigma-Aldrich,St.Louis,MO)、0.45%v/vTween80(Sigma誦Aldrich,StLouis,MO)、0.05o/oTriton-X100(EMBiosciences,SanDiego,CA),在輕礦物油(Sigma-Aldrich,St.Louis,MO)中)中。完成添加後,繼續攪拌5分鐘。將乳液以10份5(Hi1吸至PCR管中,並用礦物油覆蓋。將反應加熱至98'C,60s;然後循環30次(98°C10s、55°C20s、72。C90s);然後72。C,7min。將乳液PCR的引物與載體臂退火正向引物561是T7啟動子上遊的100nt,並且反向引物825III是Pstl位點下遊(參見表3)。從乳液PCR擴增的DNA如Williams等所述(A^M"/wA3:545-550(2006))(圖4A)純化並用於體外選擇。使用體外區室化進行選擇0081將重組PURETM系統(PostGenomeInstitute,Japan)用於體外轉錄/翻譯反應。1200rpm(TelesystemHP15P,Variomag,DaytonaBeach,FL)下,將50(il冷卻的混合物水溶液(25^溶液A來自PURETM系統,10pl溶液BPURETM系統,14nlH20,1iil文庫)添加至450pl攪拌的油混合物(0,5%v/vTritonX-100(EMBiosciences,SanDiego,CA)和4.50/。v/vSpan80(Fluka,Sigma-Aldrich,St.Louis,MO),在輕礦物油(Sigma畫Aldrich,St.Louis,MO)中),並攪拌另外5分鐘。在37。C溫育乳液2小時以進行體外轉錄/翻譯。在PstI選擇中,通過首先加熱至80'C20分鐘、然後添加50pl猝滅緩衝液(10mMTris,20mMEDTA,pH=8.0)來停止乳液中的反應。然後將乳液在4。C以14,000rpm旋轉15分鐘。去除上層油相併通過用lml水飽和醚萃取來破壞殘留乳液。在Speedvac中旋轉5分鐘去除殘留醚。用旋轉-柱方法回收DNA文庫並在50(il緩衝液EB(Qiagen,Valencia,CA)中洗脫。0082每次乳液選擇後的純化DNA與過量("OO倍)的短雙鏈銜接頭(100-200nt)連接。用限制性酶消化從純化的DNA切除銜接頭(參見表3)。10Kil連接混合物中的2^il用於銜接頭-特異性PCR(初始98。C60s,30個循環98°C10s、55°C20s、72°C60s,最終延伸72。C7min)。用於後續輪選擇的正向引物被嵌套以增加PCR的特異性。PCR之後,DNA被旋轉柱純化並用於下一輪選擇。限制性內切核酸酶基因的特異性富集一0083限制性內切核酸酶基因的選擇依賴於它們產生隨後用於連接和PCR擴增的粘性末端的能力,如圖1A所述。用於體外選擇的DNA模板被工程化,使得在一端有用於有效轉錄和翻譯的必要元件(T7啟動子、核糖體結合位點),而在另一端有兩個串聯重複的PstI識別位點作為底物(圖3A)。與體外轉錄/翻譯系統混合的DNA模板被分散入上至l(^個作為人工細胞的水液滴中(Tawfik等,A^5/o&c/2"o/16:652-656(1998))。在含有限制性內切核酸酶基因的液滴中,活性核酸內切酶在體外表達並切割其自身的編碼DNA模板,在尾部留出粘性末端。活性核酸內切酶分子被限制在單個液滴中以確保基因型-表型關聯。乳液中的反應停止之後,DNA模板被合併並放入具有過量銜接頭的連接混合物中,所述過量銜接頭具有可相容粘性末端。然後進行銜接頭4寺異性PCR以特異性地擴增與銜接頭連接的DNA模板。這通過使用僅與銜接頭雜交的反向引物來獲得,而正向引物對所有DNA模板是通用的。0084我們構建了模式文庫,其由兩個DNA模板組成,一個具有Pstl可讀框(ORF),另一個具有GFPORF。將這兩個模板以可變的摩爾比混合,並具有降低濃度的Pstl模板。Pstl模板的大小是約1.3kb,並且GFP模板是約1.2kb(圖3A)。當起始所有模式選擇時,使用大約101個(Hil模式文庫,10ng4d)模板分子。相同量也用於對照實驗。作為陽性對照,用純PstI酶消化初始文庫,然後用銜接頭連接並進行PCR擴增。我們預測,文庫中的所有模板會在陽性對照實驗中擴增並且模板之間的最終摩爾比會反映缺乏基因型-表型關聯情況下的選擇效率。通過直接將初始文庫放入連接反應然後進行PCR擴增來進行陰性對照。由於DNA模板是平頭末端化的PCR產物,它們不會連接至具有粘性末端的銜接頭,並且因此不被擴增。這在圖3中得到證實,其顯示了在陰性對照中的陰性結果,其說明沒有非特異性連接或擴增。0085使用Pstl:GFP4:100文庫,得自單一輪選擇的結果顯示於圖3B中。在陽性對照中,GFP被優先地擴增(圖3B,泳道PC),因為它是起始文庫中的優勢種類,並且在陰性對照中,幾乎沒有DNA被擴增(圖3B,泳道NC)。相反,乳液選擇後,對應於PstI模板的亮條帶以可比較的亮度出現在GFP條帶上方(圖3D和3F,泳道E)。綜上所述,這些實驗顯示Pstl模板的特異性富集。使用l:IOOO文庫在第一輪選擇中觀察到類似結果(圖3C)。從條帶亮度判斷,選擇後PstI和GFP之間的最終摩爾比大於1:50並且測定為至少100倍富集。0086在IVC選擇中,位於同一液滴中的具有限制性內切核酸酶基因的所有模板作為"帶出物(carryover)"被擴增。為消除"帶出物"模板,在後續的選擇之間使用不同的銜接頭。圖3C和3D顯示使用1:IOOO文庫的兩輪選擇。第一輪後,Pstl模板以大於100倍被富集(圖3C,泳道E)。第一次PCR後純化的DNA直接用於下一輪選擇,其後PstI模板成為文庫中的優勢DNA種類(圖3D,泳道E)。使用l:104和1:105文庫的選擇顯示於圖3E和3F中。第一次選擇後,極少的DNA被擴增(圖3E,泳道E)。第二次選擇後(圖3F),對應於PstI和GFP的條帶都出現在凝膠上,並具有大約l:l的比例。觀察到在每輪選擇中一致的100倍富集。選擇後克隆DNA0087選擇後的DNA條帶被切出並在瓊脂糖凝膠上純化。然後,將選擇的DNA用限制性酶消化(Pstl選擇中的PstI和TspMI選擇中的XmaI)並連接至pLT7K中。將pLT7K設計為提供毒性基因(Kong等,iV"c/e/cv4cz'^28:3216-3223(2000))。將連接的DNA轉化至NEBTurboTM(Ipswich,MA)中並在LB-Amp平板上鋪板。將平板在37。C生長過夜。挑取單個克隆並在具有氨苄青黴素的LB培養基中生長。用微量-製備方法提取質粒並進行測序。Pstl基因的基因組選擇0088確定了限制性內切核酸酶基因從模式文庫中有效地富集之後,我們繼續挑戰更複雜文庫的系統。利用體外選擇的對照實驗提供從細菌基因組構建的文庫,我們已知在所述細菌基因組中存在活性限制性內切核酸酶基因。通常細菌基因組的大小從小於1M鹼基至接近10M鹼基變化。通常的II型限制性內切核酸酶基因的大小為大約lkb。因此,從細菌gDNA構建的文庫複雜性被計算為105。我們從已知PstI基因的天然宿主斯氏普羅威登斯菌(iVoW&"c/aWMaW/)中選擇所述已知PstI基因,並隨後從棲熱菌某種(T7^nm^w.)選擇新的熱穩定核酸內切酶TspMI基因。0089基因組文庫構建的示意圖顯示於圖2。簡言之,使用霧化器將純基因組DNA(gDNA)剪切為小於5kb的片段。然後,對片段化的gDNA進行大小選擇(lk-3k)、平頭末端化和磷酸化。產生的gDNA片段與線性化的載體連接,所述線性化的載體具有體外轉錄/翻譯和選擇的必要元件。然後,通過使用乳液PCR,將與載體連接的gDNA"克隆地"擴增(Williams等,A^Me^^3:545-550(2006))。擴增的線性gDNA模板直接用於體外選擇。使用乳液PCR的優勢包括降低擴增偏差和增加基因組文庫質量。0090在選擇過程中,我們通過PCR監測選擇前後文庫中兩個參考基因的存在情況一個是靶PstI基因,另一個是DNA甲基轉移酶基因M.PstII的片段(Sears等,iV"c/e/cv4c/AWey33:4775-4787(2005)),其不具有核酸內切酶活性並且不位於染色體上PstI基因附近。圖4顯示基因組選擇的全過程。起始基因組文庫顯示於圖4Ai-4Aiii中,其中PstI和M.PstII片段都存在。注意到條帶亮度不一定反映它們在基因組文庫中的成比例豐度,原因在於在單個PCR效率方面可能存在差異。0091圖4Bi中的凝膠顯示對乳化的基因組文庫和陰性對照的第一銜接頭-特異性PCR的結果。在這兩個PCR之間沒有明顯差異。但是,在兩個參考基因上的單個PCR表明,Pstl基因在乳化的文庫中富集而不在陰性對照中富集。對照基因M.PstII明顯地沒有被擴增(圖4Bi湘4Biii)。在乳化的文庫中存在的M.PstII少於陰性對照的事實可能歸因於在乳液選擇中更大量的DNA樣品損失,純化圖4Bi中的泳道E並用於下一輪選擇(圖4(Ci)),其後僅期望的PstI基因存在於乳化樣品中,而其他汙染基因例如M.PstII被稀釋掉(圖4Ciii)。雖然看起來只有攜帶PstI的模板在第二選擇中保存,但是其不足以在凝膠上清晰顯現。純化圖4Ci中的泳道E並對其進行第三輪選擇,其後1.5kb的條帶出現在乳化的文庫中,而不出現於陰性對照中(圖4Di)。對參考基因的單個PCR支持第三輪中一致的富集。隨後證實,該1.5kb條帶具有全部Pstl基因組片段。這些結果強烈表明,Pstl基因富集在所期望的過程後產生。0092來自第三選擇的1.5kb條帶被凝膠純化,用PstI酶消化,並克隆至pLT7K中進行測序。質粒pLT7K被工程化改造以容納極端毒性基因,其通過將克隆基因的控制抑制與反義啟動子組合來對抗基礎表達的致死作用(Kong等,A^c/e/cv4c7Aies28:3216-3223(2000))。測序的插入物與全部測序的PstI限制-修飾系統比較(Roberts等,M/c/ez'c爿c/A35:D269-270(2007)),並且結果證實在選擇的gDNA中存在一種主要產物,其包括全部PstIORF,具有起始密碼子上遊的3nt和終止密碼子下遊的~300nt。該結果明確顯示,選擇的DNA確實來自gDNA來源並不來自任何可能的汙染。有趣的是,所有選擇的基因組片段起始於PstI起始密碼子上遊3nt的觀察結果表明,在基因組選擇過程中,在翻譯效率上可能存在選擇壓力。TspMI基因的基因組選擇0093然後,我們將體外選擇方法應用於另一個來自棲熱菌某種(77^m"s的熱穩定核酸內切酶TspMI(識別序列CUCCGGG)(Parashar等,^p/M/cro6/o/所o/ec/ww/72:917-923(2006)),其以前未被克隆。TspMI在75-80。C具有最佳活性並在37。C保持約20。/。活性(Roberts等,A^c/ez'cJc/A^s35:D269-270(2007))。基於這些事實,體外選擇略微不同於PstI基因的選擇,所述不同之處在於(1)在文庫構建中,基因組片段和載體之間的連接步驟在NruI和MscI酶單獨存在下進行,以將任一酶在TspMI基因內部切割的機會最小化,所述切割會破壞待選擇的靶基因;(2)首先在37t:溫育乳液反應物用於體外轉錄/翻譯,然後短暫移至65'C進行有效DNA切害l」;(3)由於TspMI酶不能通過熱失活,只使用猝滅緩衝液來停止反應,並且DNA回收的過程在冰上進行。為了比對,還進行傳統的甲基化酶選擇(Szomolanyi等,10:219-225(1980))以對具有TspMI限制-修飾系統的基因組區域繪製圖譜。0094圖5顯示使用源於Nml連接的文庫在每輪選擇後的銜接頭-特異性PCR。作為結果,在第三次選擇後觀察到多個條帶。這些條帶用TspMI的同切點酶XmaI(識別序列CICCGGG)消化,並克隆至載體pLT7K中。測序的具有插入物的克隆含有1.1kb的ORF。該ORF與從傳統甲基化酶選擇方法獲得的核酸內切酶基因相符,並且隨後被證實編碼活性TspMI核酸內切酶基因。具有基因組插入物的五個測序克隆的分析表明,所選擇的基因組片段均起始於預測起始密碼子下遊的36個核苷酸並在終止密碼子後可變的位點終止,導致瓊脂糖凝膠上多個條帶的模式。使用源於MscI連接的文庫的選擇不產生條帶。隨後發現在TspMIORF中存在多個MscI位點,使得在連接步驟中核酸內切酶基因已被破壞。TspMI限制-修飾系統的序列顯示於圖7中。0095TspMI限制-修飾系統在幾個方式方面是令人感興趣的。它含有通常的R和M基因以及切口核酸內切酶基因(V基因)——其通常連同m5CDNA甲基轉移酶被發現。這些核酸內切酶識別胞嘧啶脫氨基作用後形成的G-T錯配,所述胞嘧啶脫氨基是自發事件,如果未修正則會是誘變性的。基於序列比對,TspMI基因顯示為識別CCCGGG的基因新家族的成員,因為它與已知的以SmaI和XmaI為代表的基因家族非常不相似(表2)。在REBASE中(Roberts等,iVMc/ez'cJc/Ai^35:D269畫270(2007)),Smal家族具有6個基因,Xmal家族具有7個基因,它們全部伴有形成N4-甲基胞嘧啶的DNA甲基轉移酶。在三種已知的情況下,被修飾的是識別序列中的第二鹼基。基於該組中的序列相似性,可能它們都修飾這種相同鹼基。相反,M.TspMI是m5C甲基轉移酶,其顯示與M.NmeAI(Cm5CGG)僅僅有限的相似性。0096TspMI蛋白序列與BsoBI只具有遠的相似性(P-值X).l),其是另一熱穩定限制性酶並識別C4YCGRG(Y=C/T,R=A/G)。這將與BsoBI的不嚴格特異性一致,BsoBI識別兩個序列CCCGAG和CTCGAG以及由TspMI識別的特異性序列CCCGGG。注意識別序列中的相關切割位置在兩種酶中是相同的。圖6顯示TspMI和BsoBI連同也識別C;YCGRG的其他兩個相關酶AvaI和NspIII的多重比對。TspMI和BsoBI家族之間的序列保守性定位於催化基序EXK(圖6的框)中(vanderWoerd等,^n^M^9:133-144(2001))。一個有趣的觀察現象是,在BsoBI家族這一區域中的保守組氨酸殘基——其表明作為鹼對作為親核試劑的水分子去質子化(vanderWoerd等,9:133-144(2001))——在TspMI中被絲氨酸殘基替換。這表明可能經由絲氨酸-調節的親核攻擊的略微不同的催化機理。BsoBI中的兩個殘基Asp246和Lys81(參見圖6框中的箭頭)——其表明識別簡併鹼基對並在BsoBI家族中是保守的——在TspMI中已改變為天冬氨酸保守和賴氨酸變為苯丙氨酸。這再次表明略微不同的鹼基識別機制,其可能與TspMI的嚴謹特異性一致。0097表l.在它們的編碼序列內具有它們自身的識別位點的限制性內切核酸酶基因的統計*tableseeoriginaldocumentpage30"萬有序列數據源於2007年2月的REBASE(Roberts等,A^c/e/cW"35:D269-270(2007))。在分析中僅包括實驗證實的限制性內切核酸酶基因。簡併鹼基"RYMKSW"(例如,I^A或G)計算為0.5個鹼基;而"BDHV"(例如,B:C或G或T)計算為0.25個鹼基。0098表2.識別CCCGGG的限制酶序列家族tableseeoriginaldocumentpage30tableseeoriginaldocumentpage310099用於前兩類限制-修飾系統的甲基轉移酶在序列上是全部密切相關的,表明它們均修飾識別序列中的第二個胞嘧啶殘基以形成N4-甲基胞嘧啶。相反,M.TspMI是m5C甲基轉移酶,其顯示與M.NmeAI(CmSCGG)有限的相似性。粗體顯示的酶已進行生物化學表徵,其他酶基於與XmaI或SmaI的序列相似性預測。0100表3.用於富集靶基因的引物tableseeoriginaldocumentpage31承載體4寺異性引物退火至pYZ6質粒。引物561、590和625退火至T7啟動子的上遊區。引物825III退火至克隆位點下遊區。590是561的嵌套引物,並且625是590的嵌套引物。**銜接頭-特異性引物-0101對於PstI選擇,製備三個銜接頭銜接頭I凝膠純化自Pstl和Drain對OX174DNA的消化物。特異性擴增引物是174_pl。銜接頭II凝膠純化自Pstl和Sapl對pUC19DNA的消化物。特異性擴增引物是pUC19_pl。銜接頭III凝膠純化自Pstl和Bsal對pBR322DNA的消化物。特異性擴增引物是adallll。0102對於TspMI選擇,銜接頭I凝膠純化自Xmal和Bgll對pUC19DNA的消化物。特異性擴增引物是Bamp。銜接頭II凝膠純化自Xmal和SapI對pUC19DNA的消化物。特異性擴增引物是Samp。銜接頭III凝膠純化自Xmal和Bsal對pBC4DNA的消化物。特異性擴增引物是BC4_4260。所有DNA底物和酶來自NEB,Ipswich,MA。權利要求1.一種方法,其包括(a)提供多核苷酸片段文庫,其中一個或更多個多核苷酸片段包括編碼具有所期望活性的蛋白的靶基因;(b)將所述片段文庫包封在乳液中的多個水液滴中,其中所述多個液滴中的每個水液滴含有(i)具有轉錄和翻譯活性的酶混合物;和(ii)來自所述多核苷酸片段文庫的一個或更多個多核苷酸片段;(c)使得來自所述文庫的所述靶基因被轉錄和翻譯,以使所述靶基因的表達允許所述多核苷酸片段通過連接酶共價連接至多核苷酸銜接頭;和(d)使用銜接頭-特異性引物擴增所述靶基因。2.根據權利要求1所述的方法,其進一步包括在所述靶基因轉錄和翻譯之後和所述銜接頭連接至所述多核苷酸片段之前,破壞所述多個水液滴。3.根據權利要求1所述的方法,其進一步包括在連接之後和擴增所述基因之前,破壞所述多個水液滴。4.根據權利要求1所述的方法,其中所述靶基因的表達允許所述多核苷酸片段通過所述多核苷酸片段和所述多核苷酸銜接頭上的互補粘性末端連接至所述銜接頭。5.根據權利要求1所述的方法,其中每個所述水液滴進一步含有(iii)一個或更多個第二多核苷酸片段,其非來自於所述文庫並編碼規定的第二蛋白。6.根據權利要求5所述的方法,其中所述一個或更多個所述第二多核苷酸片段包括編碼具有多核苷酸切割活性的蛋白的至少一個基因。7.根據權利要求1所述的方法,其進一步包括(e)將所述擴增的靶基因和用於轉錄和翻譯所述基因的酶混合物包封於第二乳液中的多個水液滴中;(f)允許靶基因被表達和允許通過連接酶連接至第二多核苷酸銜接頭;(g)使用對所述第二銜接頭有特異性的引物擴增所述靶基因;和(h)任選地重複步驟(e)-(g)。8.根據權利要求7所述的方法,其中任選地重複步驟(e)-(g)包括用權利要求1所述的銜接頭或第三銜接頭替換所述第二銜接頭,用於連接至多核苷酸片段,其中所述第三銜接頭具有不同於所述第二銜接頭的多核苷酸序列,所述第二銜接頭具有不同於所述第一銜接頭的多核苷酸序列。9.根據權利要求1所述的方法,其中所述步驟(d)中的擴增所述靶基因提供所述多核苷酸片段文庫中所述靶基因的至少50倍富集。10.根據權利要求1所述的方法,其中所述文庫中的所述多核苷酸片段在所述基因序列以外的所述片段區域中具有限制性內切核酸酶和切口核酸內切酶中的至少一種的識別序列。11.根據權利要求1所述的方法,其進一步包括通過用所述靶基因表達的所述蛋白切割所述一個或更多個多核苷酸片段,在所述一個或更多個多核苷酸片段上形成粘性末端,其中切割任選地包括由酶試劑或由第二多核苷酸片段中的基因編碼的蛋白提供的第二酶活性。12.根據權利要求1所述的方法,其中所述多核苷酸片段文庫含有基因組DNA。13.根據權利要求7所述的方法,其中所述靶基因是天然發生基因並且所述方法進一步包括(i)從所述擴增的DNA克隆所述天然發生靶基因。14.根據權利要求1所述的方法,其中所述靶基因是誘變的基因,其具有所期望的切割、合成或連接蛋白活性。15.根據權利要求1所述的方法,其中所述靶基因編碼的所述蛋白具有連接酶活性。16.根據權利要求1所述的方法,其中所述靶基因編碼的所述蛋白具有多核苷酸切割活性。17.根據權利要求16所述的方法,其中所述多核苷酸切割活性選自限制性內切核酸酶切割活性、切口核酸內切酶活性和回歸核酸內切酶活性。18.根據權利要求1所述的方法,其中所述靶基因編碼的所述蛋白具有轉錄或翻譯活性。19.根據權利要求18所述的方法,其中所述靶基因編碼的所述蛋白具有tRNA合成酶活性。20.根據權利要求1所述的方法,其中所述靶基因編碼的所述蛋白具有逆轉錄酶活性。21.根據權利要求13所述的方法,其中所述靶基因編碼具有下列活性的蛋白,所述活性選自連接酶活性、多核苷酸-切割活性、轉錄或翻譯活性和逆轉錄活性。22.根據權利要求14所述的方法,其中所述靶基因編碼具有下列活性的蛋白,所述活性選自連接酶活性、多核苷酸-切割活性、轉錄或翻譯活性和逆轉錄活性。23.根據權利要求1所述的方法,其中所述蛋白具有非天然的靶多核苷酸切割活性。24.根據權利要求l所述的方法,其中所述蛋白的所述活性包括:(i)結合至DNA上的識別位點,和(ii)在距非天然發生的識別序列一定距離處切割所述DNA。25.根據權利要求1所述的方法,其中每個水液滴包括多個多核苷酸片段,其中至少一個所述多核苷酸片段包括編碼具有限制性內切核酸酶活性的蛋白的基因。26.根據權利要求5所述的方法,其中所述規定的第二蛋白是限制性內切核酸酶。27.根據權利要求26所述的方法,其中所述靶基因編碼選自tRNA合成酶和逆轉錄酶的蛋白。28.根據權利要求1所述的方法,其中所述多個液滴各自包括限制性內切核酸酶試劑。29.根據權利要求23所述的方法,其中所述多核苷酸片段包括RNA,並且所述RNA編碼具有逆轉錄酶活性的蛋白。30.分離的DNA,其編碼TspMI限制性內切核酸酶,其與SEQIDNO:5具有至少90%的序列同源性。31.載體,其包括權利要求30所述的分離的DNA。32.宿主細胞,其用權利要求31所述的載體轉化。33.疏水液體中的親水溶液乳液,其中所述親水溶液形成多個液滴,每個所述液滴含有(i)具有轉錄和翻譯活性的酶混合物;和(ii)來自多核苷酸片段文庫的多核苷酸片段,所述多核苷酸片段具有粘性末端或能夠切割所述多核苷酸以產生粘性末端的酶的識別位點。34.根據權利要求32所述的乳液,其進一步包括(iii)具有粘性末端的多核苷酸銜接頭,所述粘性末端與所述多核苷酸片段上產生或存在的所述粘性末端互補。專利摘要本發明提供用於從多核苷酸序列文庫選擇和富集靶基因的組合物和方法,所述多核苷酸序列文庫例如可從基因組形成或由基因序列的隨機突變形成。所述選擇和富集發生在形成於乳液中的水液滴中,其將來自所述文庫的單個多核苷酸或可包括不來自所述文庫的多核苷酸的多個多核苷酸、轉錄和翻譯試劑和任選地另外的化學和酶試劑區室化。所述選擇和富集方法利用多核苷酸銜接頭,所述銜接頭在連接至所述多核苷酸片段時、在銜接頭特異性引物存在的情況下,能夠使擴增發生。文檔編號C12N15/10GKCN101617046SQ200880005815公開日2009年12月30日申請日期2008年2月22日發明者R·J·羅伯茨,鈺鄭申請人:新英格蘭生物實驗室公司導出引文BiBTeX,EndNote,RefMan