新四季網

識別期望特異性序列的結合蛋白的合理設計的製作方法

2023-05-31 00:11:51

專利名稱:識別期望特異性序列的結合蛋白的合理設計的製作方法
識別期望特異性序列的結合蛋白的合理設計
背景技術:
分子生物技術的長期存在目標是設計和產生在選擇的DNA序列處特異性結合的 DNA結合蛋白的能力,而不是依賴於從自然鑑定的那些蛋白質結合的有限組的DNA序列。 為此目的,與它們的DNA靶序列複合的大量DNA結合蛋白的構建物已經通過結晶學確定 (Lukacs, et al. Nat. Struct. Biol. 7 134-140 (2000),並且已經確定賦予特異性 DNA 鹼基 識別的胺基酸殘基(Pingoud,et al. Nucleic Acids Res. 29 :3705_3727 (2001))。然而,迄 今為止,合理設計實驗——其中特異性胺基酸殘基被改變以形成具有新的、預確定特異性 的DNA結合蛋白——沒有成功。例如,產生具有新的DNA識別特異性的限制性內切核酸酶 的嘗試沒有實現它們的希望目標。結果,已經設計如此方法,該方法依賴於隨機改變DNA結 合蛋白,然後從隨機改變的蛋白質庫中選擇可與不同DNA序列結合的那些蛋白質。通常這 樣的嘗試產生如此的蛋白質,其結合相對於起始蛋白質具有鬆弛特異性,或者與相似的、非 靶DNA序列相比,其對它們的靶DNA結合序列具有低的特異性。但是,合理設計結合蛋白的有效方法將允許擴大可被結合和作用以產生生物事件 的獨特識別序列的數目。

發明內容
本發明的實施方式提供鑑定在結合蛋白的特定位置處的選擇的胺基酸殘基和結 合蛋白結合的識別序列中的模塊之間的關係的方法。該方法包括使用初始的結合蛋白在 BLAST檢索中查詢資料庫來產生結合蛋白組。每個結合蛋白的性質包括限定的胺基酸序列, 在BLAST檢索結果中,在該組中的胺基酸序列對於大於200個胺基酸的序列具有小於e-20 的期望值(E)或對於小於200個胺基酸的序列具有小於e-10的期望值(E)。另外,結合蛋 白與包含位置特異性模塊的底物中的特異性靶識別序列結合。該方法進一步包括比對該蛋 白質組中的胺基酸序列。該組中結合蛋白識別的靶識別序列也被比對,其中該比對可通過 特異性靶識別序列中的位置依賴性特徵進行。該識別序列中比對位置特異性模塊與結合蛋 白的比對胺基酸序列中一個或多個位置特異性胺基酸之間的相關性被鑑定。在本發明另外的實施方式中,提供通過使用該結合蛋白組的成員在另外的BLAST 檢索中查詢資料庫來擴大結合蛋白組的方法。在本發明另外的實施方式中,提供在該組中多個結合蛋白內鑑定一個胺基酸殘基 或多個胺基酸殘基的類型和位置的方法,所述胺基酸殘基確定在識別序列中的一個或多個 位置特異性模塊的識別。胺基酸殘基的類型和位置可以連同與該結合蛋白組的一個或多個 比對的識別序列中一個或多個位置特異性模塊的相關性一起記錄在目錄中。該目錄可用於 合理地修飾比對的結合蛋白的胺基酸序列以識別改變的特異性靶識別序列。胺基酸序列的 合理修飾可通過在單一結合蛋白中的相關位置處非隨機地突變一個或多個胺基酸以引起 結合蛋白的特異性靶識別序列的可預測改變來實現。在本發明另外的實施方式中,提供這樣的方法,其中該組的結合蛋白成員具有已 知的的胺基酸序列,但是具有未表徵的特異性靶識別序列。該方法包括通過下列步驟鑑定識別序列中的位置特異性模塊的步驟(i)檢查比對的結合蛋白組中結合蛋白成員的氨基 酸序列的比對;(ii)讀出在目錄中記錄的位置處的胺基酸殘基;和(iii)比較結合蛋白成 員中的胺基酸殘基與目錄中記錄的胺基酸殘基,以確定結合蛋白成員的特異性靶識別序 列。在一個另外的實施方式中,每個位置特異性模塊是DNA底物中的一個或多個核苷 酸。另外地,結合蛋白組可以是一組DNA結合蛋白,例如MmeI-樣蛋白。在本發明另外的實施方式中,提供了通過改變MmeI的胺基酸序列中預確定的一 個位置或多個位置處或MmeI樣DNA結合蛋白中一個或多個等價的比對位置處的胺基酸殘 基,來改變MmeI樣DNA結合蛋白的DNA識別序列的方法。作為MmeI結合蛋白中胺基酸修 飾的標靶的預確定位置的實例是位置751+773、806+808、774+810、774、774+810+809和809 的任一個。這些預確定位置的改變可進一步包括在DNA識別序列的位置3、4和6的一處或 多處識別的一個或多個核苷酸的改變。本發明的實施方式提供產生結合蛋白的方法,所述結合蛋白識別合理選擇的識別 序列,所述方法包括使用蛋白質組的成員蛋白質的位點定向誘變在鑑定的與選擇的特異性 靶模塊識別相關的一個位置或多個位置處用第二胺基酸取代第一胺基酸。本發明的實施方式提供了自動化上述方案的方法,其包括在計算機可讀存儲器 中的資料庫中存儲結合蛋白的胺基酸序列和通過執行儲存在計算機中的指令完成一個或 多個上述步驟。更具體地,提供了自動化在圖25A的方框1、2、3、4、6和7B中描述的一個或 多個功能的方法。提供了自動化圖25B中一個或多個步驟的另外的方法,以便需要溼法化 學的步驟通過與計算機相連的、能實施溼法化學的裝置實施。本發明的實施方式提供MmeI樣酶的組合物,所述MmeI樣酶具有導致在預確定位 置處至少一個改變的胺基酸殘基的突變,所述預確定位置具有對於DNA識別序列的特異 性,所述DNA識別序列與未改變的酶的DNA識別序列相比至少一個鹼基不同。該至少一個 鹼基不同可以是識別序列的長度不同,其對應於從識別序列添加或缺失核苷酸,或對應於 特定位置處的選擇性識別的核苷酸。本發明的實施方式提供包括存儲指令的存儲器和執行指令的計算機的系統,當指 令被執行時,其使用初始的結合蛋白在BLAST檢索中查詢資料庫而產生結合蛋白組,其中 每個結合蛋白具有限定的胺基酸序列,所述胺基酸序列對於大於200個胺基酸的序列具有 小於e-20的期望值(E)或對於小於200個胺基酸的序列具有小於e_10的期望值(E);結 合蛋白與底物中特異性靶識別序列相結合,所述靶識別序列包含位置特異性模塊。另外地, 該系統可包括指令,當執行時,其比對結合蛋白識別的特異性靶識別序列;和比對該組的結 合蛋白的胺基酸序列。另外地,該系統可包括指令,當執行時,其鑑定識別序列中比對的位 置特異性模塊與結合蛋白的比對胺基酸序列中一個或多個位置特異性胺基酸之間的相關 性。該系統可進一步包括接收來自蛋白質合成和蛋白質結合分析裝置的數據並包含指令的 工具,當其執行時,所述指令使用該數據,通過證實突變蛋白質與預確定識別序列結合的預 測來確認該相關性;和將該數據組織成在鑑定位置處確認的一個胺基酸或多個胺基酸的目 錄,所述鑑定位置確定識別序列中模塊位置和類型的識別。在本發明的另一實施方式中,提供具有存儲指令的存儲器和執行指令的計算機的 系統,當指令被執行時,其(a)在第一資料庫中收集和比對結合蛋白的胺基酸序列的分選組,並且在第二資料庫中收集和比對至少所述結合蛋白的亞組的識別序列的分選組,其中 第一資料庫從胺基酸或核苷酸序列的第三資料庫的自動化檢索獲得;(b)鑑定該胺基酸序 列組中選擇的比對位置處的胺基酸和識別序列中選擇的比對模塊位置處的模塊之間的相 關性;(c)從蛋白質合成和蛋白質結合分析儀器接收關於相關性的數據,以使用所述數據, 通過證實突變蛋白質與預確定識別序列結合的預測來確認該相關性;和(d)將該數據組織 成在鑑定位置處確認的一個胺基酸或多個胺基酸的目錄,所述鑑定位置確定在識別序列中 模塊位置和類型的識別。在本發明另外的實施方式中,提供具有存儲指令的存儲器和執行指令的計算機的 系統,所述指令存儲第一結合蛋白中的一個或多個胺基酸殘基的位置信息,進行靶向突變 以產生第二結合蛋白,所述第二結合蛋白在由所述蛋白質識別的模塊的序列內的序列位置 中具有預測的模塊改變。這樣的存儲指令的實例在圖7A中提供。附圖簡述

圖1示出了合理改變的MmeI E806K+R808D的切割活性。在圖IA中,泳道2-5示出合理改變的MmeI E806K+R808D酶對多種DNA底物產生 的切割模式。泳道2中的DNA底物是λ DNA,泳道3中-T7DNA,泳道4中-Τ3 DNA和泳道5 中-pBC4DNA。泳道 1 和 6 是 λ -HindIII+PhiX174_HaeIII 大小標準品。在圖IB中,泳道2-7示出合理改變的MmeI E806K+R808D對pBR322 DNA的切割 活性的作圖。泳道2-7是使用合理改變的MmeI E806K+R808D酶加下列單位點酶切割的 PBR322DNA 泳道 2-EcoRI、泳道 3_NruI、泳道 4-PvuII、泳道 5_NdeI、泳道 6-PstI 和泳道 7-僅合理改變的MmeI。泳道1和8是λ -HindIII+PhiX174_HaeIII大小標準品。在圖IC中,該圖顯示在pBR322 DNA中野生型MmeI位點、TCCRAC和合理改變的 MmeI E806K+R808D位點、TCCRAG的位置,連同用於作圖的酶的位置。圖 2 示出合理改變的 NmeAIII K816E+D818R 對 pBR322、PhiX 和 pBC4DNA 的作圖。 泳道2-5是使用合理改變的NmeAIII K816E+D818R酶加下列單位點酶切割的pBR322DNA 泳道2-EcoRI、泳道3-NruI、泳道4-PvuII和泳道5_PstI。泳道7_10是使用合理改變的 NmeAI 11 K816E+D818R酶加下列單位點酶切割的PhiX174DNA 泳道7_PstI、泳道8_SspI、泳 道9-NciI和泳道IO-StuI0泳道12-15和17是使用合理改變的NmeAIII K816E+D818R酶加 下列單位點酶切割的PBC4DNA 泳道12-AvrII、泳道13-PmeI、泳道14_AscI、泳道15_EcoRV 和泳道17-NdeI。泳道1、11和16是λ -HindiII+PhiX-Hael11大小標準品。泳道6是 λ -BstEII+pBR322-MspI 大小標準品。圖3示出合理改變的Mme4GI =MmeI A774L的切割活性。在圖3A中,泳道2-5示出合理改變的MmeI A774L酶對多種DNA底物產生的切割模 式。泳道2是λDNA、泳道3-T7DNA、泳道4-T3DNA和泳道5-pBR322DNA。泳道7_11示出合 理改變的MmeI A774L對PhiX DNA的切割活性的作圖。泳道7_11是使用合理改變的MmeI A774L酶加下列單位點酶切割的PhiX DNA 泳道7_PstI、泳道8_SspI、泳道9_NciI、泳道 IO-StuI 和泳道 11-僅合理改變的 Mmel。泳道 1、6 和 12 是 λ-HindIII+PhiX174-HaeIII 大小標準品。在圖3B中,泳道2-8示出合理改變的MmeIA774L對pBC4DNA的切割活性的作圖。 泳道2-8是使用合理改變的MmeI A774L酶加下列單位點酶切割的pBC4DNA 泳道2_NdeI、泳道3-AvrII、泳道4-PmeI、泳道5_AscI、泳道6_SpeI、泳道7_EcoRV和泳道8-僅合理改變 的 MmeI。泳道 1 和 8 是 λ -HindIII+PhiX174_HaeIII 大小標準品。圖4示出合理改變的Mme4CI酶MmeI A774K+R801S的切割活性。在圖4A中,泳道2-4示出合理改變的MmeI A774K+R801S酶對多種DNA底 物產生的切割模式泳道2是λ DNA、泳道3-T7DNA和泳道4-T3DNA。泳道1和5是 λ -HindIII+PhiX174-HaeIII 大小標準品。圖4B示出合理改變的MmeI A774K+R801S對pBC4DNA的切割活性的作圖。泳道2_8 是使用合理改變的MmeI A774K+R801S酶加下列單位點酶切割的pBC4 DNA 泳道2_NdeI、泳 道3-AvrII、泳道4-PmeI、泳道5_AscI、泳道6_SpeI、泳道7_EcoRV和泳道8-僅合理改變的 MmeI0 泳道 1 和 8 是 λ-HindIII+PhiX174-HaeIII 大小標準品。圖5示出合理改變的Mme3GI酶MmeI E751R+N773D的切割活性。圖5A示出合理改變的MmeI E751R+N773D對pUC19DNA的切割活性的作圖。泳 道2-6是使用合理改變的MmeI E751R+N773D加下列單位點酶切割的pUC19DNA 泳道 2-Eco0109I、泳道 3-PstI、泳道 4-AlwNI、泳道 5-XmnI 和泳道 6-僅 MmeI E751R+N773D 酶。 泳道 1 是 λ -HindIII+PhiX-HaeIII 大小標準品。泳道 7 是 λ -BstEII+pBR322-MspI 大小 標準品。圖5B示出合理改變的MmeI E751R+N773D對pBR322DNA的切割活性的作圖。泳 道2-6是使用合理改變的MmeI E751R+N773D加下列單位點酶切割的pBR322 DNA 泳道 2-EcoRI、泳道 3-NruI、泳道 4-PvuII、泳道 5-PstI 和泳道 6-僅 MmeI E751R+N773D 酶。泳 道 6 是 λ -HindIII+PhiX-HaeIII 大小標準品。泳道 1 是 λ -BstEII+pBR322-MspI 大小標準品。圖5C示出合理改變的MmeI E751R+N773D對PhiX DNA的切割活性的作圖。泳道 2-6是使用合理改變的MmeI E751R+N773D加下列單位點酶切割的PhiXDNA 泳道2_PstI、 泳道 3-SspI、泳道 4-NciI、泳道 5_StuI、泳道 6-僅 MmeI E751R+N773D 酶。泳道 1 是 λ -HindIII+PhiX-HaeIII 大小標準品。泳道 7 是 λ -BstEII+pBR322-MspI 大小標準品。圖5D示出合理改變的MmeI E751R+N773D對pBC4 DNA的切割活性的作圖。泳道2_8 是使用合理改變的MmeI E751R+N773D酶加下列單位點酶切割的pBC4DNA 泳道2_NdeI、泳 道3-AvrII、泳道4-PmeI、泳道5_AscI、泳道6_SpeI、泳道7_EcoRV和泳道8-僅合理改變的 MmeI。泳道 1 是 λ -HindIII+PhiX-HaellI 大小標準品。泳道 8 是 λ -BstEII+pBR322-MspI 大小標準品。圖6示出合理改變的Mme6RI :MmeI E806G+R808G(+S807N)的切割活性。圖6A示出合理改變的MmeI :E806G+R808G(+S807N)對pUC19DNA的切割活性。泳 道2-5是使用合理改變的MmeI E806G+R808G(+S807N)加下列單位點酶切割的pUC19 泳道 2-Eco0109I、泳道 3-PstI、泳道 4-AlwNI、泳道 5-XmnI。泳道 1 是 λ -BstEII+pBR322-MspI 大小標準品。泳道6是λ -HindIII+PhiX-HaeIII大小標準品。圖 6B 示出合理改變的 MmeI :E806G+R808G (+S807N)對 pBR322 和 PhiX174 DNA 的 切割活性。泳道2-5是使用合理改變的MmeI E806G+R808G(+S807N)加下列單位點酶切割 的pBR322 泳道2-EcoRI、泳道3-NruI、泳道4-PvuII、泳道5-PstI。泳道7-10是使用合 理改變的MmeI E806G+R808G(+S807N)加下列單位點酶切割的PhiX174 泳道7_PstI、泳道8-SspI、泳道 9-NciI 和泳道 IO-StuI。泳道 1 和 11 是 λ -HindIIΙ+PhiX-HaeIII 大小標準 品。泳道7是λ -BstEII+pBR322-MspI大小標準品。圖 7 示出合理改變的 Mme6BI 酶MmeI E806G+R808T 對 pUC19、pBR322 和 PhiX DNA的切割活性。泳道2-6是使用合理改變的MmeI E806G+R808T酶加下列單位點酶切割 的 pUC19DNA 泳道 2-Eco0109I、泳道 3_PstI、泳道 4-AlwNI、泳道 5-XmnI 和泳道 6-僅 MmeI E806G+R808T酶。泳道8_12是使用合理改變的MmeI E806G+R808T酶加下列單位點酶切割 的 pBR322DNA 泳道 8_ClaI、泳道 9_NruI、泳道 IO-NdeI、泳道 Il-PstI 和泳道 12-僅 MmeI E806G+R808T酶。泳道14-18是使用合理改變的MmeI E806G+R808T酶加下列單位點酶 切割的PhiXDNA 泳道14-PstI、泳道15-SspI、泳道16-NciI、泳道17-StuI和泳道18-僅 MmeIE806G+R808T 酶。泳道 1 和 13 是 λ -HindIIΙ+PhiX-HaeIII 大小標準品。泳道 7 禾口 19 是 λ-BstEII+pBR322-MspI 大小標準品。圖8示出合理改變的Mme6NI酶MmeI E806W+R808A對噬菌體ΦΧ DNA的切割活 性。泳道2-4和6-8是使用合理改變的MmeI E806W+R808A酶加下列單位點酶切割的噬菌體 ΦX DNA 泳道 2-PstI、泳道 3-SspI、泳道 4-NciI、泳道 6-StuI、泳道 7-BsiEI 和泳道 8-僅 MmeI E806W+R808A 酶。泳道 1 和 9 是 λ-Hindlll+PhiX-Haelll 大小標準品。泳道 5 是 λ -BstEII+pBR322-MspI 大小標準品。圖 9 示出合理改變的 SdeA6CI 酶SdeAI K791E+D793R 對 pUC19、pBR322 和 PhiX DNA的切割活性。泳道2-6是使用合理改變的SdeAI K791E+D793R酶加下列單位點酶切割 的 pUC19DNA 泳道 2-Eco0109I、泳道 3-PstI、泳道 4-AlwNI、泳道 5-XmnI 和泳道 6-僅 SdeAI K791E+D793R酶。泳道8_12是使用合理改變的SdeAI K791E+D793R酶加下列單位點酶切 割的 PBR322DNA 泳道 8_EcoRI、泳道 9_NruI、泳道 10-PvuII、泳道 Il-PstI 和泳道 12-僅 SdeAI K791E+D793R酶。泳道14-18是使用合理改變的SdeAI K791E+D793R酶加下列單位點 酶切割的PhiXDNA 泳道14-PstI、泳道15-SspI、泳道16-NciI、泳道17-StuI和泳道18-僅 SdeAIK791E+D793R 酶。泳道 1、13 和 20 是 λ -HindIII+PhiX-HaellI 大小標準品。泳道 7 和 19 是 λ -BstEII+pBR322-MspI 大小標準品。圖10示出在該組的已表徵成員的識別序列比對中每一位置處觀測到的DNA鹼基。圖IOA在左圖示出含有MmeI作為成員的組(MmeI-樣組)的已表徵成員的DNA識 別序列比對。這些識別序列包括BsbI酶,該酶的DNA識別序列和切割位置是已知的,但是 對於該酶,胺基酸序列還沒有確定。右圖示出在DNA識別序列比對中每個位置識別的多種 DNA鹼基或鹼基組合的計數。圖IOB在左圖示出MmeI-樣組的20個成員的識別序列的比對。右圖是位置限定 的鹼基頻率圖,其示出在該組的已表徵成員的識別序列比對中在位置3、4或6處觀測到的 DNA鹼基。20個酶的19個識別第六個位置處的G或C。圖IlA示出與在識別序列比對中在位置3、位置4或位置6處的DNA鹼基識別相 關的胺基酸的部分密碼。例如,為了改變該組的成員中比對的識別序列的位置6處的識別, 與MmeI E806和R808相應的胺基酸序列比對中的位置是將胺基酸突變為編碼的可選氨基 酸殘基之一以重新設計DNA鹼基識別的靶標。例如,將密碼E+R在這些比對位置處插入 MmeI-樣組的成員將引起該酶識別在該酶的識別序列的位置6處的C鹼基。隨著組成員增 加,密碼可被擴大,並且檢測它們的胺基酸取代在DNA識別序列特異性方面的變化。
圖IlB示出在比對的胺基酸序列(SEQ ID NOS :64_82)內鑑定的位置和佔據這些 位置的胺基酸殘基,其在比對的DNA識別序列中位置3、4或6處確定識別。比對上方的數 字表示識別序列中的位置,對於該識別序列,該胺基酸位置確定被識別的DNA鹼基。酶名稱 和識別的DNA序列被示出。在比對的胺基酸序列之前的數字表示在該酶的胺基酸序列內列 出的第一個胺基酸殘基的位置,而在胺基酸序列行後面的數字表示在該酶的序列中列出的 最後一個胺基酸殘基的位置。圖12示出SEQ ID NOS 100-131 (MmeI-樣組)的胺基酸序列比對,其中在表徵為 確定在識別序列中位置6處識別的位置——其不同於已知的DNA鹼基識別決定因素,氨基 酸殘基被鑑定。DNA識別序列未被表徵的組的成員包括在該比對中。兩個箭頭表示鑑定出 的位置,其在位置6處(在該缺口 CLUSTALW比對中為位置1073和1077)確定DNA鹼基的 識別。有四個序列——其被加下劃線,其中觀測的胺基酸殘基對不與存在於該組的任何先 前表徵的成員中的鹼基對相匹配。這些位置特異性鹼基對是天然發生的變異,它們是用於 引入已表徵的酶的靶標,作為在靶向DNA鹼基識別位置處改變該已表徵的酶的特異性的工 具。將兩個觀測的不同的對——GXS (兩次發生)和G(N)G——引入已表徵的酶Mmel,並且 研究所形成的合理改變的酶的DNA識別特異性(參見圖6)。圖13示出進行改變的相關位置的優先化。進行改變以變化該組成員的特異性的 第一優先級是在比對中在該位置存在的胺基酸殘基和在查詢的識別序列比對中的位置處 識別的DNA鹼基之間顯示出1 1相關性的那些位置。上圖示出SEQ ID NOS 132-150的胺基酸序列比對,其相對於識別序列比對的位置 6排序,其中在包括MmeI R808的比對位置處(箭頭所示)的殘基與在位置6處識別的DNA 鹼基一一相關。在該位置,識別C——胞嘧啶——的所有酶都具有精氨酸殘基——R,並且 識別G——鳥嘌呤——的所有酶都具有天冬氨酸殘基——D0下圖具有兩個箭頭,一個鑑定上述1:1相關的位置,第二個指出第二高得分的位 置。該第二位置儘管不是1:1相關的,但是仍然與位置6處的DNA鹼基的識別在統計學上 顯著相關,如在圖14中所示例的。另外,在識別C的8個酶的7個中和識別G的10個酶的 9個中,該位置處的胺基酸殘基與上述1 1相關的位置處的殘基共變化,這表示該位置可能 與1:1相關的位置聯合來識別所討論的鹼基位置。該位置成為進行變化的第二最高優先 級,並且可連同第一最高優先級位置進行合理改變以實現DNA識別特異性的期望改變。圖14示出對與在比對的識別序列的位置6處鹼基識別相關的胺基酸比對中一個 位置的X平方計算。對於X平方計算,形成一張由行和列組成的表,所述行是所研究的識 別序列比對中該位置處識別的每種不同DNA鹼基,所述列是在胺基酸序列比對中給定位置 處存在的每種胺基酸殘基。這裡,這樣的表由三行和五列組成,其中每一行是在識別序列比 對的位置6處識別的DNA鹼基模式——C、G和R,而每一列是在胺基酸序列比對中查詢位置 處存在的胺基酸殘基。該查詢位置是與MmeI位置E806比對的位置。在該位置處存在的氨 基酸殘基的計數被顯示。表中計算的χ平方值是38。在該表中存在8個自由度。所得到 的概率值P為0. 0001,這小於0. 05的顯著性的截斷值。該結果表示,該胺基酸位置與DNA 識別序列比對的位置6處的DNA鹼基識別顯著相關。圖15示出在位置6處比對的DNA識別序列與胺基酸序列比對中兩個位置之間的 相關性。
在左圖中,比對的DNA識別位點被分組成9種酶——其在位置6具有C,然後是10 種酶——其在該位置具有G,然後是1種酶——其在該位置具有R。在右圖中,MmeI樣組的十九種酶的胺基酸序列的一部分被比對以顯示如此區域, 在該區域中在位置6處識別的DNA鹼基和在比對的蛋白質序列中存在的胺基酸殘基(一種 或多種)之間觀測到相關性。箭頭表示鑑定的兩個相關的胺基酸位置。它們相應於MmeI 的E806和R808。在缺口比對的位置R808處示出在胺基酸和在位置6處識別的DNA鹼基 之間具有1 1對應,使得每當酶識別C鹼基時,在該位置具有精氨酸——R,而識別G鹼基的 那些酶在該位置具有天冬氨酸殘基(D)。識別R——其是G或A——的酶也在該位置具有天 冬氨酸(D)。E806位置不具有完全的1:1對應,這是由於生物學靈活性允許多於一個氨基 酸殘基與位置R808的精氨酸聯合以識別C鹼基(在這種情況中,為E(穀氨酸)或T(蘇氨 酸)),或者與位置R808的天冬氨酸殘基聯合以識別G鹼基(這裡為K (賴氨酸)或G (甘氨 酸)),或者與位置R808的精氨酸聯合以識別R(A或G),其在此是D殘基。正好在該識別R 的酶PspOMII中的該天冬氨酸殘基之前,也具有三個胺基酸殘基插入。圖16-1、16-2和16_3示出通過從該組先前鑑定的成員開始的BLAST檢索可擴大 序列組。這裡,SpoDI胺基酸序列被用作查詢序列(query)。BLAST檢索的結果顯示,通過初始BLAST檢索鑑定的相關蛋白質的組的成員可被 用作查詢序列,用於接下來的BLAST檢索。在這種情況下,從MmeI作為查詢序列開始的 BLAST檢索中鑑定的序列,ref | YP_167160. 1「假設蛋白質SP01926」,被用作查詢序列以進行 接下來的BLAST檢索。使用在ncbi BLAST伺服器的blastp程序的預設參數;http://www. ncbi.nlm.nih. rov/BLAST/0應用該組的不同成員作為BLAST查詢序列導致鑑定出數個另 外的組成員。例如,當使用MmeI序列起始檢索時,通過嚴格的E < e-20的閾值(E = 5e_17, 圖18-1、18-2和18-3),從該組排除ref I YP_511167. 1〃假設蛋白質Jarm_3225〃序列,但是 當使用該組的「SP01926 「成員作為查詢序列進行BLAST檢索時,顯示該Jarm_3225序列是 該組的成員,對於這種情況中,返回的期望值是E = 3e-65。通過檢索該組可被擴大,其中該 組的多個成員用作查詢序列。因為期望截斷值(expectation value cut off)是嚴格的, 所以該組將不會無休止的擴大,而是將僅僅擴大到包括比從單一起始序列檢索可發現的更 多的相關組的成員。圖17示出列出15種不同DNA鹼基或DNA鹼基組合的DNA鹼基識別表,所述DNA 鹼基可以在DNA識別序列內任意給定位置處被識別。圖18-1、18-2和18-3示出當MmeI胺基酸序列被用作查詢時鑑定與MmeI高度相 似的序列組的BLAST檢索結果。使用在ncbi BLAST 伺服器 http //www, ncbi. nlm. nih. rov/BLAST/ 的 blastp 程 序的預設參數。鑑定97種蛋白質序列具有E < e-20的期望值E。一個這樣的序列—— ref|YP_167160. 1「假設蛋白質SP01926"——在該檢索中返回E = 6e_47的E值。作為實 例,所述組的該成員可用於接下來的BLAST檢索,以擴大該相關蛋白質的組。這樣的檢索可 通過鑑定總體上與該家族相關、但是正好與用於第一個BLAST檢索的序列距離遠到足以使 它們返回恰好在初始檢索的截斷閾值之外的期望值的蛋白質來擴大該組。加下劃線於這樣
的序列——ref|YP_511167. I"假設蛋白質Jarm_3225〃--〖合好落在使用MmeI胺基酸序
列進行的檢索的截斷閾值之外,但是當通過使用該組的不同的成員"SP01926"序列檢索擴大時,其被包括在該組中(圖16-1、16-2和16-3)。圖19示出通過相關的DNA結合蛋白的MmeI樣組的20個已表徵成員識別的DNA 識別序列的比對。該比對相對於共同的功能進行。從酶識別的雙鏈DNA選擇用於比對的單 鏈是這樣的鏈,該鏈在識別序列3'端被切割。然後,在功能保存的位置5處的共同腺嘌呤 鹼基周圍錨定比對,因為其是通過酶的甲基轉移酶活性修飾的鹼基。圖20-1到20-11示出對該相關的DNA結合蛋白的組的19個已表徵成員使用算法 PR0MALS 形成的 SEQ ID NOS :42、6、10、4、2、40、8、14、18、12、16、26、34、38、36、20、44、24 和 22的胺基酸序列比對,所述結合蛋白的識別序列在圖19中示出。圖21示出胺基酸序列比對中比對的位置的X平方計算。X平方值是下列的所 有觀測值(表中的位置)的和((觀測的頻率減去期望頻率)平方)除以期望頻率)。構 造列聯表,其中對於在被查詢的DNA識別序列比對內該位置處識別的每一 DNA鹼基使用一 行。這些行是通過與在檢查的識別序列比對中該位置處觀測的一樣多的不同DNA鹼基觀測 的DNA鹼基(Bobsl)。對於在檢查的胺基酸序列比對中給定位置處觀測的每一胺基酸殘基 使用一列。這些列從通過與比對位置處觀測的一樣多的不同胺基酸殘基觀測的第一胺基酸 殘基(AA-obsl)標記。觀測的頻率是識別的DNA鹼基在比對位置處胺基酸殘基的計數。期望頻率是觀測 發生的列的和乘以觀測發生的行的和,再除以所有觀測的總數。然後,該表用在胺基酸序列比對中給定位置處存在的胺基酸殘基的觀測計數填 充,將胺基酸殘基計數置於與DNA鹼基相應的行中的具體列中,所述DNA鹼基由其中該氨基 酸殘基存在的結合蛋白識別。從該表計算觀測計數的X平方值。通過比較X平方值與X平方統計表,獲得X 平方值的統計學顯著性(P-值),其中自由度等於[(列數減1)乘以(行數減1)]。如果 P-值小於預先設定的閾值(0. 05是預設值),該算法報告該胺基酸比對位置與DNA識別序 列的查詢位置顯著相關。對DNA識別比對的每個位置連同胺基酸識別比對的每個位置重複分析。圖22示出鑑定胺基酸序列比對中的位置和在該位置的具體胺基酸,其參與識別 Y類N6A DNA甲基轉移酶組的比對的DNA識別序列中的第三位置。該圖示出該組成員的 DNA識別序列的比對,其錨定在位置5處的甲基化腺嘌呤靶的周圍。蛋白質的比對胺基酸序 列的一部分被示出(SEQ ID N0S:83-99)。每一蛋白質的具體胺基酸坐標在每種酶的序列 的前面和後面表示。與位置3處所述酶識別的DNA鹼基顯著相關的比對中的位置通過方框 表示,並且在比對上方用「 3 」標記。圖23A-23N示出具有不同的DNA識別序列的酶的部分列表。針對每一識別序列, 列出在起始酶的序列背景中產生這些酶需要的位置特異性胺基酸。具體而言,描述了用於 識別列出的DNA識別序列的起始蛋白質的胺基酸序列內的位置和在那些位置需要的氨基 酸。為了使用化學作用產生在左列中提供的任何特異性,考慮右側的列,並且如果需要改 變在列出的位置處的胺基酸,那麼通過在規定位置處合理地改變圖的頂部列出的起始蛋 白質,引入改變。圖23A-23N提供具有下列列出的識別序列的起始酶MmeI (SEQ ID NO 2)、NmeAIII (SEQ ID NO 14)、SdeAI (SEQ ID NO :6)、CstMI (SEQ ID NO : 12)、ApyPI (SEQ ID NO : 18)、PspRI (SEQ ID NO :10)、AquIII、(SEQ ID NO :42)、DrdIV(SEQ ID NO :36)、PspOMII(SEQ ID NO 34)、RpaB5I(SEQ ID NO 26),MaqI(SEQ ID NO 38),NhaXI(SEQ IDNO 24), SpoDI (SEQ ID NO 20)和AquIV (SEQ ID NO :44)。這些酶可在規定的位置通過定向突 變進行修飾以在規定的位置提供需要的胺基酸殘基來產生識別所列DNA序列的酶。圖24A-1到24A-22和24B-1到24B-10包含在圖20-1到20-11中的MmeI樣組中 的 19 種已表徵蛋白質的 DNA 序列(SEQ IDNOS :1、3、5、7、9、11、13、15、17、19、21、23、25、33、 35、37、39、41 和 43)和相應的胺基酸序列(2、4、6、8、10、12、14、16、18、20、22、24、26、34、36、 38、40、42 和 44)。圖25A和25B-1到25B-5示出描述所述方法的概括流程圖和詳細的實例。圖25A描述能識別特異性底物(識別序列)中局部位置特異性限定的模塊的一組 緊密相關的特異性結合蛋白的產生(1),其中該組成員的模塊識別序列被比對(2)和該組 成員的胺基酸序列被單獨地比對(3)。鑑定識別序列比對中位置特異性模塊和胺基酸序列 比對中位置特異性胺基酸殘基之間的相關性(4)。通過使用位點定向誘變在鑑定出的相關 位置(一個或多個)處將該組成員的胺基酸殘基(一個或多個)改變為與不同靶模塊識 別相關的殘基(一個或多個),產生結合蛋白,所述結合蛋白識別新的合理選擇的模塊序列 (5)。使用步驟1-5,產生規定在識別比對中一個或多個或每個位置處的具體模塊識別的特 異性胺基酸「密碼」的能力因此得到改善(6)。通過確定待被合理改變的識別序列中模塊的 位置,產生具有新的識別序列的結合蛋白。與對該位置特異性模塊的結合特異性相關的結 合蛋白中的胺基酸(一個或多個)根據在編目密碼中的胺基酸殘基(一個或多個)進行合 理改變(7A)。可選地,一個組的未表徵的或新的結合蛋白成員的模塊識別特異性可使用編 目密碼預測(7B)。任選地,另外地,對於結合蛋白組的成員,識別序列可延長或縮短(8)。圖25B-1到25B-4示出分析結合蛋白中胺基酸序列之間的相關性的多步方法,所 述結合蛋白結合該結合蛋白結合的特異性識別序列中的位置特異性模塊。在該圖中,依靠 DNA結合蛋白闡明該方法,但是該方法同樣可用於識別由特異性識別序列中位置特異性模 塊限定的底物的任何結合蛋白。在步驟1-23中獲得的信息被儲存為編目密碼並用於合理 地設計新的結合蛋白(步驟24-30)或表徵結合蛋白的特異性識別序列,所述結合蛋白的氨 基酸序列已經存在於序列資料庫中(步驟24-37)。另外,提供步驟以產生DNA識別序列的 鹼基對增加或減少的結合蛋白(步驟38-41)。編號的方框中的文字如下1.產生一組緊密相關的特異性DNA結合蛋白。2.擴大該組。3. DNA識別序列是否已知?4.生物化學確定DNA識別序列。5.牛物信息學從比對的胺基酸序列鑑定共變胺基酸。6.牛物信息學在接下來 的分析中應用。7.比對DNA識別序列。8.比對胺基酸序列。9.鑑定識別的位置特異性DNA 鹼基和位置特異性胺基酸殘基之間的相關性。10.按照統計學顯著性排序。11.根據統計 學顯著性或識別序列中需要的鹼基變化優先化相關的位置。12.在比對的DNA識別序列中 選擇DNA鹼基位置,用於將該組成員識別的鹼基改變成「靶」鹼基(一個或多個)。13.鑑定 對於靶DNA鹼基位置具有最高相關性得分的胺基酸殘基(一個或多個)和位置(一個或多 個)(在第一優先級中為1:1對應)。14.將鑑定出的相關位置(一個或多個)處的胺基酸 殘基(一個或多個)改變為與不同限定的靶鹼基模塊識別相關的殘基(一個或多個)。進行改變的相關位置(一個或多個)選自一個或多個胺基酸比對序列位置,所述胺基酸比對 序列位置又選自第一到第N得分位置(參見表1中的實例,其中N = 4)。該表不擬為限制 性的。N可以大於4,例如,N可以高達20或更大。15.分析在新的預確定DNA識別序列處 結合的合理改變的蛋白質。16.合理改變的蛋白質結合其最初的DNA識別序列。17.改變 的蛋白質結合該新的預確定識別序列。18.改變的蛋白質結合新的特異性DNA序列而不是 該新的預確定識別序列。19.改變的蛋白質不結合該新的預確定識別序列也不結合最初的 識別序列。20.新的特異性證明了負責在改變的DNA鹼基位置處識別的胺基酸位置(一個 或多個),並且該位置用於DNA鹼基識別的一部分胺基酸密碼被鑑定。21.選擇第二高得分 位置的胺基酸和/或不同得分位置處的胺基酸的組合。調查在新位置(一個或多個)處的 選擇,並且繼續該策略,直到實現結合。22.新的預確定特異性的識別證明改變的位置(一 個或多個)是負責在識別序列比對中在目標位置處的DNA鹼基識別的位置。實現該新的預 確定特異性也顯示靶鹼基識別的胺基酸殘基決定子(一個或多個)。23.確定DNA識別序 列中每個位置處不同DNA鹼基識別的胺基酸密碼。24.所有可能的DNA鹼基和鹼基組合是 否存在於該組的已表徵DNA結合蛋白成員的DNA識別序列比對中? 25.對在確定具體位置 特異性DNA鹼基或鹼基組合的識別的鑑定位置(一個或多個)處的胺基酸殘基(一個或多 個)編目錄。26.形成最小的胺基酸密碼,用於DNA識別序列比對中該位置處的DNA鹼基 識別。該密碼可具有多個胺基酸組合以識別給定鹼基或鹼基組合。27.使用編目錄的氨基 酸密碼以形成新的DNA結合蛋白,所述DNA結合蛋白在DNA識別序列中靶位置處識別選擇 的鹼基或鹼基組合。28.對DNA識別序列比對中所有位置進行重複。29.以組合方式形成 新的DNA結合蛋白,選擇在DNA識別序列中的給定位置處待被識別的DNA鹼基和使用產生 的胺基酸密碼和位置信息。在單一 DNA序列處結合的數以千計新的DNA結合蛋白可使用本 方法產生。30.檢查該組的另外的成員。31.對鑑定位置(一個或多個)處的胺基酸殘基 (一個或多個)編目錄,所述鑑定出的位置(一個或多個)確定存在於DNA識別比對中鹼基 的識別。32.鑑定在該鑑定位置(一個或多個)存在的胺基酸(一個或多個)。33.改變 鑑定位置(一個或多個)的胺基酸殘基為所有可能的胺基酸並檢驗。34.選擇與已知賦予 給定鹼基或鹼基組合識別的胺基酸殘基(一個或多個)不同的胺基酸殘基(一個或多個) 或殘基組合。這樣的殘基(一個或多個)可從DNA識別特異性未知的組的比對成員鑑定。 35.通過將來自未表徵的蛋白質的天然存在的胺基酸(一個或多個)在鹼基識別先前已經 鑑定的相關胺基酸位置處插入已表徵的蛋白質,來改變該組中已表徵的蛋白質。36.針對 DNA識別特異性分析該改變的蛋白質並確定結合的DNA識別序列。37.對於該組的給定成 員,該DNA結合蛋白是否識別與該組的一些其他成員不同的DNA序列,S卩38.更短,39.更 長? 40.增加DNA識別序列的長度。41.減少DNA識別序列的長度。
圖25B-5示出優先化一個胺基酸位置或多個胺基酸位置的方案,在所述位置處, 改變一個或多個胺基酸殘基為與在識別序列比對中不同模塊的識別相關的殘基以便確定 這樣的位置,所述位置確定被研究的識別序列中在該位置處模塊的識別。在胺基酸序列比 對中產生最高相關性得分即最低P值的位置是檢測的第一個位置,然後是第二高相關性得 分位置等。因為模塊識別在蛋白質中可能需要多於一個胺基酸殘基,所以具有最高相關性 得分的兩個位置是兩個殘基一起改變的第一優選級。如果在前兩個最高得分位置的改變沒 能產生識別改變,那麼第一和第三高得分位置可被改變,並且如果需要重複該過程,如在表2中所示,直到規定位置特異性模塊識別的位置得以確定。在一些情況中,改變三個或更多 位置以實現識別模塊的改變可能是必需的。實施方式詳細描述本發明的實施方式提供合理設計和製造具有新的識別特異性的酶的方法,所述識 別特異性已經預先被選擇或可靠地預測。可以產生基於比對的結合蛋白中位置特異性氨基 酸和底物中它們的識別序列中位置特異性模塊之間的相關性的目錄。該目錄可通過分析結 合蛋白組的其它成員來擴大,所述結合蛋白識別識別序列中的新的模塊組合,或者在氨基 酸序列內的相關位置處含有預料不到的胺基酸。使用該目錄,基於位置特異性胺基酸突變 的多種組合,可產生大量的新的DNA結合蛋白。儘管實例描述DNA結合蛋白,但是本文描述的方法和組合物廣泛地適用於任何結 合蛋白,所述結合蛋白識別包含由該結合蛋白識別的模塊的特徵位置特異性序列的底物。本方法的實施方式的步驟綜述在圖25A的流程圖中描述。在圖25B中提供對一組 DNA結合蛋白進行的分析的多個方法步驟的詳細描述。本方法的實施方式可應用圖25A中 方框1-8的每一個中描述的各個方法步驟的一個或多個,以及圖25B中方框1-41的每一個 中描述的各個方法步驟的一個或多個,並且不限於進行圖25A或25B中完整描述的一套方 法步驟。如在圖25A的流程圖中一般描述的和對圖25B中特異性DNA結合蛋白更具體描述 的,可以按照下列步驟產生編碼具有改變的底物特異性的結合蛋白的多核苷酸,所述步驟 包括(a)鑑定一組具有已知的胺基酸序列並優選也具有已知的模塊識別特異性的緊密相 關的結合蛋白;(b)比對該緊密相關的結合蛋白組的識別序列;(c)比對該緊密相關的結合 蛋白組的胺基酸序列;(d)鑑定與由該結合蛋白組的成員識別的位置特異性模塊相關的位 置特異性胺基酸殘基;和(e)形成特異性識別新的合理選擇的識別序列的新的結合蛋白, 其通過改變通過相關性鑑定為識別在識別序列比對中給定位置處的模塊的蛋白質的氨基 酸殘基(一個或多個)來形成。該鑑定的胺基酸可被改變為通過相關性在這樣的組成員中 鑑定的那些胺基酸殘基(一個或多個),所述組成員識別在識別序列比對中給定位置處的 不同模塊。胺基酸殘基的交換可通過位點定向誘變實現。通過在識別序列內的多個位置處 合理改變賦予特異性的胺基酸殘基,可以產生非常大量的對新識別序列具有特異性的蛋白 質。本方法的實施方式可通過已被編程以實現圖25A和25B的一個或兩個中列出的步 驟的至少一個的計算機來執行。通過計算機分析提供的預測可使用促進大量突變蛋白質檢 驗的高通量技術進行檢驗,或通過檢查少量合理設計的蛋白質或檢查單一蛋白質的實驗室 技術檢驗。本文描述的系統和方法易於使用實現溼法化學的已有裝置進行完全自動化,其部 件可以與計算機通信,進行在先指令以及化學後計算。計算機將計算圖25A中的步驟1_4、6和7A。該裝置將進行圖25A中方框5和7A 必需的化學處理,將關於突變蛋白質與預確定識別序列結合的數據發送回計算機,然後計 算機可以處理該數據以證實新的特異性,反覆構建目錄,並分析新結合蛋白的假設識別序 列。進行溼法化學步驟的儀器或裝置可進行DNA合成和體外轉錄和翻譯步驟,或者可選地通過編程的胺基酸合成直接合成蛋白質,然後提供本領域已知的高通量分析形式 (Kawahashi, et al. J Biochem 141 19-24 (2007)),以確定多個突變體與預選擇識別序列 的結合,以便結合的分子發出檢測信號、數位化和存儲在計算機存儲器中。本文描述的方法可用於能識別含有位置特異性模塊的特異性序列的任何蛋白質, 其中序列或模塊可由例如核酸、單糖、胺基酸或化學基團表示。本文描述的方法可最廣泛地 運用於DNA結合蛋白為其子集的任何結合蛋白。如本文使用的,「結合蛋白」可以指與結合蛋白-特異性識別序列中位置特異性模 塊結合的蛋白質。「結合」指對特異性底物具有電化學吸引力或與特異性底物形成共價鍵, 該吸引力或共價鍵足夠支持在無序環境中的結合。結合蛋白的實例包括結合生物學的大 分子的那些蛋白質,例如核酸結合蛋白如限制性內切核酸酶、回歸內切核酸酶和鋅指蛋白; RNA結合蛋白;糖結合蛋白;糖蛋白結合蛋白;糖脂結合蛋白;脂質結合蛋白;和結合小分 子的結合蛋白,所述小分子包含以特異性預確定順序排列的大範圍化學基團或單一化學基 團。術語「模塊」被一般用於描述特異性識別序列中的各個位置特異性組分,所述特異 性識別序列形成結合蛋白的底物。如本文使用的「底物」指分子,其具有在序列中具有特異性位置的許多模塊,它們 中的一些或所有可對結合蛋白中的一個或多個特異性胺基酸具有電化學吸引力或與結合 蛋白中一個或多個特異性胺基酸形成共價鍵。底物中不同模塊的數量可從1至高達20或 更多變化,而底物可由幾個到數百萬或更多模塊組成。「一個或多個特異性胺基酸」指合理設計的靶,其中靶的一個或多個任選改變引起 蛋白質對底物中至少一個模塊特異性的改變。一個或多個胺基酸可能是結合底物所需要的 蛋白序列的子集。如本文使用的「預測」指獲得比對模式再現性的逼近精度的提高。「相關性」在本文可用於指兩個隨機變量之間的線性關係的強度和方向的表示。在 通常的統計學應用中,相關性或關聯性指兩個變量與獨立性的偏離。統計學顯著相關性可 以在通過使用多種檢驗的任一種例如X平方檢驗——一種對兩個隨機變量提供測量兩個 標量交互依賴性的量的交互信息分析(Gloor,et al. Biochemistry 44 :7156_7165 (2005)) 和皮爾遜積矩相關係數(Spiegel, Μ. R. 「 Correlation Theory. 「 Ch. 14in Theory and Problems of Probability and Statistics,2nded. New York:McGraw_Hill,pp.294-323, 1992)——產生目錄的情況下加以計算。「組」在本文用作具有兩個或多個成員的相關分子組。「目錄」是位置限定的胺基酸的列表,所述位置限定的胺基酸胺基酸確定在底物的 識別序列中的特異性模塊的識別。「識別序列」是底物中模塊的序列,所述序列與結合蛋白特異性結合。「Mmel-樣蛋白質」是屬於胺基酸序列組的蛋白質,其中該組中每個胺基酸序列由 結合蛋白的一部分或全部組成,其中胺基酸序列(i)在使用MmeI作為查詢序列的BLAST檢 索中具有小於e-20的期望值(E);和(ii)與底物中特異性DNA識別序列結合,所述DNA識 別序列含有位置特異性DNA鹼基。該方法的實施方式可包括下列步驟的一個或多個
1)鑑定和收集一組或多組緊密相關的結合蛋白,對於所述結合蛋白,由該蛋白識 別的序列和該蛋白的胺基酸序列都是已知的。這樣的一組序列可以以多種方式鑑定。例如, 可以對在資料庫例如Genbank中可獲得的所有序列進行BLAST檢索。一般地,查詢序列是 目的結合蛋白的胺基酸序列,例如,在一個這樣的實施方式中,本文通過MmeI限制性內切 核酸酶示例的DNA結合蛋白可被用於查詢。可選地,與MmeI緊密相關的胺基酸序列可用於 進行BLAST檢索。圖16示出使用與用於圖18中BLAST檢索的MmeI緊密相關的SpoDI進 行的BLAST檢索的結果。該圖表明,檢索結果是不同的。使用不同的相關蛋白質進行多個 檢索可導致比對胺基酸序列組的擴大。可以進行標準BLAST檢索blastp,儘管檢索的參數可以由本領域技術人員改變。 因為該方法僅使用緊密相關的胺基酸序列,標準blastp程序檢索將鑑定可用於本方法的 序列。可以進行BLAST檢索的可選形式,例如使用起始查詢結合蛋白的胺基酸序列在數據 庫中對翻譯的核苷酸序列進行檢索的tblastn。該tblastn檢索特別可用於檢索包含環境 DNA的資料庫,並且當在推定的結合蛋白中存在移碼或終止密碼子——其引起在資料庫中 報導的胺基酸序列相對於全長查詢序列縮短——時,該tblastn檢索也可用於鑑定與查詢 結合蛋白具有相似性的延伸區域。在BLAST檢索的另一形式中,結合蛋白的DNA序列可用 於在資料庫(tblastp程序)中對蛋白質序列檢索,或者在資料庫(blastn程序)對核苷酸 序列檢索。來自BLAST檢索的期望值可用於確定該組包括或不包括序列。僅遠源相關的蛋 白質不可能具有足夠的序列相似性以可靠地比對它們的序列以便觀測與模塊識別相關的 殘基和位置。對於選擇的序列組內內含物需要相對嚴格的BLAST E值閾值以確保排除遠源 相關序列。對於相關序列組內內含物選擇的期望值受到輸入序列長度的影響。對於胺基酸 序列大於200個胺基酸的結合蛋白,例如大多數限制性內切核酸酶,使用E < e-20的期望 值。對於較短的序列,使用更大的E值,例如對於長度在100和200個胺基酸之間的序列, E < e-10o在該分析期間,所使用的蛋白序列組可進一步被分成子集,如果這使得在子集內 更好地比對序列(更少的缺口和更高的比對得分)的話,因為這將反映子集的成員之間更 近的進化和結構關係,這將增加在胺基酸殘基和位置特異性模塊(例如DNA鹼基)之間可 觀察到統計學顯著相關性的可能性。通過BLAST檢索鑑定的序列可被分成具有已知識別序列的序列和所識別的序列 未知的序列。如果具有足以產生統計學顯著結果的、具有已知識別序列的蛋白序列,那麼可 使用這些序列進行分析。然而,如果沒有足夠的識別序列已知的蛋白序列,那麼一些鑑定推 定的結合蛋白可通過生物化學確定它們的識別序列(W0 2007/097778)。這是實施例1的情 況,其中MmeI被用於在Genbank中鑑定同源肽。在該檢索中鑑定的大多數蛋白質的功能是 未表徵的,這包括在分析開始時它們的DNA識別序列特異性。因此,這些肽的許多被表徵以 確定它們各自的DNA識別序列,在這之後,在描述的方法中使用它們以產生新的DNA結合蛋 白。對於其中識別序列未知的結合蛋白組的鑑定成員,可通過生物化學確定識別序列。例 如,結合蛋白的MmeI樣家族的未表徵成員的DNA識別序列可通過分析DNA切割的位置和從 不同DNA底物產生的DNA片段的大小來確定(Schildkraut Genet. Eng. 6 117-140 (1984)), 或者可選地通過分析不同DNA底物中DNA修飾的位置來確定。
對於兩種相關的限制性內切核酸酶-CstMI和NmeAIII,通過表徵結合蛋白活性確 定DNA識別序列的一個實例已被顯示(分別參見美國專利號7,186,538和國際申請號PCT/ US07/88522)。2)比對結合蛋白的識別序列。優選比對識別序列以準確反映結合蛋白和識別的序 列之間的相互作用的性質。為了達到這一點,將識別序列比對圍繞共同的功能錨定。例如,對於DNA結合蛋白,DNA識別序列通常由在DNA雙螺旋中兩條鏈的每條鏈上 鹼基的不同線性序列組成。例外的情況是識別對稱DNA序列的DNA結合蛋白的情況,在對 稱DNA序列中,所識別的DNA鹼基的線性序列在兩條DNA鏈中從5'到3'是一樣的。選 擇正確的DNA鏈進行比對是重要的,這是因為識別序列的兩條鏈可具有鹼基的不同線性序 列。正確的DNA鏈通過選擇用來指導比對的功能屬性(一個或多個)來確定。例如,對於 限制性內切核酸酶,能精確比對DNA識別序列的功能屬性可由保守腺嘌呤或胞嘧啶鹼基的 甲基化,和/或從識別的靶向特異性DNA序列下遊的DNA切割的方向組成。在實施例1中, 使用包含被甲基化的腺嘌呤鹼基並且具有位於該鏈上識別序列3'的切割位置的鏈,比對 DNA識別序列。該比對固定在該甲基化靶腺嘌呤周圍。在第二條DNA鏈中的鹼基的線性序 列由比對中使用的鏈的序列限定。甲基化位置可通過將標記的甲基例如放射性氚甲基引入不同的DNA並對標記甲 基位於DNA中的位置進行繪圖來確定。甲基化也可通過防止限制性內切核酸酶進行分析, 所述限制性內切核酸酶的識別序列覆蓋由被表徵的酶產生的甲基化鹼基。3)比對高度相似的結合蛋白組的胺基酸序列。這可以通過使 用多種序列比對程序的任一種進行,例如Clustalff (http://www, ebi. ac.uk/clustalw/)、PROMALS(httpprodata. swmed. edu/promals)、MUSCLE (http://phylogenomics.berkeley. edu/cgi-bin/muscle/input muscle.py)或 T-Coffee (http://www, ebi. ac. uk/t-coffee/)或其他相似的程序。一般而言,可以使用程 序例如ClustalW或PR0MALS算法的預設比對值。PR0MALS算法較慢,但是提供了改進的比 對結果。應該理解,技術人員可改變比對程序的參數以產生最佳的比對結果,或者技術人員 可人工地精修比對。因為該方法使用一組緊密相關的結合蛋白,所以使用最廣泛使用的比 對程序的預設設定可產生適當的比對。當一個或多個輸入結合蛋白序列與其他的較不相似 時,調整比對參數可能是有益的,或者如果一個或多個序列不能與大多數緊密比對,或者如 果它產生大量的缺口或者以另外方式劣化大多數序列的比對,那麼這樣的序列可以從最初 的比對中排除,以便保持產生的胺基酸序列比對的總體正確性。4)組合包含在識別序列比對和胺基酸蛋白序列比對內的信息以鑑定胺基酸位置 和在那些位置存在的胺基酸——其對特異性序列識別負責。查詢胺基酸序列比對以鑑定這樣的位置,在該位置中存在的胺基酸殘基與在 比對的DNA識別序列內給定位置處結合蛋白識別的模塊相關。統計學顯著——例如P < 0.01—的相關性表示,特異性模塊識別通過在結合蛋白的胺基酸序列內該位置處存在 的特定胺基酸殘基實現。給定鹼基對的識別可需要位於蛋白質的線性胺基酸序列內的不同 位置處的兩個或更多個胺基酸殘基。這樣的相關性可使用在實例中描述的電腦程式或其 他相似的程序進行鑑定。技術人員也可通過眼睛鑑定這樣的相關性。所提供的方法的實施方式具有鑑定相互作用以識別給定模塊的胺基酸位置的優勢,這甚至是當所述位置在一級胺基酸序列中遠離時也是如此。預測這類遠離的位置在結 合蛋白的三維結構中在空間上接近,以便識別給定的模塊。一旦觀測到相關性,改變各自的胺基酸殘基以便在查詢位置處識別不同的鹼基 對,並且檢驗改變的蛋白質在預期的新識別序列處的結合。賦予模塊特異性的胺基酸殘基 的成功鑑定通過改變的結合蛋白確認,特別是通過結合新的、預測的識別序列來確認(參 見例如圖1-9)。5)合理地改變結合蛋白以便它們識別新的識別序列。一旦鑑定出賦予對識別序列 內給定位置處的給定模塊特異性的胺基酸殘基位置和各個胺基酸殘基,通過位點定向誘變 編碼所鑑定的胺基酸殘基的多核苷酸序列可產生新的結合蛋白。在這些位置處賦予識別特 異性的胺基酸殘基被特定地改變為那些鑑定的殘基,其規定在識別序列中不同的期望模塊 的識別。這樣的變化導致產生如此結合蛋白,所述結合蛋白現在可預測地識別包含由改變 的殘基識別的位置特異性模塊的新識別序列。通過使用組合方法改變負責識別序列內不同 位置處位置特異性模塊識別的胺基酸殘基的多種組合,可以合成識別新的識別序列的大量 結合蛋白ο所述方法的應用本方法的實施方式是一種使用新的或已在序列資料庫中的序列數據的有效工具, 用於挖掘具有特定功能的酶;分析現存蛋白質的功能;設計和產生新的具有期望特異性 的酶;和對某些結合蛋白提供增加特異性識別序列長度的合理方法,從而賦予增加的特異 性。合理設計方法可以提供對下列的預測在一組蛋白質中未表徵的結合蛋白的DNA 識別序列;與一組具有限定關係(defined relationship) (Ε值)的已表徵結合蛋白匹配的 未表徵結合蛋白序列的識別序列的位置特異性部分;和/或合理設計和產生具有期望的識 別序列的結合蛋白。識別新序列的新限制性內切核酸酶給遺傳操作提供更大的機會和能力。每個新的 獨特的內切核酸酶能使科學家在DNA分子內的新位置處精確切割DNA,這提供所有的機會。 這樣的新限制性內切核酸酶可使得能夠檢測先前的限制性內切核酸酶不能區分的單核苷 酸多態性。新識別特異性使得能夠進行新的限制片段連鎖的多態性分析,以及在需要特異 性DNA切割和重裝配的克隆技術中提供增加的靈活性。改變的酶的甲基轉移酶活性也可用 於將甲基或其他化學基團在新特異性識別序列處引入DNA。因此,DNA可在多個識別序列處 通過新酶的作用而被特異性標記。甲基的引入也可用於阻斷限制性內切核酸酶的作用,其 中修飾的位點覆蓋限制性內切核酸酶的識別序列。工程化甲基轉移酶可提供克隆天然發生 的限制性內切核酸酶的有用資源,對於天然發生的限制性內切核酸酶,已知不存在甲基化 酶來保護轉化的宿主細胞。具有改變的結合特異性的甲基轉移酶可用於將標記在特異性位點引入DNA。這些 標記可取決於甲基的引入或可選地另一化學基團的引入。預測未表徵蛋白的結合特異性在公共資料庫例如Genbank中,通常具有給定組的已表徵蛋白質的大量未表徵同 源物。同源物的識別序列通常是未知的。如果沒有所識別的特異性序列的知識,這些蛋白 質不能參與本文描述的方法。然而,一旦確定識別的胺基酸序列組內的位置(一個或多個)連同由這些位置(一個或多個)處特定胺基酸殘基確定的模塊特異性已知,那麼當它們的 位置特異性胺基酸序列與在這些位置處賦予已知模塊識別的殘基匹配時,這些未表徵的同 源物的識別特異性可被預測。在天然存在的蛋白序列中可能的新的位置特異性模塊識別序 列的鑑定當未表徵的同源物的胺基酸殘基與已知識別某些模塊的胺基酸殘基不匹配時,這 些同源物被鑑定為在識別序列中這些位置處識別不同模塊的可能候選物。因此,那些未表 徵同源物蛋白質的位置特異性胺基酸殘基可被交換為已表徵的結合蛋白的位置特異性氨 基酸殘基,然後可表徵該改變的蛋白質的結合特異性,其中預期其可能與在識別序列內該 特定位置處具有改變的模塊特異性的識別序列結合。已知賦予給定模塊特異性識別的位置特異性胺基酸殘基可被轉變為在具有未知 識別序列的資料庫中的同源蛋白序列中這些比對位置處觀測的可選殘基。這樣的置換反映 天然存在的結合蛋白的多樣性,而無需預知每個這樣的蛋白序列的具體識別特異性。用這 樣的方式,在當前已知的識別序列中未觀測到的模塊識別可以獲得。該實施方式的一個實 例在實施例2中給出,其中改變MmeI限制性內切核酸酶/甲基轉移酶以產生識別新的DNA 序列的酶。賦予識別序列的位置6 (E806 (S) R808)處DNA鹼基對識別的胺基酸被改變為在數個 天然存在但是未表徵的序列中觀測到的那些殘基——所述殘基與已知的位置特異性殘基 (G(N)G)比對,這導致識別新的DNA結合序列5' -TCCRAR-3'的限制性內切酶的產生(參 見圖6和23)。通過隨機誘變賦予位置特異性模塊特異性的鑑定的胺基酸位置,產生新的位置特 異性模塊識別序列賦予DNA結合特異性的結合蛋白序列內的位置的鑑定考慮將這些位置處胺基酸 殘基改變為所有可能的胺基酸殘基(參見例如圖23)。這表示鑑定為賦予特異性的那些殘 基的合理靶向突變。然後,如此改變的蛋白質可進行生物化學檢驗以確定它們的識別特異 性而鑑定新的結合蛋白。該方法的主要益處是改變一些胺基酸位置是容易控制的,例如在 MmeI限制性內切核酸酶的位置6處賦予DNA鹼基對特異性的兩個位置(實施例1),而完整 蛋白序列或甚至該序列的相對小的子集的隨機誘變立刻變得難以難控制,這是由於需要指 數量的突變。例如,隨機改變MmeI位置6的兩個鑑定的胺基酸殘基位置將需要20X20個 或400個不同的序列。在鋅指蛋白誘變的情況中,隨機改變被認為與DNA相互作用的所有 7個胺基酸位置以形成所識別的三鹼基對三聯體的識別將需要207個或1. 28X IO9個不同 的突變體(Durai, S.et al. NAR 33(18) =5978-5990 (2005)) 對於鋅指組合以識別更長的 DNA鹼基對序列,例如6或9個鹼基對,需要突變的數目迅速變為難以控制(對於6個鹼基 對,大約IO18個,或者對於9個鹼基對,大約IO27個)。使用本文提供的方法鑑定那些與DNA 相互作用以賦予鹼基特異性的少數胺基酸位置,允許進行這些鑑定的殘基的改變,這允許 鑑定識別新的DNA序列的新DNA結合蛋白。具有增加的模塊結合特異性的結合蛋白的產生當緊密相關的結合蛋白組的一些成員比該組的其他成員特異性識別更多的模塊 時,檢查比對的識別序列和比對的胺基酸序列,以鑑定位置特異性胺基酸序列比對和那些 識別序列之間的相關性,所述那些識別序列規定在其他識別序列不識別特異性模塊的位置 處的特定模塊。在MmeI限制性內切核酸酶家族的實例中,數個成員識別七個鹼基對序列,而其它成員僅識別六個鹼基對。例如,MmeI識別甲基化的腺嘌呤5'端的四個位置中的特 異性DNA鹼基,以及該腺嘌呤3'端的一個鹼基,但是不識別該甲基化靶腺嘌呤的5'端的 第五位置中的特異性鹼基,而除了識別緊接所述甲基化靶腺嘌呤5'端的四個位置中的特 異性鹼基和該腺嘌呤3'端的一個鹼基之外,SpoDI還識別該甲基化靶腺嘌呤5'的第五位 置中的特異性DNA鹼基"G"。在該延伸位置處賦予特異性的胺基酸位置(一個或多個) 和位置特異性胺基酸殘基(一個或多個)通過所描述的相關性方法加以鑑定,其中相關性 將由在識別延伸位置處給定DNA鹼基的那些序列中的顯著同一性組成,而在該延伸位置處 不規定任何DNA鹼基的那些序列不會顯示這樣的相關性。使用本文描述的方法,一旦負責 特異性識別額外的DNA鹼基(一個或多個)的胺基酸位置(一個或多個)和殘基(一個或 多個)被鑑定後,負責該額外鹼基識別的胺基酸序列可通過位點定向誘變引入到識別更短 的識別序列的相關DNA結合蛋白的基因中以擴大它們的特異性來包括另外的鹼基對(一個 或多個)。上文和下文引用的所有參考文獻,以及2007年6月20日提交的美國臨時申請號 60/936,504,通過引用被併入本文。
實施例實施例1 特異件識別來自MmeI、NmeAIII、SdeAI和相關的IIG型限制性內切核酸 酶的新DNA序列的新功能性IIG型限制性內切核酸酶的合理產生MmeI是與雙鏈DNA序列5' -TCCRAC-3 『 /5-GTYGGA-3 『特異性結合的DNA結合 蛋白。MmeI的功能是甲基化DNA鏈5』-TCCRAC-3』中的腺嘌呤鹼基。MmeI也行使內切核酸 酶的功能,其切割該雙鏈DNA 從TCCRAC鏈3 『端20個核苷酸和從GTYGGA鏈5 『端18個 核苷酸處進行切割,留下二鹼基3'突出端(1,2)。具有與IIG型限制性內切核酸酶MmeI具有高度相似性的成員的多肽組通過使 用blastp程序實施Genbank非冗餘資料庫的BLAST檢索來鑑定(Altschul et al. J. Mol. Biol. 215 :403-410 (1990) ;Altschul et al. Nucleic Acids Res. 25 3389-3402(1997);禾口 Madden et al. Methods Enzymol. 266 :131_141 (1996))(圖 18 和圖 25B-1 中的 #1)。MmeI 胺基酸序列(美國專利號7,115,407)被用作查詢序列,並且對於包括在期望得分E的數據 庫中的截斷值,使用E < e-20。使用NCBI網絡版blastp程序的預設參數(http://www. ncbi. nlm. nih. rov/BLAST/)。大量多肽序列被鑑定為與MmeI高度相似;然而,這些序列中 沒有一個在功能方面得以表徵,特別是對於由給定多肽識別的特異性DNA序列。因此,大量 這些假設序列被克隆並表達。對表達的蛋白質檢測內切核酸酶活性,並且在它們結合DNA 處的特異性DNA序列被表徵(美國專利號7,186,538)。在通過BLAST檢索鑑定為與MmeI 高度相似的序列組中,下列活性II型內切核酸酶的特異性DNA識別序列被鑑定。這些酶也 具有DNA甲基轉移酶活性。來自Genbank 登陸號 GI 32479387 的 CstMI 識別 DNA 序列 5 『 -AAGGAG-3 『並在 該鏈上該序列3'端20個核苷酸和相反DNA鏈上互補體5'端18個核苷酸處進行切割,得 到 2 鹼基 3'突出端:AAGGAGN20/N18 (7)。來自Genbank登陸號NC_003116、肽編號GI =15794682的NmeAIII通過校正鑑 定為與MmeI高度顯著相似的閱讀框內終止密碼子而使其具有活性。發現NmeAIII識別5' -GCCGAG-3『,並切割下遊GCCGAGN21/m9 (國際申請號 PCT/US07/88522)。來自Genbank 登陸號 NC_007575. 1、肽編號 YP_392994. 1 的 SdeAI (先前稱為 TdeAI)被克隆、表達和表徵。SdeAI識別DNA序列5 『 -CAGRAG-3 『並切割下遊CAGRAGN21/ N19。來自Genbank 登陸號 AACY01071935. 1 的 EsaSSI 是來自馬尾藻海(SargassoSea) 的環境的DNA序列,其意味著不存在從其擴增和克隆該基因的可獲得的模板DNA。因此, 編碼EsaSSI的基因被合成製備,並且該肽序列的胺基酸密碼子被優化為通常使用的大腸 桿菌(E.Coli)密碼子。合成的基因被裝配並克隆入大腸桿菌,表達和表徵酶活性。發現 EsaSSI 識別 DNA 序列 5' -GACCAC-3'。來自Genbank登陸號NC_003911. 11、肽編號YP_167160的SpoDI被克隆、表達並表 徵以識別DNA序列5 『 -GCGGAAG-3並切割下遊GCGGAAGN20/N18。來自Genbank登陸號NC_001264. 1、肽編號NP_285443的DraRI被克隆;通過改 變位置2521 (胺基酸位置841)處TAA終止密碼子為GAA密碼子,校正該基因中假終止差 錯。表達該基因並表徵蛋白產物。發現DraRI識別DNA序列5' -CAAGNAC-3'並切割下遊 CAAGNACN20/N18。來自Genbank登陸基因座NC_005206. 1、蛋白質編號NP_940747的ApyPI被克隆。 使用與CstMI蛋白的相似性來指導校正位置,校正靠近該蛋白質C-末端的移碼。有活性的 全長蛋白質和校正的編碼該多肽的DNA序列被報導。該校正的ApyPI酶被表達並表徵以識 別 5 『 -ATCGAC-3 『和切割下遊 ATCGACN20/N18。來自Genbank 登陸基因座 YP_001274371、肽編號 NC_009516. 1 的 PspPRI 被克隆、 表達並表徵以識別5' -CCYCAG-3'和切割下遊CCYCAGN21/N19或CCYCAGN20/N18。來自Genbank登陸基因座CP000319. 1、肽編號YP_579008的NhaXI被克隆、表達並 表徵以識別5' -CAAGRAG-3 『和切割下遊CAAGRAGN20/m8。來自Genbank登陸基因座NC_002935. 2、肽編號NP_940094的CdpI被克隆、表達 並表徵以識別5' -GCGGAG-3'和切割下遊GCGGAGN20/N18。來自Genbank登陸基因座NC_007958. 1、肽編號YP_570364的RpaB5I被克隆、表達 並表徵以識別DNA序列5 『 -CGRGGAC-3 『和切割下遊CGRGGACN20/N18。來自乳醯胺奈瑟球菌(Neisseria lactamica) ST640的WaCI被克隆、表達並表徵 以識別 5 『 -CATCAC-3 『和切割下遊 CATCACN19/m7 或 CATCACN20/N18。來自耐輻射奇球菌(Deinococcus Radiodurans)NEB479的DrdIV被克隆、表達並 表徵以識別5' -GCGGAG-3'和切割下遊GCGGAGN20/N18。來自假單胞菌屬(Pseudomonas)0M2164種的PspOMII被克隆、表達並表徵以識別 5 『 -GCGGAG-3 『和切割下遊 GCGGAGN20/N18。來自Genbank登陸基因座NC_008738. 2、肽編號YP_956924的MaqI被克隆、表達並 表徵以識別5' -CRTTGAC-3 『和切割下遊CRTTGACN20/m8。來自Genbank登陸基因座NC_009719. 1、肽編號YP_001413872的PlaDI被克隆、表 達並表徵以識別5' -CATCAG-3'和切割下遊CATCAGN20/N18。來自Genbank登陸基因座NC_010475、肽編號YP_001735369的AquIII被克隆、表 達並表徵以識別5' -GAGGAG-3'和切割下遊GAGGAGN20/N18。
來自Genbank登陸基因座NC_010475、肽編號YP_001735547的AquIV被克隆、表達 並表徵以識別5 『 -GRGGAAG-3 『和切割下遊GRGGAAGN20/N18。比對MmeI的DNA識別序列和這些新表徵的同源物酶。使用包含腺嘌呤鹼基的DNA 鏈進行比對,所述腺嘌呤鹼基通過這些酶的DNA甲基轉移酶活性進行修飾,並且該DNA鏈也 是在DNA識別序列3'端被切割的鏈。DNA序列被比對,以便對每種酶,比對甲基化的腺嘌 呤鹼基。DNA識別序列比對在圖10和15以及圖25Β的#_7中給出。從圖10中描述的、具有已知的DNA識別序列的高度相似限制性內切核酸酶多肽序 列的一級胺基酸序列構建多序列比對。使用比對程序ClustalW :http://www. ebi.ac.uk/ clustalwZο在該算法中使用預設設置,只是比對以輸入順序而不是比對得分順序連同序列 一起返回。獲得的多序列比對的一部分在圖13和圖25B的#8中給出。使用更嚴格的比對 程序 PROMALS (http//prodata. swmed. edu/promals/promals. php)對所形成的酶的全部 胺基酸序列的多序列比對在圖20中示出。根據在甲基化靶腺嘌呤3'端的位置中識別的DNA鹼基的功能,對多肽序列分組。 識別胞嘧啶〃 C"的酶是 Mmel、EsaSS217I、ApyPI, NlaCI, DrdIV、RpaB5I、DraRI 和 MaqI。 在該位置識別鳥嘌呤"G"的酶是 NhaXI、NmeAIII, CdpI, AquIII, CstMI、SdeAI, PspPRI、 PlaDI、SpoDI和AquIV。PspOMII在該位置識別〃 R"。在比對中給定位置處查詢比對氨基 酸殘基,其在C組和G組中是相同的,但是在組間不同。對於一小組序列例如這組,可以人 工地檢查比對或通過電腦程式查詢比對,所述電腦程式可鑑定何時在位置特異性氨基 酸殘基和DNA鹼基識別之間具有統計學顯著的相關性。這類算法的實例在圖21提供。在 檢查比對後,觀測一個位置,其中該位置處存在的胺基酸殘基和在DNA識別序列比對內在 該位置處識別的DNA鹼基之間存在100%的相關性。在該位置處,胞嘧啶由一組具有精氨酸 殘基"R"的胺基酸序列識別,而鳥嘌呤識別組具有天冬氨酸殘基"D"。這兩個殘基都是 帶電的,並且可容易與DNA鹼基形成氫鍵。MmeI序列中該殘基的位置是R808,而在NmeAIII 中該殘基是D818。識別胞嘧啶的候選胺基酸殘基——在MmeI中的R808,和識別鳥嘌呤的相當位置 殘基——在NmeAIII中的D818,被改變為期望通過位點定向誘變賦予其他DNA鹼基的識別 的胺基酸殘基(對於Mmel,R808改變為D ;而對於NmeAIII,D818改變為R)。對於每種酶, 根據Phusion 位點定向誘變試劑盒方法(NewEngland Biolabs, Ipswich,ΜΑ),合成兩種寡 核苷酸引物進行使用。對於MmeI,引物是正向5 『 -pGATTATAGATATTCTGCCAGCCTGGTT-3 『 (SEQ ID NO :27),其中ρ是磷酸,反向5, -pACTTTCTAACCTTCCTCCTACATTTCTC-3『 (SEQ ID N0:28)。正向引物的前三個核苷酸將精氨酸(Mmel的"R808")的胺基酸密碼子改變為 密碼子〃 GAT",其編碼天冬氨酸〃 D"。改變NmeAIII的寡核苷酸引物是正向5' -pCGCTATCGCTACTCTAATACCGTCGT-3『 (SEQ ID NO 29)和反向5' -pGCTTTTCAGACGACCTGCAAC-3『 (SEQ ID NO :30)。正向引物 的前三個核苷酸將在NmeAIII中該位置的編碼D818從"D"改變為"R"。根據製造商的 指導進行誘變,並且獲得表達該期望的改變的胺基酸殘基多肽的多核苷酸。將改變的MmeI 多核苷酸R808D和改變的NmeAIII多核苷酸D818R克隆到大腸桿菌中並進行表達,但是多 肽沒有顯示任何限制性內切核酸酶活性。由此我們得出結論,它們不特異性結合期望的新 識別序列,它們也不結合它們最初的DNA識別序列,亦不結合不同的未預測的序列。然而,該位置可能涉及DNA識別或者一些關鍵功能或摺疊,因為改變的蛋白質已經失去了特異性 DNA結合的功能。因為在其他DNA結合蛋白中已經觀測到特異性鹼基對通常由協同工作的兩個氨 基酸殘基識別,所以進一步檢測該序列的第二殘基,該第二殘基與緊鄰甲基化靶腺嘌呤3' 端的位置處的G或C鹼基的識別相關。觀測到從R或D位置朝向多肽的氨基末端的胺基酸 殘基兩個位置,儘管具有一定程度的可變性,但是與G或C鹼基識別相關。對於識別C鹼基 的那些序列,該殘基最通常是穀氨酸"E",而對於識別G鹼基的那些,該殘基最通常是賴 氨酸〃 K"。因此,該位置具有與鑑定為與識別的DNA鹼基100%相關的〃 R"或〃 D"位置 的電荷相反的電荷,即對於與C鹼基相關的正電"R"殘基,在該位置具有帶負電的"E", 而對於與G鹼基相關的負電"D"鹼基,具有帶正電的"K"。兩個最不同的序列—— SpoDI和DraRI,在該位置處都具有與它們組的其他成員不同的殘基,其中DraRI具有蘇氨 酸殘基"T"而不是"E",而SpoDI在緊接該位置的甘氨酸"G"殘基之前具有兩個額外 殘基甘氨酸-纈氨酸〃 GV"的插入。PspOMII在該位置具有〃 D",其在1:1相關位置處 與〃 D"殘基形成獨特的組合,這與PspOMII的獨特鹼基識別"R"相一致。因此,儘管該 位置(MmeIE806)處的殘基在每一鹼基識別分組內並不相同,但是它們顯示與識別的DNA鹼 基顯著相關,並且沒有相同殘基存在於超過一個鹼基識別組中的實例。在該第二識別位置 (MmeI E806)處的胺基酸殘基然後連同鑑定的第一位置(Mmel R808)處的胺基酸殘基一起 被改變,以便對於Mmel,將甲基化靶腺嘌呤之後的鹼基位置的DNA識別從C改變為G,而對 於NmeAIII,從G改變為C。MmeI中相關的胺基酸殘基E806和R808以及NmeAIII中的相當位置K816和D818, 通過位點定向誘變改變為識別不同鹼基的組的胺基酸殘基,以產生MmeI雙突變體E806K、 R808D,和NmeAIII雙突變體K816E和D818R。對於每種酶,合成兩種寡核苷酸引物並在 Phusion 位點定向誘變試劑盒方法中使用。MmeI引物是正向5' -pGATTATAGATATTCTGC CAGCCTGGTT-3『 (SEQ ID NO :27),其中 ρ 是磷酸,和反向5' -pACTTTTTAACCTTCCTGCTACAG TTCTCATCCAGCAGTTGTGCA-3『 (SEQ IDNO 31)。改變NmeAIII 的引物是正向5『 -pCGCTAT CGCTACTCTMTACCGTCGT-3『 (SEQ ID NO :29)和反向5' -pGCTTTCCAGACGACCTCCAACGTTACG CATAAAGGCGTTGTG-3『 (SEQ IDNO :32)。根據製造商的指導進行誘變。將在它們各自的表達載體中編碼需要改變的多肽 序列的改變的多核苷酸轉化入大腸桿菌宿主細胞。改變的MmeI和改變的NmeAIII的兩個 單獨的轉化體均被接種到30毫升的含有100微克/毫升氨苄青黴素的LB中,並生長至對 數中期,然後加入IPTG至0. 4mM,並且生長細胞兩個小時以誘發改變的蛋白質的表達。通 過離心收穫細胞,重懸浮在1.5毫升的超聲處理緩衝液SB(20mM Tris, pH7. 5 ;ImM DTT ; 0. ImM EDTA)中,並通過超聲處理裂解。通過離心澄清提取物。為了檢測內切核酸酶活性, 在 NEBuffer 4 中,使用用 NdeI 線性化的 pBC4 DNA (New England Biolabs, Inc.,Ipswich, MA)作為DNA底物進行提取物的連續稀釋。對於改變的Mmel、E806K和R808D和改變的 NmeAIII、K816E和D818R觀察到分離的帶,這表示改變的多核苷酸序列編碼活性內切核酸 酶(圖1禾口 2,以及圖25B中#—14和#_17)。改變的MmeI DNA識別序列的表徵Iml Heparin HiTrap ft (GE Healthcare, Piscataway, NJ)MmeI的粗提物。將1. 5ml粗提物施加到該柱,所述柱先前已經用含有50mM NaCl的緩衝液A(20mM Tris pH7. 5、lmM DTT、0. ImM EDTA)平衡。用5柱體積的含有50mM NaCl的緩衝液A洗滌該 柱,然後應用30ml從0. 05M NaCl到IM NaCl的緩衝液A線性梯度,並收集Iml級分。改變 的MmeI在大約0. 48M NaCl下洗脫。預期該合理改變的MmeI酶將識別5' -TCCRAG-3'。 為了確定對改變的多肽的DNA識別序列,純化酶對pBR322 DNA的切割位置被繪圖(圖1 和圖25B中#17)。用純化的MmeI突變體切割DNA,純化,然後用在已知位置處切割一次的 酶進行切割。該DNA的雙消化產生的獨特片段的大小顯示出已知的酶切割位置的定位到 MmeI突變體酶進行切割的位置的距離。改變的MmeI酶對pBR322的切割位置被繪圖為近 似位置 260,310,1340 和 2790。序列 TCCRAG 發生在 pBR322 的位置 276,330,1314 和 2772 處,這與觀察的切割位置匹配。野生型MmeI識別序列——TCCRAC,發生在pBR322的位置 197、283、2662和2846處,其與觀察的切割位置不匹配。測定從噬菌體XDNA、噬菌體T3 DNA、pBC4 (Schildkraut Genet. Eng. 6 117-140 (1984) )·)DNA 和噬菌體 PhiX DNA 的內切 核酸酶切割產生的DNA片段的模式,以匹配在新識別序列TCCRAG處的切割(圖1)。這些 結果顯示在位置6改變的MmeI識別的DNA鹼基已經從C改變為G,如在鑑定為與識別序列 比對中最靠近3'端的位置(3' -most position)處的DNA鹼基識別相關的位置處的氨 基酸殘基的合理位點定向變化所預測的。改變的MmeI限制性內切核酸酶在新的DNA序列 5' -TCCRAG-3'處結合,並且切割該DNA:從這條鏈上該序列3'端20個核苷酸,和從相反 鏈5' -CTYGGA-3'的互補序列5'端18個核苷酸處進行切割,留下2鹼基3『突出端。該 方法的運用導致產生新的限制性內切核酸酶。改變的NmeAIII DNA識別序列的表徵改變的NmeAIII的粗提物被直接用於在多種DNA中對該內切核酸酶的切割位置進 行作圖。預測該合理改變的NmeAIII將識別5' -GCCGAC-3'。為了確定改變的多肽的DNA 識別序列,改變的酶對PBR322、PhiX174和pBC4 DNA的切割位置被作圖(圖2和圖19B中 #17)。DNA用改變的NmeAIII酶消化,在離心柱上純化。DNA的雙消化產生的獨特片段的大 小顯示出已知的酶切割位置的定位到NmeAIII突變體酶進行切割的位置的距離。改變的NmeAIII酶在大約位置450和950處切割pBR322。序列GCCGAC發生在 PBR322的位置446和941,其與觀測的切割位置匹配。野生型NmeAI 11識別序列——GCCGAG, 發生在PBR322的位置120、1172和3489,這與改變的NmeAIII識別序列不同。類似地,對 於phiX174 DNA,在PhiX174中改變的NmeAIII-切割位置被作圖至大約2300、2675、3435、 4740和5335。期望的NmeAIII-改變的識別序列——GCCGAC,發生在位置2251、2641、3474、 4710和5298,這與觀測的切割位置匹配。野生型NmeAIII識別序列發生在PhiX174的位置 1022、3426和4680,這與改變的NmeAIII的識別序列不同。對於pBC4 DNA作圖,獲得相似 的結果。這些結果表明,在最終的鹼基位置NmeAIII的識別序列從G改為C,如通過我們對 發現與該位置處識別的DNA鹼基相關的胺基酸殘基進行的合理位點定向改變所預測的。這 些結果是一個如何在胺基酸殘基賦予以合理方式改變的DNA鹼基特異性以產生可預測的 新DNA識別特異性的情況下,實現限制性內切核酸酶的識別序列的定向改變的例子。SdeAI 的識別特異性也通過運用相同方法從5' -CAGRAG-3'改變為5' -CAGRAC-3'(圖9)。實施例2 位置特異性誘變以產生新的DNA識別序列在蛋白質組的胺基酸序列比對中,確定在比對的識別序列中3』端處第一鹼基的識別的兩個位置的鑑定,使得能夠使用兩種方法產生新的限制性內切核酸酶。在第一個方法 中,該組所有成員——包括識別序列還沒有確定的那些成員——的胺基酸殘基被比對。在 負責識別的鑑定位置處檢查比對,以了解是否存在與已知規定給定鹼基的識別的胺基酸不 匹配的任何天然存在的變化(圖12和圖25B中的#32)。在實施例1表徵的酶的情況中, 在比對位置處決定核苷酸「C」的DNA識別序列的3』端第一鹼基位置處的識別的胺基酸是 ExR和TxR。那些確定G的識別的胺基酸是KxD和GxD。檢查該組的比對成員,並且觀測到 數種胺基酸組合,所述胺基酸組合不是這些C或G決定組合之一。使用與實施例1相同的 方法,將這些胺基酸殘基組合的兩個——以Genbank登陸號gi | 28373198觀測到的GxS和 以Genbank登陸號gi | 87198286觀測到的GxG——通過位點定向誘變引MmeI多肽。為了將GxS胺基酸組合的密碼引入編碼MmeI蛋白的多核苷酸,合成兩種寡核苷酸 引物,並用於Phusion 位點定向誘變試劑盒方法中。使用的引物為,正向5' -pCGATATTCT GCCAGCCTGGTTTACAACAC-3『 (SEQ ID NO 165),其中 ρ 是磷酸,和反向5' -pGTAACTAGTACC TAACCTTCCTCCTACATTTCTCATCCAGCA-3' (SEQ IDNO :166)。反向引物將定向突變引入MmeI 基因。根據製造商的指導進行誘變。遵循相同的方法以將位置特異性胺基酸殘基的GxG組 合引入 MmeI,使用引物正向5 『 -pCGATATTCTGCCAGCCTGGTTTACAACAC-3 『 (SEQ ID NO 167),其中 ρ 是磷酸,和反向5 『 -pGTAACCGTTACCTAACCTTCCTCCTACATTTCTCATCCAGCA-3 『( SEQ IDNO 168) 0將編碼期望的改變的多肽序列的表達載體pRRS中改變的多核苷酸轉化 入大腸桿菌宿主細胞。每個改變的MmeI的一個單獨的轉化體被各自接種到30毫升的含有 100微克/毫升氨苄青黴素的LB中,並生長至對數中期,然後加入IPTG至0. 4mM,並且生長 細胞兩個小時以誘導改變的蛋白質的表達。通過離心收穫細胞,重懸浮在1. 5毫升的超聲 處理緩衝液SB(20mM Tris, pH7. 5 ;ImM DTT ;0. ImM EDTA)中,並通過超聲處理裂解。通過 離心澄清提取物。為了檢測內切核酸酶活性,粗提物被用於切割在補充有SAM(80微摩爾濃 度)的 NEBuffer 4 (NewEngland Biolabs, Inc. ,Ipswich,ΜΑ)中的 PhiX174 DNA。根據製造 商的說明,通過 Zymo Research" DNA Clean and Concentrate"離心柱(Zymo Research, Orange,CA),純化切割的DNA。然後通過用4種不同的已知內切核酸酶切割,該純化的切割 DNA被用於作圖。對於兩種改變的MmeI——E806G加R808S以及E806G加R808G構建體, 都觀測到分離的條帶,這表明改變的多核苷酸序列編碼活性內切核酸酶。改變的MmeI E806G加R808G酶在大約位置1135和1335處切割pUC19 (圖6A和 圖 25B 中的 #36)。序歹Ij TCCRAR 在位置 1105 (TCCRAG)和 1352 (TCCRAA)處存在於 pUC19 中, 這匹配觀測到的切割位置。野生型MmeI識別序列TCCRAC存在於在pUC19中的位置996和 1180處,這與對於改變的酶觀測到的位置不匹配。對於pBR322和phiX174DNA,獲得相似的 結果(圖6B)。PhiX174中改變的酶的切割位置被作圖於大約25、500、3600、3835和4135。 TCCRAR序列存在於接近這些位置的41、471、518、3588、3606、3857和4143處,這與觀測的切 割位置相匹配。TCCRAR序列也在另外的位置1510、1671、2998、3959和3970處存在。儘管 在這些位置沒有觀測到切割,但是可用於切割的酶的量受到限制,因此DNA消化不完全。作 圖的位點與在TCCRAR處的改變的酶切割相一致,並且與在野生型未改變的特異性TCCRAC 處切割不一致,這表示改變的酶在新的特異性即TCCRAR處切割。實施例3 識別新的DNA識別序列的酶的產生使用在上面實施例1和2中示例的方法,形成和表徵特異性識別新的DNA序列的其他的酶。用於位點定向誘變的寡核苷酸引物在表1中示出。通過MmeI的位點定向誘變,使用引物SEQ ID N0:151和SEQ ID N0:152,將丙氨 酸774改變成亮氨酸,形成一種識別5' -TCCGAC-3'的這類酶。該改變的酶的識別特異性 在圖3中顯示。通過MmeI的位點定向誘變,使用引物SEQ IDNO 153和SEQ ID NO 154,將丙氨酸 774改變成賴氨酸,然後通過使用引物SEQ ID N0:155和SEQ ID NO 156將精氨酸810改 變成絲氨酸,形成另一種識別5' -TCCCAC-3'的這類酶。該改變的酶的識別特異性在圖4 中顯示。通過MmeI的位點定向誘變,使用引物SEQ ID N0:157和SEQ ID N0:158,將穀氨 酸751改變成精氨酸和將天冬醯胺773改變為天冬氨酸,形成識別5' -TCGRAC-3'的另一 種新酶。該改變的酶的識別特異性在圖5中顯示。通過MmeI的位點定向誘變,使用引物SEQ ID N0:159和SEQ ID N0:160,將穀氨 酸806改變成甘氨酸和將精氨酸808改變為蘇氨酸,形成識別5' -TCCRAB-3'的另一種新 酶。該改變的酶的識別特異性在圖7中顯示。通過MmeI的位點定向誘變,使用引物SEQ ID N0:161和SEQ ID N0:162,將穀氨酸 806改變成色氨酸(trytophan)和將精氨酸808改變為丙氨酸,形成識別5 『 -TCCRAN-3 『 的另一種新酶。該改變的酶的識別特異性在圖8中顯示。通過SdeAI的位點定向誘變,使用引物SEQ ID N0:163和SEQ ID N0:164,將賴氨 酸791改變成穀氨酸和將天冬氨酸793改變為精氨酸,形成識別5' -CAGRAC-3'的另一種 新酶。該改變的酶的識別特異性在圖9中顯示。表1 寡核苷酸引物的列表
Mme4GIA774L A774LCTGACGTATCATATTCCTAGTGCTGAACC T(SEQ ID NO: 151) 和 GTTACTTGAAATGACATTTCTATCAACAA AAC (SEQ ID NO: 152))圖3Mme4CIA774K A774KAAGACGTATCATATTCCTAGTGCTGAACC T (SEQ ID NO:153) 和 GTTACTTGAAATGACATTTCTATCAACAA AAC (SEQ ID NO: 154)圖4R810S R810SAGCTATTCTGCCAGCCTGGTTTACA (SEQ ID NO: 155) 和 GTAACGACTTTCTAACCTTCCTCCTACA (SEQ ID NO: 156)Mme3GIE751RCAATTGGAATAAATTGTCTGTTTTCAGAT GATGTGCGAGGTATCAACAGATAGTCCG TATCCG (SEQ ID NO: 157) 和 GTTTTGTTGATAGAAATGTCATTTCAAGT GACGCAACGTATCATATTCCTAGTGCTGA AC (SEQ ID NO: 158)圖5N773DMme6BIE806GGCTGCCTAACCTTCCTCCTACATTTCTCA TCCA (SEQ ID NO: 159) 和 ACCTATAGATATTCTGCCAGCCTGGTTTA CA (SEQ ID NO: 160)圖7R808TMme6NIR808AGTGCCTATAGATATTCTGCCAGCCTGGTT TACA(SEQIDNO:161) 和 TCCATAACCTTCCTCCTACATTTCTCATC CA (SEQ ID NO: 162)圖8E806WSdeA6CID793RCGTTATTCAAATGAAATTGTTTATAACAA CTTCCCT (SEQ ID NO: 163) 和 GTAACGACTTTCTAATCTTCCAGCAACAT ACCGCA (SEQ ID NO:164)圖9K791E總之,通過鑑定DNA結合蛋白中確定位置特異性DNA鹼基識別的位置並且那些位 置改變成在未表徵的天然存在的序列中觀察到的不同胺基酸殘基,實施例1、2和3證明了 該DNA結合蛋白改變來識別新的DNA序列。實施例4 未表徵的DNA結合蛋白的DNA識別特異性的預測一旦在胺基酸比對內的位置(一個或多個)和在那些位置(一個或多個)處賦予 位置特異性DNA鹼基識別的具體胺基酸殘基被鑑定,未表徵的多肽同源物的DNA識別特異 性可被精確預測。我們已經示出,與MmeI中位置E806-(S)-R808相應的胺基酸ExR確定 在DNA識別序列位置中「C"的識別,該DNA識別序列位置緊鄰與MmeI相關的同源序列家 族中甲基化靶腺嘌呤的3'端。預測在資料庫例如Genbank中發現的任何同源物——其在 MmeI多肽家族內的胺基酸序列比對中在該位置具有相同胺基酸殘基ExR——具有在該位置 識別"C"的高度確定性。相似地,在該位置處殘基"KxD"的存在預測該多肽將在該位 置識別"G"。胺基酸與識別序列中核苷酸的類型和位置的相關性的變化可以被包括在該 預測之內。例如,殘基〃 TxR"(來自DraRI)具有預測的〃 C"識別,而"GVGND「(來自 SpoDI)具有預測的"G"識別。該預測方案已對目前表徵的組的所有成員所識別的DNA鹼 基提供精確預測,例如EsaSSI,其中DNA識別序列通過實驗被發現為5' -GACCAC-3',並且 其中C被正確預測在最靠近3'-端的位置(圖10A)。實施例5 =甲基轉移酶家族的裝配:通過收集特異性DNA識別序列已知並且識別REBASE資料庫中Y類腺嘌呤甲基轉移酶列表的6個DNA鹼基的酶的序列,裝配圖22中示出的γ類N6A DNA甲基轉移酶。使 用 PR0MALS 算法(http://prodata. swmed. edu/promals/promals. php),比對收集的胺基酸 序列。比對DNA識別序列,將假設為修飾的腺嘌呤的腺嘌呤放置在比對的位置5處。在通 過方框鑑定的比對的胺基酸序列中的位置與在識別序列比對的位置3處識別的DNA鹼基顯 著相關(X平方P值<0.001)。這是使用所描述的方法鑑定非MmeI-樣家族的蛋白質家族 中的識別序列決定因素的實例。
權利要求
一種方法,其包括(a)使用初始的結合蛋白在BLAST檢索中查詢資料庫來產生結合蛋白組,其中每個結合蛋白具有限定的胺基酸序列,使得在BLAST檢索中,對於大於200個胺基酸的序列,所述胺基酸序列的組具有小於e 20的期望值(E),或者對於小於200個胺基酸的序列,具有小於e 10的期望值(E);每個結合蛋白結合底物中的特異性靶識別序列,所述靶識別序列含有位置特異性模塊;(b)比對由所述組中所述結合蛋白識別的靶識別序列;(c)比對所述組的所述結合蛋白的胺基酸序列;和(d)鑑定所述識別序列中比對的位置特異性模塊和所述結合蛋白的比對的胺基酸序列中一個或多個位置特異性胺基酸之間的相關性。
2.根據權利要求1所述的方法,其中步驟(b)進一步包括利用所述特異性靶識別序 列中的位置依賴性特徵進行比對。
3.根據權利要求1所述的方法,進一步包括通過使用所述結合蛋白組的成員在另外 的BLAST檢索中查詢所述資料庫來擴大所述結合蛋白組。
4.根據權利要求1所述的方法,進一步包括在所述組中多個結合蛋白中鑑定一個氨 基酸殘基或多個胺基酸殘基的位置和類型,所述胺基酸殘基確定在所述識別序列中的一個 或多個位置特異性模塊的識別。
5.根據權利要求4所述的方法,進一步包括產生目錄的步驟,所述目錄用於記錄比對 的胺基酸序列中的胺基酸的位置和那些位置處的胺基酸殘基,所述胺基酸殘基確定所述結 合蛋白組的比對的識別序列中特異性位置處的模塊的特異類型的識別。
6.根據權利要求5所述的方法,進一步包括使用所述目錄合理地修飾一個或多個比 對的結合蛋白的胺基酸序列以識別改變的特異性靶識別序列的步驟。
7.根據權利要求4所述的方法,進一步包括在單一結合蛋白中的相關位置處非隨機 地突變一個或多個胺基酸以引起所述結合蛋白的所述特異性靶識別序列的可預測改變。
8.根據權利要求1所述的方法,其中所述組的結合蛋白成員具有已知的胺基酸序列, 但是具有未表徵的特異性靶識別序列,所述方法進一步包括下列步驟(a)通過下列步驟鑑定所述識別序列中的位置特異性模塊(i)檢查比對的結合蛋白組中所述結合蛋白成員的胺基酸序列的比對;( )讀出在所述目錄中記錄的位置處的胺基酸殘基;和(iii)比較所述結合蛋白成員中的胺基酸殘基與所述目錄中記錄的胺基酸殘基;和(b)確定所述結合蛋白成員的特異性靶識別序列。
9.根據權利要求1所述的方法,其中所述位置特異性模塊由DNA底物中的一個或多個 核苷酸組成。
10.根據權利要求1所述的方法,其中所述結合蛋白組是DNA結合蛋白組。
11.根據權利要求9所述的方法,其中所述DNA結合蛋白組是MmeI-樣蛋白組。
12.根據權利要求10所述的方法,進一步包括通過改變MmeI的胺基酸序列中預確定 的一個位置或多個位置處的胺基酸殘基或在DNA結合蛋白的MmeI樣蛋白中的等價比對位 置處的胺基酸殘基,來改變所述MmeI樣DNA結合蛋白的DNA識別序列。
13.根據權利要求12所述的方法,其中MmeI的胺基酸序列中的預確定位置選自751+773、806+808、774+810、774、774+810+809 和 809。
14.根據權利要求11所述的方法,其中改變所述識別序列進一步包括改變所述DNA 識別序列的位置3、4和6的一處或多處的核苷酸。
15.根據權利要求1所述的方法,進一步包括在計算機可讀存儲器中的資料庫中存儲 所述結合蛋白的胺基酸序列和通過執行儲存在計算機中的指令完成步驟(a)、(b)、(c)或 (d)的一個或多個。
16.根據權利要求3、4和6的任一個所述的方法,進一步包括通過執行儲存在計算機 中的指令完成所述步驟。
17.產生結合蛋白的方法,所述結合蛋白識別合理選擇的識別序列,所述方法包括使用蛋白質組的成員蛋白質的位點定向誘變,在鑑定的與選擇的特異性靶模塊識別相 關的一個位置或多個位置處用第二胺基酸取代第一胺基酸。
18.自動化圖25A中流程圖的一個或多個步驟的方法,包括利用具有編程指令的計算 機來實現方框1、2、3、4、6和7B中描述的一個或多個功能;和進一步利用能夠進行反應以實 現步驟5、7A或8的任一個的裝置。
19.使用執行指令的計算機自動化圖25B中流程圖的一個或多個步驟並任選地自動化 包括化學反應在內的一個或多個步驟的方法。
20.一種MmeI樣酶,其具有導致在預確定位置處至少一個改變的胺基酸殘基的突變, 所述預確定位置具有對於DNA識別序列的特異性,所述DNA識別序列與未改變的酶的DNA 識別序列相比至少一個鹼基不同。
21.根據權利要求20所述的酶,其中所述至少一個鹼基不同由鹼基缺失或添加組成。
22.根據權利要求20所述的酶,其中所述不同由所述識別序列中鑑定位置處的可選擇 識別的鹼基組成。
23.系統,其包括存儲指令的存儲器和執行指令的計算機,當所述指令被執行時,其使用初始的結合蛋白在BLAST檢索中查詢資料庫而產生結合蛋白組,其中每個結合蛋白具有限定的胺基酸序列,所述胺基酸序列對於大於200個胺基酸的序列具有小於e-20的 期望值(E)或對於小於200個胺基酸的序列具有小於e-10的期望值(E);所述結合蛋白與 底物中特異性靶識別序列相結合,所述靶識別序列包含位置特異性模塊。
24.根據權利要求23所述的系統,進一步包括指令,當執行時,其比對所述結合蛋白識別的特異性靶識別序列;和比對所述組的所述結合蛋白的胺基酸 序列。
25.根據權利要求24所述的系統,進一步包括指令,當所述指令執行時,其鑑定所述識別序列中比對的位置特異性模塊與所述結合蛋白的比對胺基酸序列中一 個或多個位置特異性胺基酸之間的相關性。
26.根據權利要求25所述的系統,進一步包括接收來自蛋白質合成和蛋白質結合分 析裝置的數據並包含指令的工具,當所述指令執行時,其使用所述數據,通過證實突變蛋白質與預確定識別序列結合的預測來確認所述相關 性;和將所述數據組織成在鑑定位置處確認的一個胺基酸或多個胺基酸的目錄,所述鑑定位 置確定所述識別序列中模塊位置和類型的識別。
27.系統,其包括存儲指令的存儲器和執行所述指令的計算機,當所述指令被執行 時,其(a)在第一資料庫中收集和比對結合蛋白的胺基酸序列的分選組,並且在第二資料庫 中收集和比對至少所述結合蛋白的亞組的識別序列的分選組,其中所述第一資料庫從氨基 酸或核苷酸序列的第三資料庫的自動化檢索獲得;(b)鑑定所述胺基酸序列組中選擇的比對位置處的胺基酸和所述識別序列中選擇的比 對模塊位置處的模塊之間的相關性;(c)從蛋白質合成和蛋白質結合分析儀器接收關於相關性的數據,以使用所述數據,通 過證實突變蛋白質與預確定識別序列結合的預測來確認所述相關性;和(d)將所述數據組織成在鑑定位置處確認的一個胺基酸或多個胺基酸的目錄,所述鑑 定位置確定在所述識別序列中模塊位置和類型的識別。
28.系統,其包括存儲指令的存儲器和執行所述指令的計算機,當所述指令被執行 時,其存儲第一結合蛋白中一個或多個胺基酸殘基的位置信息,進行靶向突變以產生第二結 合蛋白,所述第二結合蛋白在由所述蛋白質識別的模塊的序列內的序列位置中具有預測的 模塊改變。
29.根據權利要求28所述的系統,其中所述存儲的指令包括圖7A中的指令。
30.方法或組合物,其包括在所附的說明書中公開的任何特徵。
全文摘要
提供產生結合蛋白的方法和組合物,所述結合蛋白識別合理選擇的識別序列,在該識別序列中使用與識別序列中選擇的特異性靶模塊的識別相關的一個或多個鑑定位置處的一組蛋白質的成員蛋白的位點定向誘變,將第一胺基酸取代為第二胺基酸。提供一個系統,所述系統自動化儲存和操作結合蛋白中胺基酸殘基位置和類型與靶識別序列中特異性位置處的特異性模塊之間的相關性,並且所述系統用於設計和產生具有新特異性的蛋白質。
文檔編號C12N15/55GK101933022SQ200880103000
公開日2010年12月29日 申請日期2008年6月20日 優先權日2007年6月20日
發明者R·D·摩爾根 申請人:新英格蘭生物實驗室公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀