具有α澱粉酶活性的酶及其使用方法
2023-09-14 16:13:40 1
專利名稱::具有α澱粉酶活性的酶及其使用方法
技術領域:
:本發明總的來說涉及酶,編碼這些酶的多核苷酸,這些多核苷酸和多肽的用途,更明確地說涉及具有a澱粉酶活性的酶。
背景技術:
:澱粉是存在於人類飲食中的複合糖。澱粉的結構是用a-l,4和a-l,6糖苷鍵連接的葡萄糖聚合物。澱粉酶是一種能催化澱粉水解為糖的酶。澱粉酶在澱粉中水解內a-1,4-糖苷鍵,在很大程度上是隨機水解,從而得到較小分子量的麥芽糖糊精。在消化系統和商業上,澱粉的分解是很重要的。所以澱粉酶被認為很有商業價值,在很多場合得到使用澱粉加工的初始階段(液化);溼玉米碾磨;酒精生產;在去汙劑基料中作為清洗劑;在紡織行業用於澱粉脫漿;烘培應用;飲料行業;在油田的鑽探工藝中;給循環紙上墨;和動物飼料中。澱粉酶是用多種微生物製備的,這些微生物包括芽孢桿菌屬(Bacillus)和麴黴屬(Aspergillus),其中許多商業澱粉酶是從細菌來源製備的,如地衣芽孢桿菌(Bacilluslicheniformis),角牟澱粉芽孢桿菌(Bacillusamyloliquefaciens),枯草芽孢桿菌(Bacillussubtilis),或嗜熱月旨肪芽孢桿菌(Bacillusstearothermophilus)。在最近幾年,那些來自地衣芽孢桿菌的酶已經用於商業應用中,原因在於它們的熱穩定性和性能,至少中性和弱鹼性的pH值。通常,澱粉到果糖的加工包括四個步驟顆粒澱粉的液化,液化澱粉糖化為葡萄糖,純化,和異構化為果糖。澱粉液化步驟的目的是將澱粉聚合物顆粒的濃縮懸浮液轉化為低粘度的可溶性短鏈糊精溶液。該步驟對於用標準設備便利地處理和有效轉化為葡萄糖或103其它糖是必要的。為了液化顆粒澱粉,必須通過將顆粒澱粉的溫度升高到高於大約72°C以使顆粒膠凝化。加熱過程可以瞬間破壞不溶性澱粉顆粒從而產生水溶性澱粉溶液。然後通過澱粉酶將溶解的澱粉溶液液化。澱粉顆粒包括69-74%支鏈澱粉,26-31%澱粉酶,11_14%水,0.2-0.4%蛋白質,0.5-0.9%脂質,0.05-0.1%灰分,0.02-0.03%磷,0.1%戊聚糖。大約70%的顆粒是非晶態的,30%是晶態的。普通的酶液化步驟涉及通過加入氫氧化鈣,氫氧化鈉或碳酸鈉將顆粒澱粉漿料的pH值調節到6.0-6.5之間,是衍生於地衣芽孢桿菌的a-澱粉酶的最適pH值。加入氫氧化鈣還有一個優點,就是可以提供鈣離子,已知鈣離子能夠穩定a-澱粉酶以免其發生失活。一旦加入a-澱粉酶,就通過蒸汽噴嘴抽出懸浮液,這樣可以將溫度瞬間升高到8(TC-115t:之間。澱粉被立刻膠凝化,隨後由於存在a-澱粉酶,通過a-澱粉酶隨機水解(1-4)糖苷鍵將其被解聚為流體物質,這樣易於抽出。在液化步驟的第二種變化形式中,a-澱粉酶被加入到澱粉懸浮液中,懸浮液被保持在80-10(TC的溫度以部分地水解澱粉顆粒,然後部分水解的澱粉顆粒通過噴嘴在超過大約105t:的溫度被抽出,以徹底地膠凝化任何剩餘的顆粒結構。在冷卻膠凝澱粉後,第二次加入a-澱粉酶,以進一步水解澱粉。該步驟的第三種變化形式被稱作幹磨方法。在幹磨法中,將全粒研磨,並且與水混合。通過漂浮分離或等效技術任選地去除胚芽。用a-澱粉酶液化所得到的混合物,該混合物含有澱粉、纖維、蛋白質和穀物的其它成分。當使用幹磨法時,本
技術領域:
通常的實踐是採取在較低溫度下進行酶液化。通常,在將澱粉轉化為可溶性糊精時,認為低溫液化比高溫液化的效率低一些。典型地,澱粉溶液在膠凝化後,在存在a-澱粉酶的情況下,保持於高溫下,直到DE達到10-20,通常保持1-3小時。葡萄糖當量值(DE)是用於測量總的還原糖濃度的行業標準,是以乾重量計算的D-葡萄糖來表示。未水解的顆粒澱粉的DE實質上為零,儘管D-葡萄糖的DE被定義為100。玉米溼磨是一種產生玉米油、谷蛋白粉、谷蛋白飼料和澱粉的方法。鹼性澱粉酶被用於澱粉液化中,葡糖澱粉酶被用於糖化中,從而產生葡萄糖。玉米是一種包括外種皮(纖維)、澱粉、澱粉和葡萄糖的結合物和內胚芽的穀粒,進行一種四步驟方法,該四步驟方法導致產生澱粉。玉米被浸泡,去胚芽,去纖維,最後分離谷蛋白。在浸泡過程中,取出可溶性物質。去掉可溶性物質後剩餘的產物被去胚芽,這樣導致產生了玉米油且產生了油餅,油餅可以被加入到來自浸泡步驟的可溶性物質中。剩餘產物被去纖維,然後纖維固體被加入到油餅/可溶性混合物中。纖維固體、油餅和可溶性物質的混合物形成了谷蛋白飼料。在去纖維後,剩餘產物進行谷蛋白分離。該分離導致谷蛋白粉和澱粉。然後將澱粉進行液化和糖化,產生葡萄糖。烘烤產品(如麵包)的老化(staling)已經被認為是隨著麵包產品製備時刻和消費時刻之間的時間變長而變得越來越嚴重的一個問題。術語老化被用於描述麵包產品在離開烤箱後的不受消費者歡迎的性質變化,如麵包屑的堅硬性增加,麵包屑彈性降低,麵包皮發生變化,變得堅韌嚼不動。麵包屑堅硬性在儲存過程中進一步增加到一個被認為是被拒絕的水平。麵包屑堅硬性的增加被認為是老化的最重要方面,是由消費者辨認的,是在麵包產品在其它方面變得不適合消費之前的很長一段時間就發生的。在該行業存在對於澱粉酶的鑑別和最優化的需求,澱粉酶可用於多種用途,包括商業玉米澱粉液化工藝中。例如,相對於來自地衣芽孢桿菌的行業標準酶而言,這些第二代酸性澱粉酶將提供改進的生產和/或工作特性。也存在對於鑑別和最優化在自動洗碗機(ADW)產品和洗衣行業的去汙劑中有用的澱粉酶的需求。在ADW產品中,澱粉酶將在存在鈣螯合劑和氧化條件下,在pH10-11和45-6(TC發揮作用。對於洗衣行業,需要在適當的去汙劑基料中,於pH9-10和4(TC下的活性。澱粉酶在織物脫漿、釀造工藝、造紙和紙漿行業中的澱粉改性以及本
技術領域:
的其它工藝中有用。此處討論的公開文獻只提供了它們在本發明提交日之前的公開內容。此處沒有任何內容可以被解釋為承認本發明沒有依賴現有發明而以較前的時日記入這些公開內容。發明概述本發明提供了一種分離的核酸,其具有如下序列中所闡明的序列SEQIDNO.:1,3,5,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63,65,67,69,71,73,75,77,79,81,83,85,87,89,91,93,95,97,99,101,103,105,107,109,111,113,115,117,119,121,123,125,127,129,131,133,135,137,139,141,143,145,147,149,151,153,155,157,159,161,163,165,167,169,171,173,175,177,179,181,183,185,187,189,191,193,195,197,199,201,203,205,207,209,211,213,215,217,219,221,223,225,227,229,231,233,235,237,239,241,243,245,247,249,251,253,255,257,259,261,263,265,267,269,271,273,275,277,279,281,283,285,287,289,291,293,295,297,299及其與如下序列具有至少50%序列同一性的變體:SEQIDNO.:1,3,5,9,H,13,15,17,19,21,23,25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63,65,67,69,71,73,75,77,79,81,83,85,87,89,91,93,95,97,99,101,103,105,107,109,111,113,115,117,119,121,123,125,127,129,131,133,135,137,139,141,143,145,147,149,151,153,155,157,159,161,163,165,167,169,171,173,175,177,179,181,183,185,187,189,191,193,195,197,199,201,203,205,207,209,211,213,215,217,219,221,223,225,227,229,231,233,235,237,239,241,243,245,247,249,251,253,255,257,259,261,263,265,267,269,271,273,275,277,279,281,283,285,287,289,291,293,295,297,299,和編碼具有a-澱粉酶活性的多肽。本發明的一個方面是一種分離的核酸,其具有如下序列中所闡明的序列SEQIDNO.:1,3,5,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63,65,67,69,71,73,75,77,79,81,83,85,87,89,91,93,95,97,99,101,103,105,107,109,111,113,115,117,119,121,123,125,127,129,131,133,135,137,139,141,143,145,147,149,151,153,155,157,159,161,163,165,167,169,171,173,175,177,179,181,183,185,187,189,191,193,195,197,199,201,203,205,207,209,211,213,215,217,219,221,223,225,227,229,231,233,235,237,239,241,243,245,247,249,251,253,255,257,259,261,263,265,267,269,271,273,275,277,279,281,283,285,287,289,291,293,295,297,299(下文被稱作"A組核酸序列"),與其基本上同一的序列,和與其互補的序列。本發明的另一個方面是一種分離的核酸,其包括至少10個連續鹼基,所述至少10個連續鹼基是A組核酸序列,與其基本上同一的序列,和與其互補的序列中所闡明的序列的鹼基。仍然在另一個方面,本發明提供了一種分離的核酸,其編碼具有如下述序列中所闡明的序列的多月太SEQIDNO.:2,4,6,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70,72,74,76,78,80,82,84,86,88,90,92,94,96,98,100,102,104,106,108,110,112,114,116,118,120,122,124,126,128,130,132,134,136,138,140,142,144,146,148,150,152,154,156,158,160,162,164,166,168,170,172,174,176,178,180,182,184,186,188,190,192,194,196,198,202,204,206,208,210,212,214,216,218,220,222,224,226,228,230,232,234,236,238,240,242,244,246,248,250,252,254,256,258,260,262,264,266,268,270,272,274,276,278,280,282,284,286,288,290,292,294,296,298及其編碼具有a-澱粉酶活性和與這些序列具有至少50%序列同一性的多肽的變體。本發明的另一個方面是一種分離的核酸,其編碼具有如下述序列中所闡明的序列的多肽或其功能片段SEQIDNO.:2,4,6,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70,72,74,76,78,80,82,84,86,88,90,92,94,96,98,100,102,104,106,108,110,112,114,116,118,120,122,124,126,128,130,132,134,136,138,140,142,144,146,148,150,152,154,156,158,160,162,164,166,168,170,172,174,176,178,180,182,184,186,188,190,192,194,196,198,202,204,206,208,210,212,214,216,218,220,222,224,226,228,230,232,234,236,238,240,242,244,246,248,250,252,254,256,258,260,262,264,266,268,270,272,274,276,278,280,282,284,286,288,290,292,294,296,298(下文被稱作"B組胺基酸序列"),和與其基本上同一的序列。本發明的另一個方面是一種分離的核酸,其編碼一種多肽,該多肽具有至少10個連續胺基酸,所述10個連續胺基酸是B組胺基酸序列和與其基本上同一的序列中所闡明的序列的胺基酸。仍然在另一個方面,本發明提供了一種純化的多肽,該多肽具有如B組胺基酸序列和與其基本上同一的序列中所闡明的序列。本發明的另一個方面是一種分離的或純化的抗體,該抗體與具有如B組胺基酸序列和與其基本上同一的序列中所闡明的序列的多肽特定地結合。本發明的另一個方面是一種分離的或純化的抗體或其結合片段,該抗體或其結合片段與具有至少10個連續胺基酸的多肽特定地結合,所述10個連續胺基酸是B組胺基酸序列和與其基本上同一的序列的多肽之一的10個連續胺基酸。本發明的另一個方面是一種製備多肽的方法,該多肽具有B組胺基酸序列和與其基本上同一的序列中所闡明的序列。該方法包括將編碼多肽的核酸導入宿主細胞,其中所述核酸與啟動子可操作地連接,並且在允許核酸表達的條件下培養宿主細胞。本發明的另一個方面是一種製備多肽的方法,該多肽具有至少10個胺基酸,是B組胺基酸序列和與其基本上同一的序列中所闡明的序列的IO個胺基酸。該方法包括將編碼多肽的核酸導入宿主細胞,其中所述核酸與啟動子可操作地連接,並且在允許核酸表達的條件下培養宿主細胞,從而產生該多肽。本發明的另一個方面是一種產生變體的方法,該方法包括獲得具有如下序列中所闡明的一個序列的核酸A組核酸序列,與其基本上同一的序列,與A組核酸序列基本上互補的序列中,包括前述序列的至少30個連續核苷酸的片段;將該序列中的一個或多個核苷酸改變為另一個核苷酸;刪除該序列中的一個或多個核苷酸;或將一個或多個核苷酸添加到該序列中。本發明的另一個方面是一種可用計算機讀取的存儲介質,其上已經存儲了A組核酸序列和與其基本上同一的序列中所闡明的序列,或B組胺基酸序列和基本上與其同一的9序列中所闡明的多肽序列。本發明的另一個方面是一種計算機系統,該系統包括一個處理器和一個數據存儲設備,其中數據存儲設備上已經存儲了A組核酸序列和與其基本上同一的序列中所闡明的序列,或具有B組胺基酸序列和基本上與其同一的序列中所闡明的序列的多肽。本發明的另一個方面是一種將第一個序列與參考序列進行比較的方法,其中第一個序列是具有如A組核酸序列和與其基本上同一的序列中所闡明的序列的核酸,或B組胺基酸序列和基本上與其同一的序列的多肽編碼。該方法包括通過使用進行序列比較的電腦程式讀取第一個序列和參考序列;用該電腦程式確定第一個序列和參考序列之間的差巳升。本發明的另一個方面是一種方法,用於鑑別A組核酸序列和與其基本上同一的序列中所闡明的序列的特徵,或鑑別具有B組胺基酸序列和基本上與其同一的序列中所闡明的序列的多肽的特徵,該方法包括通過使用能在序列中進行特徵鑑別的電腦程式讀取序列;用該電腦程式鑑別序列的特徵。本發明的另一個方面是一種分析方法,用於鑑別B組胺基酸序列和基本上與其同一的序列的片段或變體,其保留了B組胺基酸序列和與其基本上同一的序列的多肽的酶功能。該分析方法包括將B組胺基酸序列和基本上與其同一的序列的多肽,或多肽片段或變體,與底物分子在允許多肽片段或變體發揮作用的條件下接觸;檢測是底物水平有所降低,還是多肽與底物之間反應的特定反應產物水平有所增加,從而鑑別這些序列的片段或變體。本發明也提供了一種方法,用於製備生麵團或烘烤產品,該方法包括將本發明的澱粉酶以可以顯著延遲麵包老化的量加入到生麵團中。本發明也提供了一種包括所述澱粉酶的生麵團,和一種包括所述澱粉酶和麵粉的預混合料。最後,本發明提供了一種酶烘烤添加劑,該添加劑含有所述澱粉酶。根據本發明,使用澱粉酶提供了一種改進的抗老化效果,正如通過如下特性所測定的,例如較少的麵包屑變硬,持久的麵包屑彈性,改進的可切片性能(例如麵包屑更少,無膠質麵包屑),改進的可口性或味道。附圖簡述下述附圖是本發明的實施方案的例證性說明,不意味著限定本發明的範圍,本發明的範圍如權利要求所描述。圖1是計算機系統的流程圖。圖2是例證性說明一個實施方案的流程圖,所述比較方法用於將新核苷酸或蛋白序列與序列資料庫進行比較,以確定新序列和資料庫中的序列之間的同源性水平。圖3是例證性地說明計算機中一種方法的一個實施方案的流程圖,所述方法用於確定兩個序列是否是同源的。圖4是例證性地說明一種識別符方法300的一個實施方案的流程圖,所述方法用於檢測序列特徵的存在。圖5顯示了實施例1中各種澱粉酶在加熱到9(TC維持10分鐘後的殘餘活性。圖6顯示了使用漂白劑和螯合劑的ADW洗滌測試中所去除的澱粉的淨百分比與酶濃度的關係曲線。圖7顯示了pH8,4(TC的親代澱粉酶於55"在ADW配方中的活性。圖8是關於實施例4中新穎酶的H202耐受性的數據圖。圖9是選擇所表徵的澱粉酶的pH和溫度數據圖。圖9a顯示了pH8,4(TC的數據,圖9b顯示了pH10,5(TC的數據。圖10闡明了在用酶進行的重裝配試驗中所使用的序列。圖11例證性說明了實施例5的樣本標準曲線分析。圖12例證性說明了SEQIDNO.:127的pH等級曲線圖,其具有中性最適pH,和SEQIDNO.:211的pH等級曲線圖,其具有大約10的最適pH值。圖13顯示了Diversa澱粉酶與商業酶相比的穩定性,如實施例2中所討論的。圖14顯示了嗜低溫a-澱粉酶的序列對比,如實施例8中所闡明的。圖14a顯示了澱粉酶序列的對齊。SEQIDNO.:81=環境克隆;pyro=熱球菌屬(Pyrococcussp.(菌株KODl)),Tachibana,Y.,Mendez,L.,Takagi,M.禾口Imanaka,T.,JFerment.Bioeng.82:224_232,1996;pyro2=激烈熱球菌(Pyrococcusfuriosus),Appl.Environ.Microbiol.63(9):3569-3576,1997;Thermo=熱球菌(Thermococcussp.);Thermo2=熱水管熱球菌(Thermococcushydrothermalis),Leveque,E等人專利法國98.05655,1998年5月5日,未公開。圖14b顯示了鑑別的序列的胺基酸序列對比SEQIDNO.:81;pyro;SEQIDNO.:75;SEQIDNO.:77;SEQIDNO.:83;SEQIDNO.:85;thermo2;SEQIDNO.:79;thermo;pyro2;克隆A;thermo3。圖14c顯示了與圖5和6的多肽序列相應的核酸序列對比。SEQIDNO.:81;SEQIDNO.:75;SEQIDNO.:77;SEQIDNO.:83;SEQIDNO.:85;SEQIDNO.:79;克隆A;和SEQIDNO.:73。圖15是用鄰位相連法(Neighor-jointing)所得的熱球菌目(Thermococcales)進化樹。圖16是本發明的序列。發明詳述本發明涉及澱粉酶和編碼這些酶的多核苷酸。正如此處所用,術語"澱粉酶"包括具有a-澱粉酶活性的酶,例如能在多糖中水解內a-l,4-葡聚糖鍵的澱粉酶,包括能在鹼性PH或酸性pH將澱粉水解為糖的澱粉酶。本發明的澱粉酶特別地可用於玉米溼磨法,去汙劑,烘烤工藝,飲料和油田(燃料乙醇)中。澱粉酶也可以用於織物脫漿,釀造工藝,紙和紙漿工業中澱粉改性和本
技術領域:
描述的其它方法中。已經鑑定出本發明的多核苷酸編碼具有a澱粉酶或鹼性澱粉酶活性的多肽。本發明的鹼性澱粉酶可以包括,但不限於SEQIDNO.:115;SEQIDNO.:207;SEQIDNO.:139;SEQIDNO.:127;SEQIDNO.:137;SEQIDNO.:113;SEQIDNO.:205;SEQIDNO.:179;SEQIDNO.:151;SEQIDNO.:187;SEQIDNO.:97;SEQIDNO.:153;SEQIDNO.:69;SEQIDNO.:135;SEQIDNO.:189;SEQIDNO.:119;SEQIDNO.:209和SEQIDNO.:211。可以在本發明的變體中實現的特性改變是如下的特性改變,例如底物特異性、底物結合性、底物分裂型、熱穩定性、pH/活性曲線、pH/穩定性曲線[如在低pH值(例如pH<6,尤其是pH9)下增加的穩定性]、抗氧化穩定性、Ca2+依賴性、比活性和其它相關特性。例如,與親本澱粉酶相比,可以產生改變導致具有降低的&2+依賴性和/或改變的PH/活性曲線的變體。本發明涉及a澱粉酶和編碼這些酶的多核苷酸。正如此處所用,術語"a澱粉酶"包括具有a-澱粉酶活性的酶,例如能將澱粉水解為糖的酶。與許多已知的澱粉酶不同,本發明的澱粉酶可以是不依賴於鈣的酶。高度期望能降低a-澱粉酶的Ca2+依賴性。因此,本發明的一方面提供了一種澱粉酶,該澱粉酶與商品酶或親本澱粉酶相比具有降低的Ca2+依賴性。降低的Ca2+依賴性通常將具有功能後果,即變體在存在比商品酶或親本酶所需要的濃度低的鈣離子濃度的情況下,在外部介質中表現出令人滿意的澱粉分解活性。降低的Ca2+依賴性通常進一步具有如下結果,即變體對於鈣離子貧乏的條件不太敏感,如那些在含有鈣配位劑的介質中所獲得的條件(例如某些去汙劑助劑)。"液化作用"或"液化"是指一種過程,通過該過程澱粉被轉化為短鏈和低粘性糊精。通過,該過程包括在加入a澱粉酶的同時或加入a澱粉酶之後膠凝化澱粉。在商業過程中,優選地顆粒澱粉來自玉米、小麥、蜀黍、高粱、黑麥或bulgher(—種俄羅斯作物)。然而,本發明適用於可用於液化的任何穀物澱粉來源,例如已知可以產生適合於液化的澱粉的任何其它穀物或植物來源。"顆粒澱粉"或"澱粉顆粒"指可食用穀物的水不溶性成分,該成分在去除外殼、纖維、蛋白質、脂肪、胚芽後保留下來的部分,並且在經過穀物溼磨方法所特有的浸泡、機械破裂、分離、篩選、逆流衝洗和離心步驟處理後可溶。顆粒澱粉包括含有,幾乎是獨佔地含有壓緊的澱粉分子(即支鏈澱粉和直鏈澱粉)的完整澱粉顆粒。在玉米中,顆粒澱粉成分含有大約99%澱粉;剩餘1%包括蛋白質、脂肪、灰分、纖維素和與顆粒密切相關的微量成分。顆粒澱粉的填充物結構嚴重地阻礙了a-澱粉酶水解澱粉的能力。利用澱粉的膠凝化來破壞顆粒,以得到可溶性澱粉溶液且有助於酶水解。"澱粉溶液"指水溶性膠凝澱粉,通過加熱顆粒澱粉得到。一旦將顆粒加熱到超過大約72t:,顆粒澱粉就溶解形成疏鬆澱粉分子的含水混合物。該混合物形成一種粘性水溶液,所述混合物,例如在黃色馬齒種玉米中,包括大約75%支鏈澱粉和25%直鏈澱粉。"a澱粉酶"指裂解或水解a(1-4)糖苷鍵的酶活性,例如澱粉,支鏈澱粉或直鏈澱粉聚合物中的a(1-4)糖苷鍵。合適的a澱粉酶是天然存在的a澱粉酶,以及可用於澱粉液化中的重組或突變澱粉酶。例如,本發明也包括了在不同於野生型澱粉酶的PH或溫度下,產生具有活性的變異澱粉酶的技術。液化的溫度範圍通常是任何已知在液化澱粉中有效的液化溫度。優選地,澱粉的溫度介於大約80°C_大約115t:之間,更優選地介於大約IO(TC-大約ll(TC之間,最優選地介於大約105°C_大約108"之間。在一個實施方案中,本發明的信號序列是在鑑別新穎澱粉酶多肽後被鑑別的。蛋白質被分選,且轉運到其適當細胞位置的途徑是通過被稱作蛋白質導向途徑實現的。在所有這些導向系統中最重要的元件之一是稱作信號序列的位於新合成的多肽的氨基末端上的短胺基酸序列。信號序列將蛋白質指向其在細胞中的適當位置,在轉運過程中或者當蛋白質到達其最終目的地時被去除。大部分溶酶體、膜或分泌蛋白具有一個氨基末端信號序列,該信號標記它們轉移到內質網的內腔中。該組中超過ioo種蛋白質的信號序列已經被確定。序列的長度在13-36個胺基酸殘基之間。識別信號序列的各種方法對於本
技術領域:
的普通技術人員而言是已知的。在一個實施方案中,通過一種被稱作SignalP的方法來鑑別肽。SignalP使用綜合神經網絡來識別信號肽以及它們的裂解位點。(Nielsen,H.,Engelbrecht,J.,Br皿alk,S.,vonHeijne,G.,"Identificationofprokaryoticandeukaryoticsignalpeptidesandpredictionoftheircleavagesites.,,ProteinEngineering,第IO巻,第1期,1_6頁(1997),此處引用作為參考)。應該理解到,本發明的一些澱粉酶可以沒有信號序列。可以期望包括編碼信號序列的核酸序列,所述信號序列來自與一種不同澱粉酶的核酸序列可操作連接的澱粉酶,或任選地來自非澱粉酶蛋白的信號序列是期望的。表3顯示了本發明的信號序列。正如此處所用,短語"核酸"或"核酸序列"指寡核苷酸、核苷酸、多核苷酸,或指寡核苷酸、核苷酸、多核苷酸中任一種的片段,指基因組或合成來源的DNA或RNA,指肽核酸(PNA),或者指任何天然或合成來源的類似DNA或類似RNA的物質。特定多肽或蛋白質的"編碼序列"或"編碼特定多肽或蛋白質的核苷酸序列"是當在置於適當調節序列控制下時被轉錄或翻譯到多肽或蛋白質中的核酸序列。術語"基因"指涉及產生多肽鏈的DNA片段;包括編碼區之前和之後的區(前導區和非轉錄尾區),以及適當的時候,包括個體編碼片段(外顯子)之間的間插序列(內含子)。正如此處所用,"胺基酸"或"胺基酸序列"指寡肽、肽、多肽或蛋白序列,或指寡肽、肽、多肽或蛋白序列中任意一種的片段、部分或亞單位,指天然分子或合成分子。正如此處所用,術語"多肽"指通過肽鍵或修飾的肽鍵即肽等排物(p印tideisostere)彼此連接在一起的胺基酸,並且可以含有除了20個由基因編碼的胺基酸以外的修飾胺基酸。多肽可以通過任一種天然方法修飾,如翻譯後加工,或通過本
技術領域:
已知的化學修飾技術修飾。修飾可以發生在多肽中的任何地方,包括肽骨架、胺基酸側鏈和氨基末端或羧基末端。應該意識到,在給定的多肽中,相同類型的修飾可以在數個位點以相同或變化的程度存在。而且,給定的多肽可以具有許多類型的修飾。這些修飾包括乙醯化作用、醯化作用、ADP-核糖基化作用、醯胺化作用、黃素的共價附著、亞鐵血紅素部分的共價附著、核苷酸或核苷酸衍生物的共價附著、脂質或脂質衍生物的共價附著、phosphytidylinositol的共價附著、交聯環化、二硫鍵形成、脫甲基作用、共價交聯的形成、半胱氨酸的形成、焦穀氨酸的形成、甲醯化作用、Y-羧化作用、糖基化作用、GPI錨形成、羥基化作用、碘化作用、甲基化作用、豆蔻醯化、氧化、pergylation、蛋白水解加工、磷酸化作用、異戊二烯化、外消旋作用、硒化作用(se1enoy1ation)、硫酸化作用、t-RNA介導的將胺基酸加入到蛋白質的過程如精氨醯化。(參考Creighton,T.E.,Proteins-structureandMolecularProperties第二片反,W.H.FreemanandCompany,NewYork(1993);PosttranslationalCovalentModificationofProteins,B.C.Johnson編著,AcademicPress,NewYork,1-12頁(1983))。正如此處所用,術語"分離的"指物質離開其原始環境(例如,如果是天然存在的,則離開其天然環境)。例如,存在於活的動物體內的天然存在的多核苷酸或多肽不是分離的,但從天然系統中的一些或全部共存物質中分離出的相同多核苷酸或多肽是分離的。這樣的多核苷酸可以是載體的一部分,和/或這樣的多核苷酸或多肽可以是組合物的一部分,它們仍然是分離的,原因在於這些載體或組合物不是天然環境的一部分。13正如此處所用,術語"純化的"不要求完全純化;更確切地說,該術語是一個相對定義。來自文庫的個體核苷酸已經被常規地純化達到電泳同質性。來自這些克隆的序列不能直接從文庫或者直接從總人DNA獲得。本發明的純化的核酸已經從微生物的基因組DNA的剩餘物中純化了至少104-106倍。然而,術語"純化的"也包括已經從基因組DNA的剩餘物或從文庫或其它環境中的其它序列純化了至少一個數量級的核酸,典型地是純化了兩個或三個數量級,更典型地是四個或五個數量級。正如此處所用,術語"重組的"指核酸與"骨架"核酸相鄰,而在其天然環境中與"骨架"核酸不是相鄰的。另外,被"富集"的核酸表示核酸骨架分子群體中的核酸插入物達到5%或更多數量。根據本發明的骨架分子包括核酸,如表達載體、自我複製核酸、病毒、整合核酸和其它用於維持或操縱相關核酸插入物的載體或核酸。典型地,富集的核酸表示重組骨架分子群體中的核酸插入物達到15%或更多數量。更典型地,富集核酸表示重組骨架分子群體中的核酸插入物為50%或更多數量。在一個實施方案中,富集核酸表示重組骨架分子群體中的核酸插入物達到90%或更多數量。"重組的"多肽或蛋白質指通過重組DNA技術產生的多肽或蛋白質;即,通過編碼期望多肽或蛋白質的外源DNA構建物轉化的細胞產生的多肽或蛋白質。"合成的"多肽或蛋白質是那些通過化學合成製備的多肽或蛋白質。也可以固相化學肽合成方法來合成本發明的多肽或片段。這些方法自從20世紀60年代早期在本
技術領域:
就已經已知(Merrifield,R.B.,J.Am.Chem.Soc.,85:2149-2154,1963)(也可以參見Stewart,J.M.和Yo皿g,J.D.,SolidPhasePeptideSynthesis,第二片反,PierceChemicalCo.,Rockford,111,11-12頁)),並且最近已經被用於可通過商業途徑獲得的實驗室肽設計和合成試劑盒(CambridgeResearchBiochemicals)。這些可通過商業途徑獲得的實驗室試劑盒通常使用了H.M.Geysen等人,Proc.Natl.Acad.Sci.,USA,81:3998(1984)的教導,在大量"棒"或"針"的尖端上提供合成肽,所有棒或針與單個板子相連接。當使用這樣的系統時,一個具有棒或針的板子被翻轉,且插入到具有相應孔或容器的第二個板子中,所述孔或容器含有將適當胺基酸附著或固定到針或棒尖端的溶液。通過重複這一處理步驟,即將棒或針的尖端翻轉且插入到適當溶液中,胺基酸就被構建到期望肽中。此外,可以得到數量眾多的FM0C肽合成系統。例如,多肽或片段的裝配可以使用AppliedBiosystems,Inc.提供的Model431A自動肽合成儀在固體載體上進行。該肽合成儀提供了現成獲取本發明所述肽,或者通過直接合成或者通過合成一系列片段,這些片段可以使用其它已知技術偶聯。當起動啟動子轉錄的RNA聚合酶將編碼序列轉錄到mRNA中時,啟動子序列與編碼序列是"可操縱連接"的。"質粒"由前面的小寫字母"p",和/或其後的大寫字母和/或數字標明。此處的起始質粒或者通過商業途徑獲得,是不受限制地公開獲得,或者可以用與公開方法一致的方法從可獲得的質粒構建而來。另外,與此處所描述的質粒等效的質粒在本領域是已知的,對於普通技術人員而言是明了的。DNA的"消化"指用僅在DNA中某些序列上發揮作用的限制酶催化裂解DNA。此處使用的各種限制酶是通過商業途徑獲得,其反應條件、輔因子和其它要求按照普通技術人員已知的那樣使用。對於分析目的,通常在大約20i!1緩衝液中,對於1Pg質粒或DNA片段,大約使用2單位酶。對於分離DNA片段進行質粒構建的目的,通常在較大容器中用20-250單位酶消化5-50ygDNA。對於特定限制酶,由製造商詳細說明所使用的適當緩衝液和底物的用量。一般使用37t:大約1小時的溫育時間,但可以根據供應商提供的說明書有所變化。消化後,進行凝膠電泳來分離期望片段。"寡核苷酸"或者指一個單鏈多脫氧核苷酸,或者指兩個互補的多脫氧核苷酸鏈,它們可以化學合成。這樣化學合成的寡核苷酸沒有5'磷酸,因此在沒有用ATP添加磷酸和存在激酶的情況下,不會與另一個寡核苷酸連接。合成寡核苷酸將與沒有發生去磷酸化作用的片段連接。在有關核酸或多肽的上下文中,詞語"基本上同一的"指兩個或更多序列,當進行最大對應的對比且對齊時,正如用已知的序列比較算法或通過視覺觀察所測定的,所述序列具有至少50%,60%,70%,80%,在某些方面具有90-95%核苷酸或胺基酸殘基同一性。典型地,基本上的同一性存在於至少大約100個殘基的區域內,最普通地是序列在至少大約150-200個殘基範圍內是基本上同一的。在一些實施方案中,序列在整個編碼區是基本上同一的。另外,"基本上同一的"胺基酸序列是這樣一個序列,即該序列通過一個或多個保守或非保守胺基酸取代、缺失或插入而與參考序列不同,尤其當這樣的取代發生的位點不是分子的活性位點時,只要多肽實質上保留了其功能特性時。保守胺基酸取代,例如用一個胺基酸取代另一個同類胺基酸(例如用一個疏水胺基酸取代另一個疏水胺基酸,例如這些疏水胺基酸為異亮氨酸、纈氨酸、亮氨酸或甲硫氨酸,或者用一個極性胺基酸取代另一個極性胺基酸,如用精氨酸取代賴氨酸,穀氨酸取代天冬氨酸,穀氨醯胺取代天冬醯胺)。一個或多個胺基酸可以被刪除,例如從a澱粉酶多肽進行刪除,導致多肽結構的修飾,而不會顯著地改變其生物活性。例如,a澱粉酶生物活性不要求的氨基或羧基末端胺基酸可以被刪除。本發明的修飾的多肽序列可以通過許多方法分析a澱粉酶生物活性,包括用a澱粉酶底物接觸修飾的多肽序列,確定修飾的多肽是否在分析中降低了特定底物的量,或者是否增加了功能性a澱粉酶多肽與底物的酶反應的生物產物。正如此處所用,"片段"是天然存在的蛋白質的一部分,其可以以至少兩種不同的構象存在。片段可以具有與天然蛋白質相同或基本上相同的胺基酸序列。"基本上相同"指胺基酸序列大部分是相同的,但不是完全相同,但保持與其相關的序列的至少一種功能活性。通常如果兩個胺基酸序列至少大約85%是同一的,那麼這兩個胺基酸序列是"基本上相同的"或"基本上同源的"。與天然蛋白質具有不同的三維結構的片段也包括在內。這樣的一個例子是"前形式(pro-from)"分子,如可以通過裂解產生具有顯著較高活性的成熟酶的具有較低活性的前蛋白。"雜交"指一種過程,通過該過程核酸鏈通過鹼基配對與互補鏈結合。雜交反應可以是敏感的,且是選擇性的,這樣相關的特定序列即使在其存在濃度非常低的樣品中也能被識別出。合適的嚴格條件可以通過如下條件來確定,例如預雜交和雜交溶液中的鹽或甲醯胺的濃度,或者通過雜交溫度來確定,並且這些條件在本
技術領域:
是已知的。尤其是,嚴格性的增加可以通過降低鹽濃度、增加甲醯胺濃度或升高雜交溫度實現。例如,高度嚴格條件下的雜交可以於大約37°C_421:和在大約50%甲醯胺中發生。雜交可以在降低的嚴格條件下發生,於大約30°C_351:在大約35%_25%甲醯胺中發生。尤其是,雜交可以在高度嚴格條件下於發生,於大約42°C在50%甲醯胺、5XSSPE、0.3%SDS和200n/ml剪切且變性的鮭精DNA中發生。雜交可以在降低的嚴格條件下發生,正如上面所描述的,於降低的溫度35t:在35%甲醯胺中發生。與特定嚴格性水平相應的溫度範圍可以通過計算相關核酸的嘌呤與嘧啶的比率並且相應地調節溫度來進一步變窄。上述範圍和條件的變化在本
技術領域:
是已知的。術語"變體(variant)"指在一個或多個鹼基對、密碼子、內含子、外顯子或胺基酸殘基(分別地)被修飾的本發明的多核苷酸或多肽,但仍然保留了本發明的a澱粉酶的生物活性。變體可以通過很多方法產生,這些方法包括,例如易錯PCR、改組、寡核苷酸介導的誘變、裝配PCR、有性PCR誘變、體內誘變、盒式誘變、遞歸集團誘變(recursiveensemblemutagenesis)、指數集團誘變(exponentialensemblemutagenesis)、位點特異性誘變、基因再裝配、GSSM及其任意組合。本發明也包括了產生,例如與野生型澱粉酶不同的pH或溫度下具有活性的變體澱粉酶的技術。酶是高度選擇的催化劑。它們的特點是以微妙的立體、區域和化學選擇性催化反應,這是傳統合成化學難以匹敵的。而且,酶具有顯著的多種用途。它們可以在有機溶劑中發揮作用,在極端pH(例如高pH和低pH)、極端溫度(例如高溫和低溫)、極端鹽度水平(例如高鹽度和低鹽度)下工作,且可以催化在結構上與其自然的生理學底物不相關的化合物的反應。酶對於多種天然和非天然底物都有活性,從而能實質上修飾任何有機前導化合物。而且,與傳統的化學催化劑不同,酶是高度對映選擇和區域選擇的。這些酶所表現出的高度官能基團特異性能使得人們追蹤導致新活性化合物的合成序列中的每一反應。酶也能催化與它們的生理學功能本質上不相關的許多性質不同的反應。例如,過氧化物酶通過過氧化氫催化苯酚的氧化。過氧化物酶也能催化與該酶的天然功能不相關的羥基化反應。其它例子是催化多肽分解的蛋白酶。在有機溶液中,一些蛋白酶也可以催化糖的醯化,這是與這些酶的天然功能不相關的已知功能。—方面,本發明包括液化含有組合物的澱粉的方法,所述方法包括將澱粉與本發明的多肽(例如,選自具有選自如下序列的胺基酸序列的純化多肽B組胺基酸序列;與至少一個B組胺基酸序列具有至少大約50X同源性的變體,在至少大約100個殘基的區域內,正如通過用序列比較算法或通過視覺觀察進行的分析所確定的那樣;與任一個B組胺基酸序列互補的序列;和在至少大約100個殘基的區域內與任一個B組胺基酸序列具有至少大約50%同源性的變體互補的序列,正如通過用序列比較算法或通過視覺觀察進行的分析所確定的那樣;和具有多肽的至少10個連續胺基酸的多肽,所述多肽具有選自B組胺基酸序列的序列)接觸。在一個優選的實施方案中,多肽是B組胺基酸序列中所闡明的。澱粉可以來自選自如下的物質稻米、發芽稻米、玉米、大麥、小麥、豆類和甘薯。此處也包括通過本發明的方法產生的葡萄糖糖漿。該糖漿可以是麥芽糖糖漿、葡萄糖糖漿或其組合。尤其是,與通過商業酶產生的糖漿相比,用本發明的澱粉酶產生的糖漿具有較高水平的DP2部分,較高水平的DP3(麥芽三糖和/或潘糖)和較少的大於DP7片段的片段。這與液化曲線相符合,這是由於在本發明的液化糖漿中有較少的大片段。本發明也提供一種方法,用於從物質中去除含有澱粉的染料,該方法包括將該材料與本發明的多肽接觸。一方面,本發明提供了一種洗滌目標物的方法,該方法包括將目標物與本發明的多肽在足以洗滌的條件下接觸。例如,本發明的多肽可以作為去汙劑添加劑被包括進相應產品中。本發明也包括一種用於織物脫漿的方法,該方法包括將織物與本發明的多肽在足以脫漿的條件下接觸。本發明也提供一種降低麵包產品老化的方法,該方法包括將本發明的多肽在烘烤之前加入到麵包產品中。本發明也提供了一種處理木質纖維素的方法,其中用本發明的多肽以足以改進纖維特性的量處理纖維。本發明包括一種用於循環紙漿的酶法脫墨的方法,其中多肽以足以有效地使纖維表面脫墨的量使用。此處描述的任何方法之一均包括添加第二種a-澱粉酶或者|3-澱粉酶或者它們的組合物。適合與本發明的酶組合使用的商業澱粉酶或其它酶對於本
技術領域:
的普通技術人員而言是已知的。本發明也包括一種增加地層(subterraneanformation)的採出液(productionfluid)流動的方法,是通過去除生產操作過程中形成的和在地層中被發現的粘性、含澱粉的有損害性的液體(damagingfluid)而實現,這些液體包圍完井井筒(completedwellbore),包括允許採出液從井筒流出;降低從地層流出的採出液流動達到期望流速以下;通過將含水液體與本發明的多肽共混配製酶處理物;將酶處理物泵到井筒中的期望位置;允許酶處理物降解粘性、含澱粉的有損害性的液體,從而液體可以從地層移動到井表面;其中酶處理物可以有效地攻擊含有澱粉的液體中的a糖苷鍵。本發明利用了酶的一種獨特的催化特性。儘管在化學轉化中使用生物催化劑(即,純化酶或者粗酶,非活細胞或者活細胞)通常需要鑑別與特定起始化合物反應的特定生物催化劑,本發明使用了選擇的生物催化劑和反應條件,它們對於在許多起始化合物中存在的官能基團是特異的。每種生物催化劑對於一種官能基團或者幾種相關的官能基團是特異的,並且可以與含有該官能基團的許多起始化合物反應。生物催化劑反應產生來自單一起始化合物的衍生物群體。這些衍生物可以被進行另一輪生物催化劑反應,以產生第二群衍生化合物。可以用生物催化劑衍生作用的每一次迭代產生成千上萬種原始化合物的變化。酶在起始化合物的特定位點反應,不影響該分子的其餘部分,該過程用傳統化學方法非常難以實現。這種高度的生物催化特異性提供了在文庫中鑑別單一活性化合物的方法。文庫的特徵在於用於產生某種化合物的生物催化反應系列,所謂的"生物合成歷史"。篩選文庫的生物活性並且跟蹤生物合成歷史,就能夠鑑別產生活性化合物的特定反應序列。重複反應序列,確定合成的化合物的結構。與其它合成和篩選方法不同,鑑別模式不需要固定化技術,可以使用實質上任何類型的篩選分析方法在溶液中以游離態合成且測試化合物。重要的是要注意到,酶在官能基團上的反應的高度特異性允許跟蹤特定酶反應,這些反應形成生物催化產生的文庫。為基於表達而發現澱粉酶的目的,對A噬菌體文庫進行篩選有很多優點。這些優點包括改進對於毒性克隆的檢測;改進對於底物的接近;降低對於對宿主進行遺傳工程的需求;繞開對於任何由於文庫的大規模刪除所導致的偏見的潛能;以及在低克隆密度下的較快速生長。另外,在液相中篩選A噬菌體文庫相對於在固相中篩選而言有優勢。這些優勢包括分析條件下更好的靈活性;額外的底物靈活性;對於弱克隆更高的靈敏度;以及易於自動化。許多程序步驟是用機械自動化進行的,這樣能完成大量生物催化反應,並且每天篩選被試驗物,以及確保高水平的準確性和可再現性。這樣的結果是,可以在幾周內產生衍生化合物的文庫,而該文庫用當前的化學方法將需要數年才能產生。(關於分子修飾的進一步教導,包括小分子,參見PCT/US94/09174,將其完整引用於此作為參考)。—方面,本發明提供了一種非隨機方法,稱作合成基因再裝配(syntheticgenereassembly),這與隨機改組有一些相關,只是核酸構件沒有任意地被改組或被連接或被嵌合,而是被非隨機性地裝配。合成基因再裝配方法不依賴於將被改組的多核苷酸之間存在高度同源性。本發明可以被用於非隨機地產生後代分子的文庫(或集合),所述後代分子包括超過10,不同的後代嵌合體。令人信服地,合成基因再裝配甚至能被用於產生包括超過1(^,不同的後代嵌合體的文庫。因此,一方面,本發明提供了一種非隨機方法,用於產生一組最終確定的嵌合核酸分子,這些分子具有由設計所選擇的全裝配順序,該方法包括如下步驟通過設計產生大量特定核酸構件,這些核酸構建具有可使用的相互兼容的可連接末端;裝配這些核酸構件,從而可實現設計的總裝配順序。如果將被裝配的核酸構建的相互兼容的可連接末端能使構件以預定順序被偶聯,那麼它們被認為對於這種類型的順序裝配是"可使用的"。因此,一方面,核酸構建可以被偶聯的總裝配順序由可連接末端的設計確定,如果將使用多於一個裝配步驟,那麼核酸構建能被偶聯的總裝配順序也將由裝配步驟的順序確定。在本發明的一個實施方案中,用酶處理退火的構件部分,例如連接酶(如,T4DNA連接酶)可以實現構件部分的共價鍵合。在另一個實施方案中,核酸構件的設計是依據一組祖先核酸模板的序列分析獲得的,模板用作產生最終確定的嵌合核酸分子的後代集合的基礎。這些祖先核酸模板從而作為序列信息的來源,該序列信息核酸構件的設計,其將被誘變,例如被嵌合或改組。在一個例證中,本發明提供了一個相關基因家族和它們的相關產物的編碼家族的嵌合。在一個特定的例證中,被編碼的產物是酶。本發明的澱粉酶,例如a-澱粉酶或鹼性澱粉酶,可以根據此處描述的方法被誘變。因此根據本發明的一個方面,大量祖先核酸模板的序列(例如A組核酸序列的多核苷酸)被對齊,以便選擇一個或多個分界點,這些分界點可以被放置在一個同源區中。分界點可以被用來描述將要產生的核酸構件的邊界。因此,在祖先分子中識別和選擇的分界點在後代分子的裝配中用作潛在的嵌合點。典型地,可使用的分界點是由至少兩個祖先模板共享的同源區(包括至少一個同源核苷酸鹼基),但分界點可以是由至少一半的祖先模板,至少三分之二的祖先模板,至少四分之三的祖先模板,優選地最多所有祖先模板共享的同源區。甚至更優選地,可使用的分界點仍然是由所有祖先模板共享的同源區。在一個實施方案中,基因再裝配過程是徹底地進行的,以便產生詳盡的文庫。換句話說,核酸構件的所有可能的有序重組均存在於最終確定的核酸分子的集合中。同時,每一重組中的裝配順序(即每一最終確定的嵌合核酸的5'-3序列中的每一構件的裝配順序)是設計的(或者不是隨機的)。由於該方法的非隨機特性,大大降低了不必要的副產品的可能性。在另一個實施方案中,該方法提供了,系統地進行基因再裝配過程,例如以產生系統區室化的文庫,該文庫具有可以被系統性選擇的區室,例如一個接一個順序。換句話說,本發明提供了,通過有選擇且明智地使用特定核酸構件,與有選擇且明智使用的順序階段裝配反應偶聯,在幾個反應容器中的每一個中獲得後代產物的特定集合的場合,可以實現試驗設計。這樣可以允許進行系統地檢驗且篩選程序。因此,這允許潛在的大量後代分子以較小的組被系統地檢驗。由於以高度靈活且詳盡和系統的方式進行嵌合的能力,尤其是當祖先分子之間有低水平同源性時,本發明提供了產生一個包括大量後代分子的文庫(或集合)。由於本發明的基因再裝配發明的非隨機特性,所產生的後代分子優選地包括一個最終確定的嵌合核酸分子的文庫,這些核酸分子具有由設計所選擇的總裝配順序。在一個特別的實施方案中,這樣產生的文庫包括超過103_超過個不同的後代分子種類。—方面,正如所述所產生的最終確定的嵌合核酸分子的集合包括編碼多肽的多核苷酸。根據一個實施方案,該多核苷酸是基因,可以是人工基因。根據另一個實施方案,該多核苷酸是基因途徑,可以是人工基因途徑。本發明提供了,由本發明所產生的一種或多種人工基因可以被整合到人工基因途徑中,如在真核生物體(包括植物)中可操作的途徑。在另一個例證中,產生構件的步驟的合成特性允許設計且導入核苷酸(例如一個或多個核苷酸,它們可以是,例如密碼子或內含子或調節序列),這些核苷酸隨後可以以體外方法被任選地去除(例如通過誘變),或者以體內方法(例如通過利用宿主微生物的基因剪接能力)。應該意識到,在許多情況下,除了產生可使用的分界點的潛在益處之外,由於許多其它原因導入這些核苷酸也是期望的。因此,根據另一個實施方案,本發明提供了,核酸構件可以被用來導入內含子。因此,本發明提供了,功能內含子可以被導入到本發明的人工基因中。本發明也提供了,功能內含子可以被導入到本發明的人工基因途徑中。此外,本發明提供了嵌合多核苷酸的產生,該嵌合多核苷酸是含有一個(或多個)人工導入的內含子的人工基因。另外,本發明也提供了嵌合多核苷酸的產生,該嵌合多核苷酸是含有一個(或多個)人工導入的內含子的人工基因途徑。優選地,人工導入的內含子在一種或多種用於基因剪接的宿主細胞中起作用,主要以天然內含子在基因剪接中功能地發揮作用的方式進行。本發明提供了一種產生含內含子的人工多核苷酸的方法,這些多核苷酸將被導入到用於重組和/或剪接的宿主微生物中。用本發明產生的人工基因也用作與另一種核酸重組的模板。同樣地,用本發明產生的人工基因途徑也用作與另一種核酸重組的模板。在一種優選的情況中,重組由含內含子的人工基因和用作重組配偶體的核酸之間的同源區促進,或者在該區發生。在一種特別優選的情況中,重組配偶體也是本發明產生的核酸,包括人工基團或人工基因途徑。重組可以由存在於人工基因中的一個(或多個)人工導入的內含子的同源區促進,或者在該區發生。本發明的核酸基因再裝配方法使用了大量核酸構件,每一構件優選地具有兩個可連接末端。每一核酸構件上的兩個可連接末端可以是兩個鈍末端(即每一個沒有核苷酸突出物),或者優選地一個鈍末端和一個突出端,或者更優選地仍然是兩個突出端。對於該目的有用的突出端可以是3'突出端或5'突出端。因此,核酸構件可以具有3'突出端或可選擇地5'突出端,或者可選擇地具有兩個3'突出端,或者可選擇地具有兩個5'突出端。核酸構件被裝配以形成最終確定的嵌合核酸分子的總順序由有目的的試驗設計確定,不是隨機的。根據一個優選的實施方案,核酸構件是如下產生的兩個單鏈核酸(也稱作單鏈寡核苷酸)的化學合成,並且將它們接觸以允許它們退火形成一個雙鏈核酸構件。雙鏈核酸構件的尺寸是可變化的。這些構件的尺寸可小可大。構件的優選尺寸的範圍在1個鹼基(不包括任何突出端)到100,000個鹼基對(不包括任何突出端)之間。也提供了其它優選的尺寸範圍,下限為lbp-10,000bp(包括1-10,000之間的每一個整數值),上限為2bp-100,000bp(包括2-100,000之間的每一個整數值)。存在許多方法,通過這些方法可以產生對於本發明有用的雙鏈核酸構件;並且這些方法在本
技術領域:
是已知的,可以容易地由普通技術人員進行。根據一個實施方案,雙鏈核酸構件是如下產生的首先產生兩個單鏈核酸,然後允許它們退火形成雙鏈核酸構件。雙鏈核酸構件的兩個鏈在除了任何形成突出端的核苷酸以外的每一核苷酸上可以是互補的;從而除了任何突出端以外不含有失配。根據另一個實施方案,雙鏈核酸構件的兩個鏈在除了任何形成突出端的核苷酸以外,即少於每一個核苷酸的部分是互補的。因此,根據該實施方案,雙鏈核酸構件可以被用來導入密碼子簡併。優選地用此處描述的位點飽和誘變(Site-saturationmutagenesis)導入密碼子簡併,用一個或多個N,N,G/T盒子或也可以使用一個或多個N,N,N盒子進行。本發明的體內重組方法可以根據特定多核苷酸或序列的未知雜交或等位基因庫不受抑制地進行。然而,沒必要知道特定多核苷酸的實際DNA或RNA序列。在基因的混合群體內使用重組的方法可以用於產生任何有用的蛋白,例如白細胞介素I,抗體,組織型纖溶酶原激活物(tPA)和生長激素。該方法可用於產生具有改變的特異性或活性的蛋白質。該方法也可以用於產生雜交核酸序列,例如啟動子區域、內含子、外顯子、增強子序列、基因的3'未翻譯區或5'未翻譯區。因此該方法可以用於產生具有增強的表達率的基因。該方法也可以用於重複DNA序列的研究。最後,該方法可用於突變核酶或適體(即t咖er)。如此處所述,本發明的一個方面涉及使用還原重配、重組和選擇的重複循環,這些循環允許通過重組完成高度複雜的線性序列的定向分子進化,如DNA、RNA或蛋白質。分子的體內改組可用於提供變體,可以用細胞的天然特性進行,以重組多聚體。而體內重組已經提供了分子多樣性的主要自然路線,基因重組保留了相對複雜的過程,該過程涉及1)同源性的識別;2)鏈裂解、鏈侵入和導致產生重組交叉的新陳代謝步驟;以及最後3)交叉分解為分離的重組分子。交叉的形成需要識別同源序列。在另一個實施方案中,本發明包括一種方法,用於從至少第一個多核苷酸和第二個多核苷酸產生雜交多核苷酸。本發明也用於產生雜交多核苷酸,通過將共享至少一個部分序列同源區的第一個多核苷酸和第二個多核苷酸引導進入合適的宿主細胞來實現。部分序列同源區促進了導致產生雜交多核苷酸的序列再組織的過程。正如此處所用,術語"雜交多核苷酸"是用本發明的方法產生的任何核苷酸序列,其含有來自至少兩個原始多核苷酸序列的序列。這樣的雜交多核苷酸可以來自分子間重組事件,這些事件可以促進DNA分子之間的序列整合。另外,這樣的雜交多核苷酸可以來自分子內還原重配過程,這些過程使用20重複序列來改變DNA分子內的核苷酸序列。本發明提供了一種產生雜交多核苷酸的方式,所述雜交多核苷酸可以編碼生物活性的雜交多肽(例如雜交a澱粉酶)。一方面,原始多核苷酸編碼生物活性多肽。本發明的方法通過使用細胞過程產生新的雜交多肽,這些過程整合原始多核苷酸的序列,以便產生雜交多核苷酸編碼多肽,該多肽表現出來自原始生物活性多肽的活性。例如,原始多核苷酸可以編碼來自不同微生物的特定酶。例如,來自生物體或變體的第一個多核苷酸編碼的酶可以在特定環境條件如高鹽度下有效地發揮作用。由來自不同生物體或變體的第二個多核苷酸編碼的酶可以在不同的環境條件如極度高溫下有效地發揮作用。含有來自第一個和第二個原始多核苷酸的序列的雜交多核苷酸可以編碼酶,該酶表現出由原始多核苷酸編碼的兩種酶的特性。因此,由雜交多核苷酸編碼的酶可以在由第一個和第二個多核苷酸編碼的每一酶共有的環境條件下有效地發揮作用,例如高鹽度和極端溫度。由本發明的多核苷酸編碼的酶,包括但不限於,水解酶,如a澱粉酶和鹼性澱粉酶。由本發明的方法產生的雜交多肽可以表現出原始酶沒有顯示的特定酶活性。例如,在編碼水解酶活性的多核苷酸的重組和/或還原重配後,可以對所得到的由雜交多核苷酸編碼的雜交多肽篩選來自每一原始酶的特定水解酶活性,即水解酶發揮作用的鍵類型和水解酶發揮作用的溫度。因此,例如,可以對水解酶進行篩選以明確那些區分雜交水解酶與原始水解酶的化學功能性,例如(a)醯胺(肽鍵),即蛋白酶;(b)酯鍵,即澱粉酶和脂酶;(c)縮醛,即糖苷酶,以及例如,雜交多肽發揮作用的溫度、pH或鹽濃度。原始多核苷酸來源可以分離自單個生物體("分離物"),已經在合成培養基("富集培養物")中培養的生物體採集,或未培養的生物體("環境樣品")。使用不依賴培養物的方法來獲得來自環境樣品的編碼新穎生物活性的多核苷酸是最優選的,這是因為該方法允許得到未使用的生物多樣性來源。"環境文庫"是從環境樣品產生的,表示存儲於克隆載體中的自然存在的生物體的集合基因組,所述克隆載體可以在合適的原核宿主中增殖。由於克隆DNA最初直接提取自環境樣品,所以這些文庫不限於可以在純培養中生長的小的原核生物部分。此外,這些樣品中存在的環境DNA的規格化可以允許從原始樣品中存在的所有種類中更均等地呈現DNA。這可以顯著地增加從樣品的較少組成部分中找到相關基因的效率,與優勢種相比,這些基因可以以數個數量級之低的數量存在。例如,對從一種或多種未培養的微生物產生的基因文庫進行篩選,以篩選相關活性。編碼相關生物活性分子的潛在途徑首先以基因表達文庫的形式在原核細胞中被捕獲。編碼相關活性的多核苷酸分離自這樣的文庫,並且被導入到宿主細胞中。宿主細胞在這樣的條件下生長,即可以促進產生具有新穎或增強活性的潛在活性生物分子的重組和/或還原重配。可以製備多核苷酸的微生物包括原核微生物,如真細菌(Eubacteria)和古細菌(Archaebacteria),和低級真核微生物如真菌,一些藻類和原生動物。多核苷酸可以分離自環境樣品,在這種情況下不需要培養生物體就可以回收核酸,或者從一種或多種培養的生物體回收。一方面,這樣的微生物可以是極端菌(extremophile),如高溫菌(hyperthermophile)、嗜冷菌、嗜冷生物、嗜鹽菌、嗜壓微生物和嗜酸細菌。編碼分離自極端菌的酶的多核苷酸是特別優選的。這樣的酶可以如下條件下發揮作用陸地溫泉和深海熱出口超過IO(TC的溫度,北極水中低於0°C的溫度,死海的飽和鹽環境,煤沉積物和富含硫的地熱溫泉中PH大約為O,或者汙水汙泥中pH超過11。例如,用極端菌生物體克隆且表達的幾種澱粉酶和脂酶在大範圍的溫度和pH下顯示出高活性。在本發明的許多新穎酶已經在4(TC和5(TC且pH為8的條件下,以及在4(TC和5(TC且pH為10的條件下被純化且表徵。而且發現於pH8和4(TC的條件下被純化且表徵得到的酶的比活性為地衣芽孢桿菌酶(B.lichenoformis)(228U/mg)的三倍(682U/mg)。此外發現另一種酶具有與地衣芽孢桿菌酶相當的比活性(250U/mg)。在pH10和5(TC的條件下,這些酶之一的比活性為31U/mg,另一種的比活性為27.5U/mg,而地衣芽孢桿菌酶的比活性為27U/mg。正如上面所述選擇且分離的多核苷酸被導入合適的宿主細胞中。合適的宿主細胞是能促進重組和/或還原重配的任何細胞。所選擇的多核苷酸優選地已經在包括適當控制序列的載體中。宿主細胞可以是高級真核細胞,如哺乳動物細胞,或者是低級真核細胞,如酵母細胞,或者優選地,宿主細胞是原核細胞,如細菌細胞。將構建物導入宿主細胞可以由磷酸鈣轉染法、DEAE-葡聚糖介導轉染法或者由電穿孔實現(Davis等人,1986)。適當宿主的代表性實例可以有細菌細胞,如大腸桿菌(E.coli)、鏈黴菌(Str印tomyces)、鼠傷寒沙門氏桿菌(Salmonellatyphimurium);真菌細胞,如酵母;昆蟲細胞,如果蠅S2和草地夜蛾Sf9;動物細胞,如中國倉鼠卵巢細胞(CH0)、C0S或Bowes黑素瘤;腺病毒;和植物細胞。根據此處的教導,適當宿主的選擇被認為在本
技術領域:
普通技術人員的範圍內。尤其參考各種可以被用來表達重組蛋白的哺乳動物細胞培養系統,哺乳動物表達系統的實例包括猴腎成纖維細胞的C0S-7系,描述在"SV40-轉染的猿細胞支持早期SV40突變體的複製"(Gluzman,1981),和能表達匹配載體的其它細胞系,例如C127,3T3,CH0,HeLa和BHK細胞系。哺乳動物表達載體將包括一個複製起點和合適的啟動子和增強子,也包括任何必須的核糖體結合位點,聚腺苷酸化位點,剪接供體和受體位點,轉錄終止序列,和5'側非轉錄序列。衍生自SV40剪接的DNA序列和聚腺苷酸化位點可以被用來提供所要求的非轉錄遺傳元件。含有相關多核苷酸的宿主細胞可以在傳統的營養培養基中培養,該傳統營養培養基被修飾以適合激活啟動子、選擇轉化體或擴增基因。培養條件,如溫度和PH等等,是先前選擇用於表達的宿主細胞所用的那些條件,這些條件對於普通技術人員而言是顯然的。然後可以對克隆進行測序,以識別編碼具有增強活性的酶的多核苷酸序列,所述克隆被鑑別出具有特定的酶活性。另一方面,應該預期到,本發明的方法可以被用來從一種或多種操縱子或基因簇或其部分產生編碼生化途徑的新穎多核苷酸。例如,細菌和許多真核生物具有一種可調節基因的諧調機制,所述基因的產物涉及相關過程。這些基因在單一染色體上是成簇的,這在結構上被稱作"基因簇",並且在單一調節序列的控制下被轉錄在一起,包括起動整個簇轉錄的單一啟動子。因此,基因簇是一組鄰接基因,它們通常由於其功能或者相同或者相關。由基因簇編碼的生物化學途徑的一個實例是聚酮化合物。聚酮化合物分子是生物活性的非常豐富的來源,包括抗生素(如四環素和紅黴素),抗癌試劑(道諾黴素),免疫抑制劑(FK506和雷帕黴素),以及獸醫產品(莫能菌素)。許多聚酮化合物(由聚酮化合物合酶製備)是有價值的治療劑。聚酮化合物合酶是多功能的酶,其催化大量在官能度和環化作用的長度和方式上不同的碳鏈的生物合成。聚酮化合物合酶基因落入基因簇,至少一種類型(被指定為類型I)的聚酮化合物合酶具有大尺寸基因和酶,這使得遺傳操縱和這些基因/蛋白的體外研究變得複雜化。基因簇DNA可以從不同的生物體分離,且被連接到載體中,尤其是含有表達調節序列的載體,這些表達調節序列可以控制和調節從連接的基因簇製備可檢測的蛋白質或蛋白質相關排列活性。使用對於外源DNA導入具有異常大容量的載體對於使用這樣的基因簇是尤其適當的,此次通過實施例的方式對它們進行了描述,包括大腸桿菌的f因子(或者致育因子)。大腸桿菌的f因子是影響其在接合過程中高頻轉移的質粒,可以理想地獲得且穩定地增殖大DNA片段,如來自混合微生物樣品的基因簇。尤其優選的實施方案是使用克隆載體,被稱作"fosmid"或細菌人工染色體(BAC)載體。它們來源於大腸桿菌f因子,能穩定地整合基因組DNA大片段。當用來自混合未培養的環境樣品的DNA整合時,可以以穩定的"環境DNA文庫"的形式獲得大基因組片段。用於本發明中的另一種類型的載體是粘粒載體。粘粒載體最初被設計用來克隆且增殖基因組DNA的大片段。在Sambrook等人的MolecularCloning:ALaboratoryManual,第二片反,ColdSpringHarborLaboratoryPress(1989)中詳細描述了克隆進粘粒載體的方法。一旦連接到適當載體中,兩種或多種含有不同聚酮化合物合酶基因簇的載體可以被導入到合適的宿主細胞中。由基因簇共享的部分序列同源區將促進導致序列組構(reorganization)的過程,而序列組構導致雜交基因簇。然後對新穎雜交基因簇進行篩選,以篩選在原始基因簇中不存在的增強的活性。因此,在一個實施方案中,本發明涉及一種方法,用於製備生物活性雜交多肽,對這樣的多肽篩選增強的活性,是通過如下步驟1)引導可操作連接中的至少第一多核苷酸和可操作連接中的第二多核苷酸進入合適的宿主細胞,所述至少第一多核苷酸和第二多核苷酸共享至少一個部分序列同源區;2)培養宿主細胞,培養條件是促進導致可操作連接中的雜交多核苷酸的序列組構;3)表達由雜交多核苷酸編碼的雜交多肽;4)在促進鑑別增強生物活性的條件下篩選雜交多肽;禾口5)分離編碼雜交多肽的多核苷酸。篩選各種酶活性的方法對於本
技術領域:
的普通技術人員而言是已知的,並且在整個說明書中對這些方法進行了討論。當分離本發明的多肽和多核苷酸時可以使用這些方法。作為可以使用的表達載體的代表性實例有病毒顆粒、杆狀病毒、噬菌體、質粒、噬菌粒、粘粒、fosmid、細菌人工染色體、病毒DNA(例如牛痘、腺病毒、禽痘病毒、假狂犬病和SV40衍生物)、Pl人工染色體、酵母質粒、酵母人工染色體以及任何其它對於相關特異宿主特異的載體(如芽孢桿菌屬、麴黴屬和酵母)。因此,例如DNA可以被包括在用於表達多肽的多種表達載體中的任一種中。這樣的載體包括染色體、非染色體和合成DNA序列。大量合適的載體對於本
技術領域:
普通技術人員是已知的,而且可以通過商業途徑獲得。通過實例的方式提供了下述載體;細菌的PQE載體(Qiagen),pBluescript質粒,pNH載體,(入-ZAP載體(Stratagene);ptrc99a,pKK223-3,pDR540,pRIT2T(Pharmacia);真核的pXTl,pSG5(Stratagene),pSVK3,pBPV,pMSG,pSVLSV40(Pharmacia)。然而,可以使用任何其它質粒或其它載體,只要它們在宿主中是可複製的且能生存的。本發明可以使用低拷貝數量或高拷貝數量載體。表達載體中的DNA序列與適當的表達控制序列(啟動子)可操作地連接,以指導RNA合成。特定命名的細菌啟動子包括lacI,lacZ,T3,T7,gpt,APR,PL和trp。真核啟動子包括CMV立即早期啟動子、HSV胸苷激酶啟動子、早期和晚期SV40啟動子、來自反轉錄病毒的LTR啟動子和小鼠金屬硫蛋白-I啟動子。適當載體和啟動子的選擇在本
技術領域:
普通技術人員的水平範圍內。表達載體也含有翻譯起始和轉錄終止子的核糖體結合位點。載體也可以包括擴增表達的適當序列。可以用可選擇的標記物從使用了氯黴素轉移酶(CAT)載體或其它載體的任何期望的基因選擇啟動子區。另外,表達載體優選地含有一種或多種可選擇的標記物基因,以便為轉化的宿主細胞的選擇提供表型特徵,如真核細胞培養的二氫葉酸還原酶或新黴素抗性,或者如大腸桿菌中的四環素或氨苄青黴素抗性。體內重配集中於"分子間"過程,這些過程被集體稱作"重組",在細菌中通常稱作"RecA依賴"現象。本發明依賴於宿主細胞的重組過程來重組和重配序列,或者細胞的能力來介導還原過程以通過缺失在細胞中降低準重複序列的複雜性。"還原重配"的過程通過"分子內",是不依賴RecA的過程。因此,在本發明的另一方面,新穎多核苷酸可以通過還原重配方法產生。該方法涉及產生含有連續序列(原始編碼序列)的構建物,將這些構建物插入到適當的宿主中,隨後導入適當的宿主細胞中。單個分子同一性的重配通過具有同源區的構建物中的連續序列之間或者準重複單元之間的組合過程發生。重配過程重組和/或降低重複序列的複雜性和程度,導致產生新穎的分子種類。可以使用多種處理以提高重配率。這些處理包括用紫外燈、DNA損傷化合物和/或使用顯示出增強水平的"遺傳不穩定性"的宿主細胞系處理。因此,重配過程可以涉及同源重組或準重複序列的自然特性,以指導它們自身的進化。重複或"準重複"序列在遺傳不穩定性中發揮著作用。在本發明中,"準重複"是不限於其原始單元結構的重複。準重複單元可以表現為構建物中的序列排列;小序列的連續單元。一旦連接,連續序列之間的連接處就變得基本上看不見,所得到的構建物的準重複性質現在在分子水平是連續的。細胞進行缺失過程以降低所產生的構建物複雜性的缺失過程會在準重複序列之間進行操作。準重複單元提供實際上無限的模板清單,滑動事件可以在模板上發生。因此含有準重複的構建物可以有效地提供足夠的分子彈性(molecularelasticity),缺失(和潛在的插入)事件實質上可以在準重複單元內的任何地方發生。當準重複序列以相同方向被全部連接時,例如頭尾相接或反之,細胞就不能區分單個單元。因此,還原過程可以在整個序列中發生。相反,當例如單元以頭對頭呈現而不是以頭對尾呈現時,倒置描繪了相鄰單元的末端,這樣缺失形成將有助於不連續單元的損失。因此,用本發明方法優選的是序列以相同方向。準重複序列的隨機方向將導致重配效率的損失,而序列的一致方向將提供最高效率。然而,儘管在相同方向具有較少的鄰接序列降低了效率,但它仍然可以為有效回收新穎分子提供充分的彈性。可以在相同方向上用準重複序列獲得構建物,以提供更高的效率。序列可以用多種方法中的任一種以頭對尾的方向裝配,包括如下a)可以使用包括聚腺苷酸頭(poly-A)和聚胸苷酸尾(poly-T)的引物,當獲得單鏈時它們可以提供方向。這是通過具有從RNA獲得的最初幾個鹼基實現的,因此易於RNAseH去除。b)可以使用包括獨特限制裂解位點的引物。將需要多個位點、一組獨特序列和重複的合成和連接步驟。c)引物的內部少許鹼基可以被硫醇化,核酸外切酶用於產生適當的有尾分子。重配序列的回收依賴於用還原重複指數(RI)鑑別克隆載體。然後通過擴增回收重配編碼序列。產物被再克隆且被表達。具有還原RI的克隆載體的回收受如下因素影響1)使用只有當構建物的複雜性降低時才穩定地維持的載體。2)用物理方法物理回收縮短的載體。在這種情況下,將用標準質粒分離方法回收克隆載體,在瓊脂糖凝膠上,或者用標準方法在具有低分子量臨界的柱上進行大小分級。3)回收含有斷裂基因的載體,當插入物大小降低時可以選擇斷裂基因。4)用表達載體和適當的選擇使用直接選擇技術。從相關生物體編碼序列(例如基因)可以表明高度同源水平,並且編碼變化相當多的蛋白產物。這些類型的序列尤其可以在本發明中用作準重複序列。然而,儘管下面舉例說明的實施例表明幾乎相同的原始編碼序列(準重複序列)的重配,但該方法不限於這些幾乎相同的重複序列。下面的實例說明了本發明的方法。描述了衍生於三(3)個獨特種類的編碼核酸序列(準重複序列)。每一序列編碼具有不同特性組的蛋白質。每一序列在序列中的獨特位置上通過一個或幾個鹼基對而不同。準重複序列被單獨或整體擴增,並且連接到隨機裝配中,這樣可以在連接分子群體中獲得所有可能的排列和組合。準重複單元的數量可以通過裝配條件來控制。構建物中準重複單元的平均數量被定義為重複指數(RI)。構建物一旦形成,就可以根據出版的協議在瓊脂糖凝膠上進行大小分級,或者不進行大小分級,被插入克隆載體,轉染到適當宿主細胞中。然後細胞被增殖,進行"還原重配"。如果需要,還原重配率可以通過導入DNA損傷來剌激。RI的降低是通過"分子內"機制由重複序列間的缺失形成來介導,還是通過"分子間"機制由類似於重組的事件來介導是不重要的。最終結果是分子被重配到所有可能的組合中。任選地,該方法包括一個額外步驟,即篩選改組池的文庫成員以鑑別單個改組文庫成員,所要鑑別的單個改組成員具有結合或相互作用或催化具有預定大分子的特定反應(如酶的催化域),例如蛋白質受體、寡糖、病毒或其它預定化合物或結構。從這些文庫中鑑別出的多肽可以用於治療、診斷、研究和相關用途(例如催化劑、增加水溶液的摩爾滲透壓濃度的溶質,等等),和/或可以經受一次或多次額外的改組和/或選擇循環。另一方面,應該想像到,在重組或重配之前或期間,用本發明的方法產生的多核苷酸可以經受促進將突變導入原始多核苷酸的試劑或方法的處理。這些突變的導入將增加所得到的雜交多核苷酸和由此所編碼的多肽的多樣性。促進誘變的試劑或方法包括但不限於(+)-CC-1065,或者一種合成類似物如(+)-CC-1065-(N3-腺嘌呤(參見Sun和Hurley,(1992);能抑制DNA合成的N-乙醯化或脫乙醯化4'-氟-4-氨基聯苯加成物(例如參見vandePoll等人(1992));或能抑制DNA合成的N_乙醯化或脫乙醯化4'-氨基聯苯加成物(例如參見vandePoll等人(1992),751-758頁);三價鉻、三價鉻鹽、能抑制DNA複製的多環芳族烴(PAH)DNA加成物,如7-溴甲基-苯[a]蒽("BMA"),三(2,3-二溴丙基)磷酸鹽("Tris-BP"),l,2-二溴-3-氯丙烷("DBCP"),2-溴丙烯醛(2BA),苯並[a]芘-7,8-二氫二醇-9-10-環氧化物("BPDE"),鉬(II)卣鹽,N-羥基-2-氨基-3-甲基咪唑[4,5-f]-喹啉("N-羥基-IQ"),和N-羥基-2-氨基-l-甲基-6-苯基咪唑[4,5-f]-妣啶("N-羥基-PhIP")。減慢或暫停PCR擴增的尤其優選的方法包括UV光(+)-CC-1065和(+)-CC-1065-(N3-腺嘌呤)。尤其包括的方法是DNA加成物或來自多核苷酸或多核苷酸池的含有DNA加成物的多核苷酸,可以用一種方法來釋放或去除,該方法包括在進一步處理之前加熱含有多核苷酸溶液。另一方面,本發明涉及一種製備具有生物活性的重組蛋白質的方法,通過處理含有編碼野生型蛋白質的雙鏈模板多核苷酸樣品,條件是根據本發明能提供雜交或重配多核苷酸產生的條件。本發明也提供使用專用密碼子引物(含有簡併N,N,N序列)引導點突變進入多核苷酸,以便產生一組後代多肽,其中全長的單一胺基酸取代體現在每一胺基酸位置上(基因位點飽和誘變(GSSM))。所用的寡核苷酸連續地包括第一同源序列、簡併N,N,N序列和優選地但不是必須的第二同源序列。使用這樣的寡核苷酸得到的下遊後代翻譯產物在每一胺基酸位點沿著多肽包括所有可能的胺基酸變化,這是因為N,N,N序列的簡併包括所有20個胺基酸的密碼子。—方面,一個這樣的簡併寡核苷酸(包括一個簡併N,N,N盒子)被用於使親本寡核苷酸模板上的每一原始密碼子經受全長密碼子取代。另一方面,使用至少兩個簡併N,N,N盒子-或者在相同寡核苷酸上或者不是,用於使親本寡核苷酸模板上的至少兩個原始密碼子經受全長密碼子取代。因此,在一個寡核苷酸中可以含有多於一個N,N,N序列,以便在多於一個位點上引入胺基酸突變。大多數N,N,N序列可以直接鄰接,或者被一個或多個額外的核苷酸序列分離。另一方面,可以單獨使用可用於引入添加和缺失的寡核苷酸,或者與含有N,N,N序列的密碼子組合使用,以便引導胺基酸添加、缺失和/取代的任何組合或排列。在一個特別的例證中,用寡核苷酸同時誘變兩個或多個連續胺基酸位置是可能的,所述寡核苷酸含有連續的N,N,N三聯體,即簡併(N,N,N)n序列。另一方面,本發明提供使用比N,N,N序列具有較低簡併性的簡併盒子。例如,在某些情況下期望使用(例如在一個寡核苷酸中)僅包括一個N的簡併三聯體序列,其中所述N可以是三聯體的,第一,第二或第三位置。包括其任何組合和排列的任何其它鹼基可以被用在三聯體的其餘兩個位置上。另外,在某些情況下期望使用(例如在一個寡核苷酸中)簡併N,N,N三聯體序列,N,N,G/T,或N,N,G/C三聯體序列。然而,應該理解到,由於好幾個原因,使用本發明中所公開的簡併三聯體(如N,N,G/T,或N,N,G/C三聯體序列)是有利的。一方面,本發明提供一種方法,該方法可以系統地且非常簡單地產生可能胺基酸(對於總共20個胺基酸而言)到多肽中每一胺基酸位置的全長取代。因此,對於IOO個胺基酸多肽,本發明提供一種途徑,來系統且非常簡單地產生2000個不同種類(即每個位置20個可能的胺基酸乘以100個胺基酸位置)。應該理解到,通過使用含有簡併N,N,G/T或N,N,G/C三聯體序列的寡核苷酸,提供了32個編碼20個可能胺基酸的單一序列。因此,在反應容器中,其中用這樣的寡核苷酸使親本多核苷酸序列經受飽和誘變,產生了32個編碼20個不同多肽的不同後代多核苷酸。相反,在定點誘變中使26用非簡併寡核苷酸導致每一反應容器僅有一個後代多肽產物。本發明也提供了使用非簡併寡核苷酸,它們可以被任選地與所公開的簡併引物組合使用。應該預期到,在某些情況下,在工作寡核苷酸中使用非簡併寡核苷酸來產生特異性點突變是有利的。這提供了一種方式,用於產生特異性沉默點突變,導致相應胺基酸變化的點突變,引起終止密碼子和多肽片段的相應表達的點突變。因此,在本發明的一個優選實施方案中,每一飽和誘變反應容器包括編碼至少20個後代多肽分子的多核苷酸,這樣所有20個胺基酸被表示在與在親本多核苷酸中誘變的密碼子位置相應的特異性胺基酸位置上。從每一飽和誘變反應容器產生的32倍簡併後代多肽可以經受克隆擴增(例如用表達載體克隆進合適的大腸桿菌中),並且經受表達篩選。當通過篩選鑑別出單個後代多肽在特性上顯示出有利變化時(當與親本多核苷酸相比較),可以對其進行測序以鑑別被包含在其中的相應的有利胺基酸取代。應該理解到,一旦用此處所公開的飽和誘變在親本多肽上誘變每一胺基酸位置,可以在多於一個胺基酸位置上鑑別出有利的胺基酸變化。可以產生一個或多個新穎後代分子,它們含有這些有利的胺基酸取代的全部或部分的組合。例如,如果在多肽中3個胺基酸位置中的每一位置上鑑別出2個特定的有利胺基酸變化,那麼排列包括每一位置(與原始胺基酸沒有變化,和兩個有利變化中的每一個)和3個位置上的3種可能性。因此,有3x3x3或27種總可能性,包括先前檢驗的7種-6個單一點突變(即三個位置的每一位置上2個)並且任何位置上都沒有變化。仍然在另一方面,位點飽和誘變可以與改組、嵌合、重組和其它誘變過程連同篩選一起使用。本發明提供了以迭代方式使用任何誘變過程,包括飽和誘變。在一個例證中,任何誘變過程的迭代用途被用於與篩選組合使用。因此,在一個非限定性例證中,本發明提供了飽和誘變與其它誘變過程的組合使用,如兩個或多個相關多核苷酸被導入合適的宿主細胞的過程,以便通過重組和還原重配產生雜交多核苷酸。除了沿著基因的整個序列進行誘變,本發明提供了,可以用誘變在多核苷酸序列中取代大量鹼基中的每一個,其中將被誘變的鹼基數量優選地是15-100,000之間的每一整數。因此,代替沿著分子誘變每一位置,可以使每一或離散數量的鹼基(優選地總數在15-100,000之間的子集)經受誘變。優選地,分離的核苷酸被用於沿著多核苷酸序列誘變每一位置或一組位置。將被誘變的一組3個位置可以是密碼子。優選地用含有異種盒子的誘變引物導入突變,也被稱作誘變盒子。優選的盒子具有1-500個鹼基。這樣的異種盒子中的每一核苷酸位置是N,A,C,G,T,A/C,A/G,A/T,C/G,C/T,G/T,C/G/T,A/G/T,A/C/T,A/C/G,或E,其中E是不是A,C,G或T的任何鹼基(E可以被稱作設計者寡核苷酸)。通常意義而言,飽和誘變包括在將被誘變的確定多核苷酸序列(其中將被誘變的序列的長度優選地在大約15-100,000個鹼基之間)中誘變一組完整的誘變盒子(其中每一盒子的長度優選地為大約1-500個鹼基)。因此,一組突變(1-100個突變)被導入將被誘變的每一盒子中。在應用一輪飽和誘變的過程中,將被導入盒子的突變的分組可以與將被導入第二個盒子的突變的分組不同或相同。這樣的分組的例證為缺失、添加、特定密碼子的分組和特定核苷酸盒子的分組。將被誘變的已知序列包括全基因、途徑、cDNA、整個開放閱讀框(0RF)和整個啟動子、增強子、阻遏物/反式激活蛋白、複製起點、內含子、操縱子、或任何多核苷酸官能基團。通常,用於該用途的"確定序列"可以是任何多核苷酸,15個鹼基多核苷酸序列和長度在15個鹼基到15,000個鹼基之間的多核苷酸序列(本發明特別是指15-15,000之間的每一整數)。選擇密碼子分組要考慮的因素包括由簡併誘變盒子編碼的胺基酸類型。在一個尤其優選的例證中,可以被導入誘變盒子的突變的分組,本發明特別地提供了在每一位置上編碼2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19和20個胺基酸的簡併密碼子取代(使用簡併寡核苷酸),和由它們編碼的多肽文庫。本發明的另一個方面是已知分離的核酸,其包括A組核酸序列中、與其基本上同一的序列、與其互補的序列的一個序列,或者包括一個片段,其包括A組核酸序列(或與其互補的序列)的序列之一的至少10,15,20,25,30,35,40,50,75,100,150,200,300,400或500個連續鹼基。分離的核酸可以包括DNA,這包括cDNA、基因組DNA和合成DNA。DNA可以是雙鏈或單鏈的,如果單鏈可以是編碼鏈或非編碼(反義)鏈。另外,分離的核酸可以包括RNA。正如下面所詳細討論的,A組核酸序列和與其基本上同一的序列的序列之一的分離的核酸可以被用於製備B組胺基酸序列和與其基本上同一的序列的多肽之一,或者含有B組胺基酸序列和與其基本上同一的序列的多肽之一的至少5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段。另外,本發明的另一方面是一種分離的核酸,其編碼B組胺基酸序列和與其基本上同一的序列的多肽之一,或者含有B組胺基酸序列的多肽之一的至少5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段。作為遺傳密碼子的冗餘或簡併的結果,這些核酸的編碼序列可以與A組核酸序列的核酸之一的編碼序列之一、或其片段相同,或者可以是不同的編碼序列,其編碼B組胺基酸序列和與其基本上同一的序列的多肽之一,或者含有B組胺基酸序列多肽之一的至少5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段。遺傳密碼子對於本
技術領域:
的普通技術人員而言是已知的,而且可以獲得,例如在B.Lewin,GenesVI,OxfordUniversityPress,1997的第214頁,將其公開內容引用於此作為參考。編碼B組胺基酸序列和與其基本上同一的序列的分離的核酸包括但不限於僅包括A組核酸序列和與其基本上同一的序列的序列之一的編碼序列,和其它編碼序列,如前導序列或前蛋白序列和非編碼序列,如內含子或編碼序列的5'和/或3'非編碼序列。因此,正如此處所用,術語"編碼多肽的多核苷酸"包括,僅包括多肽的編碼序列的多核苷酸,和包括其它編碼和/或非編碼序列的多核苷酸。另外,A組核酸序列和與其基本上同一的序列的核酸序列可以用傳統技術來誘變,如定點誘變,或者對於本
技術領域:
普通技術人員熟悉的其它技術,以便引導沉默變化進入A組核酸序列和與其基本上同一的序列的多核苷酸中。正如此處所用,"沉默變化"包括,例如不改變由多核苷酸編碼的胺基酸序列的變化。這樣的變化可能是期望的,以便通過引導密碼子或密碼子對增加由含有編碼多肽的載體的宿主細胞產生的多肽的水平,這在宿主生物體中頻繁發生。本發明也涉及具有核苷酸變化的多核苷酸,這些變化在B組胺基酸序列和與其基本上同一的序列的多肽中導致胺基酸取代、添加、缺失、融合和平截。這樣的核苷酸變化可以使用諸如定點誘變、隨機化學誘變、核酸外切酶III缺失和其它重組DNA技術來引入。另外,這樣的核苷酸變化可以是自然發生的等位基因變體,它們通過鑑別核酸被分離,所述核酸與包括A組核酸序列和與其基本上同一的序列(或與其互補的序列)的序列之一的至少10,15,20,25,30,35,40,50,75,100,150,200,300,400或500個連續鹼基的探針在此處提供的高度嚴格、中度嚴格或低度嚴格條件下特定地雜交。A組核酸序列、和與其基本上同一的序列、與其互補的序列的分離的核酸,或含有A組核酸序列、和與其基本上同一的序列、與其互補的序列的序列之一的至少10,15,20,25,30,35,40,50,75,100,150,200,300,400或500個連續鹼基的片段,也可以被用作探針來確定生物樣品如土壤樣品是否含有具有本發明的核酸序列的生物體或可以從其得到核酸的生物體。在這樣的方法中,可以得到潛在的含有從其可以得到核酸的生物體的生物樣品,並且可以從該樣品得到核酸。將核酸與探針接觸,條件是允許探針與樣品中存在的任何互補序列特定地雜交。在必要時,允許探針與任何互補序列特定地雜交的條件可以通過將探針與來自樣品的互補序列接觸來確定,所述樣品已知含有互補序列和對照序列,對照序列不含有互補序列。雜交條件,如雜交緩衝液的鹽濃度,雜交緩衝液的甲醯胺濃度,或者雜交溫度可以發生變化,以鑑別允許探針與互補核酸特定地雜交的條件。如果樣品含有生物體,從這些生物體可以得到核酸,然後檢測探針的特定雜交。可以通過用可檢測試劑標記探針來檢測雜交,這些可檢測試劑如放射性同位素、螢光染料、或能催化可檢測產物形成的酶。許多使用已標記的探針來檢測樣品中互補核酸的存在的方法對於本
技術領域:
的普通技術人員是熟悉的。這些方法包括Southern印跡、Northern印跡、克隆雜交方法和斑點印跡。每一禾中這些方法的程序由Ausubel等人,CurrentProtocolsinMolecularBiology,JohnWiley503Sons,Inc.(1997)以及Sambrook等人,MolecularCloning:ALaboratoryMaruml第二片反,ColdSpringHarborLaboratoryPress(1989)提供,這些參考文獻被完整引用於此作為參考。另外,多於一個探針(至少能與核酸樣品中存在的任何互補序列特定地雜交的探針)可以被用於擴增反應中以確定樣品是否含有包括本發明的核酸序列的生物體(例如從中可以得到核酸的生物體)。典型地,探針包括寡核苷酸。在一個實施方案中,擴增反應可以包括PCR反應。PCR程序描述在Ausubel和Sambrook的文獻中,見上文。另外,擴增可以包括連接酶鏈式反應、3SR、或鏈置換反應。(參見Barany,F.,"TheLigaseChainReactioninaPCRWorld",PCR方法和應用1:5-16,1991;E.Fahy等人,"Self-sustainedSequenceReplication(3SR):AnIsothermalTranscription-BasedAmplificationSystemAlternativetoPCR",PCR方法和應用1:25-33,1991;和WalkerG.T.等人,"StrandDisplacementAmplification-anIsothermalinvitroDNAAmplificationTechnique",NucleicAcidResearch20:1691-1696,1992,將這些參考文獻引用於此作為參考)。在這樣的方法中,將樣品中的核酸與探針接觸,進行擴增反應,並且檢測任何所得到的擴增產物。擴增產物可以通過在反應產物上進行凝膠電泳並且用嵌入劑(interculator)如溴化乙錠染色凝膠來檢測。另外,可以用放射性同位素來標記一個或多個探針,在凝膠電泳後通過射線自顯影術檢測是否存在放射性擴增產物。來自接近A組核酸序列和與其基本上同一的序列的序列末端的序列的探針也可以用在染色體步移方法中,以鑑別含有基因組序列的克隆,所述基因組克隆位於與A組核酸序列和與其基本上同一的序列臨近的位置。這樣的方法允許來自宿主生物體的編碼其它蛋白質的基因的分離。A組核酸序列、和與其基本上同一的序列、與其互補的序列的分離的核酸,或者含有A組核酸序列、和與其基本上同一的序列、或與其互補的序列的序列之一的至少10,15,20,25,30,35,40,50,75,100,150,200,300,400或500個連續鹼基的片段,可以被用作探針,以鑑別和分離相關核酸。在一些實施方案中,相關核酸可以是來自生物體的cDNA或基因組DNA,而不是可以從中分離核酸的生物體。在這樣的方法中,將核酸樣品與探針接觸,條件是允許探針與相關序列特定地雜交。然後用上面所描述的任一種方法檢測探針與來自相關生物體的核酸的雜交。在核酸雜交反應中,用於獲得特定嚴格水平的條件可以有所變化,這依賴於將被雜交的核酸的性質。例如,在選擇雜交條件時可以考慮核酸雜交區的長度、互補程度、核苷酸序列組成(例如GC和AT含量)和核酸類型(例如RNA和DNA)。其它的考慮因素是核酸之一是否被固定化,例如固定化在濾器上。雜交可以在低度嚴格、中度嚴格或高度嚴格條件下進行。作為核酸雜交的一個實例,含有被固定化的變性核酸的高分子膜被首先於45t:在溶液中預雜交30分鐘,所述溶液含有0.9MNaCl、50mMNaH2P04、pH7.0、5.0mMNa2EDTA、0.5%SDS、10XDenhardt,s溶液和0.5mg/ml多核糖腺苷酸。然後將大約2X107cpm(比活性4-9X108cpm/iig)的P末端標記的寡核苷酸探針加入到上述溶液中。溫育12-16小時後,用含有O.5%SDS的IXSET(150mMNaCl、20mM三氫氯化物、pH7.8、lmMNa2EDTA)中於室溫下將膜衝洗30分鐘,隨後用對於寡核苷酸探針而言為Tm-l(TC的新鮮lXSET衝洗30分鐘。然後將膜暴露於放射自顯影薄膜以檢測雜交信號。通過改變用於鑑別核酸雜交條件的嚴格性,所述核酸如cDNA或基因組DNA,其與可檢測到的探針雜交,可以鑑別且分離與探針具有不同同源性水平的核酸。通過在低於探針的解鏈溫度的變化溫度下完成雜交來改變嚴格性。解鏈溫度Tm是指,在該溫度下(在已知的離子強度和PH下)50%的靶序列與優選的互補探針雜交。對於特定探針,選擇非常嚴格的條件為等於5t:或比Tm低大約5°C。探針的解鏈溫度可以用如下公式計算對於長度在14-70個核苷酸之間的探針,解鏈溫度(Tm)的計算公式為Tm=81.5+16.6(1og[Na+])+0.41(分數G+C)-(600/N),其中N是探針的長度。如果雜交是在含有甲醯胺的溶液中完成的,解鏈溫度的計算公式為Tm=81.5+16.6(log[Na+])+0.41(分數G+C)-(0.63%甲醯胺)-(600/N),其中N是探針的長度。預雜交可以在6XSSC、5XDenhardt's試齊U、0.5%SDS、100yg變性斷裂鮭精DNA或6XSSC、5XDenhardt's試劑、0.5%SDS、100yg變性斷裂鮭精DNA、50%甲醯胺中進行。對於SSC和Denhardt's溶液的闡述羅列在Sambrook等人的文獻中,見上文。通過將可檢測探針加入到上面所羅列的預雜交溶液中完成雜交。其中探針包括雙鏈DNA,它在加入到雜交溶液之前被變性。將濾器與雜交溶液接觸足夠長的時間,以允許探針與含有與其互補的序列或與其同源的序列的cDNA或基因組DNA雜交。多於長度超過200個核苷酸的探針,雜交可以在低於Tm的15-25t:進行。低於較短的探針,如寡核苷酸探針,雜交可以在低於Tm的5-l(TC進行。典型地,對於在6XSSC中進行的雜交,雜交在大約68°C進行。通常,對於在含有50%甲醯胺的溶液中進行的雜交,雜交在大約42t:進行。前述所有雜交將在高度嚴格條件下考慮。雜交後,衝洗濾器以去除任何沒有特定結合的可檢測探針。用於衝洗濾器的嚴格性也可以變化,依賴於將被雜交的核酸的性質、將被雜交的核酸的長度、互補程度、核苷酸組成(例如GC和AT含量)和核酸類型(例如RNA和DNA)。逐漸增加的嚴格性條件的實例如下2XSSC、0.1%SDS於室溫下15分鐘(低嚴格性);0.IXSSC、0.5%SDS於室溫下30分鐘到1小時(中度嚴格性);0.IXSSC、0.5%SDS在雜交溫度和68。C之間15-30分鐘(非常高的嚴格性)。最終的低嚴格性衝洗可以在O.IXssc中於室溫下進行。上述實例僅僅是對可用於衝洗濾器的一組條件的例證性說明。本
技術領域:
的普通技術人員將知道對於不同的嚴格性衝洗有許多方法。下面給出了一些其它的實例。通過放射自顯影術或其它傳統技術來鑑別已經與探針雜交的核酸。可以對上述方法進行修正以鑑別與探針序列具有降低水平的同源性的核酸。例如,為了獲得與可檢測探針具有降低的同源性的核酸,可以使用較低的嚴格條件。例如,雜交溫度可以在具有大約1MNa+濃度的雜交緩衝液中以5°C的增量從68°C降低到42°C。雜交後,在雜交溫度下用2XSSC,O.5%SDS衝洗濾器。高於5(TC的條件被認為是"中度"條件,低於5(TC被認為是"低度"條件。"中度"雜交條件的一個特定實例是當上述雜交在55°C完成時。"低度嚴格性"雜交條件的一個特定實例是當上述雜交在45t:完成時。另外,雜交可以於42t:在緩衝液中進行,如含有甲醯胺的6XSSC。在這種情況下,雜交緩衝液中的甲醯胺濃度可以以5%的增量從50%降低到0%,以鑑別與探針具有降低水平的同源性的克隆。雜交後,於5(TC用6XSSC,0.5%SDS衝洗濾器。高於25%的甲醯胺被認為是"中度"條件,低於25%的甲醯胺被認為是"低度"條件。"中度"雜交條件的一個特定實例是當上述雜交在30%的甲醯胺中完成時。"低度嚴格性"雜交條件的一個特定實例是當上述雜交在10%的甲醯胺中完成時。例如,可以用前述方法來分離核酸,所述核酸具有與選自如下序列的核酸序列具有至少大約97%,至少95%,至少90%,至少85%,至少80%,至少70%,至少65%,至少60%,至少55%或至少50%同源性的序列A組核酸序列和與其基本上同一的序列,或包括其至少大約10,15,20,25,30,35,40,50,75,100,150,200,300,400或500個連續鹼基的片段,和與其互補的序列。用對齊算法來測定同源性。例如,同源的多核苷酸可能具有一個編碼序列,該編碼序列是此處描述的編碼序列之一的天然存在的等位基因變體。與A組核酸序列或與其互補的序列的核酸相比,這樣的等位基因變體可能具有一個或多個核苷酸的取代、缺失或添加。另外,上述方法可以用於分離編碼多肽的核酸,所述多肽與具有如下序列之一的序列的多肽具有至少大約99%,95%,至少90%,至少85%,至少80%,至少75%,至少70%,至少65%,至少60%,至少55%或至少50%同源性的序列B組胺基酸序列和與其基本上同一的序列,或包括其至少大約5,10,15,20,25,30,35,40,50,75,100或150個連續鹼基的片段,正如用序列對齊算法所測定的(例如,如具有預設參數的FASTA版本3.0t78算法)。本發明的另一個發明是一種分離或純化的多肽,其包括如下序列之一的序列A組核酸序列和與其基本上同一的序列,或包括其至少大約5,10,15,20,25,30,35,40,50,75,100或150個連續鹼基的片段。正如上面所討論的,這樣的多肽可以通過將編碼多肽的核酸插入到載體中獲得,這樣編碼序列與能夠驅動被編碼的多肽在合適的宿主細胞中表達的序列可操作地連接在一起。例如,表達載體可以包括啟動子、翻譯起始的核糖體結合位點和轉錄終止子。載體也可以包括用於擴增表達的適當的序列。適合在細菌中表達多肽或其片段的啟動子包括大腸桿菌lac或trp啟動子、lacl啟動子、lacZ啟動子、T3啟動子、T7啟動子、gpt啟動子、APK啟動子、來自編碼如3-磷酸甘油酸激酶(PGK)的操縱子的啟動子、和酸性磷酸酶啟動子。真菌啟動子包括V因子啟動子。真核啟動子包括CMV立即早期啟動子、HSV胸腺嘧啶核苷激酶啟動子、熱休克啟動子、早期和晚期SV40啟動子、來自反轉錄病毒的長末端重複序列(LTR)和小鼠金屬硫蛋白-I啟動子。也可以使用已知在原核或真核細胞或其病毒中控制基因表達的其它啟動子。哺乳動物表達載體也可以包括複製起點、任何必須的核糖體結合位點、聚腺苷酸化位點、剪接供體和受體位點、轉錄終止序列和5'側非轉錄序列。在一些實施方案中,衍生於SV40剪接和聚腺苷酸化位點的DNA序列可以用於提供所需要的非轉錄遺傳元件。用於在真核細胞中表達多肽或其片段的載體也可以含有增強子以增加表達水平。增強子是DNA的順式作用元件,長度通常在大約10-大約300bp之間,其作用於啟動子以增強其轉錄。實例包括複製起點bp100-270後側上的SV40增強子、巨細胞病毒早期啟動子增強子、複製起點後側上的多瘤病毒增強子、和反轉錄病毒增強子。另外,表達載體通常含有一個或多個選擇性標記物基因,以允許選擇含有載體的宿主細胞。這樣的選擇性標記物包括編碼二氫葉酸還原酶的基因、或為真核細胞培養物提供新黴素抗性的基因、在大腸桿菌中提供四環素或氨苄青黴素抗性的基因、和釀酒酵母(S.cerevisiae)TRPl基因。在一些實施方案中,編碼如下序列的多肽之一的核酸以適當相與能指導翻譯多肽或其片段分泌的前導序列裝配B組胺基酸序列和與其基本上同一的序列,或者含有其至少5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段。任選地,核酸可以編碼融合多肽,其中B組胺基酸序列和與其基本上同一的序列,或者含有其至少5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段的多肽之一被融合到異種肽或多肽上,如賦予期望特性,諸如增強的穩定性或簡易純化特性的N-末端鑑別肽。適當的DNA序列可以通過多種方法被插入到載體中。通常,在用適當的限制性核酸內切酶消化插入物和載體後,DNA序列被連接到載體中的期望位置。另外,插入物和載體的鈍末端可以被連接。在如下文獻中公開了多種克隆技術Ausubel等人,CurrentProtocolsinMolecularBiology,JohnWiley503Sons,Inc.1997禾口Sambrook等人,MolecularCloning:ALaboratoryManual第二片反,ColdSpringHarborLaboratoryPress(1989),將這些文獻的全部公開內容引用於此作為參考。這些方法和其它方法被認為在本
技術領域:
的普通技術人員的範圍內。載體的形式可以是,例如質粒、病毒顆粒或噬菌體。其它載體包括染色體、非染色體和合成DNA序列、SV40衍生物;細菌質粒、噬菌體DNA、杆狀病毒、酵母質粒、衍生於質粒和噬菌體DNA的組合的載體、病毒DNA如牛痘、腺病毒、禽痘病毒以及假狂犬病。原核和真核宿主中使用的多種克隆和表達載體由Sambrook等人描述在MolecularCloning:ALaboratoryMaruml第二片反,ColdSpringHarborLaboratoryPress(1989)中,將該文獻的公開內容引用於此作為參考。可以被使用的特定細菌載體包括可以通過商業途徑獲得的質粒,其含有如下已知的克隆載體的遺傳成分pBR322(ATCC37017)、pKK2233(PharmaciaFineChemicals,Uppsala,Sweden),GEM1(PromegaBiotec,Madison,WI,USA)pQE70,pQE60,pQE_9(Qiagen),pD10,psiX174pBluescriptIIKS,pNH8A,pNH16a,pNH18A,pNH46A(Stratagene),ptrc99a,pKK223-3,pKK233-3,pDR540,pRIT5(Pharmacia),pKK232-8和pCM7。特定的真核載體包括pSV2CAT,pOG44,pXTl,pSG(Stratagene)pSVK3,pBPV,pMSG和pSVL(Pharmacia)。然而,可以使用任何其它載體,只要它在宿主細胞中可複製且可存活。宿主細胞可以是本
技術領域:
普通技術人員所熟悉的任何宿主細胞,包括原核細胞、真核細胞、哺乳動物細胞、昆蟲細胞或植物細胞。作為適當宿主的代表性實例有細菌細胞,如大腸桿菌、鏈黴菌屬、枯草桿菌、鼠傷寒沙門氏桿菌和假單胞菌屬、鏈黴菌屬和葡萄球菌屬中的多種種類;真菌細胞,如酵母;昆蟲細胞,如果蠅S2和草地夜蛾Sf9;動物細胞,如CH0、COS或Bowes黑素瘤;以及腺病毒。適當宿主的選擇在本
技術領域:
普通技術人員的能力範圍內。可以用多種技術中的任一種將載體導入宿主細胞中,包括轉化、轉染、轉導、病毒感染、基因槍或Ti-介導的基因轉移。特定的方法包括磷酸鈣轉染法、DEAE-葡聚糖介導的轉染法、脂質轉染法或者電穿孔(Davis,L.,Dibner,M.,Battey,I.,BasicMethodsinMolecularBiology,(1986))。適當的時候,進行了遺傳工程的宿主細胞可以在傳統營養培養基中培養,所述培養基被修飾以適合激活啟動子、選擇轉化體或擴增本發明的基因。在轉化了合適的宿主株並且使宿主株生長到適當的細胞密度後,可以通過適當的方法誘導所選擇的啟動子(例如溫度變化或化學誘導),並且可以將細胞再培養一段時間,以使得它們製備出期望的多肽或其片段。細胞通常通過離心來收穫,通過物理或化學方法來破壞,保留所得到的粗提取物,以進一步純化。用於表達蛋白的微生物細胞可以通過任何便利的方法來破壞,包括凍_融循環、超聲處理、機械破壞、或使用細胞裂解劑。這樣的方法對於本
技術領域:
的普通技術人員是已知的。被表達的多肽或其片段可以通過如下方法被回收或從重組細胞培養物中純化硫酸銨或乙醇沉澱、酸萃取、陰離子或陽離子交換層析、磷酸纖維素層析、疏水相互作用層析、親和層析、羥基磷灰石層析和凝集素層析。需要時,在完成多肽的構型中,可以使用蛋白質再摺疊步驟。如果期望,可以將高效液相色譜(HPLC)用於最終的純化步驟。也可以用多種哺乳動物細胞培養系統來表達重組蛋白質。哺乳動物表達系統的實例包括猴腎成纖維細胞的C0S-7系(由Glu薩n描述,Cel1,23:175,1981),和能表達來自相容載體的蛋白質的其它細胞系,如C127,3T3,CH0,HeLa和BHK細胞系。宿主細胞中的構建物可以以傳統方式來使用,以產生由重組序列所編碼的基因產物。依賴於重組產生方法中所用的宿主,由含有載體的宿主細胞產生的多肽可以被糖基化,或者不被糖基化。本發明的多肽也可以或者不可以包括起始甲硫氨酸胺基酸殘基。另外,B組胺基酸序列和與其基本上同一的序列的多肽,或者其含有至少5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段,可以通過傳統肽合成儀通過合成方法製備。在其它實施方案中,多肽的片段或部分可以通過肽合成儀被用於製備相應的全長多肽;於此,這些片段可以被用作製備全長多肽的中間物。也可以通過使用從DNA構建物轉錄的mRNA將不含細胞的翻譯系統用於製備B組胺基酸序列和與其基本上同一的序列的多肽,或者其含有至少5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段的多肽之一,所述DNA構建物含有與編碼多肽或其片段的核酸可操作連接的啟動子。在一些實施方案中,DNA構建物可以在進行體外轉錄反應之前被線性化。然後用適當的不含細胞的翻譯提取物溫育轉錄的mRNA,如兔網織紅細胞提取物,以製備期望的多肽或其片段。本發明也涉及如下序列的多肽的變體B組胺基酸序列,和與其基本上同一的序列,或者其含有至少5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段。術語"變體"包括這些多肽的衍生物或類似物。尤其是,通過一個或多個取代、添加、缺失、融合和平截,它們可以以任意的組合出現,變體可以在胺基酸序列上與B組胺基酸序列和與其基本上同一的序列的多肽不同。變體可以是自然存在或在體外產生。尤其是,這樣的變體可以用遺傳工程技術產生,如定向誘變、隨機化學誘變、核酸外切酶III缺失方法和標準克隆技術。另外,這樣的變體、片段、類似物或衍生物可以用化學合成或修飾方法產生。產生變體的其它方法對於本
技術領域:
的普通技術人員也是熟悉的。這些方法包括,其中從天然分離物得到的核酸序列被修飾以產生編碼多肽的核酸,所述多肽具有增強它們在工業或實驗室應用中的價值。在這樣的方法中,由於從天然分離物得到的序列,得到了具有一個或多個核苷酸差異的大量變體序列,並且它們被表徵。典型地,相對對於來自天然分離物的核酸編碼的多肽,這些核苷酸差異導致胺基酸變化。例如,可以用易錯PCR產生變體。在易錯PCR中,PCR是在DNA聚合酶的拷貝保真度較低的條件下進行的,這樣沿著PCR產物的全長可以獲得高比率點突變。易錯PCR描述在Leung,D.W.,等人,Technique,1:11-15,1989)和Caldwell,R.C.&JoyceG.F.,PCRMethodsApplic.,2:28-33,1992,將其公開內容完整引用於此作為參考。簡單地說,在這些方法中,將要被誘變的核酸與PCR引物、反應緩衝液、MgCl2、MnCl2、Taq聚合酶和適當濃度的dNTPs混合,以沿著PCR產物的全長獲得高比率點突變。例如,可以使用如下物質進行反應20fmo1將被誘變的核酸,30pmol每一PCR引物,含有50mMKCl、10mMTrisHC1(pH8.3)和0.01%凝膠的反應緩衝液,7mMMgCl2,0.5mMMnCl2,5單位Taq聚合酶,0.2mMdGTP,0.2mMdATP,lmMdCTP和lmMdTTP。PCR可以進行30個循環94°C1分鐘,45。C1分鐘,72。C1分鐘。然而,應該意識到這些參數在需要時可以有所變化。將被誘變的核酸克隆到適當的載體中,並且評價由誘變的核酸編碼的多肽的活性。也可以用寡核苷酸定向誘變產生變體,以便在任何相關的克隆DNA中產生位點特異性突變。寡核苷酸誘變描述在Reidhaar-01son,J.F.&Sauer,R.T.,等人,Scicence,241:53-57,1988,將其公開內容完整引用於此作為參考。簡單地說,在這些方法中合成了大量具有一次或多次將要被導入克隆DNA的突變的雙鏈寡核苷酸,並且被插入到將被誘變的克隆DNA中。回收含有誘變DNA的克隆,評價由它們編碼的多肽的活性。產生變體的另一種方法是裝配PCR(assemblyPCR)。裝配PCR涉及從小DNA片段的混合物裝配PCR產物。大量不同的PCR反應在同一小管中平行發生,一次反應的產物作為34另一次反應的產物的引物。裝配PCR描述在1996年7月9日提交的美國專利5,965,408,題為,,MethodofDNAReassemblybyInterruptingSynthesis",將其公開內容完整弓l用於此作為參考。仍然產生變體的另一種方法是有性PCR誘變。在有性PCR誘變中,強制同源重組在體外發生於具有不同但高度相關DNA序列的DNA分子之間,結果基於序列同源性的DNA分子之間發生隨機斷裂,隨後在PCR反應中通過引物延伸固定交換。有性PCR誘變描述在Stemmer,W.P.,PNAS,USA,91:10747-10751,1994,將其公開內容完整引用於此作為參考。簡單地說,在這些方法中,用DNAse消化大量將被用於重組的核酸,以產生具有平均大小為50-200核苷酸的片段。純化具有期望的平均大小的片段,且再次懸浮於PCR混合物中。PCR在有助於核酸片段之間重組的條件下進行。例如,PCR可以通過如下進行將純化的片段以10-30ng/:l的濃度再次懸浮於下述溶液中,其中每一種dNTP為0.2rnM、2.2mMMgCl2、50mMKCL、10mMTrisHC1、pH9.0禾口0.1%TritonX-100的溶液中。每100:1反應混合物力口入2.5單位Taq聚合物,用如下方式進行PCR:94。C60秒,50-55°C30秒,72°C30秒(30-45次)和72。C5分鐘。然而,應該意識到,這些參數當需要時可以有所變化。在一些實施方案中,寡核苷酸可以被包括在PCR反應中。在其它實施方案中,DNA聚合酶I的克列諾片段(Klenowfragment)可以被用於第一組PCR反應中,Taq聚合物可以被用於隨後的PCR反應組中。分離重組序列,並且評價它們編碼的多肽的活性。也可以用體內誘變(invivomutagenesis)產生變體。在一些實施方案中,通過在細菌株如大腸桿菌株中增殖相關序列產生相關序列中的隨機突變,所述細菌株在一種或多種DNA修復途徑中發生了突變。這些"增變"株比野生型親本具有更高的隨機突變率。在這些菌株中增殖DNA將最終在該DNA中產生隨機突變。適合用於體內誘變的增變株描述在PCRPublicationNo.WO91/16427,於1991年10月31日出版,題為"MethodsforPhenotypeCreationfromMultipleGenePopulations,,,將其公開內容完整弓l用於此作為參考。也可以用盒式誘變(cassettemutagenesis)產生變體。在盒式誘變中,用與天然序列不同的合成寡核苷酸"盒子"取代雙鏈DNA分子的小區域。寡核苷酸通常含有完全和/或部分隨機化的天然序列。遞歸集團誘變(recursiveensemblemutagenesis)也可以用來產生變體。遞歸集團誘變是一種蛋白質工程(蛋白質誘變)算法,該算法被用來開發產生不同群體的表型相關突變體,所述表型相關突變體的成員在胺基酸序列上不同。該方法使用反饋機制來控制連續輪迴的組合盒式誘變。遞歸集團誘變描述在Arkin,A.P.和Youvan,D.C.,PNAS,USA,89:7811-7815,1992,將其公開內容完整引用於此作為參考。在一些實施方案中,用指數集團誘變(exponentialensemblemutagenesis)產生變體。指數集團誘變是一種用於產生高百分比的獨特和功能性突變體的組合文庫的方法,其中殘基小組中被隨機化,以便平行地在每一被改變的位置鑑別導致功能蛋白質的胺基酸。指數集團誘變描述在Delegrave,S.禾口Youvan,D.C.,BiotechnologyResearch,11:1548-1552,1993,將其公開內容完整引用於此作為參考。隨機和定點誘變描述在Arnold,F.H.,CurrentOpinioninBiotechnology,4:450-455,1993,將其公開內容完整引用於此作為參考。在一些實施方案中,用改組方法(shufflingprocedure)產生變體,其中編碼不同多肽的多個核酸部分被融合到一起,產生編碼嵌合多肽的嵌合核酸序列,描述在1996年7月9日提出申請的美國專利5,965,408中,題為"MethodofDNAReassemblybyInteruptingSynthesis",和美國專利5,939,250中,1996年5月2日提出申請,題為"ProductionofEnzymesHavingDesiredActivitiesbyMutagenesis",將它們都弓l用於此作為參考。B胺基酸序列的多肽的變體可以是這樣的變體,即其中B組胺基酸序列的多肽的一個或多個胺基酸殘基被保守或非保守胺基酸殘基(優選地一個保守胺基酸殘基)取代,這樣取代的胺基酸殘基可以是或者不是由遺傳密碼子編碼的殘基。保守置換是那些用具有類似特性的另一個胺基酸取代多肽中的給定胺基酸。通常認為的保守置換是下述取代用另一個脂族胺基酸取代脂族胺基酸如丙氨酸、纈氨酸、亮氨酸和異亮氨酸;用蘇氨酸取代絲氨酸,或反之亦然;用另一個酸性殘基取代酸性殘基,如天冬氨酸和穀氨酸;用另一個具有醯胺基團的殘基取代具有醯胺基團的殘基,如天冬醯胺和穀氨醯胺;用另一個鹼性殘基交換鹼性殘基,如賴氨酸和精氨酸;用另一個芳族殘基取代芳族殘基,如苯丙氨酸、酪氨酸。其它變體是那些其中B組胺基酸序列的多肽的一個或多個胺基酸殘基包括取代基的變體。仍然地,其它的變體是那些其中多肽與另一種化合物結合的變體,例如增加多肽的半衰期的化合物(例如聚乙二醇)。其它變體是那些其中其它的胺基酸被融合到多肽上的變體,例如前導序列、分泌序列、前蛋白序列或有助於多肽的純化、富集或穩定的序列。在一些實施方案中,片段、衍生物和類似物保持與B組胺基酸序列和與其基本上同一的序列的多肽系統的生物功能或活性。在其它實施方案中,片段、衍生物或類似物包括前蛋白,這樣片段、衍生物或類似物可以通過前蛋白部分的裂解激活,以產生活性多肽。本發明的另一個方面是多肽或其片段,其與如下序列的多肽之一具有至少大約50%,至少大約55%,至少大約60%,至少大約65%,至少大約70%,至少大約75%,至少大約80%,至少大約85%、至少大約90%、至少大約95%或高於大約95%同源性的序列B組胺基酸序列和與其基本上同一的序列,或其包括至少大約5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段。同源性可以用上面描述的任一種程序來確定,上面描述的程序對齊將比較的多肽或片段,並且確定它們之間的胺基酸同一性或類似性程度。應該意識到,胺基酸"同源性"包括保守胺基酸置換,如上面所描述的那些。與如下序列的多肽之一具有同源性的多肽或片段可以使用上面描述的技術通過分離編碼它們的核酸獲得B組胺基酸序列,和與其基本上同一的序列,或其包括至少大約5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段。另外,同源的多肽或片段可以通過生物化學富集或純化方法獲得。潛在的同源多肽或片段的序列可以通過蛋白水解消化、凝膠電泳和/或微量測序確定。預期同源的多肽或片段的序列可以使用上面所描述的任一種程序與如下序列的多肽之一比較B組胺基酸序列,和與其基本上同一的序列,或其包括至少大約5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段。本發明的另一方面是一種分析方法,用於鑑定B組胺基酸序列和與其基本上同一的序列的片段或變體,它們保留了B組胺基酸序列和與其基本上同一的序列的多肽的酶功能。例如,所述多肽的片段或變體可以被用來催化生化反應,這表明片段或變體保留了B組胺基酸序列中的多肽的酶活性。確定變體的片段是否保留了B組胺基酸序列和與其基本上同一的序列的多肽的酶活性的分析方法包括如下步驟將多肽片段或變體與底物分子在允許多肽片段或變體發揮作用的條件下接觸,檢測底物水平是否有所降低,或者多肽和底物之間反應的特定反應產物的水平是否有所增加。B組胺基酸序列,和與其基本上同一的序列,或其包括至少大約5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段的多肽可以用於多種應用中。例如,其多肽或片段可用於催化生化反應。根據本發明的一方面,提供了一種方法,所述方法使用B組胺基酸序列和與其基本上同一的序列的多肽,或編碼這樣的多肽的多核苷酸來水解糖苷鍵。在這樣的方法中,將含有糖苷鍵的底物(例如澱粉)與B組胺基酸序列和與其基本上同一的序列的多肽之一接觸,條件是有助於糖苷鍵的水解。B組胺基酸序列,和與其基本上同一的序列,或其包括至少大約5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段的多肽,也可以被用於澱粉的液化和糖化中。使用本發明的多肽或其片段,液化可以在比先前的酶所用的pH更低的pH下進行。在一個實施方案中,液化在pH4.5進行。另外,與這些方法中先前所用的酶相比,本發明的多肽或其片段對鈣的依賴性更低。在液化中用澱粉酶來水解澱粉。在優選的實施方案中,本發明的多肽或其片段在90-95t:是熱穩定的。B組胺基酸序列,和與其基本上同一的序列,或其包括至少大約5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段的多肽,也可以用來產生與多肽或片段特定結合的抗體。所得到的抗體可以用在免疫親和層析方法中,以分離或純化多肽,或者確定生物樣品中是否存在多肽。在這樣的方法中,將蛋白質製劑如提取物,或者生物樣品與能與如下序列的多肽之一特定結合的抗體接觸B組胺基酸序列,和與其基本上同一的序列,或其包括至少大約5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段。在免疫親和方法中,抗體被附著在固體載體上,如珠子或其它柱基質上。蛋白質製劑被置於與抗體接觸,條件是抗體與B組胺基酸序列,和與其基本上同一的序列,或其片段的多肽之一特定地結合。在洗滌以去除非特定地結合的蛋白質之後,洗脫出特定結合的多肽。可以用本
技術領域:
普通技術人員熟悉的多種技術中的任一種來確定蛋白質在生物樣品中結合抗體的能力。例如,可以通過用可檢測的標記物如螢光試劑、酶標記物或放射性同位素標記抗體來確定結合。另外,抗體與蛋白質的結合可以使用其上具有可檢測標記物的第二抗體來檢測。特定的方法方法包括酶聯免疫吸附測定(ELISA分析)、夾心分析、放射免疫分析和Western印跡。針對如下序列的多肽產生的多克隆抗體可以通過將多肽直接注射到動物體內和通過將多肽施用於動物例如非人動物獲得B組胺基酸序列,和與其基本上同一的序列,或其包括至少大約5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段。然後,這樣獲得的抗體將與多肽自身結合。用這樣方式,甚至僅編碼多肽的一個片段的序列可以用於產生抗體,所述抗體可能與完整的天然多肽結合。這樣的抗體然後被用於從表達該多肽的細胞分離多肽。為了製備單克隆抗體,可以使用能提供連續細胞系培養產生抗體的任何技術。實例包括雜交瘤技術(Kohler和Milstein,Nature,256:495-497,1975,將其公開內容引用於此作為參考),三系雜交瘤技術(trioma技術),人B_細胞雜交瘤技術(Kozbor等人,ImmunologyToday4:72,1983,將其公開內容引用於此作為參考),以及EBV-雜交瘤技術(Cole等人,1985,MonoclonalAntibodiesandCancerTherapy,AlanR丄iss,Inc.,77-96頁,將其公開內容引用於此作為參考)。描述單鏈抗體產生的技術(美國專利4,946,778,將其公開內容引用於此作為參考)可以適用於產生B組胺基酸序列,和與其基本上同一的序列,或其包括至少大約5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段的單鏈抗體。另外,轉基因小鼠可以被用於表達這些多肽或其片段的人源化抗體。針對B組胺基酸序列,和與其基本上同一的序列,或其包括至少大約5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸的片段的多肽而產生的抗體可以被用於從其它生物體和樣品中篩選類似多肽。在這樣的技術中,將來自生物體的多肽與抗體接觸,並且檢測那些與抗體特定地結合的多肽。上面所描述的任何技術可以被用來檢測抗體結合。一禾中這樣的蹄選分析方法描述在"MethodsforMeasuringCellulaseActivities",MethodsinEnzymology,160巻,87-116頁,將其完整引用於此作為參考。正如此處所用,術語"如下序列中所闡明的核酸序列SEQIDNO.:1,3,5,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63,65,67,69,71,73,75,77,79,81,83,85,87,89,91,93,95,97,99,101,103,105,107,109,111,113,115,117,119,121,123,125,127,129,131,133,135,137,139,141,143,145,147,149,151,153,155,157,159,161,163,165,167,169,171,173,175,177,179,181,183,185,187,189,191,193,195,197,199,201,203,205,207,209,211,213,215,217,219,221,223,225,227,229,231,233,235,237,239,241,243,245,247,249,251,253,255,257,259,261,263,265,267,269,271,273,275,277,279,281,283,285,287,289,291,293,295,297,299"包括如下序列的核苷酸序列A組核酸序列,和與其基本上同一的序列,以及與A組核酸序列及其片段同源的序列,和與所有前述序列互補的序列。片段包括如下序列的部分SEQIDNO.:1,3,5,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63,65,67,69,71,73,75,77,79,81,83,85,87,89,91,93,95,97,99,101,103,105,107,109,111,113,115,117,119,121,123,125,127,129,131,133,135,137,139,141,143,145,147,149,151,153,155,157,159,161,163,165,167,169,171,173,175,177,179,181,183,185,187,189,191,193,195,197,199,201,203,205,207,209,211,213,215,217,219,221,223,225,227,229,231,233,235,237,239,241,243,245,247,249,251,253,255,257,259,261,263,265,267,269,271,273,275,277,279,281,283,285,287,289,291,293,295,297和299,包括A組核酸序列,和與其基本上同一的序列的至少10,15,20,25,30,35,40,50,75,100,150,200,300,400或500個連續核苷酸。A組核酸序列,和與其基本上同一的序列的同源序列和片段,是指與這些序列具有至少99%,98%,96%,95%,90%,85%,80%,75%,70%,65%,60%,55%或50%同源性的序列。同源性可以使用此處描述的任一種電腦程式和參數來確定,包括具有預設參數的FASTA版本3.0t78。同源序列也包括RNA序列,其中尿嘧啶取代A組核酸序列中所闡明的核酸序列中的胸腺嘧啶。可以使用此處描述的任何方法獲得同源序列,或者可以從校正測序誤差獲得同源序列。應該意識到,A組核酸序列和與其基本上同一的序列中所闡明的核酸序列,可以以傳統的單字母格式表示(參見Stryer,Lubert.Biochemistry,第三版,W.HFreeman&Co.,NewYork的封三)或者以在序列中記錄核苷酸同一性的任何其它格式表示。正如此處所用,術語"如下序列中所闡明的多肽序列SEQIDNO.:2,4,6,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70,72,74,76,78,80,82,84,86,88,90,92,94,96,98,100,102,104,106,108,110,112,114,116,118,120,122,124,126,128,130,132,134,136,138,140,142,144,146,148,150,152,154,156,158,160,162,164,166,168,170,172,174,176,178,180,182,184,186,188,190,192,194,196,198,202,204,206,208,210,212,214,216,218,220,222,224,226,228,230,232,234,236,238,240,242,244,246,248,250,252,254,256,258,260,262,264,266,268,270,272,274,276,278,280,282,284,286,288,290,292,294,296,298"包括如下序列的多肽序列B組胺基酸序列,和與其基本上同一的序列,它們由如下序列中的序列編碼SEQIDNO.:2,4,6,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70,72,74,76,78,80,82,84,86,88,90,92,94,96,98,100,102,104,106,108,110,112,114,116,118,120,122,124,126,128,130,132,134,136,138,140,142,144,146,148,150,152,154,156,158,160,162,164,166,168,170,172,174,176,178,180,182,184,186,188,190,192,194,196,198,202,204,206,208,210,212,214,216,218,220,222,224,226,228,230,232,234,236,238,240,242,244,246,248,250,252,254,256,258,260,262,264,266,268,270,272,274,276,278,280,282,284,286,288,290,292,294,296,298中所闡明的序列,與B組胺基酸序列同源的多肽序列,和與其基本上同一的序列,或任何前述序列的片段。同源的多肽序列指與B組胺基酸的多肽序列之一具有至少99%,98%,97%,96%,95%,90%,85%,80%,75%,70%,65%,60%,55%或50%同源性的序列。同源性可以使用此處描述的任一種電腦程式和參數來確定,包括具有預設參數或任何被修改參數的FASTA版本3.0t78。可以使用此處描述的任何方法獲得同源序列,或者可以從校正測序誤差獲得同源序列。多肽片段包括B組胺基酸序列,和與其基本上同一的序列的多肽的至少5,10,15,20,25,30,35,40,50,75,100或150個連續胺基酸。應該意識到,B組胺基酸序列和與其基本上同一的序列中所闡明的多肽序列,可以以傳統的單字母格式或三字母格式表示(參見Stryer,Lubert.Biochemistry,第三版,W.HFreeman&Co.,NewYork的封三)或者以在序列中敘述多肽同一性的任何其它格式表示。本
技術領域:
普通技術人員應該可以意識到,SEQIDNO.:1,3,5,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63,65,67,69,71,73,75,77,79,81,83,85,87,89,91,93,95,97,99,101,103,105,107,109,111,113,115,117,119,121,123,125,127,129,131,133,135,137,139,141,143,145,147,149,151,153,155,157,159,161,163,165,167,169,171,173,175,177,179,181,183,185,187,189,191,193,195,197,199,201,203,205,207,209,211,213,215,217,219,221,223,225,227,229,231,233,235,237,239,241,243,245,247,249,251,253,255,257,259,261,263,265,267,269,271,273,275,277,279,281,283,285,287,289,291,293,295,297,299中所闡明的核酸序列,和SEQIDNO.:2,4,6,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70,72,74,76,78,80,82,84,86,88,90,92,94,96,98,100,102,104,106,108,110,112,114,116,118,120,122,124,126,128,130,132,134,136,138,140,142,144,146,148,150,152,154,156,158,160,162,164,166,168,170,172,174,176,178,180,182,184,186,188,190,192,194,196,198,202,204,206,208,210,212,214,216,218,220,222,224,226,228,230,232,234,236,238,240,242,244,246,248,250,252,254,256,258,260,262,264,266,268,270,272,274,276,278,280,282,284,286,288,290,292,294,296,298中所闡明的多肽序列可以在任何計算機可以閱讀且訪問的介質上被儲存、記錄和操作。正如此處所用,詞語"被記錄"和"被儲存"指將信息儲存在計算機介質上的過程。熟練技術人員將可以容易地採用任何當前已知的方法,將信息記錄在計算機可讀的介質上,以便產生包括如下序列的製品A組核酸序列和與其基本上同一的序列中所闡明的一個或多個核酸序列,B組胺基酸序列和與其基本上同一的序列中所闡明的一個或多個多肽序列。本發明的另一個方面是其上儲存了A組核酸序列和與其基本上同一的序列中所闡明的至少2,5,10,15或20個核酸序列的計算機可讀介質。本發明的另一方面是其上已經儲存了A組核酸序列和與其基本上同一的序列中所闡明的一個或多個核酸序列的計算機可讀介質。本發明的另一方面是其上儲存了B組胺基酸序列和與其基本上同一的序列中所闡明的至少一個或多個多肽序列的計算機可讀介質。本發明的另一個方面是其上儲存了如上所闡明的至少2,5,10,15或20個序列的計算機可讀介質。計算機可讀介質包括磁性可讀介質、光學可讀介質、電子可讀介質和磁性/光學介質。例如,計算機可讀介質可以是硬碟、軟盤、磁帶、CD-ROM、數字通用盤(DVD)、隨機存取存儲器(RAM)或只讀存儲器(ROM)以及本
技術領域:
已知的其它類型的其它介質。本發明的實施方案包括系統(例如基於網際網路的系統),尤其是存儲且操縱此處描述的序列信息的計算機系統。在圖1中以方塊圖形式說明了計算機系統100的一個實例。正如此處所用,"計算機系統"指硬體部分、軟體部分和數據存儲部分,所述計算機系統用於分析如下序列A組核酸序列和與其基本上同一的序列中所闡明的核酸序列的核苷酸序列,或B組胺基酸序列中所闡明的多肽序列。計算機系統100通常包括一個用於處理、訪問和操縱序列數據的處理器。處理器105可以是任何已知類型的中央處理器單元,如Intel公司的奔騰III,或Sun、Motorola、Compag、AMD或國際商業機器公司(IBM公司)的類似處理器。通常計算機系統100是一種具有通用目的的系統,其包括處理器105,和用於儲存數據的一個或多個內部數據存儲部分iio,和一個或多個用於恢復數據存儲部分上存儲的數據的數據恢復設備。熟練技術人員可以容易地意識到,當前可獲得的任一種計算機系統是適合的。在一個特定實施方案中,計算機系統100包括與總線相連的處理器105,所述總線與主存儲器115相連(優選地為RAM),和一個或多個內部數據存儲設備110,如硬碟驅動器和/或其上已經存儲了數據的其它計算機可讀介質。在一些實施方案中,計算機系統100進40一步包括一個或多個數據恢復設備118,用於讀取存儲在內部數據存儲設備110上的數據。數據恢復設備118表示,例如軟盤驅動器、光碟驅動器、磁帶驅動器或能連接遠程數據存儲系統(如通過網際網路)等的數據機。在一些實施方案中,內部數據存儲設備110是可移動的計算機可讀介質,如包括控制邏輯和/或其上記錄了數據的軟盤、光碟、磁帶等等。計算機系統100可以有利地包括或通過適當的軟體被編程,以便數據存儲部分一旦