纖維素酶、編碼它們的核酸及其製備和應用的方法
2023-10-26 02:28:12 3
專利名稱::纖維素酶、編碼它們的核酸及其製備和應用的方法纖維素酶、編碼它們的核酸及其製備和應用的方法5政府資助本發明涉及分子和細胞生物學和生物化學。一方面,本發明提供具有纖維素酶活性——例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性——的多肽、編碼這些多肽的多核苷酸,以及製備和使用這些多核苷酸和多肽的方法。一方面,本發明涉及具有纖維素酶活性例如內切葡聚糖酶、纖維二15糖水解酶、甘露聚糖酶和/或p-葡糖苷酶活性——包括熱穩定的和耐熱的活性——的多肽,和編碼這些酶的多核苷酸,以及製備和使用這些多核苷酸和多肽。本發明的多肽可用於各種製藥、農業和工業環境中。
背景技術:
:20纖維素是地球上最豐富的可再生資源。它由重複單元是纖維二糖的P-l,4葡萄糖單元的線性鏈組成,纖維二糖是具有如圖5所示結構的葡萄糖二聚體。該高分子通過一組酶進行降解,包括隨機水解纖維素高分子的內切葡聚糖酶(EG)以及從纖維素除去末端纖維二糖殘基的纖維二糖水解酶(CBH)。纖維二糖和纖維寡糖被P-葡糖苷酶(BG)水解成葡萄糖。所有這三種酶對於纖維素完全分解成葡萄糖是25必需的。對於這三種酶的每一種,存在行使相同功能的不同結構的變體。此外,除了不同結構變體外,已知真菌和細菌還產生多種形式的相同結構變體。已知一些厭氧細菌和真菌以多酶複合物的形式產生這些酶,這一事實進一步使該系統複雜化,所述多酶複合物含有都附著於酶支架上的多種酶,分子量在2百萬道爾頓以上。為什麼這樣的酶複合系統對於這樣的簡單分子是必需的?一些30研究者認為該複雜性原因在於底物的頑拗性質。纖維素鏈形成微纖維,其通過相鄰鏈的氫鍵鍵合堆積成晶體基質。該結構對於化學降解或酶促降解是高度耐受的。由於它們對纖維素的酶促攻擊性質,CBH被認為是該晶體纖維素降解中的關鍵酶。與CBH不同,EG具有開放的裂縫,其以垂直角度攻擊纖維素鏈。CBH通過含有活性位點的坑道直接攻擊所述鏈。目前認為,纖維素鏈進入所述坑道,35同時,相鄰的氫鍵鍵合被破壞。一旦纖維二糖水解酶在該底物上建立起"立足點",然後,EG可以進來,並更容易攻擊底物。已知的CBH的一個主要缺陷是其低的催化活性。一些觀點認為,低活性是源於如下事實來自水解的能量被轉化成動能,以破壞氫鍵並使酶能夠沿著底物移動。CBH是外切作用酶並在90個糖基水解酶家族中的6個家族中發現。它們5包括家族5、6、7、9、10和48。家族5含有許多不同類型的糖基水解酶,包括纖維素酶、甘露聚糖酶和木聚糖酶。儘管在該家族中大部分纖維素酶是內切葡聚糖酶,仍存在纖維二糖水解酶的例子,最為人知的是來自熱纖梭菌(C7o^^/"/mAeAvOCe//Mw)的CdO。家族6僅含有內切葡聚糖酶或纖維二糖水解酶,其中纖維二糖水解酶成員比內切葡聚糖酶更多。該酶具有反向機制(invertingmechanism),10並且晶體學研究表明,所述酶具有扭曲的a/l3桶結構,其含有七個而非八個平行的J3鏈。家族7酶也由內切葡聚糖酶和纖維二糖水解酶組成,其中纖維二糖水解酶更多,並且已知的成員僅來自真菌。該酶具有保持機構(retainingmechanism),並且晶體結構示出了P-膠凍巻結構。家族9含有內切葡聚糖酶、纖維二糖水解酶和卩-葡糖苷酶,其中內切葡聚糖酶佔優勢。然而,嗜熱放線菌(77jeAvno6i/Wfl/^OJ)產15生內切/外切-l,4-葡聚糖酶,其晶體結構顯示出(a/a)6桶狀摺疊。該酶具有內切和外切葡聚糖酶CBH的特徵。家族10僅含有2個成員,被描述為纖維二糖水解酶,其餘主要被描述為木聚糖酶。家族10的纖維二糖水解酶和木聚糖酶具有對甲基-傘形基纖維二糖苷的活性。家族48主要含有細菌和厭氧真菌纖維二糖水解酶和內切葡聚糖酶。結構是類似於家族9的(a/a)6桶狀摺疊。20存在對用於公路車輛的較不昂貴和可再生的燃料來源的需求。如果新的燃料來源在燃燒之後產生無害的終產物,則它們將更加有吸引力。乙醇提供了石油基燃料的有吸引力的可替代選擇,並且可以通過衍生自澱粉或木質纖維素的單體糖發酵獲得。然而,目前的經濟學不支持乙醇的廣泛使用,原因在於生產乙醇的高成本。一個目標在於降低成本的研究領域是增加用於從木質纖維素產生可發酵25糖類的酶的技術效率。更有效地消化原料的酶的開發將轉變成降低的乙醇生產成本。更有效的工藝將降低美國對進口油的依賴以及與該依賴性相關的價格波動。使用更清潔的運輸燃料例如生物乙醇還可以降低淨C02排放,其被認為是造成全球變暖的部分原因。30發明概述本發明提供了纖維素酶,例如,內切葡聚糖酶、纖維二糖水解酶和/或P-葡糖苷酶(多種P-葡糖苷酶),以及製備和使用它們的方法。一方面,本發明的酶具有增加的催化速率,以改善底物水解過程。在催化速率上這種增加的效率導致在生產糖類上增加的效率,這可用於工業應用中,例如,如此產生的糖可被微生35物用於乙醇生產。一方面,本發明提供了高活性(例如,具有增加的催化速率)的纖維二糖水解酶、內切葡聚糖酶和P-葡糖苷酶。本發明提供了工業應用(例如,生物物質(biomass)轉化為乙醇),其利用了本發明的具有降低的酶成本的酶,例如,在生物物質轉化為乙醇的過程中降低的成本。因此,本發明提供了由任何生物質生產生物乙醇和含生物乙醇的組合物的有效率的工藝,所述含生物乙醇的組合物包括含有生物乙醇的燃料。5—方面,本發明的酶具有葡聚糖酶例如內切葡聚糖酶活性,例如催化內部內-(3-l,4-和域P-l,3-葡聚糖鍵的水解。一方面,內切葡聚糖酶活性(例如,內切1,4-P-D-葡聚糖4-葡聚糖水解酶活性)包括水解纖維素、纖維素衍生物(例如羧甲基纖維素和羥乙基纖維素)地衣聚糖(lichenin)中的1,4-和域P-l,3-P-D-糖苷鍵、混合的P-l,3葡聚糖中的P-l,4鍵,例如穀類P-D-葡聚糖或木葡聚糖以及含有纖維10質部分的其它植物材料。—方面,本發明的酶具有內切葡聚糖酶(例如,內切-(3-l,4-葡聚糖酶,EC3.2丄4;內切-p-l,3(l)-葡聚糖酶,EC3.2丄6;內切-p-l,3-葡聚糖酶,EC3.2丄39)活性並且可以水解纖維素和葡聚糖中的內部p-l,4-和/或P-l,3-糖苷鍵,以產生較小分子量的葡萄糖和葡萄糖寡聚體。本發明提供了使用本發明的這些酶產生更小分子量15的葡萄糖和葡萄糖寡聚體的方法。—方面,本發明的酶用於產生葡聚糖,例如,由1,4-p-和/或1,3-糖苷鍵接的D-吡喃葡糖形成的多糖。一方面,本發明的內切葡聚糖酶被用在食品工業中如烘焙及水果和蔬菜加工、農業廢物的分解、動物飼料的生產、紙漿和紙的生產、紡織物生產以及家用和工業清潔劑。一方面,通過微生物如真菌和/或細菌,生產20本發明的酶,例如內切葡聚糖酶。—方面,本發明的酶如內切葡聚糖酶被用於水解|3-葡聚糖,p-葡聚糖是穀物主要的非澱粉多糖。根據品種和生長條件,多糖的葡聚糖含量可顯著變化。該多糖的物理化學性質是在氧化條件下產生粘性溶液或者甚至是凝膠。此外,葡聚糖具有高的水結合能力。所有這些特徵給幾個行業帶來了問題,包括釀造、烘焙、25動物營養。在釀造應用中,葡聚糖的存在導致麥芽汁過濾性和形成渾濁的問題。在烘焙應用中(尤其對於曲奇和脆餅),葡聚糖可產生發粘麵團,其難以進行機械加工和減小餅乾尺寸。因此,本發明的酶如內切葡聚糖酶被用於降低含P-葡聚糖的組合物中P-葡聚糖的量,例如,本發明的酶被用在降低溶液或凝膠的粘度的工藝中;用於降低組合物例如含P-葡聚糖的組合物的水結合能力;在釀造工藝中(例30如,用於增加麥芽汁過濾性和降低混濁),用於降低麵團的粘性,例如,用於製作曲奇、麵包、餅乾等等的麵團。此外,碳水化合物(例如,P-葡聚糖)參與烘焙產品的快速再水化,導致鬆脆性損失和縮短的貨架期。因此,本發明的酶,例如內切葡聚糖酶,被用於保持鬆脆性、增加鬆脆性或降低鬆脆性的損失速率,以及增加任何含碳水化合物食35品、飼料或飲料的貨架期,例如含p-葡聚糖的食品、飼料或飲料。本發明的酶,例如內切葡聚糖酶,被用於降低消化道內容物(例如,在動物中,如反芻動物或人中)的粘性,例如,含有穀物膳食的那些。因此,在可選的方面,本發明的酶,例如內切葡聚糖酶,被用於正面影響食品或飼料的可消化性以及動物(例如,人或家畜)生長速率,以及在一方面,被用於產生更高的飼料轉化效率。對於穀物食物的單胃動物飼料應用,p-葡聚糖是消化道內容物的粘性5的促成因素,並且從而負面影響飼料的可消化性和動物生長速率。對於反芻動物,這些P-葡聚糖代表纖維攝入的基本成分,而葡聚糖的更完全的消化將促進更高的飼料轉化效率。因此,本發明提供了含有本發明的內切葡聚糖酶的動物飼料和食品,並且在一方面,這些酶在動物消化道中是有活性的,例如在胃和/或腸中是有活性的。10本發明的酶,例如內切葡聚糖酶,被用於消化纖維素或任何含P-l,4-連接葡聚糖的合成或天然的材料,包括在任何植物材料中發現的那些。本發明的酶,例如內切葡聚糖酶,被用作例如在木材加工、紙槳和/或紙工業中、在紡織品製造中以及在家用和工業清潔劑中和/或在生物物質廢物處理中消化纖維素的商業酶。—方面,本發明提供了含有本發明的酶、多肽或多核苷酸的組合物(例如,15藥物組合物、食物、飼料、藥物、飲食補充物)。這些組合物可以以各種形式加以配製,例如片劑、凝膠、丸劑、植入物、液體、噴劑、粉末、食物、飼料小丸或任何類型的膠囊化形式。本發明提供了分離的或重組的核酸,包括在至少大約10、15、20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、500、550、20600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250、1300、1350、1400、1450、1500、1550、1600、1650、1700、1750、1800、1850、1900、1950、2000、2050、2100、2200、2250、2300、2350、2400、2450、2500或更多殘基的區域內,與本發明的示例性核酸具有至少大約50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、2567%、68°/。、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性的核酸序列,本發明的示例性核酸包括SEQIDNO:l,SEQIDNO:3,SEQIDNO:5,SEQIDNO:7,SEQIDNO:9,SEQIDNO:ll,SEQIDNO:13,SEQIDNO:15,30SEQIDNO:17,SEQIDNO:19,SEQIDNO:21,SEQIDNO:23,SEQIDNO:25,SEQIDNO:27,SEQIDNO:29,SEQIDNO:31,SEQIDNO:33,SEQIDNO:35,SEQIDNO:37,SEQIDNO:39,SEQIDNO:41,SEQIDNO:43,SEQIDNO:45,SEQIDNO:47,SEQIDNO:49,SEQIDNO:51,SEQIDNO:53,SEQIDNO:55,SEQIDNO:57,SEQIDNO:59,SEQEDNO:61,SEQIDNO:63,SEQIDNO:65,35SEQIDNO:67,SEQIDNO:69,SEQIDNO:71,SEQEDNO:73,SEQIDNO:75,SEQIDNO:77,SEQIDNO:79,SEQIDNO:81,SEQIDNO:83,SEQIDNO:85,SEQIDNO:87,SEQIDNO:89,SEQIDNO:91,SEQIDNO:93,SEQIDNO:95,SEQIDNO:97,SEQIDNO:99,SEQIDNO:101,SEQIDNO:103,SEQIDNO:105,SEQIDNO:107,SEQIDNO:109,SEQIDNO:lll,SEQIDNO:113,SEQIDNO:115,SEQIDNO:117,SEQIDNO:119,SEQIDNO:121,SEQIDNO:123,SEQ5IDNO:125,SEQIDNO:127,SEQIDNO:129,SEQIDNO:131,SEQIDNO:133,SEQIDNO:135,SEQIDNO:137,SEQIDNO:139,SEQIDNO:141,SEQIDNO:143,SEQIDNO:145,SEQIDNO:147,SEQIDNO:149,SEQIDNO:151,SEQIDNO:153,SEQIDNO:155,SEQIDNO:157,SEQIDNO:159,SEQIDNO:161,SEQIDNO:163和SEQIDNO:165;也參見下面的表l、2和3、實施例101和4,以及序列表;以及在可選的方面,這些核酸編碼至少一個具有纖維素酶活性例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性的多肽,或者編碼能夠產生可特異性結合本發明多肽的抗體的多肽,或者,這些核酸可用作鑑別或分離編碼纖維素酶的核酸的探針,或用於抑制表達纖維素酶的核酸的表達(所有這些方面都稱為"本發明的核酸")。一方面,所述序列同一性通過運用15了序列比較算法的分析或通過視覺觀察來確定。本發明的核酸也包括,編碼本發明的示例性酶的分離的或重組的核酸,本發明的示例性酶包括具有如下所示序列的多肽SEQIDNO:2,SEQIDNO:4,SEQIDNO:6,SEQIDNO:8,SEQIDNO:10,SEQIDNO:12,SEQIDNO:14,SEQIDNO:16,SEQIDNO:18,SEQIDNO:20,SEQIDNO:22,SEQIDNO:24,SEQID20NO:26,SEQIDNO:28,SEQIDNO:30,SEQIDNO:32,SEQIDNO:34,SEQIDNO:36,SEQIDNO:38,SEQIDNO:40,SEQIDNO:42,SEQIDNO:44,SEQIDNO:46,SEQIDNO:48,SEQIDNO:50,SEQIDNO:52,SEQIDNO:54,SEQIDNO:56,SEQIDNO:58,SEQIDNO:60,SEQIDNO:62,SEQIDNO:64,SEQIDNO:66,SEQIDNO:68,SEQIDNO:70,SEQIDNO:72,SEQIDNO:74,SEQID25NO:76,SEQIDNO:78,SEQIDNO:80,SEQIDNO:82,SEQIDNO:84,SEQIDNO:86,SEQIDNO:88,SEQIDNO:90,SEQIDNO:92,SEQIDNO:94,SEQIDNO:96,SEQIDNO:98,SEQIDNO:100,SEQIDNO:102,SEQIDNO:104,SEQIDNO:106,SEQIDNO:108,SEQIDNO:110,SEQIDNO:112,SEQIDNO:114,SEQIDNO:116,SEQIDNO:118,SEQIDNO:120,SEQIDNO:122,SEQID30NO:124,SEQIDNO:126,SEQIDNO:128,SEQIDNO:130,SEQIDNO:132,SEQIDNO:134,SEQIDNO:136,SEQIDNO:138,SEQIDNO:140,SEQIDNO:142,SEQIDNO:144,SEQIDNO:146,SEQIDNO:148,SEQIDNO:150,SEQIDNO:152,SEQIDNO:154,SEQIDNO:156,SEQIDNO:158,SEQIDNO:160,SEQIDNO:162,SEQIDNO:164和SEQIDNO:166,也參見下面的表1、352和3、實施例1和4,和序列表,及其子序列和其變體。一方面,該多肽具有纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性。—方面,本發明提供了編碼纖維素酶的核酸,例如編碼內切葡聚糖酶、纖維二糖水解酶和/或P-葡糖苷酶的核酸,其共同的新穎性在於它們來源於混合培養物。本發明提供了從混合培養物分離的編碼纖維素降解酶的核酸,其包括本發明5的多核苷酸,例如在至少大約50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、卯0、950、1000、1050、1100、1150或更多殘基的區域內,與本發明的示例性核酸具有至少大約10%、15%、20%、25%、30%、35%、40%、45%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、1072%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性的序列,本發明的示例性核酸例如SEQIDNO:l,SEQIDN0:3,SEQIDNO:5,SEQIDNO:7,SEQIDNO:9,SEQIDNO:ll,SEQIDNO:13,SEQIDNO:15,SEQIDNO:17,SEQIDNO:19,15SEOIDNO:21,SEOIDNO:23,SEQIDNO:25,SEQIDNO:27,SEQIDNO:29,SEQIDNO:35,SEQIDNO:37,SEQIDNO:39,SEQIDNO:45,SEQIDNO:47,SEQIDNO:49,SEQIDNO:55,SEQIDNO:57,SEQIDNO:59,SEQIDNO:65,SEQIDNO:67,SEQIDNO:69,SEQIDNO:75,SEQIDNO:77,SEQIDNO:79,SEQIDNO:85,SEQIDNO:87,SEQIDNO:89,SEQIDNO:95,SEQIDNO:97,SEQIDNO:99,SEQIDNO:101,SEQIDNO:103,SEQIDNO:105,SEQIDNO:107,SEQIDNO:109,SEQIDNO:lll,SEQIDNO:113,SEQIDNO:115,SEQIDNO:117,SEQ25IDNO:119,SEQIDNO:121,SEQIDNO:123,SEQIDNO:125,SEQIDNO:127,SEQIDNO:129,SEQIDNO:131,SEQIDNO:133,SEQIDNO:135,SEQIDNO:137,SEQIDNO:139,SEQIDNO:141,SEQIDNO:143,SEQIDNO:145,SEQIDNO:147,SEQIDNO:149,SEQIDNO:151,SEQIDNO:153,SEQIDNO:155,SEQIDNO:157,SEQIDNO:159,SEQIDNO:161,SEQIDNO:163和30SEQIDNO:165;也參見下面的表1、2和3、實施例1和4,以及序列表。—方面,本發明提供了編碼纖維素酶的核酸,例如編碼內切葡聚糖酶、纖維二糖水解酶和/或P-葡糖苷酶的核酸,包括本發明的示例性多核苷酸序列,也參見下面的表l、2和3、實施例1和4,和序列表,以及由它們編碼的多肽,包括本發明的酶,諸如本發明的示例性多肽,如SEQIDNO:2,SEQIDNO:4,SEQID35NO:6,SEQIDNO:8,SEQIDNO:10,SEQIDNO:12,SEQIDNO:14,SEQIDNO:16,SEQIDNO:18,SEQIDNO:20,SEQIDNO:22,SEQIDNO:24,SEQID20SEQIDNO:21,SEC)IDNO:31'SEQIDNO:41,SEQIDNO:51,SEQIDNO:61,SEQIDNO:71,SEQIDNO:81,SEQIDNO:91:SEQIDNO:23,SEQIDNO:33,SEQIDNO:43,SEQIDNO:53,SEQIDNO:63,SEQIDNO:73,SEQIDNO:83,SEQIDNO:93,NO:26,SEQIDNO:28,SEQIDNO:30,SEQIDNO:32,SEQIDNO:34,SEQIDNO:36,SEQIDNO:38,SEQIDNO:40,SEQIDNO:42,SEQIDNO:44,SEQIDNO:46,SEQIDNO:48,SEQIDNO:50,SEQIDNO:52,SEQIDNO:54,SEQIDNO:56,SEQIDNO:58,SEQIDNO:60,SEQIDNO:62,SEQIDNO:64,SEQID5NO:66,SEQIDNO:68,SEQIDNO:70,SEQIDNO:72,SEQIDNO:74,SEQIDNO:76,SEQIDNO:78,SEQIDNO:80,SEQIDNO:82,SEQIDNO:84,SEQIDNO:86,SEQIDNO:88,SEQIDNO:90,SEQIDNO:92,SEQIDNO:94,SEQIDNO:96,SEQIDNO:98,SEQIDNO:100,SEQIDNO:102,SEQIDNO:104,SEQIDNO:106,SEQIDNO:108,SEQIDNO:llO,SEQIDNO:112,SEQIDNO:114,10SEQIDNO:116,SEQIDNO:118,SEQIDNO:120,SEQIDNO:122,SEQIDNO:124,SEQIDNO:126,SEQIDNO:128,SEQIDNO:130,SEQIDNO:132,SEQIDNO:134,SEQIDNO:136,SEQIDNO:138,SEQIDNO:140,SEQIDNO:142,SEQIDNO:144,SEQIDNO:146,SEQIDNO:148,SEQIDNO:150,SEQIDNO:152,SEQIDNO:154,SEQIDNO:156,SEQIDNO:158,SEQID15NO:160,SEQIDNO:162,SEQIDNO:164和SEQIDNO:166,也參見表1和序列表,其共同的新穎性在於它們來源於共同的來源,例如環境來源。一方面,本發明也提供了編碼纖維素酶的核酸,例如編碼內切葡聚糖酶、纖維二糖水解酶和/或卩-葡糖苷酶的核酸,其共同的新穎性在於它們來源於環境來源,例如混合的環境來源。20—方面,序列比較算法是BLAST2.2.2版本算法,其中過濾設置(filteringsetting)被設置為blastall-pblastp~d"nrpataa"-FF,所有其它選項被設置為預設。本發明的另一方面是分離的或重組的核酸,包括本發明的核酸序列的至少10、15、20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、251100、1150、1200、1250、1300、1350、1400、1450、1500、1550、1600、1650、1700、1750、1800、1850、1900、1950、2000、2050、2100、2200、2250、2300、2350、2400、2450、2500或更多個連續鹼基、與其基本相同的序列、以及與其互補的序列。—方面,所述分離的或重組的核酸編碼具有纖維素酶活性的多肽,例如,30具有內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性的多肽,其是熱穩定的。該多肽在包括如下溫度範圍的條件下可以保持纖維素酶活性大約37。C到大約95'C之間;大約55'C到大約85'C之間;大約70'C到大約95'C之間;或大約9(TC到大約95'C之間。該多肽在如下範圍內的溫度下可以保持纖維素酶活性在大約rC到大約5'C之間,大約5'C到大約15'C之間,大約15'C到大約2535。C之間,大約25'C到大約37'C之間,大約37'C到大約95'C、96'C、97'C、98'C或99。C之間,大約55'C到大約85'C之間,大約70'C到大約75'C之間,或大約90。C到大約99。C,或95'C、96°C、97°C、98'C或99。C,或更高溫度。另一方面,所述分離的或重組的核酸編碼具有纖維素酶活性的多肽,例如,具有內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性的多肽,其是耐熱的。該多肽在暴露於如下範圍內的溫度後可以保持纖維素酶活性37'C5以上到大約95'C,或55'C以上到大約85'C的範圍之內的任何溫度。該多肽在暴露於如下範圍內的溫度後可以保持纖維素酶活性在大約1'C到大約5'C之間,大約5'C到大約15'C之間,大約15'C到大約25'C之間,大約25'C到大約37t:之間,大約37'C到大約95°C、96°C、97'C、98'C或99'C之間,大約55。C到大約85'C之間,大約70'C到大約75'C之間,或大約90'C到大約95'C之間,或更高溫度。一方面,10該多肽在暴露於如下範圍內的溫度後保持纖維素酶活性9(TC以上到大約99°C,或95。C、96°C、97°C、98'C或99'C,在大約pH4.5,或更高。本發明提供了分離的或重組的核酸,包括在嚴緊條件下與本發明的核酸雜交的序列,所述本發明的核酸包括本發明的示例性序列,例如如下所示的序列SEQIDNO:l,SEQIDNO:3,SEQIDNO:5,SEQIDNO:7,SEQIDNO:9,SEQID15NO:ll,SEQIDNO:13,SEQIDNO:15,SEQIDNO:17,SEQIDNO:19,SEQIDSEQIDNO:25,SEQIDNO:27,SEQIDNO:29,SEQIDSEQIDNO:35,SEQIDNO:37,SEQIDNO:39,SEQIDSEQIDNO:45,SEQIDNO:47,SEQIDNO:49,SEQIDSEQIDNO:55,SEQIDNO:57,SEQIDNO:59,SEQIDSEQIDNO:65,SEQIDNO:67,SEQIDNO:69,SEQIDSEQIDNO:75,SEQIDNO:77,SEQIDNO:79,SEQIDSEQIDNO:85,SEQIDNO:87,SEQIDNO:89,SEQIDSEQIDNO:95,SEQIDNO:97,SEQIDNO:99'SEQIDNO:101,SEQIDNO:103,SEQIDNO:105,SEQIDNO:107,SEQIDNO:109,25SEQIDNO:lll,SEQIDNO:113,SEQIDNO:115'SEQIDNO:117,SEQIDNO:119,SEQIDNO:121,SEQIDNO:123,SEQIDNO:125,SEQIDNO:127,SEQIDNO:129,SEQIDNO:131,SEQIDNO:133,SEQIDNO:135,SEQIDNO:137,SEQIDNO:139,SEQIDNO:141,SEQIDNO:143,SEQIDNO:145,SEQIDNO:147,SEQIDNO:149,SEQIDNO:151,SEQIDNO:153'SEQIDNO:155'30SEQIDNO:157,SEQIDNO:159,SEQIDNO:161,SEQIDNO:163或SEQIDNO:165(也參見下面的表l、2和3、實施例1和4),或其片段或其子序列。一方面,該核酸編碼具有纖維素酶活性的多肽,例如,具有內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性。該核酸的長度可以是至少大約10、15、20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、35500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200或更多殘基,或基因的全長或轉錄物的全長。一方面,嚴緊條件包括洗滌步20NO:21NO:31NO:41NO:51NO:61NO:71NO:81NO:91SEQIDNO:23'SEQIDNO:33,SEQIDNO:43,SEQIDNO:53,SEQIDNO:63,SEQIDNO:73,SEQIDNO:83,SEQIDNO:93,驟,包括在0.2XSSC中在大約65'C的溫度洗滌大約15分鐘。本發明提供了核酸探針,其用於鑑定或分離編碼具有纖維素酶活性——例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性——的多肽的核酸,其中所述探針含有核酸序列的至少大約10、15、20、25、30、35、40、545、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000或更多個連續鹼基,所述核酸序列包括本發明的序列或其片段或其子序列,其中所述探針通過結合或雜交來鑑定核酸。該探針可以包括寡核苷酸,該寡核苷酸含有核酸序列的至少大約10到50、大約20到60、大約30到70、大約40到80或大約6010至ljl00個連續鹼基,所述核酸序列包括本發明的序列或其片段或其子序列。本發明提供了核酸探針,其用於鑑定或分離編碼具有纖維素酶活性——例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶活性——的多肽的核酸,其中所述探針包括含有本發明核酸的至少大約10、15、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、550、600、15650、700、750、800、850、900、950、1000或更多殘基所示的序列的核酸,所述本發明核酸例如與本發明的示例性核酸具有至少大約50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、2094%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性的多核苷酸。一方面,序列同一性通過運用序列比較算法的分析或通過視覺觀察來確定。在可選的方面中,該探針可以包括寡核苷酸,該寡核苷酸含有本發明的核酸序列或其子序列的至少大約10到50、大約20到60、大約30到70、大約40到80或大約60到IOO個連續鹼基。25本發明提供了擴增引物序列對,其用於擴增(例如,通過PCR)編碼具有纖維素酶活性——例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性——的多肽的核酸,其中該引物對能夠擴增含有本發明的序列或其片段或子序列的核酸。擴增引物序列對的一個或每一個成員可以包括寡核苷酸,該寡核苷酸包括該序列的至少大約10到50個或更多個連續鹼基,或者包括該序列30的大約10、U、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36或更多個連續鹼基。本發明提供了擴增引物對,其中所述引物對包括第一成員和第二成員,第一成員具有本發明核酸的大約前(5,)12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36或更多個殘基所示的序列,第二35成員含有第一成員的互補鏈的大約前(5,)12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36或更多個殘基所示的序列。本發明提供了通過擴增產生的編碼纖維素酶的核酸,例如編碼內切葡聚糖酶、纖維二糖水解酶和/或p-葡糖苷酶的核酸,所述擴增例如聚合酶鏈反應(PCR),其中使用本發明的擴增引物對。本發明提供了通過擴增產生的編碼纖維素酶的核5酸,例如編碼內切葡聚糖酶、纖維二糖水解酶和/或P-葡糖苷酶的核酸,所述擴增例如聚合酶鏈反應(PCR),其中使用本發明的擴增引物對。本發明提供了通過擴增製備纖維素酶——例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶一一的方法,所述擴增例如聚合酶鏈反應(PCR),其中使用本發明的擴增引物對。一方面,所述擴增引物對從文庫例如基因文庫諸如環境文庫擴增核酸。10本發明提供了擴增核酸的方法,所述核酸編碼具有纖維素酶活性的多肽,例如具有內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性的多肽,所述方法包括用能擴增本發明的核酸序列或其片段或子序列的擴增引物序列對擴增模板核酸。本發明提供了包含本發明的核酸或其子序列的表達序列盒。一方面,表達15序列盒可以包含可操作地連接到啟動子上的核酸。啟動子可以是病毒、細菌、哺乳動物或植物啟動子。一方面,植物啟動子可以是馬鈴薯、稻、玉米、小麥、菸草或大麥啟動子。啟動子可以是組成型啟動子。組成型啟動子可以包括CaMV35S。另一方面,啟動子可以是誘導型啟動子。一方面,啟動子可以是組織特異性啟動子或環境調節型或發育調節型啟動於。因此,啟動子可以是,例如種子特異性、20葉特異性、根特異性、莖特異性或脫落誘導啟動子。一方面,表達序列盒可以進一步包括植物或植物病毒表達載體。本發明提供了克隆載體,包括本發明的表達序列盒(例如載體)或本發明的核酸。克隆載體可以是病毒載體、質粒、噬菌體(phage)、噬粒、粘粒(cosmid)、fos-質粒(fosmid)、細菌噬菌體(bacteriophage)或人工染色體。病毒載體可以包25括腺病毒載體、逆轉錄病毒載體或腺相關病毒載體。克隆載體可以包括細菌人工染色體(BAC)、質粒、細菌噬菌體P1衍生載體(PAC)、酵母人工染色體(YAC)或哺乳動物人工染色體(MAC)。本發明提供了包含本發明的核酸或本發明的表達序列盒(例如載體)或本發明的克隆載體的轉化細胞。一方面,轉化細胞可以是細菌細胞、哺乳動物細胞、30真菌細胞、酵母細胞、昆蟲細胞或植物細胞。一方面,植物細胞可以是大豆、油菜籽、含油種子、番茄、甘蔗、穀類、馬鈴薯、小麥、稻、玉米、菸草或大麥細胞。本發明提供了包含本發明核酸或本發明表達序列盒(例如載體)的轉基因非人動物。一方面,該動物是小鼠、大鼠、豬、山羊或綿羊。35本發明提供了包含本發明核酸或本發明表達序列盒(例如載體)的轉基因植物。轉基因植物可以是穀類植物、玉米植物、馬鈴薯植物、番茄植物、小麥植物、含油種子植物、油菜籽植物、大豆植物、水稻植物、大麥植物或菸草植物。本發明提供了包含本發明核酸或本發明表達序列盒(例如載體)的轉基因種子。轉基因種子可以是穀類種子、玉米種子、小麥粒、含油種子、油菜籽、大豆種子、棕櫚核、向日葵種子、芝麻種子、花生或菸草植物種子。5本發明提供了包含與本發明的核酸互補的核酸序列或能與本發明的核酸在嚴緊條件下雜交的核酸序列的反義寡核苷酸。本發明提供了抑制纖維素酶例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶信息在細胞中翻譯的方法,該方法包括給細胞施用反義寡核苷酸或在細胞中表達反義寡核苷酸,所述反義寡核苷酸包括與本發明的核酸互補的核酸序列或能與本發明的核酸在嚴緊10條件下雜交的核酸序列。一方面,所述反義寡核苷酸的長度在大約10到50、大約20到60、大約30到70、大約40到80或大約60到100個鹼基之間,例如長度為10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、IOO或更多個鹼基。本發明提供了抑制纖維素酶例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶信息在細胞中翻譯的方法,該方法包括給細胞施15用反義寡核苷酸或在細胞中表達反義寡核苷酸,所述反義寡核苷酸包括與本發明的核酸互補的核酸序列或能與本發明的核酸在嚴緊條件下雜交的核酸序列。本發明提供了含有本發明的序列的子序列的雙鏈抑制RNA(RNAi或RNA幹擾)分子(包括小幹擾性RNA,或siRNA,用於抑制轉錄,以及微RNA或miRNA,用於抑制翻譯)。在一個方面,siRNA的長度為大約21至24個殘基之間,或大約20至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、55、60、65、70、75、80、85、90、95、100或更多個雙鏈核苷酸。本發明提供了抑制纖維素酶例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或|3-葡糖苷酶在細胞中的表達,所述方法包括向所述細胞施用雙鏈抑制RNA(siRNA或miRNA)或在所述細胞中表達雙鏈抑制RNA(siRNA25或miRNA),其中所述RNA含有本發明的序列的子序列。本發明提供了分離的或重組的多肽,包括在至少大約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300、325、350或更多個殘基的區域內或者在多肽的全長區域內,與本發明的示例性多肽或肽具有至少大約50%、51%、52%、53%、54%、3055%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性的胺基酸序列。一方面,序列同一性通過運用序列比較算法的分析或通過視覺觀察來確35定。本發明的示例性多肽或肽序列包括SEQIDNO:2,SEQIDNO:4,SEQIDNO:6,SEQDDNO:8,SEQIDNO:IO,SEQIDNO:12,SEQIDNO:14,SEQIDN0:16,SEQIDNO:I8,SEQIDNO:20,SEQIDNO:22,SEQIDNO:24,SEQIDNO:26,SEQIDNO:28,SEQIDNO:30,SEQIDNO:32,SEQIDNO:34,SEQIDNO:36,SEQIDNO:38,SEQIDNO:40,SEQIDNO:42,SEQIDNO:44,SEQIDNO:46,SEQIDNO:48,SEQIDNO:50,SEQIDNO:52,SEQIDNO:54,SEQIDNO:56,5SEQIDNO:58,SEQIDNO:60,SEQIDNO:62,SEQIDNO:64,SEQIDNO:66,SEQIDNO:68,SEQIDNO:70,SEQIDNO:72,SEQIDNO:74,SEQIDNO:76,SEQIDNO:78,SEQIDNO:80,SEQIDNO:82,SEQIDNO:84,SEQIDNO:86,SEQIDNO:88,SEQIDNO:90,SEQIDNO:92,SEQIDNO:94,SEQIDNO:96,SEQIDNO:98,SEQIDNO:100,SEQIDNO:102,SEQIDNO:104'SEQIDNO:106'10SEQIDNO:108'SEQIDNO:llO,SEQIDNO:112,SEQIDNO:114,SEQIDNO:116,SEQIDNO:m,SEQIDNO:120,SEQIDNO:122,SEQIDNO:124,SEQIDNO:126'SEQIDNO:128,SEQIDNO:130,SEQIDNO:132,SEQIDNO:134,SEQIDNO:136,SEQIDNO:138,SEQIDNO:140,SEQIDNO:142,SEQIDNO:144,SEQIDNO:146,SEQIDNO:148,SEQIDNO:150,SEQIDNO:152,15SEQIDNO:154,SEQIDNO:156,SEQIDNO:158,SEQIDNO:160,SEQIDNO:162,SEQIDNO:164和SEQIDNO:166(也參見下面的表1、2禾Q3、實施例l和4,和序列表)及其子序列和其變體。示例性多肽還包括長度為至少大約10、15、20、25、30、35、40、45、50、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600或更多個殘基的片段,或者為酶的全長區域20內的片段。本發明的多肽或肽序列包括由本發明的核酸編碼的序列。本發明的多肽或肽序列包括由本發明的抗體特異性結合的多肽或肽(例如,表位),或可產生本發明的抗體的多肽或肽(例如,免疫原)。—方面,本發明的多肽具有至少一種纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶活性。在可選的方面,本發明的多25核苷酸編碼具有至少一種纖維素酶活性的多肽,例如具有內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性的多肽。—方面,纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性,是熱穩定的。多肽在包括如下溫度範圍的條件下可以保持纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或卩-葡糖30苷酶活性大約rC到大約5'C之間,大約5'C到大約15'C之間,大約15'C到大約25'C之間,大約25。C到大約37。C之間,大約37X:到大約95。C之間,大約55'C到大約85。C之間,大約7(TC到大約75。C之間,或大約90'C到大約95'C之間,或更高溫度。在另一方面,纖維素酶活性,例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶活性,可以是耐熱的。該多肽在暴露於如下範圍內的35溫度後可以保持纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶活性37'C以上到大約95'C,或55'C以上到大約85'C的範圍內。一方面,該多肽在pH4.5時暴露於90'C以上到大約95'C的溫度後可以保持纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性。本發明的另一方面提供了分離的或重組的多肽或肽,包括本發明的多肽或5肽序列、與其基本上相同的序列、與其互補的序列的至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150或更多個連續鹼基。該肽可以是例如免疫原性片段、基序(例如結合位點)、信號序列、前原序歹'J(preprosequence)或活性位點。本發明提供了分離的或重組的核酸,包括編碼具有纖維素酶活性例如,內]0切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶活性的多肽和信號序列的序列,其中所述核酸包括本發明的序列。信號序列可以來源於另一種纖維素酶,例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶,或者非纖維素酶,例如非內切葡聚糖酶、非纖維二糖水解酶和/或非p-葡糖苷酶(異源)。本發明提供了分離的或重組的核酸,包括編碼具有纖維素酶活性,例如內切葡聚15糖酶、纖維二糖水解酶、甘露聚糖酶和/或(3-葡糖苷酶活性的多肽的序列,其中所述序列不含有信號序列,所述核酸包括本發明的序列。一方面,本發明提供了分離的或重組的多肽,包括本發明的多肽,其缺少信號序列的全部或部分。一方面,所述分離的或重組的多肽可以包括本發明的多肽,其含有異源信號序列,例如異源纖維素酶信號序列如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖20苷酶信號序列,或非纖維素酶信號序列如非內切葡聚糖酶、非纖維二糖水解酶和/或非P-葡糖苷酶信號序列。—方面,本發明提供了嵌合蛋白,其包括含有本發明的信號序列的第一結構域和至少第二結構域。該蛋白可以是融合蛋白。第二結構域可以包括酶。該酶可以是非酶(non-enzym(S)。25本發明提供了嵌合多肽,包括含有本發明的信號肽(SP)、前原序列和/或催化結構域(CD)的至少第一結構域以及含有異源多肽或肽的第二結構域,其中所述異源多肽或肽不與所述信號肽(SP)、前原序列和/或催化結構域(CD)天然相關。一方面,所述異源多肽或肽不是纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或(3-葡糖苷酶。所述異源多肽或肽可以在所述信號肽(SP)、30前原序列和/或催化結構域(CD)的氨基端、羧基端或兩端。本發明提供了編碼嵌合多肽的分離的或重組的核酸,其中所述嵌合多肽包括含有本發明的信號肽(SP)、前原結構域和/或催化結構域(CD)的至少第一結構域以及含有異源多肽或肽的第二結構域,其中所述異源多肽或肽不與所述信號肽(SP)、前原結構域和/或催化結構域(CD)天然相關。35本發明提供了分離的或重組的信號序列(例如,信號肽),其包括本發明的多肽的殘基1至14、1至15、1至16、1至17、1至18、1至19、1至20、115NO:26NO:36NO:46NO:56NO:66NO:76NO:86NO:96SEQIDNO:28,SEQIDNO:38,SEQIDNO:48,SEQIDNO:58,SEQIDNO:68,SEQIDNO:78'SEQIDNO:88,SEQIDNO:98,SEQIDNO:24,SEQIDSEQIDNO:34,SEQIDSEQIDNO:44,SEQIDSEQIDNO:54,SEQIDSEQIDNO:64,SEQIDSEQIDNO:74,SEQIDSEQIDNO:84,SEQIDSEQIDNO:94,SEQID至21、1至22、1至23、1至24、1至25、1至26、1至27、1至28、1至28、1至30、1至31、1至32、1至33、1至34、1至35、1至36、1至37、1至38、1至40、1至41、1至42、1至43、1至44、1至45、1至46或1至47所示的序列或由本發明的多肽的殘基1至14、1至15、1至16、1至17、1至18、1至19、51至20、1至21、1至22、1至23、1至24、1至25、1至26、1至27、1至28、1至28、1至30、1至31、1至32、1至33、1至34、1至35、1至36、1至37、1至38、1至40、1至41、1至42、1至43、1至44、1至45、1至46或1至47所示的序列組成,本發明的多肽例如示例性的SEQIDNO:2,SEQIDNO:4,SEQIDNO:6,SEQIDNO:8,SEQIDNO:10,SEQIDNO:12'SEQIDNO:14,SEQID10NO:16,SEQIDNO:18,SEQIDNO:20,SEQIDNO:22,SEQIDNO:30,SEQIDNO:32,SEQIDNO:40,SEQIDNO:42,SEQIDNO:50,SEQIDNO:52,SEQIDNO:60,SEQIDNO:62,SEQIDNO:70,SEQIDNO:72,SEQIDNO:80,SEQIDNO:82,SEQIDNO:90,SEQIDNO:92,SEQIDNO:100,SEQIDNO:102,SEQIDNO:104,SEQIDNO:106,SEQIDNO:108,SEQIDNO:110,SEQIDNO:112,SEQIDNO:114,20SEQIDNO:116,SEQIDNO:118,SEQIDNO:120,SEQIDNO:122,SEQIDNO:124,SEQIDNO:I26,SEQIDNO:128,SEQIDNO:130,SEQIDNO:132,SEQIDNO:134,SEQIDNO:136,SEQIDNO:138,SEQIDNO:140,SEQIDNO:142,SEQIDNO:144,SEQIDNO:146,SEQIDNO:148,SEQIDNO:150,SEQIDNO:152,SEQIDNO:154,SEQIDNO:156,SEQIDNO:158,SEQID25NO:160,SEQIDNO:162,SEQIDNO:164或SEQIDNO:166(也參見下面的表1、2和3、實施例1和4,以及序列表)。一方面,本發明提供了信號序列,其包括本發明的多肽的前14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、3064、65、66、67、68、69、70或更多個氨基端殘基。—方面,纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶活性,包括在大約37i:每毫克蛋白大約1到大約1200單位,或每毫克蛋白大約100到大約1000單位的範圍內的比活性。另一方面,纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或卩-葡糖苷酶活性,35包括每毫克蛋白從大約100到大約1000單位,或從大約500到大約750單位的比活性。可以選擇地,纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性,包括在37'C每毫克蛋白從大約1到大約750單位,或每毫克蛋白大約500到大約1200單位的範圍內的比活性。一方面,纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性,包括在37'C每毫克蛋白從大約1到大約500單位,或每毫克蛋白大約750到大約10005單位的範圍內的比活性。另一方面,纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性,包括在37。C每毫克蛋白從大約1到大約250單位的範圍內的比活性。可選地,纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或卩-葡糖苷酶活性,包括在37'C每毫克蛋白從大約1到大約100單位的範圍內的比活性。10另一方面,耐熱性包括在被加熱到高溫後,保持在37'C時纖維素酶例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶的比活性的至少一半。可以選擇地,耐熱性可以包括在被加熱到高溫後,保持在37'C每毫克蛋白從大約1到大約1200單位,或每毫克蛋白大約500到大約1000單位的範圍內的比活性。另一方面,耐熱性可以包括在被加熱到高溫後,保持在37'C每毫克蛋白從大約115到大約500單位的範圍內的比活性。本發明提供了本發明的分離的或重組的多肽,其中所述多肽包括至少一個糖基化位點。一方面,糖基化可以是N-連接糖基化。一方面,多肽可以在畢赤酵母(i^mton'"或裂變酵母(S./w&)中被表達後被糖基化。—方面,多肽可以在包括大約pH6.5、pH6、pH5.5、pH5、pH4.5或pH204的更酸性的條件下保持纖維素酶活性,例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性。另一方面,多肽可以在包括大約pH7、pH7.5、pH8.0、pH8.5、pH9、pH9.5、pH10、pH10.5或pH11或更鹼性的條件下保持纖維素酶活性,例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或(3-葡糖苷酶活性。一方面,多肽可以在暴露於包括大約pH6.5、pH6、pH5.5、pH5、pH254.5或pH4的更酸性pH的條件下保持纖維素酶活性,例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或|3-葡糖苷酶活性。另一方面,多肽可以在暴露於包括大約pH7、pH7.5、pH8.0、pH8.5、pH9、pH9.5、pH10、pH10.5或pH11或更鹼性pH的條件下保持纖維素酶活性,例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶活性。30—方面,本發明的纖維素酶,例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶,在鹼性條件下,例如在腸道如小腸的鹼性條件下,具有活性。一方面,多肽在暴露於胃的酸性pH後保持活性。本發明提供了含有本發明的多肽(包括肽)的蛋白製劑,其中該蛋白製劑包括液體、固體或凝膠。本發明提供了包含本發明的多肽和第二蛋白或結構域的35異二聚體。該異二聚體的第二成員可以是不同的纖為素酶,例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶,不同的酶或另一種蛋白。一方面,第二域結構可以是多肽,異源二聚體可以是融合蛋白。一方面,第二結構域可以是表位(epitope)或標記物(tag)。一方面,本發明提供了包含本發明的多肽的同型二聚體。本發明提供了具有纖維素酶活性例如內切葡聚糖酶、纖維二糖水解酶、甘5露聚糖酶和/或P-葡糖苷酶活性的固定化多肽(包括肽),其中所述固定化多肽包括本發明的多肽、由本發明的核酸編碼的多肽、或含有本發明的多肽和第二結構域的多肽。一方面,多肽可以被固定在細胞、金屬、樹脂、聚合物、陶瓷、玻璃、微電極、石墨顆粒、珠子、凝膠、平板、陣列或毛細管上。本發明還提供了包含本發明的固定化核酸的陣列,包括,例如本發明的探10針。本發明還提供了包含本發明的抗體的陣列。本發明提供了分離的或重組的抗體,其與本發明的多肽或與由本發明的核酸編碼的多肽特異性結合。本發明的這些抗體可以是單克隆或多克隆抗體。本發明提供了包含本發明的抗體的雜交瘤,所述抗體例如,與本發明的多肽或與由本發明的核酸編碼的多肽特異性結合的抗體。本發明提供了編碼這些抗體的核酸。15本發明提供了分離或鑑定具有纖維素酶活性如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性的多肽的方法,該方法包括如下步驟(a)提供本發明的抗體;(b)提供包含多肽的樣品;和(c)將步驟(b)的樣品與步驟(a)的抗體在所述抗體能與所述多肽特異性結合的條件下接觸,從而分離或鑑定具有纖維素酶活性如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖20苷酶活性的多肽。本發明提供了製備抗纖維素酶抗體——例如抗內切葡聚糖酶抗體、抗纖維二糖水解酶抗體和/或抗P-葡糖苷酶抗體——的方法,該方法包括以足夠的量向非人動物施用本發明的核酸或本發明的多肽或其子序列,所述的量足以產生體液免疫應答,由此製備抗纖維素酶抗體,例如,—抗內切葡聚糖酶抗體V杭纖餘二糖水25解酶抗體和/或抗P-葡糖苷酶抗體。本發明提供了產生抗纖維素酶免疫應答(細胞應答或體液應答)——例如抗內切葡聚糖酶免疫應答、抗纖維二糖水解酶免疫應答和/或抗P-葡糖苷酶免疫應答——的方法,該方法包括以足以產生免疫應答(細胞應答或體液應答)的量向非人動物施用本發明的核酸或本發明的多肽或其子序列。30本發明提供了產生重組多肽的方法,包括如下步驟(a)提供與啟動子可操作地連接的本發明的核酸;和(b)在允許多肽表達的條件下表達步驟(a)的核酸,從而產生重組多肽。一方面,該方法可進一步包括用步驟(a)的核酸轉化宿主細胞,隨後表達步驟(a)的核酸,從而在轉化細胞中產生重組多肽。本發明提供了用於鑑定具有纖維素酶活性如內切葡聚糖酶、纖維二糖水解35酶、甘露聚糖酶和/或p-葡糖苷酶活性的多肽的方法,該方法包括如下步驟(a)提供本發明的多肽;或由本發明的核酸編碼的多肽;(b)提供纖維素酶底物,例如內切葡聚糖酶底物、纖維二糖水解酶底物、甘露聚糖酶底物和/或p-葡糖苷酶底物;和(c)用步驟(b)的底物接觸步驟(a)的多肽或其片段或其變體,並且檢測底物量的降低或反應產物量的增加,其中底物量的降低或反應產物量的增加檢測出具有纖維素酶活性如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡5糖苷酶活性的多肽。一方面,底物可以是含纖維素的化合物。本發明提供了用於鑑定纖維素酶底物的方法,如內切葡聚糖酶底物、纖維二糖水解酶底物、甘露聚糖酶底物和/或p-葡糖苷酶底物,包括如下步驟(a)提供本發明的多肽;或由本發明的核酸編碼的多肽;(b)提供測試底物;和(C)用步驟(b)的測試底物接觸步驟(a)的多肽,並且檢測底物量的降低或反應產物10量的增加,其中底物量的降低或反應產物量的增加檢測出作為纖維素酶底物如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶的測試底物。本發明提供了確定測試化合物是否與多肽特異性結合的方法,包括如下步驟(a)在允許核酸翻譯為多肽的條件下表達核酸或包含核酸的載體,其中所述核酸包括本發明的核酸,或提供本發明的多肽;(b)提供測試化合物;(c)用測15試化合物接觸多肽;和(d)確定步驟(b)的測試化合物是否與多肽特異性結合。本發明提供了用於鑑定纖維素酶活性如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性的調節劑的方法,包括如下步驟(a)提供本發明的多肽,或由本發明的核酸編碼的多肽;(b)提供測試化合物;和(C)用步驟(b)的測試化合物接觸步驟(a)的多肽,並測定纖維素酶如內切葡聚糖酶、纖20維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶的活性,其中在存在測試化合物的情況下測定的纖維素酶活性——如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶活性——與不存在測試化合物的情況下測定的活性相比的變化,確定了該測試化合物調節纖維素酶活性,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶莉或p-葡糖苷酶活性。一方面T纖維素酶活性,例扭內切葡聚糖酶、纖雒25二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性,可以通過提供纖維素酶底物,例如內切葡聚糖酶底物、纖維二糖水解酶底物、甘露聚糖酶底物和/或p-葡糖苷酶底物,並檢測底物量的降低或反應產物量的增加,或底物量的增加或反應產物量的降低來測量。與沒有測試化合物時底物或反應產物的量相比,有測試化合物時底物量的降低或反應產物量的增加鑑定出作為纖維素酶如內切葡聚糖酶、纖維二糖30水解酶、甘露聚糖酶和/或P-葡糖苷酶活性的激活劑的測試化合物。與沒有測試化合物時底物或反應產物量相比,有測試化合物時底物量的增加或反應產物量的降低鑑定出作為纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性的活性的抑制劑的測試化合物。本發明提供了計算機系統,該系統包括處理器和數據存儲設備,其中所述35數據存儲設備上已經存儲了本發明的多肽序列或核酸序列(例如由本發明的核酸編碼的多肽或肽)。一方面,計算機系統可以進一步包括序列比較算法和數據存儲設備,其中數據存儲設備上已經存儲了至少一個參考序列。另一方面,序列比較算法包括可指出多態現象(多態性)的電腦程式。一方面,計算機系統可以進一步包括在所述序列中鑑定一個或多個特徵的鑑定器(標識符,identifiers本發明提供了計算機可讀介質,其上已經存儲了本發明的多肽序列或核酸序列。本發5明提供了用於鑑定序列中的特徵的方法,包括如下步驟(a)使用可鑑定序列中的一個或多個特徵的電腦程式讀取序列,其中所述序列包括本發明的多肽序列或核酸序列;和(b)用所述電腦程式鑑定序列中的一個或多個特徵。本發明提供了將第一序列與第二序列進行比較的方法,包括如下步驟(a)通過使用可比較序列的電腦程式讀取第一序列和第二序列,其中第一序列包括本發明的多肽10序列或核酸序列;和(b)用所述電腦程式確定第一序列和第二序列之間的差異。確定第一序列和第二序列之間差異的步驟可以進一步包括鑑定多態性的步驟。一方面,該方法可以進一步包括可鑑定序列中的一個或多個特徵的鑑定器。另一方面,該方法可以包括使用電腦程式讀取第一序列,並鑑定該序列中的一個或多個特徵。15本發明提供了從環境樣品中分離或回收核酸的方法,所述核酸編碼具有纖維素酶活性如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性的多肽,該方法包括如下步驟(a)提供用於擴增編碼具有纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶活性的多肽的核酸的擴增引物序列對,其中所述引物對能擴增本發明的核酸;(b)從環境樣品中分離核酸,20或處理環境樣品,以便樣品中的核酸可實現與擴增引物對雜交;和(c)將步驟(a)的擴增引物對與步驟(b)的核酸結合,並從環境樣品中擴增核酸,從而從環境樣品中分離或回收編碼具有纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶活性的多肽的核酸。擴增引物序列對的一個或每一成員可以包括寡核苷酸,該寡核苷酸包括本發明的擴增引物序列對,例如,具有本發朋的序25列的至少大約10到50個連續鹼基。本發明提供了從環境樣品中分離或回收核酸的方法,所述核酸編碼具有纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性的多肽,該方法包括如下步驟(a)提供包含本發明的核酸或其子序列的多核苷酸探針;(b)從環境樣品分離核酸,或處理環境樣品,以便樣品中的核酸可實現與步30驟(a)的多核苷酸探針雜交;(c)將步驟(a)的多核苷酸探針與步驟(b)的分離的核酸或處理的環境樣品結合;和(d)分離與步驟(a)的多核苷酸探針特異性雜交的核酸,從而從環境樣品中分離或回收編碼具有纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性的多肽的核酸。環境樣品可以包括水樣品、液體樣品、土壤樣品、空氣樣品或生物樣品。一方面,生物樣品可35以來源於細菌細胞、原生動物細胞、昆蟲細胞、酵母細胞、植物細胞、真菌細胞或哺乳動物細胞。本發明提供了產生編碼具有纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或)3-葡糖苷酶活性的多肽的核酸變體的方法,該方法包括如下步驟(a)提供包括本發明的核酸的模板核酸;和(b)在模板序列中修飾、刪除或添加一個或多個核苷酸,或進行修飾、刪除和添加的組合,以產生模板核酸的變體。5—方面,該方法可以進一步包括表達變體核酸,以產生變體纖維素酶多肽,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶多肽。修飾、添加或刪除通過包括如下方法中的方法來引入,包括易錯PCR、改組(重排,shuffling)、寡核苷酸誘導的定向突變、裝配PCR、有性PCR誘變、體內誘變、盒式誘變、遞歸整體誘變(recursiveensemblemutagenesis)、指數整體誘變、位點特異性誘變、10基因再裝配、基因位點飽和誘變(GSSM)、合成連接重裝配(SLR)、染色體飽和誘變(CSM)或其組合。另一方面,修飾、添加或刪除通過如下方法的方法引入包括重組、遞歸序列重組、硫代磷酸酯修飾的DNA誘變、含尿嘧啶模板誘變、缺口雙重誘變(gappedduplexmutagenesis)、點錯配修復誘變、修復缺陷型宿主株誘變、化學誘變、放射誘變、缺失誘變、限制選擇誘變、限制純化誘變、人工基因15合成、整體誘變、嵌合核酸多聚體生成及其組合。—方面,該方法可以被反覆重複,直到產生與模板核酸編碼的多肽相比具有改變的或不同的活性或者改變的或不同的穩定性的纖維素酶,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或(3-葡糖苷酶。一方面,變體纖維素酶多肽,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶多肽,是耐熱的,20在暴露於升高的溫度之後可以保持一些活性。另一方面,與模板核酸編碼的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶相比,變體纖維素酶多肽,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或|3-葡糖苷酶多肽,具有增加的糖基化。可以選擇地,變體纖維素酶多肽,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶多肽,在高溫下具有纖維素酶話性,25例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性,其中由模板核酸編碼的纖維素酶,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶,在高溫下沒有活性。一方面,該方法可以被反覆重複,直到產生具有與模板核酸的密碼子使用有所不同的密碼子使用的纖維素酶編碼序列,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或l3-葡糖苷酶編碼序列。另一方面,該30方法可以被反覆重複,直到產生具有比模板核酸的信息表達或穩定性更高或更低水平的信息表達或穩定性的纖維素酶基因,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶基因。本發明提供了在編碼具有纖維素酶活性——如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶活性——的多肽的核酸中修飾密碼子以增加其35在宿主細胞中的表達的方法,該方法包括如下步驟(a)提供編碼具有纖維素酶活性——如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性一一的多肽的本發明的核酸;和(b)鑑定步驟(a)的核酸中非優選或較不優選的密碼子,用優選的或中度使用(neutrallyused)的密碼子來代替,所述優選或中度使用的密碼子編碼與被取代的密碼子相同的胺基酸,其中優選密碼子是在宿主細胞的基因的編碼序列中過度表現的密碼子,非優選或較不優選密碼子是在宿主細5胞的基因的編碼序列中表現不足的密碼子,從而修飾核酸以增加其在宿主細胞中的表達。本發明提供了在編碼具有纖維素酶活性——如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性——的多肽的核酸中修飾密碼子的方法,該方法包括如下步驟(a)提供本發明的核酸;和(b)鑑定歩驟(a)的核酸中的10密碼子,並用不同的密碼子來代替,所述不同的密碼子編碼與被取代的密碼子相同的胺基酸,從而修飾在編碼纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶的核酸中的密碼子。本發明提供了在編碼具有纖維素酶活性——如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性——的多肽的核酸中修飾密碼子以增加其15在宿主細胞中的表達的方法,該方法包括如下步驟(a)提供編碼纖維素酶多肽如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶多肽的本發明核酸;和(b)鑑定步驟(a)的核酸中的非優選或較不優選密碼子,並用優選的或中度使用的密碼子來代替,所述優選或中度使用的密碼子編碼與被取代的密碼子相同的胺基酸,其中優選密碼子是在宿主細胞的基因的編碼序列中過度表現的密20碼子,非優選或較不優選密碼子是在宿主細胞的基因的編碼序列中表現不足的密碼子,從而修飾核酸以增加其在宿主細胞中的表達。本發明提供了在編碼具有纖維素酶活性——如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性——的多肽的核酸中修飾密碼子以降低其在宿主細胞中的表達的方法,該方法包括如下步驟(a)提供本發明的核酸;和25(b)鑑定步驟(a)的核酸中的至少一個優選密碼子,並用非優選的或較不優選的密碼子來代替,所述非優選或較不優選的密碼子編碼與被取代的密碼子相同的胺基酸,其中優選密碼子是在宿主細胞的基因的編碼序列中過度表現的密碼子,非優選或較不優選的密碼子是在宿主細胞的基因的編碼序列中表現不足的密碼子,從而修飾核酸以降低其在宿主細胞中的表達。一方面,宿主細胞可以是細菌30細胞、真菌細胞、昆蟲細胞、酵母細胞、植物細胞或哺乳動物細胞。本發明提供了用於產生核酸文庫的方法,所述核酸編碼一系列的被修飾的纖維素酶——例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶——活性位點或底物結合位點,其中被修飾的活性位點或底物結合位點來源於第一核酸,所述第一核酸包含編碼第一活性位點或第一底物結合位點的序列,該方35法包括如下步驟(a)提供第一核酸,其編碼第一活性位點或第一底物結合位點,其中所述第一核酸序列包括在嚴緊條件下與本發明的核酸雜交的序列,所述核酸編碼纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性位點或纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或卩-葡糖苷酶底物結合位點;(b)提供一組誘變寡核苷酸,其在第一核酸的多個目標密碼子處編碼天然發生的胺基酸變體;和(C)使用該組誘變寡核苷酸,產生一組編碼活5性位點或編碼底物結合位點的變體核酸,其在被誘變的每一胺基酸密碼子處編碼一定範圍的胺基酸變化,從而產生編碼多個被修飾的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性位點或底物結合位點的核酸文庫。一方面,該方法包括通過包括如下方法中的方法誘變步驟(a)的第一核酸優化的定向進化系統、基因位點飽和誘變(GSSM)、合成連接重裝配(SLR)、易10錯PCR、改組、寡核苷酸誘導的定向突變、裝配PCR、有性PCR誘變、體內誘變、盒式誘變、遞歸整體誘變、指數整體誘變、位點特異性誘變、基因再裝配及其組合。另一方面,該方法包括通過包括如下方法中的方法誘變步驟(a)的第一核酸或變體重組、遞歸序列重組、硫代磷酸酯修飾的DNA誘變、含尿嘧啶模板誘變、缺口雙重誘變、點錯配修復誘變、修復缺陷型宿主株誘變、化學誘變、放射誘變、15缺失誘變、限制選擇誘變、限制純化誘變、人工基因合成、整體誘變、嵌合核酸多聚體生成及其組合。本發明提供了產生小分子的方法,包括如下步驟(a)提供多個能合成或修飾小分子的生物合成酶,其中這些酶中的一種酶包括由本發明的核酸編碼的纖維素酶,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或卩-葡糖苷酶;(b)20為步驟(a)的至少一種酶提供底物;和(c)將步驟(b)的底物與這些酶在能促進多個生物催化反應的條件下通過一系列生物催化反應進行反應,以產生小分子。本發明提供了修飾小分子的方法,包括如下步驟(a)提供纖維素酶,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或(3-葡糖苷酶,其中該酶包括本發明的多肽,或由本發明的核酸編碼的多肽,或其子序列;(b)提供小分子;和(c)將25步驟(b)的小分子與步驟(a)的酶在能促進由纖維素酶如內切葡聚糖酶、纖維一.糖水解酶、甘露聚糖酶和/或(3-葡糖苷酶催化的酶促反應的條件下進行反應,從而通過纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶酶促反應修飾小分子。一方面,該方法可以包括為步驟(a)的酶提供多個小分子底物,從而產生通過由纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶30和/或卩-葡糖苷酶催化的至少一種酶促反應產生的被修飾小分子的文庫。一方面,該方法可以包括多個其它的酶,在有助於這些酶介導的多個生物催化反應的條件下使用這些酶,以形成由多個酶促反應產生的被修飾小分子的文庫。另一方面,該方法可以進一步包括測試該文庫以確定該文庫中是否存在表現出期望活性的特定被修飾小分子的步驟。測試該文庫的步驟可以進一步包括系統地去除所有但保35留一個用於產生文庫中多個被修飾小分子中的一部分的生物催化反應,方法是通過測試被修飾小分子的所述部分中存在或不存在具有期望活性的特定被修飾小分子,鑑定出產生具有期望活性的特定修飾小分子的至少一個特定生物催化反應。本發明提供了確定纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或(3-葡糖苷酶的功能片段的方法,包括如下步驟(a)提供纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶,其中該酶包括本發明5的多肽或由本發明的核酸編碼的多肽、或其子序列;和(b)從步驟(a)的序列刪除多個胺基酸殘基,並測試剩餘的子序列的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶活性,從而確定纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或(3-葡糖苷酶的功能片段。一方面,纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶活性通過提供纖維10素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶底物並檢測底物量的減少或反應產物量的增加來測量。本發明提供了通過使用實時代謝流(real-timemetabolicflux)分析進行新的或修飾的表型的全細胞工程改造的方法,該方法包括如下步驟(a)通過修飾細胞的遺傳組成產生修飾的細胞,其中所述遺傳組成通過將本發明的核酸加入到15細胞來修飾(b)培養修飾的細胞以產生多個修飾的細胞;(c)通過實時監控步驟(b)的細胞培養物來測量該細胞的至少一個代謝參數;和(d)分析步驟(c)的數據,以確定被測量的參數是否與在類似條件下未修飾細胞中的參照測量值不同,從而使用實時代謝流量分析鑑定細胞中的工程表型。一方面,細胞的遺傳組成可以通過包括在細胞中序列的刪除或序列的修飾,或敲除基因的表達的方法來20修飾。一方面,該方法可以進一步包括選擇含有新的工程表現型的細胞。另一方面,該方法可以包括培養被選擇的細胞,從而產生包含新的工程表型的新細胞株。本發明提供了增加纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或(3-葡糖苷酶的多肽的耐熱性或熱穩定性的方法,該方法包括糖基化纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶的多肽,其中25該多肽包括本發明的多肽或由本發明的核酸序列編碼的多肽的至少三十個連續胺基酸,從而增加纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或卩-葡糖苷酶的多肽的耐熱性或熱穩定性。一方面,纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶的比活性可以在大於大約37'C到大約95'C的溫度範圍內是熱穩定的或耐熱的。30本發明提供了在細胞中過量表達重組纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶的多肽的方法,該方法包括表達含有核酸的載體,該核酸包括本發明的核酸或本發明的核酸序列,其中序列同一性通過使用序列比較算法的分析或通過視覺觀察來確定,其中過量表達通過使用高活性啟動子、雙順反子(dicistronic)載體或通過該載體的基因擴增來實現。35本發明提供了產生轉基因植物的方法,該方法包括如下步驟(a)將異源核酸序列引入細胞中,其中異源核酸序列包括本發明的核酸序列,從而產生轉化的植物細胞;和(b)從轉化的細胞產生轉基因植物。一方面,歩驟(a)可以進一步包括通過植物細胞原生質體的電穿孔或顯微注射引入異源核酸序列。另一方面,歩驟(a)可以進一歩包括通過DNA微粒轟擊(DNAparticlebombardment)將異源核酸序列直接引入植物組織中。可以選擇地,歩驟(a)可以進一歩包括使5用根瘤農桿菌(Jgra6ac/m'ww/M膨/adms)宿主將異源核酸序列引入植物細胞DNA中。一方面,植物細胞可以是甘蔗、甜菜、大豆、番茄、馬鈴薯、玉米、稻、小麥、菸草或大麥細胞。本發明提供了在植物細胞中表達異源核酸序列的方法,該方法包括如下步驟(a)用與啟動子可操作地連接的的異源核酸序列轉化植物細胞,其中異源核10酸序列包括本發明的核酸;(b)在異源核酸序列可在植物細胞中表達的條件下培養所述植物。本發明提供了在植物細胞中表達異源核酸序列的方法,該方法包括如下步驟(a)用與啟動子可操作地連接的的異源核酸序列轉化植物細胞,其中異源核酸序列包括本發明的序列;(b)在異源核酸序列可在植物細胞中表達的條件下培養所述植物。15本發明提供了飼料或食物,其含有本發明的多肽或本發明的核酸編碼的多肽。一方面,本發明提供了食品、飼料、液體如飲料(如果汁或啤酒)、麵包或麵團或麵包產品、或飲料前體(例如,麥芽汁),其含有本發明的多肽。本發明提供了動物的食物或營養補充劑,其含有本發明的多肽,例如,由本發明的核酸編碼的多肽。20—方面,食物或營養補充劑中的多肽可以被糖基化。本發明提供了可食用的酶輸送基質,其含有本發明的多肽,例如,由本發明的核酸編碼的多肽。一方面,該輸送基質包括丸劑。一方面,多肽可被糖基化。一方面,纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶的活性是耐熱的。另一方面,纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或|3-葡糖苷酶25的活性是熱穩定的。本發明提供了含有本發明的多肽的食物、飼料或營養補充劑。本發明提供了將纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶用作動物飲食中的營養補充劑的方法,所述方法包括製備含有纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶的營養添加物,所述纖維30素酶包含本發明的多肽的至少三十個連續胺基酸;以及向動物施用所述營養添加物。動物可以是人、反芻動物或單胃動物。通過在選自細菌、酵母、植物、昆蟲、真菌和動物的生物體中表達編碼纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶的多核苷酸,可以製備纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或|3-葡糖苷酶。所述生物體可選自裂變酵母(Spow6e)、35釀酒酵母(S.cem^/ae)、畢赤酵母(屍/cWa,網加^)、大腸桿菌(£.co//.)、鏈黴菌屬某種(&re^o/^cwsp.)、桿菌屬某種(£flc///Wlysp.)和乳酸桿菌屬某種"ac/o6ac///2^sp.)。本發明提供了可食用的酶輸送基質,其含有熱穩定的重組纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或(3-葡糖苷酶,如本發明的多肽。本發明提供了向動物輸送纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖5酶和/或(3-葡糖苷酶補充劑的方法,所述方法包括製備丸劑形式的可食用的酶輸送基質,其含有粒狀可食用載體以及熱穩定的重組纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或|3-葡糖苷酶,其中所述丸劑容易將包含在其中的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶分散入含水介質中,以及向所述動物施用該可食用酶輸送基質。重組纖維素酶,例如10內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶,可以包括本發明的多肽。纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶,可被糖基化,以在壓丸條件下提供熱穩定性。該輸送基質可以通過對含有穀物胚芽和纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶的混合物進行壓丸而形成。壓丸條件可包括蒸汽的應用。壓丸條件可包括15應用超過約8(TC的溫度約5分鐘,而該酶保持每毫克蛋白至少大約350到大約900單位的比活性。—方面,本發明提供了藥物組合物,其含有本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶,或者本發明的核酸編碼的多肽。一方面,藥物組合物作為助消化劑。20在某些方面,含纖維素化合物與具有纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性的本發明多肽在約pH3.0至9.0、10.0、ll.O或更高的範圍的pH下接觸。在其它方面,含纖維素化合物與纖維素酶例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶在約55'C、60°C、65°C、70°C、75°C、80°C、85°C、90。C或更高的溫度下接觸。25本發明的一個或多個方面的細節如附圖和下面的描述所示。本發明的其它特徵、目標和優點將通過說明書和附圖以及權利要求而更加清楚。此處引述的所有出版物、專利、專利申請、GenBank序列和ATCC保藏物均被特意地引入,以作為參考,用於所有目的。30下面的附圖是本發明的方面的例證性說明,而不意圖限制權利要求書所包括的本發明的範圍。圖l是一個計算機系統的框圖。圖2是一個流程圖,該圖示意性說明了用於將新核苷酸或蛋白序列與序列35資料庫進行比較以確定該新序列與資料庫中序列之間的同源性水平的過程的一個方面。圖3是一個流程圖,該圖示意性說明了在計算機中確定兩個序列是否同源的過程的一個方面。圖4是一個流程圖,該圖示意性說明了檢測序列中特徵的存在的鑑定過程300的一個方面。5圖5是纖維二搪結構的示意圖。圖6和7示意性說明了來自纖維己糖的反應產物的TLC分析結果,如在下面的實施例1中所詳細討論的。圖8以圖形數據進行例證性說明,顯示了通過本發明的示例性酶22/22a(CBH)從PASC釋放纖維二糖,如在下面的實施例2所詳細討論的。10圖9以圖形數據進行例證性說明,顯示了通過本發明的示例性酶22/22a(CBH)從AVICELMCC釋放纖維二糖,如在下面的實施例2所詳細討論的。圖10以圖表數據進行了例證性說明,顯示了典型的GIGAMATRIXbreakout,其中表達能夠水解甲基傘形基纖維二糖苷的活性克隆被鑑定,如下面的實施例4所詳細討論的。15圖11以圖表數據進行了例證性說明,通過毛細管電泳(CE)分析顯示了所選擇的酶對磷酸溶脹纖維素(phosphoricacid-swollencellulose,PASC)的活性,如下面的實施例4所詳細討論的。圖12以圖表數據進行了例證性說明,數據來自本發明的示例性酶和亞克隆變體在AVICELMicrocrystallineCellulose(MCC)中的分析,其中通過BCA還原20糖測定來分析反應產物,如下面的實施例4所詳細討論的。圖13以圖表數據進行了例證性說明,數據來自一級GSSM篩選分析,如下面的實施例4所詳細討論的。圖14以圖表數據進行了例證性說明,數據來自二級GSSM篩選分析,如下面的實施例4所詳細討論的。25圖15以圖表數據進行了例證性說明,數據來自混合的或"摻合的"GSSM篩選分析,如下面的實施例4所詳細討論的。在不同的附圖中同樣的標記符號表示同樣的要素。發明詳述30本發明提供了具有纖維素酶活性例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶活性的多肽、編碼它們的多核苷酸、以及製備和使用這些多核苷酸和多肽的方法。本發明還提供了纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶,編碼這些酶的多核苷酸、這類多核苷酸和多肽的應用。35—方面,本發明提供了纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶,其具有增強的催化速率,改善了底物水解過程。在催化速率上的這種增加的效率導致在生產糖類上增加的效率,所述糖類隨後可被微生物用於乙醇生產。一方面,產生本發明的酶的微生物與產乙醇微生物一起使用。因此,本發明提供了生產乙醇和製備基於乙醇的"清潔燃料"的方法,例如,用於利用生物乙醇進行的運輸。5—方面,本發明提供了組合物(例如,酶製劑、飼料、藥物、飲食補充物),其包括本發明的酶、多肽或多核苷酸。這些組合物可以以各種形式加以配製,例如液體、凝膠、丸劑、片劑、噴劑、粉末、食物、飼料小丸或包括納米膠囊劑型在內的膠囊劑型。測量纖維素酶活性如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或卩-10葡糖苷酶活性的分析試驗,例如用於確定多肽是否具有纖維素酶活性,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或|3-葡糖苷酶活性的分析試驗,在本領域中是熟知的,並且在本發明的範圍內;參見,例如BakerWL,PanowA,Estimationofcellulaseactivityusingaglucose-oxidase-Cu(II)reducingassayforglucose,JBiochemBiophysMethods.1991Dec,23(4):265-73jSharrockKR,Cellulaseassay15methods:areview,JBiochemBiophysMethods.1988Oct,17(2):81-105;CarderJH,DetectionandquantitationofcellulasebyCongoredstainingofsubstratesinacup-platediffusionassay,AnalBiochem.1986Feb15,153(l):75-9;CanevasciniG.,Acellulaseassaycoupledtocellobiosedehydrogenase,AnalBiochem.1985Jun,147(2):419-27;HuangJS,TangJ,Sensitiveassayforcellulaseanddextranase.Anal20Biochem.1976Jun,73(2):369隱77。本發明使用的反應條件的pH是本發明提供的另一個可變參數。在某些方面,反應的pH在約3.0至約9.0的範圍內。在其它方面,pH為約4.5,或pH為約7.5或pH為約9。在鹼性條件下進行的反應條件也可能是有利的,例如,在本發明的酶的一些工業應用或製藥應用中。25本發明提供了各種形式和配方的本發明的纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶多肽。在本發明的方法中,本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或卩-葡糖苷酶多肽以各種形式和配方使用。例如,純化的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶多肽可以用在酶製劑中,該酶製劑在生物乙醇的30生產中或製藥或飲食助劑應用中使用。可選地,本發明的酶可直接用在生產生物乙醇、製備清潔燃料、處理生物廢物、加工食物、液體或詞料等等的各種工藝中。可選地,本發明的纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶多肽,可使用本領域已知的方法在微生物中表達。在其它方面,本發明的纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/35或P-葡糖苷酶多肽,可在用於本發明的方法之前固定在固體支持物上。將酶固定在固體支持物上的方法在本領域中廣為人知,例如J.Mol.Cat.B:Enzymatic6(1999)29-39;Chivataetal.Biocatalysis:Immobilizedcellsandenzymes,JMol-Cat.37(1986)1-24:Sharmaetal.,ImmobilizedBiomaterialsTechniquesandApplications,Angew.Chem.Int.Ed.Engl.21(1982)837-54:Laskin(Ed.),EnzymesandImmobilizedCellsinBiotechnolog。5核酸、探針和抑制分子(InhibitorvMolecules)本發明提供了分離的和重組的核酸,例如參見下面的表l、2和3,實施例l和4,以及序列表;編碼多肽的核酸,包括本發明的示例性多核苷酸序列,例如,參見表1和序列表;包括表達序列盒,例如含有本發明的核酸的表達載體和各種克隆載體。本發明還包括使用本發明的核酸發現、鑑定或分離新的纖維素酶如內10切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或(3-葡糖苷酶多肽序列的方法。本發明還包括使用本發明的核酸抑制編碼纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶的基因和轉錄物的表達的方法。還提供了修飾本發明的核酸的方法,包括通過例如合成連接重裝配、優化的定向進化系統和/或飽和誘變例如基因位點飽和誘變(GSSM)產生本發明的核15酸變體的方法。術語"飽和誘變"、基因位點飽和誘變或"GSSM"包括使用簡併寡核苷酸引物將點突變引入多核苷酸的方法,如在下面所詳細描述的。術語"優化的定向進化系統"或"優化的定向進化"包括用於重新裝配相關的核酸序列的片段的方法,所述的相關核酸序列例如相關的基因,下面對其進行了詳細解釋。術語"合成連接重裝配"或"SLR"包括以非隨機方式連接寡核苷酸片段的方法,20下面進行了詳細解釋。術語"變體"是指在一個或多個鹼基對、密碼子、內含子、外顯子或胺基酸殘基處被(分別地)修飾的本發明的多核苷酸或多肽,然而它們仍然保持本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或(3-葡糖苷酶生物學活性。變體可以通過許多種方法產生,包括的方法諸如,例如易錯PCR、改組、寡核苷酸誘導的定向突變、裝配PCR、有性PCR誘變、體內誘變、25盒式誘變、遞歸整體誘變、指數整體誘變、位點特異性誘變、基因再裝配、GSSM及其任意組合。本發明的核酸可以通過,例如cDNA文庫的克隆和表達、通過PCR進行的信息或基因組DNA擴增以及類似的技術來製造、分離和/或操縱。例如,本發明的示例性核酸最初來源於環境來源。因此,一方面,本發明提供了編碼纖維素30酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶的核酸,以及由它們編碼的多肽,其共同的新穎性在於它們來源於共同的來源,例如環境來源、混合的培養物或細菌來源。在本發明方法的實踐中,同源基因可以通過操縱模板核酸加以修飾,如同在文中所描述的。本發明可以與本
技術領域:
已知的任何方法或程序或設備一起實35踐,這些方法、程序或設備在科學和專利文獻中有很好的描述。如本文所使用,短語"核酸"或"核酸序列"是指寡核苷酸、核苷酸、多核苷酸,或者寡核苷酸、核苷酸、多核苷酸中任意一種的片段,或者基因組的或合成來源的DNA或RNA,它們可以是單鏈或雙鏈,並且可以代表正義鏈或反義(互補)鏈,或者是指肽核酸(PNA)或者天然或合成來源的任何DNA樣或RNA樣的物質。短語"核酸"或"核酸序列"包括寡核苷酸、核苷酸、多核苷酸,或5者寡核苷酸、核苷酸、多核苷酸中任意一種的片段,或者基因組的或合成來源的DNA或RNA(例如mRNA、rRNA、tRNA、iRNA),它們可以是單鏈或雙鏈,並且可以代表正義鏈或反義鏈,還包括肽核酸(PNA)或者天然或合成來源的任何DNA樣或RNA樣的物質,例如包括iRNA、核糖核蛋白(例如雙鏈iRNA,例如iRNPs)。該術語包括含有天然核苷酸的己知類似物的核酸,例如寡核苷酸。該術10語也包括具有合成骨架的核酸樣結構,例如參見Mata(1997)Toxicol.Appl.Pharmacol.144:189-197;Strauss-Soukup(1997)Biochemistry36:8692-8698;Samstag(1996)AntisenseNucleicAcidDrugDev6:153-156。"寡核苷酸"或者包括單鏈的多脫氧核苷酸,或者包括兩個互補的多脫氧核苷酸鏈,它們可以是化學合成的。這樣的合成的寡核苷酸沒有5'磷酸,因此如果不在存在激酶的情況下採用15ATP添加磷酸,該合成寡核苷酸便不會連接到另一個寡核苷酸上。合成的寡核苷酸可以連接到沒有被去磷酸化的片段上。特定多肽或蛋白的"編碼序列"或編碼特定多肽或蛋白的"核苷酸序列"是這樣的核酸序列,其當置於合適的調節序列的調控下時被轉錄和翻譯成多肽或蛋白質。術語"基因"意指在產生多肽鏈中所涉及的DNA片段;其包括編碼區之20前的區域和之後的區域(前導區(leader)和尾區(trailer)),以及在適用的情況下,可以包括各個編碼片段(外顯子)之間的間插序列(內含子)。啟動子序列"可操作地連接到"編碼序列上,此時RNA聚合酶可以在啟動子處起始轉錄,將編碼序列轉錄成mRNA。正如此處所用,"可操作地連接(operablylinked)"是指兩個或更多個核酸(例如DNA)片段之間的功能關係。"可操作地連接"可以指轉錄調控25序列與被轉錄序列的功能關係。例如,如果啟動子刺激或調節編碼序列例如本發明的核酸在適當的宿主細胞或其它表達系統中的轉錄,那麼該啟動子便是可操作地連接到編碼序列。通常,可操作地連接到被轉錄序列的啟動子轉錄調控序列與被轉錄序列是物理上相鄰的,即它們是順式作用。然而,一些轉錄調控序列,如增強子,不需要與編碼序列物理相鄰或者位於與編碼序列接近的位置,但這些轉30錄調控序列仍能增強編碼序列的轉錄。正如本文所用,術語"表達序列盒(expressioncassette)"指能影響結構基因(即蛋白編碼序列,例如,編碼本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或|3-葡糖苷酶的序列)在與這樣的序列相容的宿主中的表達的核苷酸序列。表達序列盒包括至少一個與多肽編碼序列可操作地連接的啟動35子;並且任選地,可以與其它序列例如轉錄終止信號序列可操作地連接。也可以使用其它的在實現表達的方面必需的或有用的因子,例如增強子、a-因子。因此,表達序列盒也包括質粒、表達載體、重組病毒、任何形式的重組"裸DNA"載體,以及類似物。"載體"包括可以感染、轉染、短暫或永久地轉導細胞的核酸。應該認識到,載體可以是裸核酸、或與蛋白或脂質複合的核酸。該載體任選地包含病毒或細菌核酸和/或蛋白,和/或膜(例如細胞膜、病毒脂質包被等等)。載體包括5但不限於複製子(例如RNA複製子、細菌噬菌體),DNA片段可以連接到這些複製子上從而可被複製。因此,載體包括但不限於RNA、自主複製環狀或線狀DNA或RNA(例如質粒、病毒以及類似物,例如參見美國專利5,217,879),並且包括表達質粒和非表達質粒。在重組微生物或細胞培養物被描述為"表達載體"的宿主的情況下,該載體包括染色體外環狀和線狀DNA,它們可以已經被整合到宿主10染色體中。在載體通過宿主細胞來維持的情況下,該載體或者可以作為自主結構在有絲分裂過程中被細胞穩定地複製,或者被整合進宿主的基因組中。正如此處所用,術語"重組的"包括與"骨架"核酸相鄰的核酸,這些核酸在其天然環境中與該"骨架"核酸是不相鄰的。一方面,為了被富集,核酸表現為在核酸骨架分子群體中有大約5%或更多數量的核酸插入物。本發明的"骨架15分子"包括核酸,如表達載體、自主複製核酸、病毒、整合核酸,以及用於維持或操縱感興趣的核酸插入物的其它載體或核酸。一方面,富集的核酸表現為在重組的骨架分子群體中有大約15%或更多數量的核酸插入物。一方面,富集的核酸表現為在重組的骨架分子群體中有大約50%或更多數量的核酸插入物。一方面,富集的核酸表現為在重組的骨架分子群體中有大約90%或更多數量的核酸插入20物o本發明的一方面是分離的或重組的核酸,包括本發明的序列之一,或者含有本發明的核酸的至少10、15、20、25、30、35、40、50、75、100、150、200、300、400或500或更多個連續鹼基的片段。該分離的或重組的核酸可以包含DNA,包括cDNA、基因組DNA和合成DNA。DNA可以是雙鏈或單鏈,並且如果是單25鏈,可以是編碼鏈或非編碼(反義)鏈。可選地,該分離的或重組的核酸包含RNA。本發明的分離的或重組的核酸可用於製備本發明的多肽之一,或者含有本發明的多肽之一的至少5、10、15、20、25、30、35、40、50、75、100或150或更多個連續胺基酸的片段。因此,本發明的另一方面是分離的或重組的核酸,其編碼本發明的多肽的一種,或者含有本發明的多肽之一的至少5、10、15、20、25、3030、35、40、50、75、100或150或更多個連續胺基酸的片段。這些核酸的編碼序列可以與本發明的核酸之一的編碼序列之一相同或者可以是不同的編碼本發明的多肽之一的編碼序列,所述的多肽具有本發明的多肽之一的至少5、10、15、20、25、30、35、40、50、75、100或150或更多個連續胺基酸,這是遺傳密碼子的冗餘性或簡併性的結果。遺傳密碼子對於本領域技術人員是熟知的,並可以例如在35B.Lewin,GenesVI,OxfordUniversityPress,1997的第214頁上得到。—方面,使用常規技術,例如定點誘變或本領域技術人員熟悉的其它技術,本發明的核酸序列被誘變,以將沉默改變引入本發明的多核苷酸。如本文所使用,"沉默改變(silentchanges)"包括,例如不改變由所述多核苷酸編碼的胺基酸序列的改變。這樣的改變可能是期望的,以通過引入在宿主微生物中頻繁發生的密碼子或密碼子對而增加由宿主產生多肽的水平,該宿主含有編碼所述多肽的10載體。本發明還涉及具有核苷酸改變的多核苷酸,所述核苷酸改變在本發明的多肽中導致胺基酸取代、添加、缺失、融合和截短。使用技術例如定點誘變、隨機化學誘變、外切核酸酶III刪除和其它重組DNA技術,可以導入這樣的核苷酸改變。可選地,這樣的核苷酸改變可以是天然存在的等位基因變體,其通過鑑定在15本文所提供的高嚴緊條件、中度嚴緊條件或低嚴緊條件下特異性雜交到探針的核酸而分離出,所述探針含有本發明的序列(或其互補序列)之一的至少10、15、20、25、30、35、40、50、75、100、150、200、300、400或500或更多個連續鹼基。用於實踐本發明的核酸,不管是RNA、siRNA、miRNA、反義核酸、cDNA、基因組DNA、載體、病毒或其雜合體,都可以從多種來源分離、進行遺傳工程改造、擴增和/或表達/重組產生。從這些核酸產生的重組多肽(例如纖維素酶,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶)可以被單獨地分離25或克隆,並且可測試其期望活性。可以使用任何重組表達系統,包括細菌、哺乳動物、酵母、昆蟲或植物細胞表達系統。可以選擇地,這些核酸可以通過熟知的化學合成技術體外合成,正如例如Adams(1983)J.Am.Chem.Soc.105:661;Belousov(1997)NucleicAcidsRes.25:3440-3444;Frenkel(1995)FreeRadic.Biol.Med.19:373-380;Blommers(1994)30Biochemistry33:7886-7896;Narang(1979)Meth.Enzymol.68:90;Brown(1979)Meth.Enzymol.68:109;Beaucage(1981)Tetra.Lett.22:1859;美國專利4,458,066中所描述的。用於操縱核酸的技術,例如亞克隆、標記探針(例如使用Klenow聚合酶的隨機引物標記、切口平移、擴增)、測序、雜交以及類似的技術在科學和專利文35獻中有很好的描述,例如參見Sambrook編著,MOLECULARCLONING:ALABORATORYMANUAL(2NDED.),1-3巻,ColdSpringHarborLaboratory,(1989);CURRENTPROTOCOLSINMOLECULARBIOLOGY,Ausubel,ed.JohnWiley&Sons,Inc.,NewYork(1997);LABORATORYTECHNIQUESINBIOCHEMISTRYANDMOLECULARBIOLOGY:HYBRIDIZATIONWITHNUCLEICACIDPROBES,PartI.TheoryandNucleicAcidPreparation,Tijssen,ed.Elsevier,N.Y.(1993)。5獲得和操縱用於實踐本發明的方法的核酸的另一個有用方法是從基因組樣品中克隆,並且如果期望的話,篩選和再克隆插入物,插入物可以分離或擴增自例如基因組克隆或cDNA克隆。用於本發明的方法中的核酸的來源包括基因組或cDNA文庫,所述文庫可以包含在例如哺乳動物人工染色體(MACs),例如參見美國專利5,721,118;6,025,155;人類人工染色體,例如參見Rosenfeld(1997)10Nat.Genet.15:333-335:酵母人工染色體(YAC);細菌人工染色體(BAC);PI人工染色體,例如參見Woon(1998)Genomics50:306-316;PI來源的載體(PACs),例如參見Kern(1997)Biotechniques23:120-124;粘粒、重組病毒、噬菌體或質粒中。—方面,編碼本發明的多肽的核酸與能指導翻譯出的多肽或其片段的分泌15的前導序列以適當的位置關係進行裝配。本發明提供了融合蛋白和編碼這些融合蛋白的核酸。本發明的多肽可以被融合到異源肽或多肽上,如N-末端鑑定肽,其給予了期望的特性,如增加的穩定性或簡化的純化特性。本發明的肽和多肽也可以作為融合蛋白被合成和表達,其中所述融合蛋白中連接有一個或多個額外的結構域,例如用於產生免疫原性更強20的肽、以便更易於分離重組合成的肽、以便鑑定和分離抗體和表達抗體的B細胞,等等。有利於檢測和純化的結構域包括,例如金屬螯合肽,如多組氨酸標記和組氨酸-色氨酸模塊,其允許在固定的金屬上純化,還包括蛋白A結構域,其允許在固定的免疫球蛋白上純化,還包括在FLAGS延伸/親和純化系統中所使用的結構域(ImmunexCorp,SeattleWA)。在純化結構域和含有基序的肽或多肽之間包含25可切裂的連接子序列有助於純化,這樣的連接子序列例如Xa因子或腸激酶(Iiwitrogen,SanDiegoCA)。例如,表達載體可以包括編碼表位的核酸序列,其連接到六組氨酸殘基上,還連接有硫氧還蛋白和腸激酶切割位點(例如參見Williams(1995)Biochemistry34:1787-1797;Dobeli(1998)ProteinExpr.Purif.12:404-414)。組氨酸殘基有助於檢測和純化,而腸激酶切割位點提供了將表位與融合30蛋白的剩餘部分純化分離開的手段。關於編碼融合蛋白的載體的技術以及融合蛋白的應用在科學和專利文獻中進行了很好的描述,例如參見Kroll(1993)DNACd1.Biol.,12:441-53。存錄湖體虔,35本發明提供了可操作地連接到一個或多個表達(例如轉錄或翻譯)控制序列上的本發明的核酸(例如DNA)序列,所述控制序列例如啟動子或增強子,它們可以指導或調節RNA合成/表達。表達控制序列可以在表達載體中。示例性的細菌啟動子包括lacl、lacZ、T3、T7、gpt、XPR、PL和trp。示例性的真核啟動子包括CMV即時早期啟動子、HSV胸苷激酶啟動子、早期和晚期SV40啟動子、來自逆轉錄病毒的LTR啟動子以及鼠金屬硫蛋白I啟動子。如本文所使用,術語"啟動子"包括能夠驅動編碼序列在細胞中如植物或5動物細胞中轉錄的所有序列。因此,在本發明的構建物中所用的啟動子包括順式作用轉錄控制元件和調節序列,它們涉及調節或調控基因轉錄的時間和/或速率。例如,啟動子可以是順式作用轉錄控制元件,包括增強子、啟動子、轉錄終止子、複製起點、染色體整合序列、5'和3'非翻譯區或內含子序列,它們均涉及轉錄的調節。這些順式作用序列通常與蛋白或其它生物分子互相作用來執行(打開/關閉、10調節、調控等等)轉錄。"組成型"啟動子是那些在大部分環境條件和發育狀態或細胞分化狀態下持續地驅動表達的啟動子。"誘導型"或"可調控型"啟動子在環境條件或發育條件的影響下指導本發明的核酸的表達。可以通過誘導型啟動子影響轉錄的環境條件的實例包括無氧條件、增高的溫度、乾旱或光的存在。"組織特異性"啟動子是僅僅在特定細胞或組織或器官中有活性的轉錄控15制元件,例如在植物或動物的特定細胞或組織或器官中有活性。組織特異性調節可以通過某些內在因子來實現,這些內在因子確保對給定組織特異的蛋白編碼基因被表達。這樣的因子己知存在於哺乳動物和植物中,以便允許特異性組織的發育。適合於在細菌中表達多肽的啟動子包括大腸桿菌lac或trp啟動子、lacl啟20動子、lacZ啟動子、T3啟動子、T7啟動子、gpt啟動子、XPR啟動子和XPL啟動子、來自編碼糖酵解酶如3-磷酸甘油酯激酶(PGK)的操縱子的啟動子、以及酸性磷酸酶啟動子。真核啟動子包括CMV即時早期啟動子、HSV胸苷激酶啟動子、熱激啟動子、早期和晚期SV40啟動子、來自逆轉錄病毒的LTRs、以及小鼠金屬硫蛋白-I啟動子。也可以使用已知在原核或真核細胞或它們的病毒中控制基因表達25的其它啟動子。適合於在細菌中表達多肽或其片段的啟動子包括大腸桿菌/ac或&p啟動子、/ac/啟動子、/acZ啟動子、n啟動子、T7啟動子、g內啟動子、義屍R啟動子和/LPi啟動子、來自編碼糖酵解酶如3-磷酸甘油酯激酶(PGK)的操縱子的啟動子、以及酸性磷酸酶啟動子。真菌啟動子包括a-因子啟動子。真核啟動子包括CMV即時早期啟動子、HSV胸苷激酶啟動子、熱激啟動子、早期和晚期SV40啟動子、30來自逆轉錄病毒的LTRs以及小鼠金屬硫蛋白-I啟動子。也可以使用已知在原核或真核細胞或它們的病毒中控制基因表達的其它啟動子。^織待,性擅欽啟動子本發明提供了可以以組織特異性方式表達的表達序列盒,例如可以以組織35特異性方式表達本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶的表達序列盒。本發明也提供了以組織特異性方式表達本發明纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶的植物或種子。組織特異性可以是種子特異性、莖特異性、葉特異性、根特異性、果實特異性以及類似的方式。術語"植物"包括全植物、植物部分(例如葉、莖、花、根等等)、植物5原生質體、種子和植物細胞以及它們的後代。可以用於本發明的方法中的植物的種類很廣泛,廣泛至能用轉化技術進行處理的高等植物,包括被子植物(單子葉植物和雙子葉植物),以及裸子植物。它們包括各種倍數性水平的植物,包括多倍體、二倍體、單倍體和半合子植物。正如此處所用,術語"轉基因植物"包括異源核酸序列已經被插入到其中的植物或植物細胞,所述異源核酸序列例如本發明10的核酸和各種重組構建物(例如表達序列盒)。—方面,組成型啟動子如CaMV35S啟動子可以被用於在植物或種子的特定部分或在整個植物中的表達。例如,為了過度表達,可以使用植物啟動子片段,其將指導核酸在植物例如再生植物的一些或所有組織中表達。此處,這樣的啟動子被稱作"組成型"啟動子,它們在大部分環境條件和發育或細胞分化狀態下是15有活性的。組成型啟動子的實例包括花椰菜花葉病毒(CaMV)35S轉錄起始區、來自根瘤農桿菌的T-DNA的l'或2'啟動子、以及來自本
技術領域:
已知的多種植物基因的其它轉錄起始區。這樣的基因包括,例如來自擬南芥"ra6Wo/w/s)的ZC77/(Huang(19%)PlantMol.Biol.33:125-139);來自擬南芥的Ca"(GenbankNo.U43147,Zhong(1996)Mol.Gen.Genet.251:196-203);來自甘藍型油菜(&owi'o720"a/7M)的編碼硬酯醯基-醯基載體蛋白去飽和酶的基因(GenbankNo.X74782,Solocombe(1994)PlantPhysiol.104:1167-1176);來自玉米的G屍c/(GenbankNo.X15596;Martinez(1989)J.Mol.Biol.208:551-565);來自玉米的G/c2(GenbankNo.U45855;Manjunath(1997)Plant.Mol.Biol.33:97-112);在美國專利4,962,028;5,633,440中描述的植物啟動子。25本發明使用來自病毒的組織特異性或組成型啟動子,這些啟動子可以包括,例如菸草花葉病毒亞基因組啟動子(Kumagai(1995)Proc.Natl.Acad.Sci.USA92:1679-1683;稻米東格魯杆狀病毒(RTBV),該病毒僅在受感染稻米植物中的韌皮細胞中複製,它的啟動子驅動強的韌皮特異性報導基因的表達;木薯脈帶花葉病毒(CVMV)啟動子,其在導管、葉中軸細胞、根尖中具有最高活性(Verdaguer30(1996)PlantMol.Biol.31:1129-1139)。—方面,植物啟動子指導表達纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶的核酸表達於特定組織、器官或細胞類型中(即,組織特異啟動子),或者可以在更加精確的環境或發育控制下或在誘導型啟動子的控制下指導表達纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡35糖苷酶的核酸的表達。可以影響轉錄的環境條件的例子包括厭氧條件、提高溫度、有光或噴撒化學品/激素。例如,本發明包括玉米的乾旱誘導型啟動子(Busk(1997)如上),馬鈴薯的寒冷、乾旱、高鹽誘導型啟動子(Kirch(1997)PlantMol.Biol.33:897909)。—方面,組織特異性啟動子只在該組織的發育階段的某個時間段內促進轉錄。參見,例如描述擬南芥LEAFY基因啟動子的Blazquez(1998)PlantCell510:79卜800。也見,描述轉錄因子SPL3的Cardon(1997)PlantJ12:367-77,SPL3識別擬南芥(A//w//a"a)的調節植物分生組織形成的基因(meristemidentitygene)API的啟動子區域的保守序列基序;和描述分生組織啟動子elF4的Mandel(1995)PlantMolecularBiology,29巻,995-1004頁。可以使用在特定組織的整個生命周期都具有活性的組織特異性啟動子。一方面,本發明的核酸與主要在棉花纖維細胞10中有活性的啟動子可操作地連接。一方面,本發明的核酸與主要在棉花纖維細胞伸長的階段具有活性的啟動子可操作地連接,例如,Rinehart(1996)supra所描述的。核酸可以與Fbl2A基因啟動子可操作地連接,這樣它將偏好在棉花纖維細胞(Ibid)中表達。也見John(1997)Proc.Natl.Acad.Sci.USA89:5769-5773;John等,美國專利5,608,148和5,602,321,描述了用於構建轉基因棉花植物的棉花纖維15特異性啟動子和方法。也可以使用根特異性啟動子來表達本發明的核酸。根特異性啟動子的例子包括乙醇脫氫酶基因中的啟動子(DeLisle(19%)Int.Rey.Cytol.123:39-60)。也可以使用別的啟動子來表達本發明的核酸,包括,例如,胚珠特異的、胚芽特異的、胚乳特異的、珠柄特異的、種皮特異的啟動子或它們的組合;葉特異的啟動子(見,例如,Busk(1997)PlantJ.11:12851295,描述玉米的葉特20異的啟動子);髮根農桿菌C4gra/jfl"eWMW^'zoge"M)的ORF13啟動子(ORF13啟動子在根部表現出高活性,見,例如Hansen(1997)如上);玉米花粉特異性啟動子(見,例如Guerrero(1990)Mol.Gen.Genet.224:161168);番茄啟動子,其在果實成熟、變老、從葉上脫落的過程中有活性,在花中具有低一些的活性(見,例如,Blume(1997)PlantJ.12:731746);馬鈴薯SK2基因的雌蕊特異性啟動子25(見,例如Ficker(1997)PlantMol.Biol.35:425431);豌豆的Blec4基因,Blec4基因在蔬菜的表皮組織和轉基因苜蓿的花梗頂中具有活性,這使它成為使外源基因靶向表達於活躍地生長的芽或纖維的表皮層的有用工具;胚珠特異的BEL1基因(見,例如,Reiser(1995)Cell83:735-742,GenBank號U39944);和/或Klee,美國專利5,589,583中的啟動子,描述了一種植物啟動子區域,其可導致在分生組30織和/或快速分裂細胞中的高水平轉錄。—方面,經由對植物激素例如植物生長素的暴露便能被誘導的植物啟動子可用於表達本發明的核酸。例如,本發明可以使用大豆(G(ydne/muL.)的植物生長素響應元件E1啟動子片段(AuxREs)(Liu(1997)PlantPhysiol.115:397-407);植物生長素響應的擬南芥GST6啟動子(也對水楊酸和過氧化氫產生響應)(Chen35(1996)PlantJ.10:955-966);菸草的植物生長素誘導的parC啟動子(Sakai(1996)37:906-913);植物生物素響應元件(Streit(1997)Mol.PlantMicrobeInteract.10:933-937);和對應激激素脫落酸產生響應的啟動子(Sheen(1996)Science274:1900-1902)。本發明的核酸也可以與植物啟動子可操作地連接,所述植物啟動子暴露於施用於植物的化學試劑例如除草劑或抗生素,便能夠被誘導。例如,可以使用由5苯磺醯胺除草劑安全劑活化的玉米In2-2啟動子(DeVeylder(1997)PlantCellPhysiol.38:568-577);不同的除草劑安全劑的應用誘導不同的基因表達模式,包括在根中、排水器中和芽尖分生組織中的表達。編碼序列可以處於例如四環素誘導的啟動子的控制下,例如,針對含有燕麥Uve"flsa"wL.)(oat)精氨酸脫羧酶基因的轉基因菸草植物所描述的(Masgrau(1997)PlantJ.11:465-473);或者處於水10楊酸響應元件的控制之下(Stange(1997)PlantJ.11:1315-1324)。使用化學(例如,激素或殺蟲劑)誘導的啟動子,即,對施用于田間的轉基因植物的化學劑發生響應的啟動子,本發明的多肽的表達可以在植物發育的特定階段被誘導。所以,本發明也提供含有可誘導基因的轉基因植物,所述可誘導基因編碼本發明的多肽,其宿主範圍局限於靶向植物種類,例如玉米、稻、大麥、大豆、番茄、小麥、馬15鈴薯或別的作物,並且所述可誘導基因在作物發育的任何階段都可被誘導。本領域技術人員會認識到,組織特異性的植物啟動子可能驅動可操作地連接的序列在不是耙組織的組織中表達。因此,一方面,組織特異性啟動子是驅動在耙組織或細胞類型中產生優勢表達的啟動子,但是也可以導致在別的組織中的一些表達。20本發明的核酸也可以與在暴露於化學試劑時被誘導的植物啟動子可操作地連接。這些試劑包括例如,除草劑、合成的植物生長激素或抗生素,它們可以通過例如噴霧施用於轉基因植物。本發明的產生纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或(3-葡糖苷酶的核酸的誘導型表達將允許栽培者對具有最佳的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或卩-葡糖苷25酶表達和/或活性的植物進行選擇。植物部分的發育也可以因此被控制。這樣,本發明提供了促進植物和植物部分的收穫的方法。例如,在許多實施方式中,玉米的由苯磺醯胺除草劑安全劑活化的玉米In2-2啟動子被使用(DeVeylder(1997)PlantCellPhysiol.38:568-577);應用不同的除草劑安全劑誘導出不同的基因表達模式,包括在根中、排水器中、芽尖分生組織中的表達。本發明的編碼序列也可30以處於四環素誘導的啟動子的控制之下,例如,對含有燕麥Uvem^fl"vaL.)(oat)精氨酸脫羧酶基因的轉基因菸草植物的描述(Masgrau(1997)PlantJ.11:465-473);或者,可以由水楊酸響應元件控制(Stange(1997)PlantJ.11:1315-1324)。在一些方面,適當的多肽表達可能要求在該編碼區域的3'端具有多聚腺苷酸化區域。多聚腺苷酸化區域可以源自天然基因、各種類別的其它植物(或者動35物或其它)基因或者農桿菌T-DNA中的基因。表這載,克虔載體本發明提供包括本發明的核酸例如編碼本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶的序列的表達載體和克隆載體。本發明的表達載體和克隆載體可以包括病毒顆粒、杆狀病毒、噬菌體、質粒、噬5菌粒(phagemids)、粘粒、fos-質粒(fosmids)、細菌人工染色體、病毒DNA(例如疫苗、腺病毒、禽痘病毒、偽狂犬病病毒和SV40的衍生物)、Pl衍生的人工染色體、酵母質粒、酵母人工染色體和任何別的對感興趣的特定宿主(例如,杆狀菌、麴黴和酵母)有特異性的載體。本發明的載體可以包括染色體、非染色體和合成的DNA序列。大量的合適的載體對於本領域技術人員都是已知的,並且可以10商業獲得。典型的載體包括細菌pQE載體(Qiagen)、pBLUESCRIPTTM質粒、pNH載體、入-ZAP載體(Stratagene);ptrc99a、PKK223-3、pDR540、pRIT2T(Pharmacia);真核細胞的PXT1、pSG5(S驗gene)、pSVK3、pBPV、pMSG、pSVLSV40(Pharmacia)。然而,也可以使用任何別的質粒或別的載體,只要它們可以在宿主中複製和維持下去。可以在本發明中使用低拷貝數或高拷貝數的載體。15"質粒"可以商購得到,在不受限制的基礎上可以公開獲得,或可以根據已公開的程序用可獲得的質粒來構建。與本文描述的那些質粒等價的質粒在本
技術領域:
是已知的,並且對於普通技術人員是顯而易見的。表達載體可以包括啟動子、用於起始翻譯的核糖體結合位點和轉錄終止子。載體也可以包括用於擴增表達的合適序列。哺乳動物表達載體可以包括複製20原點、任何必需的核糖體結合位點、聚腺苷酸化位點、剪接供體和受體位點、轉錄終止序列、5,側翼非轉錄序列。在一些方面,衍生於SV40剪接子和聚腺苷酸化位點的DNA序列可以用於提供所需要的非轉錄基因元件。在一個方面,表達載體含有一個或多個選擇性標記基因,使得可以對含有該載體的宿主細胞進行選擇。這樣的選擇性標記包括編碼二氫葉酸還原酶的基因25和使得真核細胞培養物具有新黴素抗性的基因、使得大腸桿菌(£.co//)具有四環素或氨苄青黴素抗性的基因和釀酒酵母(S.TRP1基因。啟動子區域可以從任何期望的基因中選擇出來,使用氯黴素轉移酶(CAT)載體或具有選擇標記的別的載體。在一個發明,用於在真核細胞中表達多肽或其片段的載體含有增強子,以30增加表達水平。增強子是DNA的順式作用元件,一般長度為大約10到大約300bp。它們作用於啟動子,增強其轉錄。示例性增強子包括在複製原點下遊側100bp到270bp的SV40增強子、巨細胞病毒早期啟動子增強子、在複製原點下遊側的多瘤增強子,和腺病毒增強子。核酸序列可以通過各種程序插入載體中。一般而言,將插入物和載體用合35適的限制性內切酶消化後,序列可以連接到載體中的所希望的位置。可選擇地,插入物和載體的平末端可以被連接。在本領域己知多種克隆技術,例如在Ausubel和Sambrook中描述的。這樣的程序和別的程序被認為在本領域技術人員的範圍內。載體可以是質粒、病毒顆粒或噬菌體的形式。別的載體包括染色體的、非染色體的和合成的DNA序列,SV40的衍生物;細菌質粒、噬菌體DNA、杆狀病毒、酵母質粒、衍生於質粒和噬菌體DNA的組合的載體、病毒DNA例如牛痘、5腺病毒、禽痘病毒和偽狂犬病病毒DNA。在原核和真核宿主中使用的各種克隆和表達載體被例如Sambrook描述。可以使用的特定的細菌載體包括商業上可獲得的質粒,其包括以下已知的克隆載體的遺傳元件pBR322(ATCC37017)、pKK223-3(PharmaciaFineChemicals,Uppsala,Sweden)、GEM1(PromegaBiotec,Madison,WI,USA)、pQE70、pQE60、10pQE-9(Qiagen)、pD10、psiX174pBluescriptIIKS、pNH8A、pNH16a、pNH18A、pNH46A(Stratagene)、ptrc99a、pKK223-3、pKK233隱3、DR540、pRIT5(Pharmacia)、pKK232-8禾QpCM7。特定的真核載體包括pSV2CAT、pOG44、pXTl、pSG(Stratagene)pSVK3、pBPV、pMSG和pSVL(Pharmacia)。然而,可以使用任何別的載體,只要它可以在宿主細胞中複製和維持。15本發明的核酸可以在表達序列盒、載體或病毒中表達,在植物細胞和種子中短暫地或穩定地表達。一個示例性的短暫表達系統應用了附加體(episomal)表達系統,例如,通過含有超螺旋DNA的附加小染色體的轉錄而在核中產生的花椰菜花葉病毒(CaMV)病毒RNA,見,例如,Covey(1990)Proc.Natl.Acad.Sci.USA87:1633-1637。作為選擇,編碼序列,即本發明的序列的全部或子片段,可以插入20到植物宿主細胞基因組中,而成為該宿主染色體DNA的整合部分。正義和反義轉錄子可以以這種方式被表達。包含本發明的核酸的序列(例如,啟動子或編碼區域)的載體可以包含賦予植物細胞或種子選擇性表型的標記基因。例如,所述標記可以編碼生物殺滅劑抗性,特別是抗生素抗性,例如對卡那黴素、G418、博來黴素、潮黴素或除草劑的抗性,例如對氯磺隆或Basta的抗性。25可以在植物中表達核酸和蛋白的表達載體在本領域中是熟知的,可以包括,例如,根瘤農桿菌的載體、馬鈴薯病毒X(見,例如,Angell(1997)EMBOJ.16:3675-3684)、菸草花葉病病毒(見,例如,Casper(1996)Gene173:69-73)、番茄叢矮病毒(見,例如,Hillman(1989)Virology169:42-50)、菸草蝕紋病毒(見,例如,Dolja(1997)Virology234:243-252)、菜豆金色花葉病毒(見,例如,Morinaga30(1993)Microbiolinhnunol.37:471-476)、花椰菜花葉病毒(見,例如,Cecchini(1997)Mol.PlantMicrobeInteract.10:1094-1101)、玉米Ac/Ds轉座元件(見,例如,Rubin(1997)Mol.Cell.Biol.17:6294-6302;Kunze(1996)Curr.Top.Microbiol.Inimunol.204:161-194),和玉米抑制基因-突變基因(Spm)轉座元件(見,例如Schlappi(1996)PlantMol.Biol.32:717-725);和它們的衍生物。35在一個方面,表達載體可以有兩套複製系統,使其可以在兩種生物中保持,例如在哺乳動物或昆蟲細胞中表達,在原核宿主中克隆和擴增。進一步,對於整合表達載體,該表達載體可以包括至少一個與宿主細胞基因組同源的序列。它可以在該表達構建物的兩側包含兩個同源序列。通過選擇包含入載體的合適的同源序列,可以將該整合載體定位到宿主細胞的特定位置。整合載體的構建在本領域是已知的。5本發明的表達載體也可以包括選擇性的標記基因,以便對已經轉化的細菌株進行選擇,例如,使細菌對藥物,例如氨苄青黴素、氯黴素、紅黴素、卡那黴素、新黴素和四環素產生抗性的基因。選擇性的標記也可以包括生物合成基因,例如在組氨酸、色氨酸和亮氨酸生物合成途徑中的基因。表達載體中的DNA序列被可操縱連接到合適的表達控制序列(一種或多10禾中)(啟動子),以指導RNA合成。具體命名的細菌啟動子包括/flc/、/acZ、r3、T7、砂f、義/V義&和印。真核啟動子包括CMV即時早期啟動子、HSV胸苷激酶啟動子、早期和晚期SV40啟動子、來自逆轉錄病毒的LTRs以及小鼠金屬硫蛋白-I啟動子。選擇合適的載體和啟動子在本領域技術人員的水平之內。表達載體還可以包括用於起始翻譯的核糖體結合位點和轉錄終止子。載體也可以包括用於擴增15表達的合適序列。啟動子區域可以從任何期望的基因中選擇出來,使用氯黴素轉移酶(CAT)載體或具有選擇標記的別的載體。此外,在一個方面,表達載體含有一個或多個選擇性標記基因,以提供用於選擇被轉化的宿主細胞的表型特徵,例如用於真核細胞培養的二氫葉酸還原酶或新黴素抗性,或例如大腸桿菌中的四環素或氨苄青黴素抗性。20哺乳動物表達載體還可以包括複製原點、任何必需的核糖體結合位點、聚腺苷酸化位點、剪接供體和受體位點、轉錄終止序列和5'側翼非轉錄序列。在一些方面,衍生於SV40剪接子的DNA序列和聚腺苷酸化位點可以用於提供所需要的非轉錄基因元件。用於在真核細胞中表達多肽或其片段的載體也可以含有增強子,以增加表25達水平。增強子是DNA的順式作用元件,一般長度為大約10到大約300bp,其作用於啟動子,增強其轉錄。示例性增強子包括在複製起點下遊側100bp到270bp的SV40增強子、巨細胞病毒早期啟動子增強子、在複製起點下遊側的多瘤增強子,和腺病毒增強子。此外,表達載體含有一個或多個選擇性標記基因,使得可以對含有該載體30的宿主細胞進行選擇。這樣的選擇性標記包括編碼二氫葉酸還原酶的基因和使得真核細胞培養物具有新黴素抗性的基因、使得大腸桿菌具有四環素或氨苄青黴素抗性的基因和釀酒酵母(S,c^e他^)7TP;基因。在一些方面中,編碼本發明的多肽之一或含有其至少大約5、10、15、20、25、30、35、40、50、75、100或150或更多個連續胺基酸的片段的核酸與能指導35翻譯出的多肽或其片段的分泌的前導序列以適當的位置關係進行裝配。一方面,該核酸可以編碼融合蛋白,其中本發明的多肽之一或含有其至少大約5、10、15、20、25、30、35、40、50、75、100或150或更多個連續胺基酸的片段被融合到異源肽或多肽,例如N-末端鑑定肽,其給予了期望的特性,如增加的穩定性或簡化的純化特性。合適的DNA序列可以通過各種程序插入載體中。一般而言,將插入物和5載體用合適的限制性內切酶消化後,DNA序列可以連接到載體中的所希望的位置。可選擇地,插入物和載體的平末端可以被連接。多種克隆技術被公開於Ausubeetal.CurrentProtocolsinMolecularBiology,JohnWiley503Sons,Inc.1997禾卩Sambrooketal,MolecularCloning:ALaboratoryManual2ndEd.,ColdSpringHarborLaboratoryPress(1989)。這樣的程序和別的程序被認為在本領域技術人員的範圍10內。載體可以是例如質粒、病毒顆粒或噬菌體的形式。別的載體包括染色體的、非染色體的和合成的DNA序列,SV40的衍生物;細菌質粒、噬菌體DNA、杆狀病毒、酵母質粒、衍生於質粒和噬菌體DNA的組合的載體、病毒DNA例如牛痘、腺病毒、禽痘病毒和偽狂犬病病毒DNA。在原核和真核宿主中使用的各種克隆和15表達載體在Sambrook,etal,MolecularCloning:ALaboratoryManual,2ndEd.,ColdSpringHarbor,N.Y.,(1989)中描述。涼主雄辦飾應本發明也提供了包含本發明的核酸序列的轉化細胞,所述核酸序列例如編20碼本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或|3-葡糖苷酶的序列,或本發明的載體。宿主細胞可以是本領域技術人員熟悉的任何宿主細胞,包括原核細胞,真核細胞,例如,細菌細胞、真菌細胞、酵母細胞、哺乳動物細胞、昆蟲細胞或植物細胞。示例性的細菌細胞包括鏈黴菌屬、葡萄球菌屬或桿菌屬的任何種,或者示例性種大腸桿菌、枯草芽孢桿菌(Bac,7/Mss"6"to)、蠟25狀芽孢桿菌(5a"7/wcewiw)、鼠傷寒沙門氏菌(Sa/mow//a0^Wwwn'wm)。示例性的昆蟲細胞包括草地夜蛾屬(S/wcfo/^ra)或果蠅屬(Z>0TO//7a)的任何種,包括果蠅和草地夜蛾(S;x/o;^ra)S/9。示例性的動物細胞包括CHO、COS或黑色素瘤細胞或任何鼠或人的細胞系。合適的宿主的選擇在本領域技術人員的能力範圍內。轉化各種高等植物種類的技術是已知的,在技術和科學文獻中有描30述,見,例如,Weising(1988)Ann.Rey.Genet.22:42卜477;美國專利5,750,870。載體可以使用各種技術導入宿主細胞中,包括轉化、轉染、轉導、病毒感染、基因槍或者Ti介導的基因轉移。具體的方法包括磷酸鈣轉染、DEAE-Dextran介導的轉染、脂轉染法(lipofection)或電穿孔(Davis,L.,Dibner,M.,Battey,I.,BasicMethodsinMolecularBiology,(1986))。35—方面,本發明的核酸或載體導入細胞是為了篩選,所以,所述核酸是以合適於該核酸的後續表達的方式進入細胞。導入的方法大體上由靶細胞類型決定。示例性的方法包括CaPCV沉澱法、脂質體融合、脂轉染法(例如,LIPOFECTINTM)、電穿孔法、病毒感染法,等等。候選的核酸可以穩定,整合到宿主細胞基因組中(例如,用反轉錄病毒導入)或者可以短暫的或穩定的存在於細胞質中(即,通過使用傳統的質粒,利用標準的調控序列、選擇標記,等等)。因為許多藥學上重5要的篩選要求人或模型哺乳動物靶細胞,所以可以使用能夠轉染這些靶的反轉錄病毒載體。在適當的情況下,工程宿主細胞可以在傳統的營養培養基中培養,所述營養培養基經改良而適於激活啟動子、選擇轉化子或擴增本發明的基因。在合適的宿主株被轉化和宿主株生長到合適的細胞密度之後,用合適的方法(例如,溫度10變化或化學誘導)誘導被選擇的啟動子,細胞再培養一段時期,使得它們產生所需的多肽或其片段。細胞可以通過離心收穫,通過物理或化學方法破碎,保留得到的粗提物以用於進一步的純化。被用來表達蛋白質的微生物細胞可以用任何常規方法破碎,包括冷凍-融解循環、超聲波裂解法、機械破碎法或使用細胞裂解試劑。這些方法15為本領域技術人員所熟知。表達的多肽或其片段可以從重組細胞培養物中通過包括硫酸銨或乙醇沉澱、酸提取、陰離子或陽離子交換色譜、磷酸纖維素色譜、疏水作用色譜、親和色譜、羥基磷灰石色譜和凝集素色譜在內的方法回收和純化。假如必要的話,可以應用蛋白質重摺疊來完成多肽的構象。假如需要的話,在最終的純化步驟中可以採用高效液相色譜(HPLC)。20宿主細胞中的構建物可以以傳統方式用於產生由重組序列編碼的基因產物。取決於重組生產方法中所用的宿主,由含有載體的宿主細胞產生的多肽可以糖基化或者非糖基化。本發明的多肽也可以包括或不包括起始甲硫氨酸殘基。也可以採用無細胞的翻譯系統來產生本發明的多肽。無細胞翻譯系統可以應用由DNA構建物轉錄得到的mRNA,所述DNA構建物包括與編碼所述多肽或25其片段的核酸可操作地連接的啟動子。在一些方面,該DNA構建物在進行體外轉錄反應之前可以被線性化。轉錄得到的mRNA然後與合適的無細胞翻譯提取物例如兔網狀細胞提取物溫育,產生所需的多肽或其片段。表達載體可以含有一個或多個選擇性標記基因,為選擇轉化宿主細胞提供表型特徵,例如真核細胞培養物的二氫葉酸還原酶或新黴素抗性,或者例如大腸30桿菌的四環素或氨苄青黴素抗性。含有感興趣多核苷酸如本發明的核酸的宿主細胞可以在傳統的營養培養基中培養,所述營養培養基經改良而適於激活啟動子、選擇轉化子或擴增基因。培養條件例如溫度、pH和類似條件是先前選擇宿主細胞用於表達所使用的培養條件,對於普通技術人員是明顯的。然後,被鑑定為具有指定的酶活性的克隆被測35序,以鑑定編碼具有增強活性的酶的多核苷酸序列。本發明提供了在細胞中過度表達重組纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶的方法,該方法包括表達含有本發明的核酸的載體,本發明的核酸例如包含在至少約100個殘基的區域內與本發明的示例性序列具有至少約50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、573%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性的核酸序列的核酸,其中序列同一性通過使用序列比較算法的分析或通過視覺觀察來確定;或者在嚴緊條件下與本發明的核酸序列雜交的核酸。過度表達通過任何方式例如使用高活性啟動子、雙順反子(dicistronic)載10體或通過該載體的基因擴增來實現。本發明的核酸可以在任何體外或體內表達系統中被表達或過度表達。任何細胞培養系統可被用於表達或過度表達重組蛋白,包括細菌、昆蟲、酵母、真菌或哺乳動物培養物。通過啟動子、增強子、載體(例如,複製子載體、雙順反子載體的使用(見,例如Gurtu(19%)Biochem.Biophys.Res.Commun.229:295-8))、15培養基、培養系統等等的合適選擇,可以實現過度表達。一方面,使用選擇標記如穀氨醯胺合酶(見,例如Sanders(1987)Dev.Bio1.Stand.66:55-63)在細胞系統中進行的基因擴增被用於過度表達本發明的多肽。宿主細胞可以是本領域技術人員熟悉的任何宿主細胞,包括原核細胞,真核細胞,例如,細菌細胞、真菌細胞、酵母細胞、哺乳動物細胞、昆蟲細胞或植物細胞。合適的宿主的選擇在本領域技20術人員的能力範圍內。載體可以使用各種技術導入宿主細胞中,包括轉化、轉染、轉導、病毒感染、基因槍或者Ti介導的基因轉移。具體的方法包括磷酸鈣轉染、DEAE-Dextran介導的轉染、脂轉染法(lipofection)或電穿孔(Davis,L.,Dibner,M.,Battey,I.,BasicMethodsinMolecularBiology,(1986))。25在適當的情況下,工程宿主細胞可以在傳統的營養培養基中培養,所述營養培養基經改良而適於激活啟動子、選擇轉化子或擴增本發明的基因。在合適的宿主株被轉化和宿主株生長到合適的細胞密度之後,用合適的方法(例如,溫度變化或化學誘導)誘導被選擇的啟動子,細胞再培養一段時期,使得它們產生所需的多肽或其片段。30細胞可以通過離心收穫,通過物理或化學方法破碎,保留得到的粗提物以用於進一步的純化。被用來表達蛋白質的微生物細胞可以用任何常規方法破碎,包括冷凍-融解循環、超聲波裂解法、機械破碎法或使用細胞裂解試劑。這些方法為本領域技術人員所熟知。表達的多肽或其片段可以從重組細胞培養物中通過包括硫酸銨或乙醇沉澱、酸提取、陰離子或陽離子交換色譜、磷酸纖維素色譜、疏35水作用色譜、親和色譜、羥基磷灰石色譜和凝集素色譜在內的方法回收和純化。假如必要的話,可以應用蛋白質重摺疊來完成多肽的構象。假如需要的話,在最終的純化歩驟中可以採用高效液相色譜(HPLC)。各種哺乳動物細胞培養系統也可以被用於表達重組蛋白。哺乳動物表達系統的實例包括猴腎成纖維細胞的COS-7系(由Gluzman,Cell,21:175,1981描述),以及能從相容載體表達蛋白的其它細胞系,如C127、3T3、CHO、HeLa和BHK5細胞系。宿主細胞中的構建物可以以傳統方式用於產生由重組序列編碼的基因產物。根據重組產生方法中所用的宿主,由含有載體的宿主細胞產生的多肽可以糖基化或者非糖基化。本發明的多肽也可以包括或不包括起始甲硫氨酸殘基。可選地,本發明的多肽,或者含有其至少大約5、10、15、20、25、30、1035、40、50、75、100或150或更多個連續胺基酸的片段,可以通過常規肽合成儀合成產生,例如,如下面所討論。在其它方面,通過肽合成,所述多肽的片段或部分可以被用於產生相應的全長多肽;因此,所述片段可用作產生全長多肽的中間物。也可以採用無細胞的翻譯系統來產生本發明的多肽之一或含有其至少大15約5、10、15、20、25、30、35、40、50、75、100或150或更多個連續胺基酸的片段,其應用由DNA構建物轉錄得到的mRNA,所述DNA構建物包括與編碼所述多肽或其片段的核酸可操作地連接的啟動子。在一些方面,該DNA構建物在進行體外轉錄反應之前可以被線性化。轉錄得到的mRNA然後與合適的無細胞翻譯提取物例如兔網狀細胞提取物溫育,產生所需的多肽或其片段。20在本發明的實踐中,本發明的核酸和編碼本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶的核酸,或本發明的修飾的核酸,可以通過擴增來增殖,例如,通過PCR。擴增也可以被用於克隆或修飾本發25明的核酸。因此,本發明提供了用於擴增本發明核酸的擴增引物序列對。本
技術領域:
技術人員能設計用於這些序列的任何部分或全長的擴增引物序列對。—方面,本發明提供了通過本發明的擴增引物對擴增的核酸,所述擴增引物對例如本發明的核酸的大約前(5')12、13、14、15、16、17、18、19、20、21、22、23、24或25或更多個殘基以及互補鏈的大約前(5')15、16、17、18、19、20、3021、22、23、24或25或更多個殘基所示的引物對。本發明提供了用於擴增核酸的擴增引物序列對,所述核酸編碼具有纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或P-葡糖苷酶的多肽,其中所述引物對能夠擴增含有本發明的序列或其片段或子序列的核酸。擴增引物序列對的一個成員或每一成員可以包含寡核苷酸,該寡核苷酸包含所述序列的至少約10至50個或更多個連續鹼基,或所述35序列的約12、13、14、15、16、17、18、19、20、21、22、23、24或25或更多個連續殘基。本發明提供了擴增引物對,其中所述引物對包括第一成員和第二成員,第一成員具有本發明核酸的大約前(5,)12、13、14、15、16、17、18、19、20、21、22、23、24或25或更多個鹼基所示的序列,第二成員具有第一成員的互補鏈的大約前(5,)12、13、14、15、16、17、18、19、20、21、22、23、24或25或更多個鹼基所示的序列。5本發明提供了通過擴增產生的纖維素酶,例如編碼內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或p-葡糖苷酶,所述擴增例如聚合酶鏈反應(PCR),使用本發明的擴增引物對。本發明提供了通過擴增製備纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或(3-葡糖苷酶的方法,所述擴增例如PCR,使用本發明的擴增引物對。一方面,所述擴增引物對從文庫例如基因文庫諸如環10境文庫擴增核酸。擴增反應也可以被用於量化樣品中核酸的量(如細胞樣品中信息的量)、標記核酸(例如將其應用於陣列或印跡)、檢測核酸,或量化樣品中特異性核酸的量。在本發明的一個方面,擴增從細胞或cDNA文庫分離出的信息。技術人員可以選擇和設計合適的寡核苷酸擴增引物。擴增方法在本技術領15域也是己知的,包括,例如聚合酶鏈式反應PCR(例如參見PCRPROTOCOLS,AGUIDETOMETHODSANDAPPLICATIONS,ed.Innis,AcademicPress,N.Y.(1990)和PCRSTRATEGIES(1995),ed.Innis,AcademicPress,Inc.N.Y.,連接酶鏈式反應(LCR)(例如參見Wu(1989)Genomics4:560;Landegren(1988)Science241:1077;Barringer(1990)Gene89:117);轉錄擴增(例如參見Kwoh(1989)Proc.Natl.Acad.20Sci.USA86:1173);和自主維持序列複製(例如參見Guatelli(1990)Proc.Natl.Acad.Sci.USA87:1874);QP複製酶擴增(例如參見Smith(1997)J.Clin.Microbiol.35:1477_1491),自動Q_p複製酶擴增測定法(例如參見Burg(1996)Mol.Cell.Probes10:257-271)和其它的RNA聚合酶介導技術(例如NASBA,Cangene,Mississauga,Ontario);也參見Berger(1987)MethodsEnzymol,152:307-316;Sambrook;Ausubel;25美國專利4,683,195和4,683,202;Sooknanan(1995)Biotechnology13:563-564。確定核酸和多肽的序列同一性本發明提供了核酸,所述核酸包括與本發明的示例性核酸(參見表1、2和3,下面的實施例1和4,以及序列表)在至少大約50、75、100、150、200、30250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250、1300、1350、1400、1450、1500、1550或更多殘基的區域內具有至少大約50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、7P/。、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、3583%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性(同源性)的序列。本發明提供了多肽,該多肽包括與本發明的示例性多肽(參見表l、2和3,下面的實施例1和4,以及序列表)具有至少大約50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、582%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性的序列。序列同一性(同源性)的程度可以使用任何電腦程式和相關參數來確定,包括本文描述的那些,如BLAST2.2.2或FASTA3.0t78版本,參數為默認值。本發明的核酸序列可以包括本發明的示例性序列和與其基本上相同的序10列的至少10、15、20、25、30、35、40、50、75、100、150、200、300、400或500或更多個連續核苷酸。本發明的核酸序列的同源序列和片段可以指與這些序列具有至少約50°/。、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、1587%、88%、89%、90%、91%、92%、93%、94%、95°/。、96%、97%、98%、99%或更高的序列同一性(同源性)的序列。同源性(序列同一性)可以使用本文所描述的任何電腦程式和參數來確定,包括FASTA3.0t78版本,參數為默認值。同源序列還包括RNA序列,其中尿嘧啶取代本發明核酸序列中的胸腺嘧啶。同源序列可以使用本文描述的任意一種方法獲得,或者從對測序錯誤的糾正中產生。20應該意識到,本發明的核酸序列可以以傳統的單字母格式表示(例如參見Stryer,Lubert.Biochemistry,3rdEd.,W.HFreeman&Co.,NewYork),或以在序列中記錄核苷酸的身份的任何其它格式表示。在各個方面,本文描述的序列比較程序被用於本發明的該方面,即,確定核酸或多肽序列是否在本發明的範圍之內。然而,蛋白和/或核酸序列同一性(同25源性)可以使用本
技術領域:
已知的任何序列比較算法或程序來評價。這樣的算法和程序包括,但不限於,TBLASTN、BLASTP、FASTA、TFASTA和CLUSTALW(參見,例如PearsonandLipman,Proc.Natl.Acad.Sci.USA85(8):2444-2448,1988;Altschul等人,J.Mol.Biol.215(3):403-410,1990;Thompson等人,NucleicAcidsRes.22(2):4673-4680,1994;Higgins等人,MethodsEnzymol.266:383-402,1996;Altschul30等人,j.Mol.Biol.215(3):403-410,1990;Altschul等人,NatureGenetics3:266-272,1993)。一方面,同源性或同一性可以使用序列分析軟體來測量(例如,地址為1710UniversityAvenue,Madison,WI53705的威斯康星大學生物技術中心遺傳學計算機組(GeneticsComputerGroup)的序列分析軟體包)。這樣的軟體通過對各種缺失、35取代和其它的修飾賦予同源性度數來匹配相似的序列。一方面,用於表示兩個或者更多個核酸或者多肽序列之間的關係的術語"同源性"和"同一性",是指當兩個或更多個序列或子序列在某一比較窗口(comparisonwindow)或者指定區域內被比較和聯配以確定最大一致性時,這些序列是相同的,或者具有特定百分比例的相同胺基酸殘基或核苷酸,其可以應用各種序列比較算法或者通過人工聯配和視覺觀察來確定。一方面,對於序列比較,將一個序列作為參考序列,而將測試5序列與之進行比較。當使用序列比較算法時,將測試序列和參考序列輸入到計算機中,指定子序列坐標,如果必要,也指定序列算法程序參數。可以使用默認的程序參數,或者可以指定別的參數。然後基於程序參數,序列比較算法計算出測試序列相對於參考序列的序列同一性百分比。—方面,BLAST和BLAST2.0算法被使用,其分別被描述於Altschul(1997)Nuc.AcidsRes.25:3389-3402,1997和Altschul(1990)J.Mol.Biol.215:403-410,19卯。用於實施BLAST分析的軟體可以通過美國國家生物技術信息中心公開獲得。這一算法涉及首先通過鑑別待詢序列(querys叫uence)中長度為W的短的字串來確定高分序列對(highscoringsequencepairs,HSPs),所述高分序列對在與資料庫15序列中同樣長度的字串聯配時,匹配或者滿足某個正值的閾值T。T是指鄰近字串(neighborhoodword)的分數閾值(Altschul等,如上)。這些初始的鄰近字串被用來啟動搜索以發現包含有它們的更長的HSPs。所述字串沿著每一個序列向兩個方向延伸,只要累積的聯配分數在增加。對於核苷酸序列,使用參數M(—對匹配的殘基的獎勵分數;總是大於0)來計算累積分數。對於胺基酸序列,使用記分20矩陣來計算累計分數。出現下面情況時,字串在各個方向上的延伸便停止累積的聯配分數由達到的最大值下降了數量X;由於一個或者多個記分為負的殘基聯配的累積,累積分數達到0或者0以下;或者延伸到了任一序列的末端。BLAST算法的參數W、T和X決定了聯配的靈敏度和速率。BLASTN程序(對於核苷酸序列)默認的是字串長度(W)為11,期望值(E)為10,M=5,N=-4,對兩25條鏈進行比較。對於胺基酸序列,BLASTP程序默認字串長度為3,期望值(E)為10,BLOSUM62記分矩陣(參見Henikoff和Henikoff(1989)Proc.Natl.Acad.Sci.USA89:10915)聯配(B)為50,期望值(E)為10,M=5,N=-4,對兩條鏈進行比較。BLAST算法也進行兩個序列之間的相似性的統計學分析(參見,例如,30Karlin和Altschul(1993)Proc.Natl.Acad.Sci.USA90:5873)。由BLAST算法提供的一種相似性量度是最小合計概率(smallestsumprobability,P(N)),其表示兩個核苷酸或者胺基酸序列間的匹配將偶然發生的概率。例如,在測試核酸和參考核酸的比較中,如果最小合計概率小於大約0.2,更優選的是在一方面中小於0.01,最優選的是在一方面中小於大約0.001,就認為該核酸與參考序列相似。35—方面,應用基本局域聯配搜索工具("BLAST")來評價蛋白和核酸序列同源性。具體而言,五個特定的BLAST程序可以用來進行以下的任務(1)BLASTP和BLAST3把胺基酸待詢序列與蛋白質序列資料庫進行比較;(2)BLASTN把核苷酸待詢序列與核苷酸序列資料庫進行比較;(3)BLASTX把待詢核苷酸序列(兩條鏈)的六個閱讀框架的概念上的5翻譯產物與蛋白序列資料庫進行比較;(4)TBLASTN把待詢蛋白序列與核苷酸序列資料庫的所有六個閱讀框架(兩條鏈)的翻譯結果進行比較;和(5)TBLASTX把核苷酸待詢序列的六個框架的翻譯結果與核苷酸序列資料庫的六個框架的翻譯結果進行比較。10BLAST程序通過確定相似片段來確定同源序列,所述相似片段在此是指在待查詢的胺基酸或核酸序列與受測序列之間的"高分片段對(high-scoringsegmentpairs)",該受測序列一方面從蛋白或者核酸序列資料庫得到。高分片段對一方面利用記分矩陣來鑑定(即,聯配),很多的記分矩陣在本領域是已知的。一方面,應用的記分矩陣為BLOSUM62矩陣(Gonnet(1992),Science256:1443-1445;15Henikoff和Henikoff(1993),Proteins17:49-61)。較不優選地,在一方面,也可以應用PAM或者PAM250矩陣(參見如,Schwartz和Dayhoff,eds.,1978,Afafn'cesWashingion:NationalBiomedicalResearchFoundation)。BLAST程序通過美國國家醫學圖書館(U.S.NationalLibraryofMedicine)可以獲得。20根據所研究的序列長度和同源性程度,上述算法使用的參數可以被調整。在一些方面,在無用戶的指示的情況下,所述參數使用算法所採用的默認參數。計算機系統和電腦程式產品本發明提供了計算機、計算機系統、計算機可讀取的介質、電腦程式產25品以及其上記錄或存儲了本發明的核酸和多肽序列的類似設備。此外,在實踐本發明的方法中,例如,為了確定和鑑定序列同一性(為了確定核酸是否在本發明的範圍之內)、結構同源性、基序等等,本發明的核酸或多肽序列可以在可通過計算機讀取和訪問的任何介質上存儲、記錄和操作。正如此處所用,詞語"記錄"和"存儲"指在計算機介質上存儲信息的過30程。熟練技術人員能容易地採用任何已知方法,在計算機可讀取的介質上存儲信息,以產生包括本發明的一個或多個核酸和/或多肽序列的產品。正如本文所用,術語"計算機"、"電腦程式"和"處理器"以它們在最廣的普通語境中的含義被使用,包括了所有這樣的設備,例如下面所詳細描述的。特定多肽或蛋白的"編碼序列"或"編碼特定多肽或蛋白的序列"是指當被置於適當的調控序列的控制35下時可被轉錄和翻譯成多肽或蛋白的核酸序列。本發明的多肽包括本發明的示例性序列和與其基本上相同的序列以及前述序列的任一個的子序列(片段)。一方面,基本上相同的、或同源的多肽序列是指與本發明的示例性序列具有至少50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、583%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93Q/o、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性(同源性)的多肽序列。同源性(序列同一性)可以使用本文所描述的電腦程式和參數的任一種進行確定。本發明的核酸或多肽序列可以在可通過計算機讀取和訪問的任何介質10上存儲、記錄和操作。正如此處所用,詞語"記錄"和"存儲"指在計算機介質上存儲信息的過程。熟練技術人員能容易地採用任何目前已知的方法,在計算機可讀取的介質上存儲信息,以產生包括本發明的一個或多個核酸序列、本發明的一個或多個多肽序列的產品。本發明的另一方面是其上記錄有至少2、5、10、15或20或更多個本發明的核酸或多肽序列的計算機可讀取介質。15本發明的另一方面是其上記錄有本發明的一個或多個核酸序列的計算機可讀取介質。本發明的另一方面是其上記錄有本發明的一個或多個多肽序列的計算機可讀取介質。本發明的另一方面是其上記錄有至少2、5、10、15或20或更多個如上面所述的核酸或多肽序列的計算機可讀取介質。計算機可讀取介質包括磁性可讀取介質、光學可讀取介質、電子可讀取介20質和磁/光學介質。例如,計算機可讀取的介質可以是硬碟、軟盤、磁帶、CD-ROM、數位化視頻光碟(DVD)、隨機存取存儲器(RAM)或只讀存儲器(ROM)以及本領域的技術人員己知的其它類型的其它介質。本發明的方面包括系統(例如基於網際網路的系統),例如計算機系統,它們存儲和操縱本文描述的序列信息。計算機系統100的一個實例以框圖形式示意25性地描述在圖1中。正如此處所用,"計算機系統"指硬體部分、軟體部分以及數據存儲部分,它們用於分析本發明的核酸序列的核苷酸序列或本發明的多肽序列。一方面,計算機系統100包括用於處理、訪問和操縱序列數據的處理器。處理器105可以是任何熟知類型的中央處理單元,如來自英特爾公司的奔騰III,或來自Sun、Motorola、Compag、AMD或IBM公司的類似處理器。30—方面,計算機系統100是一個通用的系統,該系統包括處理器105和用於存儲數據的一個或多個內部數據存儲部件110,以及用於檢索數據存儲部件上存儲的數據的一個或多個數據檢索設備。技術人員能容易地意識到,任何一種當前可獲得的計算機系統都是合適的。在一個特定的方面,計算機系統100包括連接到總線上的處理器105,總35線連接到主存儲器115(在一方面,以RAM來實現)和一個或多個內部數據存儲設備110,例如其上已經存儲了數據的硬碟驅動器和/或其它計算機可讀介質。在一些方面,計算機系統100進一歩包括一個或多個數據檢索設備118,用於讀取在內部數據存儲設備110上存儲的數據。數據檢索設備118可以是,例如軟盤驅動器、壓縮磁碟驅動器、磁帶驅動器或能連接到遠程數據存儲系統的數據機(例如通過網際網路)等等。在一些5方面中,內部數據存儲設備110是可移動的計算機可讀介質,例如含有控制邏輯和/或其上記錄的數據的軟盤、壓縮磁碟、磁帶等等。計算機系統100可以有利地包括適當的軟體或用適當的軟體編程,用於當數據存儲部件被插入到數據檢索設備中時從數據存儲部件讀取控制邏輯和/或數據。計算機系統100包括顯示器120,用於給計算機用戶顯示輸出。也應用注10意到,計算機系統100可以被連接到網絡或廣域網中的其它計算機系統125a-c,以便給計算機100提供集中訪問。用於訪問和處理本發明的核酸序列的核苷酸或本發明的多肽序列的軟體(例如,檢索工具、比較工具和建模工具等等)在執行過程中可駐留於主存儲器115中。15在一些方面,計算機系統100可以進一步包括序列比較算法,其用於比較存儲於計算機可讀介質上的本發明核酸序列或本發明多肽序列與存儲於計算機可讀介質上的參考核苷酸或多肽序列。"序列比較算法"指在計算機系統100上執行(本地或遠程)的一種或多種程序,以比較核苷酸序列和數據存儲設備中存儲的其它核苷酸序列和/或化合物。例如,序列比較算法可以將計算機可讀介質上存儲20的本發明的核酸序列的核苷酸序列或本發明的多肽序列與計算機可讀介質上存儲的參考序列進行比較,以鑑定同源性或結構基序。圖2是示意性說明過程200的一個方面的流程圖,該過程用於將新的核苷酸或蛋白序列與序列資料庫進行比較,以便確定新序列和資料庫中的序列之間的同源性水平。序列資料庫可以是存儲於計算機系統100上的個人資料庫,或可以25通過網際網路獲得的公共資料庫如GENBANK。過程200在起始狀態201開始,然後轉到狀態202,其中要被比較的新序列被存儲於計算機系統100的存儲器上。正如上面所討論的,該存儲器可以是任何類型的存儲器,包括RAM或內部存儲設備。然後過程200轉到狀態204,其中打開序列資料庫以進行分析和比較。然30後過程200轉到狀態206,其中資料庫中存儲的第一個序列被讀取到計算機的存儲器中。然後在狀態210進行比較,以確定第一個序列是否與第二個序列相同。重要的是應該注意到,該步驟不限於進行新序列和資料庫中第一個序列之間的精確比較。用於比較兩個核苷酸或蛋白序列的熟知的方法對於本
技術領域:
的普通技術人員是己知的,即使所述兩個核苷酸或蛋白序列不完全相同。例如,可以在一個35序列中引入空位,以提高兩個測試序列之間的同源性水平。控制空位或其它特徵在比較過程中是否被引入到序列中的參數通常由計算機系統的用戶輸入。—旦已經在狀態210進行兩個序列的比較,在決策狀態210就要作出兩個序列是否相同的判斷。當然,術語"相同的"不限於絕對相同的序列。在過程200中,在由用戶輸入的同源性參數範圍內的序列都將被標記為"相同的"。如果作出兩個序列相同的判斷,過程200轉到狀態214,其中來自資料庫5的序列的名稱被顯示給用戶。該狀態通知用戶,具有顯示的名稱的序列滿足所輸入的同源性限制。一旦所存儲序列的名稱被顯示給用戶,過程200轉到決策狀態218,其中作出資料庫中是否存在更多序列的判斷。如果資料庫中不存在更多的序歹lj,那麼過程200在結束狀態220終止。然而,如果資料庫中確實存在更多的序歹廿,那麼過程200轉到狀態224,其中指針被指向資料庫中的下一個序列,以便與10新序列進行比較。以這種方式,將新序列與資料庫中的每一序列聯配並進行比較。應該注意到,如果已經在決策狀態212已經作出了序列不同源的判斷,那麼過程200將立即轉到決策狀態218,以便確定用於比較的資料庫中的任何其它序列是否可利用。因此,本發明的一個方面是計算機系統,該系統包括處理器、其上已經存15儲了本發明核酸序列或本發明的多肽序列的數據存儲設備、其上以可檢索方式存儲了待與本發明的核酸序列或本發明的多肽序列比較的參考核苷酸序列或多肽序列的數據存儲設備、以及用於進行比較的序列比較器。該序列比較器可以指出被比較的序列之間的同源性水平,或鑑定上述的本發明的核酸序列的核酸密碼或者本發明的多肽序列中的結構基序,或者該比較器可以鑑定與這些核酸密碼和多肽20密碼進行比較的序列中的結構基序。在一些方面中,數據存儲設備可以在其上已經存儲了至少2、5、10、15、20、25、30或40個或更多個本發明的核酸序列或本發明的多肽序列的序列。本發明的另一方面是確定本發明的核酸序列或本發明的多肽序列和參考核苷酸序列之間的同源性水平的方法。所述方法包括通過使用確定同源性水平的25電腦程式讀取核酸密碼或多肽密碼以及參考核苷酸或多肽序列,以及用該電腦程式確定核酸密碼或多肽密碼與參考核苷酸或多肽序列之間的同源性水平。所述電腦程式可以是確定同源性水平的許多電腦程式的任何一種,包括本文中具體羅列的那些程序(例如,BLAST2N,具有默認參數或任何調整的參數)。所述方法可以使用上述的計算機系統執行。所述方法還可以如下進行通過使用所述30電腦程式讀取至少2、5、10、15、20、25、30或40個或更多個上述的本發明的核酸序列或本發明的多肽序列,以及確定核酸密碼或多肽密碼與參考核苷酸或多肽序列之間的同源性水平。圖3是示意性說明計算機中實施的過程250的一個方面的流程圖,該過程用於確定兩個序列是否同源。過程250在起始狀態252開始,然後轉到狀態254,35其中要被比較的第一個序列被存儲到存儲器上。然後要被比較的第二個序列在狀態256被存儲到存儲器上。然後過程250轉到狀態260,其中讀取第一個序列中的第一個字符,然後轉到狀態262,其中讀取第二個序列的第一個字符。應該理解到,如果序列是核苷酸序列,那麼字符將通常是A、T、C、G或U。如果序列是蛋白序列,那麼字符一方面可以是單字母胺基酸密碼,以便第一個序列和第二個序列可以被容易地比較。5然後在決策狀態264作出兩個字符是否相同的判斷。如果它們相同,那麼過程250轉到狀態268,其中第一個和第二個序列中的下一個字符被讀取。然後作出該下一個字符是否相同的判斷。如果它們相同,那麼過程250繼續循環,直到兩個字符不相同。如果作出的判斷是這兩個字母不相符,那麼過程250轉到決策狀態274,以確定是否有更多的字符或者序列可以讀取。10如果沒有可讀取的任何更多的字符,那麼過程250轉到狀態276,其中第一個和第二個序列之間的同源性水平被顯示給用戶。同源性水平通過計算序列之間相同的字符在第一個序列的序列總數中的比例來確定。因此,如果第一個100個核苷酸序列中的每一個字符都與第二個序列中的每一個字符聯配,那麼同源性水平將是100%。15可以選擇地,電腦程式可以是這樣的電腦程式,其將本發明所示的核酸序列的核苷酸序列與一個或多個參考核苷酸序列進行比較,以確定本發明的核酸密碼是否在一個或多個位置上與參考核酸序列不同。任選地,這樣的程序記錄,相對於參考多核苷酸序列或者本發明的核酸序列,被插入、刪除或取代的核苷酸的長度和身份。一方面,電腦程式可以是確定本發明的核酸序列是否相對於參20考核苷酸序列含有單核苷酸多態性(SNP)的程序。因此,本發明的另一方面是確定本發明的核酸序列是否在一個或多個核苷酸處與參考核苷酸序列不同的方法,所述方法包括通過使用鑑定核酸序列之間的差異的電腦程式讀取核酸密碼和參考核苷酸序列,並用該電腦程式鑑定核酸密碼和參考核苷酸序列之間的差異。在一些方面,電腦程式是鑑定單核苷酸多25態性的程序。該方法可以通過上面描述的電腦程式和圖3所示意性說明的方法執行。所述方法還可以如下進行通過使用所述電腦程式讀取至少2、5、10、15、20、25、30或40個或更多個本發明核酸序列和參考核苷酸序列,以及用該電腦程式鑑定核酸密碼與參考核苷酸序列之間的差異。在其它方面,基於計算機的系統可以進一步包括鑑定器,其用於鑑定本發30明的核酸序列或本發明的多肽序列中的特徵。"鑑定器"指在本發明的核酸序列或本發明的多肽序列中鑑定某些特徵的一個或多個程序。一方面,鑑定器可以包括在本發明的核酸序列中鑑定開放閱讀框(ORF)的程序。圖4是示意性說明鑑定器過程300的一個方面的流程圖,即用於檢測序列中特徵的存在。過程300在起始狀態302開始,然後轉到狀態304,其中將被檢査35特徵的第一個序列存儲在計算機系統100的存儲器115上。然後過程300轉到狀態306,其中打開序列特徵資料庫。這樣的資料庫包括每一特徵的屬性以及該特徵的名稱的列表。例如,特徵名稱是"起始密碼子",屬性是"ATG"。另一個實例是特徵名稱"TAATAA序列盒",特徵屬性是"TAATAA"。這樣的資料庫的實例由威斯康星大學遺傳學計算機組(UniversityofWisconsinGeneticsComputerGroup)開發。可以選擇地,這些特徵可以是結構多肽基序如a螺旋、J3摺疊,或功能多肽5基序如酶活性位點、螺旋-轉角-螺旋基序或本
技術領域:
技術人員已知的其它基序。—旦在狀態306打開特徵資料庫,過程300就轉到狀態308,其中從資料庫讀取第一個特徵。然後在狀態310將第一個特徵的屬性與第一個序列進行比較。接著在決策狀態316作出在第一個序列中是否發現該特徵的屬性的判斷。如果發現了屬性,那麼過程300轉到狀態318,其中所發現的特徵的名稱被顯示給用戶。10然後,過程300轉到決策狀態320,其中作出資料庫中是否存在更多特徵的判斷。如果不存在更多特徵,那麼過程300在結束狀態324終止。然而,如果資料庫中確實存在更多的特徵,那麼過程300在狀態326讀取下一個序列特徵,循環回到狀態310,其中將下一個特徵的屬性與第一個序列進行比較。應當注意,如果在決策狀態316在第一個序列中沒有發現特徵屬性,那麼過程300直接轉到15決策狀態320,以便確定資料庫中是否存在更多特徵。因此,本發明的另一方面是鑑定本發明的核酸序列或本發明的多肽序列中的特徵的方法,所述方法包括通過使用鑑定其中特徵的電腦程式讀取核酸密碼或多肽密碼,並用該電腦程式鑑定核酸密碼中的特徵。一方面,電腦程式包括鑑定開放閱讀框(ORF)的電腦程式。所述方法可以如下進行通過使用所20述電腦程式讀取本發明的核酸序列或本發明的多肽序列中的一個序列或至少2、5、10、15、20、25、30或40個或更多個序列,以及用該電腦程式鑑定核酸密碼或多肽密碼中的特徵。本發明的核酸序列或本發明的多肽序列可以以多種格式在各種數據處理器程序中存儲和操作。例如,本發明的核酸序列或本發明的多肽序列可以以文本25文件存儲在字處理文件中,如MicrosoftWORD頂或WORDPERFECT,或以ASCII文件存儲在本領域技術人員熟悉的各種資料庫程序中,例如DB2TM、SYBASE或ORACLE。此外,許多電腦程式和資料庫可以被用作序列比較算法、鑑定器或與本發明的核酸序列或本發明的多肽序列進行比較的參考核苷酸序列或多肽序列的來源。下面的羅列不意圖限制本發明,而是提供對本發明的核30酸序列或本發明的多肽序列有用的程序和資料庫的指導。可以使用的程序和資料庫,包括但不限於MACPATTERN(EMBL)、DISCOVERYBASE(MolecularApplicationGroup)、GENEMINE(MolecularApplicationGroup)、LOOK(MolecularApplicationGroup)、MACLOOK(MolecularApplicationGroup)、BLAST和BLAST2(NCBI)、BLASTN和BLASTX35(Altschul等人,J.Mol.Biol.215:403,1990)、FASTA(PearsonandLipman,Proc.Natl.Acad.Sci.USA,85:2444,1988)、FASTDB(Brutlag等人,Comp.App.Biosci.6:237-245,1990)、CATALYST(MolecularSimulationsInc.)、Catalyst/SHAPE(MolecularSimulationsInc.)、Cerius2.DBAccessTM(MolecularSimulationsInc.)、HypoGen(MolecularSimulationsInc.)、INSIGHTIITM(MolecularSimulationsInc.)、DISCOVER(MolecularSimulationsInc.)、CHARMm(Molecular5SimulationsInc.)、FELIXTM(MolecularSimulationsInc.)、DELPHI(MolecularSimulationsInc.)、QuanteMMTM(MolecularSimulationsInc.)、Homology(MolecularSimulationsInc.)、MODELER(MolecularSimulationsInc.)、ISIS(MolecularSimulationsInc.)、Quanta/ProteinDesign(MolecularSimulationsInc.)、WebLab(MolecularSimulationsInc.)、WebLabDiversityExplorer(MolecularSimulations10Inc.)、GeneExplorer(MolecularSimulationsInc.)、SeqFold(MolecularSimulationsInc.)、MDLAvailableChemicalsDirectory資料庫、MDLDrugDataReport資料庫、ComprehensiveMedicinalChemistry資料庫、Derwent'sWorldDrugIndex資料庫、BioByteMasterFile資料庫、Genbank資料庫和Genseqn資料庫。基於本發明的公開內容,許多其它程序和資料庫對於本
技術領域:
的技術人員是顯而易見的。15可以用上述程序檢測的基序包括編碼亮氨酸拉鏈的序列、螺旋-轉角-螺旋基序、糖基化位點、泛素化位點、ct螺旋和P摺疊、編碼指導被編碼的蛋白分泌的信號肽的信號序列、在轉錄調節中涉及的序列如同源框、酸性伸展物(acidicstretches)、酶活性位點、底物結合位點和酶切割位點。20核酸的雜交本發明提供了分離的或重組的核酸,這些核酸與本發明的示例性序列(例如SEQIDNO:l,SEQIDNO:3,SEQIDNO:5,SEQIDNO:7,SEQIDNO:9,SEQIDNO:ll,SEQIDNO:13,SEQIDNO:15,SEQIDNO:17,SEQIDNO:19,SEQIDNO:21,SEQIDNO:23,SEQIDNO:25,SEQIDNO:27,SEQIDNO:29,SEQ25IDNO:31,SEQIDNO:33,SEQIDNO:35,SEQIDNO:37,SEQIDNO:39,SEQIDNO:41,SEQIDNO:43,SEQIDNO:45,SEQIDNO:47,SEQIDNO:49,SEQIDNO:51,SEQIDNO:53,SEQIDNO:55,SEQIDNO:57'SEQIDNO:59,SEQIDNO:61,SEQIDNO:63,SEQIDNO:65,SEQIDNO:67,SEQIDNO:69,SEQIDNO:71,SEQIDNO:73,SEQIDNO:75,SEQIDNO:77,SEQIDNO:79,SEQ30IDNO:81,SEQIDNO:83,SEQIDNO:85,SEQIDNO:87,SEQIDNO:89,SEQIDNO:91,SEQIDNO:93,SEQIDNO:95,SEQIDNO:97,SEQIDNO:99,SEQIDNO:101,SEQIDNO:103,SEQIDNO:105,SEQIDNO:107,SEQIDNO:109,SEQIDNO:lll,SEQIDNO:113,SEQIDNO:115,SEQIDNO:117,SEQIDNO:119,SEQIDNO:121,SEQIDNO:123,SEQIDNO:125,SEQIDNO:127,SEQ35IDNO:129,SEQIDNO:131,SEQIDNO:133,SEQIDNO:135,SEQIDNO:137,SEQIDNO:139,SEQIDNO:141,SEQIDNO:143,SEQIDNO:145'SEQIDNO:147,SEQIDNO:149,SEQIDNO:151,SEQIDNO:153,SEQIDNO:155,SEQIDNO:157,SEQIDNO:159,SEQIDNO:161,SEQIDNO:163或SEQIDNO:165(也參見表1、2和3、下面的實施例1和4,以及序列表))在嚴緊條件下雜交。嚴緊條件可以是高度嚴緊性條件、中度嚴緊性條件和/或低度嚴緊性條件,5包括本文描述的高的和降低的嚴緊性的條件。一方面,正如下面所討論的,洗滌條件的嚴緊性提供了決定核酸是否在本發明範圍內的條件。"雜交"指這樣一個過程,g卩,通過該過程核酸鏈與互補鏈通過鹼基配對而結合。雜交反應可以是靈敏的並且是選擇性的,以便感興趣的特定序列可以被鑑定,甚至在其以低濃度存在的樣品中也可以被鑑定。適度的嚴緊條件(stringent10conditions)可以通過,例如預雜交和雜交溶液中鹽或甲醯胺的濃度來定義,或者通過雜交溫度來定義,這些嚴緊條件在本
技術領域:
是已知的。在可選的方面,嚴緊性可以通過降低鹽的濃度、增加甲醯胺的濃度或升高雜交溫度來增加。在可選擇的方面,本發明的核酸通過它們在各種嚴緊條件(例如強、中等和低嚴緊條件)下雜交的能力來定義,正如本文所示。15—方面,高度嚴緊性下的雜交包括在大約37'C到42'C的溫度下大約50%的甲醯胺。一方面,雜交條件包括在大約301:到35'(:下在大約35%至25%的甲醯胺中降低的嚴緊性條件。一方面,雜交條件包括高度嚴緊性條件,例如,在42'C、在50%甲醯胺、5XSSPE、0.3%SDS中,和200n/ml的剪切和變性鮭精DNA。一方面,雜交條件包括這些降低的嚴緊性條件,但在降低的溫度35匸在35%甲醯胺20中。相應於特定的嚴緊性水平的溫度範圍可以通過計算目標核酸中的嘌呤嘧啶比並相應調節溫度而進一步縮小。上述範圍和條件的變化在本領域中是熟知的。在可以選擇的方面中,本發明的核酸,正如通過它們在嚴緊條件下雜交的能力所定義的,可以在本發明的核酸的大約五個殘基到全長之間;例如它們的長度可以是至少5、10、15、20、25、30、35、40、50、55、60、65、70、75、80、25卯、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000或更多殘基。也包括小於全長的核酸。這些核酸可以用作,例如雜交探針、標記探針、PCR寡核苷酸探針、siRNA或miRNA(單鏈或雙鏈)、反義或編碼抗體結合肽(表位)、基序、活性位點的序列以及類似序列。—方面,本發明的核酸通過它們在高度嚴緊性下雜交的能力定義,高度嚴30緊性包括在大約37'C到42'C的溫度下大約50。/。的甲醯胺的條件。一方面,本發明的核酸通過它們在降低的嚴緊性下雜交的能力定義,降低的嚴緊性包括在大約30'C到35'C在大約35%至25%的甲醯胺中的條件。可以選擇地,本發明的核酸通過它們在高度嚴緊性下雜交的能力定義,高度嚴緊性包括的條件為在42'C、在50%甲醯胺、5XSSPE、0.3。/。SDS中,和封35閉核酸的重複序列,如cot-l或鮭精DNA(例如200n/ml的剪切和變性鮭精DNA)。一方面,本發明的核酸通過它們在降低的嚴緊性條件下雜交的能力定義,降低的嚴緊性條件包括在35'C或42°C的降低溫度下的35%或40%甲醯胺中。在核酸雜交反應中,用於得到特定嚴緊性水平的條件將根據雜交中的核酸的性質變化。例如,所述核酸的雜交區域的長度、互補程度、核苷酸序列組成(例如GC和AT含量)和核酸類型(例如RNA和DNA)可以在選擇雜交條件時加以5考慮。另外的考慮因素是核酸之一是否被固定,例如固定在濾膜上。雜交可以在低度嚴緊性、中度嚴緊性或高度嚴緊性的條件下進行。作為核酸雜交的一個實例,含有固定化的變性核酸的聚合物膜首先在45'C在含有如下成分的溶液中預雜交30分鐘0.9MNaCl、50mMNaH2P04,pH7.0、5.0mMNa2EDTA、0.5%SDS、10XDenhardt,s和0.5mg/ml多核糖腺苷酸。然後在該溶液中加入大約102X107cpm(比活性為4-9X108cpm/ug)的32P末端標記的寡核苷酸探針。在溫育12-16小時後,在室溫下在含有0.5%SDS的IXSET"50mMNaCl、20mMTris鹽酸,pH7.8、lmMNa2EDTA)中將膜洗滌30分鐘,隨後,在該寡核苷酸探針的Tm-l(TC的溫度,在新鮮的1XSET中洗滌30分鐘。然後將膜暴露於放射自顯影膠片,以檢測雜交信號。所有的前述雜交將被認為在高嚴緊性條件下。15雜交後,洗滌濾膜以除去任何非特異性結合的可檢測探針。用於洗滌濾膜的嚴緊性也可以根據如下方面進行變化被雜交的核酸的性質、被雜交的核酸的長度、互補程度、核苷酸序列組成(例如GC和AT含量)和核酸類型(例如RNA和DNA)。逐步增高的嚴緊性條件洗滌的實例如下2