用於還原苯乙酮的酮還原酶多肽的製作方法
2024-03-02 13:30:15
專利名稱:用於還原苯乙酮的酮還原酶多肽的製作方法
用於還原苯乙酮的酮還原酶多肽1.相關申請的交叉引用本申請根據35U. S. C. § 119 (e)要求2007年9月13日提交的申請序列第 60/972,058號的利益,其內容通過引用併入本文。2.序列表、表格或電腦程式的引用作為文件名376247-017. txt通過EFS_Web以計算機可讀形式(CRF)根據37C. F.R. §1.821隨本申請同時提交的序列表通過引用併入本文。序列表的電子拷貝產生在 2008年9月13日,文件大小為213千字節。3.背景屬於酮還原酶(KRED)或羰基還原酶類(EC 1. 1. 1. 184)的酶可用於從對應的前 體立體異構酮底物和通過對應的消旋醛底物的立體專一性還原來合成光學上有活性的醇 類。KRED —般將酮和醛底物轉化為對應的醇產物,但是還可催化相反的反應,將醇底物氧 化為對應的酮/醛產物。通過諸如KRED的酶來還原酮和醛以及氧化醇需要輔因子,最常 見的輔因子是還原型煙醯胺腺嘌呤二核苷酸(NADH)或還原型煙醯胺腺嘌呤二核苷酸磷酸 (NADPH),以及用於氧化反應的煙醯胺腺嘌呤二核苷酸(NAD)或煙醯胺腺嘌呤二核苷酸磷 酸(NADP)。NADH和NADPH作為電子供體,而NAD和NADP作為電子受體。常常觀察到酮還 原酶和醇脫氫酶接受磷酸化或非磷酸化輔因子(以其氧化和還原狀態),但不是兩者。KRED酶可發現於多種細菌和酵母中(綜述參見Kraus和Waldman,1995, Enzyme catalysis in organic synthesis (有機合成中的酶催化),第 1&2 卷 VCH ffeinheim ;Faber, K. ,2000, Biotransformations in organic chemistry (有機化學中 的生物轉化),第 4 版,Springer, Berlin Heidelberg New York ;和 Hummel 和 Kula, 1989,Eur. J. Biochem. 184 :1_13)。已報導幾種KRED基因和酶序列,例如,木蘭假絲 酵母(Candida magnoliae) (Genbank 登錄號 JC7338 ;GI 11360538)、近平滑假絲酵母 (Candida parapsilosis) (Genbank 登錄號 BAA24528. 1 ;GI 2815409)、赭色擲孢酵母 (Sporobolomycessalmonicolor) (Genbank 登錄號 AF160799 ;GL6539734)。為了避免用於產生關鍵化合物的許多化學合成過程,增加地採用酮還原酶以將不 同的酮和醛底物酶促轉化為手性醇產物。這些應用可採用表達酮還原酶的全細胞用於生物 催化酮和醛的還原,或在其中全細胞中多種酮還原酶的存在將相反地影響需要產物的立體 純度和產量的那些實例中通過使用純化的酶。對體外應用,使用諸如葡萄糖脫氫酶(GDH)、 甲酸脫氫酶等的輔因子(NADH或NADPH)再生酶與酮還原酶的組合。使用酮還原酶來產生 有用的化學化合物的實例包括4-氯乙醯乙酸酯類的不對稱還原(Zhou,1983,J. Am. Chem. Soc. 105 5925-5926 ;Santaniello, J. Chem. Res. (S) 1984 :132-133 ;美國專利第 5,559,030 號;美國專利第5,700, 670號和美國專利第5,891,685號)、二氧羧酸類的還原(例如,美 國專利第6,399,339號)、(S)氯代_5_羥基-3-氧代己酸叔丁酯的還原(例如,美國專利 第6,645,746和W0 01/40450號)、基於吡咯並三嗪的化合物的還原(例如,美國申請第 2006/0286646號);取代苯乙酮的還原(例如,美國專利第6,800,477號);和酮四氫噻吩 (ketothiolane)的還原(W0 2005/054491)。
10
需要鑑定可用來將各種酮底物轉化為其對應的手性醇產物的其他酮還原酶。4.概述本公開提供了能將確定的酮底物立體選擇性地還原為其對應醇產物、並且當與獲 自克菲爾乳桿菌(L. kefir) (SEQ ID NO :4)或短乳桿菌(L. brevis) (SEQ ID NO 2)或小 乳桿菌(L. minor) (SEQ ID NO :98)的天然存在的野生型KRED酶相比時或當與其他工程 酮還原酶相比時具有改進特性的工程酮還原酶(「KRED」)。本公開中顯示來自乳桿菌種 (Lactobacillus species)的天然存在的酮還原酶將化合物苯乙酮還原為(R)_l_苯乙醇。 因為野生型酶一般選擇性地用於將苯乙酮還原為其對應的(R)_醇,這些天然存在的酶是 (R)-選擇性酮還原酶或(R)-酮還原酶。對取代苯乙酮(諸如2' ,6' -二氯-3'-氟苯 乙酮),這些野生型克菲爾乳桿菌或短乳桿菌或小乳桿菌酮還原酶表現出對取代苯乙酮底 物的不明顯的活性,如果有活性的話。然而,衍生自野生型乳桿菌種的酮還原酶的本公開的 工程酮還原酶能將苯乙酮還原為(S)-l-苯乙醇。因此本文所述的酮還原酶通過與用於還 原苯乙酮的野生型克菲爾乳桿菌或短乳桿菌或小乳桿菌酮還原酶相比反向的對映選擇性 來表徵。因此本公開的這些多肽稱為(S)-選擇性酮還原酶或(S)-酮還原酶。反向對映選 擇性是基於將野生型酮還原酶190位置的殘基(即X190)突變為不是酪氨酸的殘基,優選 地突變為非芳族殘基,特別地突變為脯氨酸殘基。此外,除了改變的立體選擇性外,本文所述的工程酶可具有一種或多種改進的特 性。例如,與野生型酮還原酶相比,工程酮還原酶多肽可具有改進的酶促活性用於將底物還 原為產物和/或進一步增強對(S)對映體的立體選擇性。酶特性的改進還可包括但不限於 熱穩定性、溶劑穩定性的增強或降低的產物抑制。如本文進一步公開的,儘管野生型酮還 原酶在還原取代苯乙酮中顯示不明顯的活性,本公開提供了能將取代苯乙酮2' ,6' -二 氯-3'-氟苯乙酮還原或轉化為(S)-l-[2,6-二氯-3-氟苯基]-乙醇的酮還原酶。相應地,在一些實施方案中,本公開涉及在對應於SEQ ID N0:2、4或98的X190的 殘基處具有不是酪氨酸的殘基的酮還原酶多肽。在一些實施方案中,該殘基是非芳族殘基, 諸如,例如脂肪族、受限、非極性或半胱氨酸殘基。在一些實施方案中,該殘基是脯氨酸。除了在對應於X190的殘基處的特點,與SEQ ID NO :2、4或98的序列相比,該酮 還原酶可在其他殘基位置具有一個或多個殘基的差異。在一些實施方案中,本文的酮還 原酶多肽包含與基於SEQ ID而2、4或98的參考序列相比具有至少約85%、86%、87%、 88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或更高同一性的氨基 酸序列,其在對應於X190的殘基處具有非芳族殘基,包括脂肪族、受限、非極性或半胱氨酸 殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸,條件是該酮還原酶多肽在對應於X190 的殘基處具有不是酪氨酸的殘基,特別是非芳族殘基。在一些實施方案中,該酮還原酶多肽 具有其中對應於X190的殘基是脂肪族、受限、非極性或半胱氨酸殘基的胺基酸序列。在一 些實施方案中,該酮還原酶多肽具有其中對應於X190的殘基是丙氨酸、異亮氨酸、半胱氨 酸或脯氨酸、特別是脯氨酸的胺基酸序列。在一些實施方案中,這些殘基差異導致改進的特 性,諸如改進的對底物的酶促活性。改進的特性可以是參考野生型酮還原酶或參考工程酮 還原酶。例如,在一些實施方案中,酮還原酶的改進是與具有對應於SEQ ID NO :6的胺基酸 序列的工程酶的特性相比,其能以可測量活性以高於99%的立體異構過量將底物轉化為產 物,因此與野生型克菲爾乳桿菌或短乳桿菌或小乳桿菌酮還原酶相比有改進。可導致一種或多種改進酶特性的各種殘基差異在詳述中提供。在一些實施方案中,這些工程酮還原酶 多肽是基於在SEQ ID N0:95、96和119中列出的序列式(或其區域,諸如殘基90-211)。在一些實施方案中,本公開的酮還原酶多肽能以高於99%的立體異構過量和與具 有SEQ ID NO :6的序列的酮還原酶多肽相比有改進的速率將2' ,6' -二氯_3'-氟苯乙 酮轉化為(S)-l-[2,6-二氯-3-氟苯基]-乙醇。與SEQ ID NO :6相比關於酶促活性方面 有改進的示例性多肽包括但不限於包含對應於SEQ ID NO :8、10、12、14、16、18、20、22、24、 26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、 76、78、80、82、84、86、88、90、92和94的胺基酸序列的多肽。在一些實施方案中,該酮還原酶多肽能以高於99 %的立體異構過量和與具有SEQ ID NO :6的序列的酮還原酶多肽相比有改進的速率將2' ,6' -二氯-3'-氟苯乙酮轉化 為(S)-l-[2,6-二氯-3-氟苯基]-乙醇,其中該多肽與具有SEQ ID NO :6的序列的多肽相 比還具有改進的熱穩定性。具有此類改進的示例性多肽包括但不限於包含對應於SEQ ID NO :8、16、18、20、22、26、28、30、32、34、38、40、42、44、46、54、66、68、70、72、74、76、78、80、82、 84、86、88、90、92和94的胺基酸序列的多肽。在一些實施方案中,該酮還原酶多肽能以高於99%的立體異構過量和比具有SEQ ID NO :6的序列的酮還原酶多肽高至少約450%的速率將2' ,6' -二氯-氟苯乙酮 轉化為(S)-l-[2,6-二氯-3-氟苯基]-乙醇。能具有此類改進的示例性多肽包括但不限於 包含對應於 SEQ ID NO :8、10、14、16、18、22、24、26、28、30、32、34、36、38、40、42、44、46、54、 56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92 和 94 的胺基酸序列的多 肽。在一些實施方案中,該酮還原酶多肽能以高於99%的立體異構過量和比具有SEQ ID N0 :6的序列的酮還原酶多肽高至少約450%的速率將2' ,6' -二氯-氟苯乙酮轉 化為(幻-1-[2,6-二氯-3-氟苯基]-乙醇,其中該多肽與5£010 N0 :6的多肽相比還具有改 進的熱穩定性。具有此類特性的示例性多肽包括但不限於包含對應於SEQ ID N0:8、16、18、 22、26、28、30、32、34、38、40、42、44、46、54、66、68、70、72、74、76、78、80、82、84、86、88、90、92 和94的胺基酸序列的多肽。在一些實施方案中,該酮還原酶多肽能以高於99%的立體異構過量和比具有SEQ ID N0 :6的序列的酮還原酶多肽高至少約1500%的速率將2' ,6' -二氯-氟苯乙酮 轉化為(S)-l-[2,6-二氯-3-氟苯基]-乙醇。能具有此類改進的示例性多肽包括但不限 於包含對應於 SEQ ID NO :18、32、34、36、38、40、42、44、46、74、76、78、80、82、84、86、88、90、 92和94的胺基酸序列的多肽。在一些實施方案中,該酮還原酶多肽能以高於99%的立體異構過量和比具有SEQ ID N0 :6的序列的酮還原酶多肽高至少約1500%的速率將2' ,6' -二氯-氟苯乙酮 轉化為(S)-l-[2,6-二氯-3-氟苯基]-乙醇,其中該多肽與SEQ ID NO :6的多肽相比還具 有改進的熱穩定性。具有此類特性的示例性多肽包括但不限於包含對應於SEQ ID N0:18、 32、34、36、38、40、42、44、46、74、76、78、80、82、84、86、88、90、92 和 94 的胺基酸序列的多肽。在一些實施方案中,當用相對2',6' -二氯-3'-氟苯乙酮底物的量按重量 計少於約的量的多肽進行時,該酮還原酶多肽能在不到約24小時內將2' ,6' -二 氯-3'-氟苯乙酮底物的至少約95%以至少約99%的立體異構過量轉化為(S)-l-[2,
126-二氯-3-氟苯基]-乙醇。具有該能力的示例性多肽包括但不限於包含對應於SEQ ID NO :18、32、34、36、38、40、42、44、46、74、76、78、80、82、84、86、88、90、92 和 94 的胺基酸序列
的多肽。在一些實施方案中,該酮還原酶多肽能以高於99%的立體異構過量和比具有SEQ ID NO :6的序列的酮還原酶多肽高至少約450%的速率將2' ,6' -二氯-氟苯乙酮轉 化為(S)-l-[2,6- 二氯-3-氟苯基]-乙醇,其中在50°C熱處理2小時後,該多肽還能以比 具有SEQ ID NO :16的序列的多肽高至少約400%的速率將底物轉化為產物(其中SEQ ID NO 16的多肽也用相同的熱處理來處理)。具有此類特性的示例性多肽包括但不限於包含 對應於 SEQID NO :18、32、34、36、38、40、42、44、46、74、76、78、80、82、84、86、88、90、92 和 94 的胺基酸序列的多肽。在一些實施方案中,能將2',6' -二氯-3'-氟苯乙酮轉化為(S)-l_[2,6-二 氯-3-氟苯基]-乙醇的改進的酮還原酶多肽包含具有與對應於基於SEQ IDN0 :2、4或98 的參考序列的殘基90-211的區域或結構域具有至少約85%、86%、87%、88%、89%、90%、 91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的胺基酸序列的區域或結構 域,條件是該酮還原酶多肽區域或結構域在對應於X190的殘基處具有酪氨酸之外的殘基, 所述參考序列在對應於X190的殘基處具有非芳族殘基,包括脂肪族、受限、非極性或半胱 氨酸殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸。在一些實施方案中,該酮還原酶多 肽具有對應於參考序列的殘基90-211的區域或結構域,其中對應於X190的殘基是非芳族 殘基。在一些實施方案中,對應於X190的該殘基可以是脂肪族、受限、非極性或半胱氨酸殘 基。在一些實施方案中,對應於X190的殘基可以是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸, 特別是脯氨酸。在一些實施方案中,與參考序列相比,該酮還原酶多肽在結構域或區域可具 有一個或多個殘基差異。可不同於參考序列的各種殘基的位置在詳述中提供。在另一個方面,本公開提供了編碼本文描述的工程酮還原酶的多核苷酸或在高度 嚴緊條件下與此類多核苷酸雜交的多核苷酸。該多核苷酸可包括啟動子和用於編碼的工程 酮還原酶的表達的其他調節元件,並且可利用為特定的希望的表達系統而優化的密碼子。 編碼該工程酮還原酶的示例性多核苷酸包括但不限於包含對應於SEQ ID N0:5、7、9、ll、 13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、 63、65、67、69、71、73、75、77、79、81、83、85、87、89、91 和 93 的序列的多核苷酸。在另一個方面,本公開提供了包含本文描述的多核苷酸和/或表達載體的宿主細 胞。該宿主細胞可以是克菲爾乳桿菌或短乳桿菌,或者其可以是不同的有機體。該宿主細 胞可用於本文描述的工程酮還原酶的表達和分離,或者可選地該宿主細胞可直接用於將式 (I)或(III)的取代苯乙酮底物分別轉化為對應的式(II)或(IV)的(s)-醇產物。無論使用全細胞、細胞提取物或純化的酮還原酶來進行該方法,可使用單一酮還 原酶,或者可選地可使用兩種或多種酮還原酶的混合物。如上文所提,本文描述的酮還原酶能催化2' ,6'-取代苯乙酮,在3'、4'和5' 位置的一個或多個被任選地取代,向對應的(S)-醇產物的還原反應。在一些實施方案中,該酮還原酶能將結構式(I)的酮2',6' -二氯-3'-氟苯 乙酮
相應地,在一些實施方案中,本公開提供了用於將2' ,6'取代苯乙酮底物,任選 地在3'、4'和5'位置的一個或多個被取代,還原為對應的取代(S)-苯乙醇的方法,其中 該方法包括在適合於將底物還原或轉化為對應的取代(S)_苯乙醇的反應條件下使底物與 本文描述的酮還原酶接觸。在本方法的一些實施方案中,底物以高於約25%、50%、75%、 80 %、85 %、90 %、95 %、99 %或99. 9 %的立體異構過量被還原為產物。在一些實施方案中,本公開提供了用於將式(III)的2' ,6'取代苯乙酮還原為 式(IV)的對應的取代(S)_苯乙醇的方法,其中該方法包括在適合於將式(III)的底物還 原或轉化為式(IV)的對應的取代(S)_苯乙醇產物的反應條件下使底物與本文描述的酮還 原酶接觸。在本方法的一些實施方案中,底物以高於約25%、50%、75%、80%、85%、90%、 95 %、99 %或99. 9%的立體異構過量被還原為產物。
CN 101855342 A
說明書
5/71 頁
CI O
CI還原或轉化為結構式(II)的對應的手性醇產物⑶-1_[2,6-二氯-3-氟苯 基]-乙醇
CI OH
H
fv
CI
o在一些實施方案中,本文描述的酮還原酶能催化結構式(III)的2' ,6' _取代苯 乙酮化合物
Y0
(HI)
Z其在3'、4'和5'位置的一個或多個被任選地取代,其中Y和Z獨立地選自CH3、 CF3、NH2、OH、0CH3、CI和Br,還原為結構式(IV)的對應的手性醇產物
YOH
\m /
TV
14
在一些實施方案中,本公開提供了用於將式(I)的2',6' -二氯-3' _氟苯乙 酮底物還原為式(II)的其對應的(S)-醇產物(S)-l-[2,6-二氯-3-氟苯基]-乙醇的方 法,其中該方法包括在適合於將2' ,6' -二氯-3'-氟苯乙酮還原或轉化為(S)-l-[2, 6-二氯-3-氟苯基]-乙醇的反應條件下使2',6' -二氯-3'-氟苯乙酮與本文描述的 酮還原酶接觸或育。在本方法的一些實施方案中,底物以高於約85%、90%、95%、99%或 99. 9%的立體異構過量被還原為產物。在一些實施方案中,底物以高於約85%的立體異構 過量被還原為產物,其中酮還原酶多肽包含基於SEQ ID N0:95、96或119的序列式的氨基 酸序列。在一些實施方案中,底物以高於約99 %的立體異構過量被還原為產物,其中本方法 中使用的酮還原酶多肽包含對應於SEQ ID NO :6、8、10、12、14、16、18、20、22、24、26、28、30、 32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、 82、84、86、88、90、92和94的胺基酸序列。在本方法的一些實施方案中,當使用相對2' ,6' -二氯-3'-氟苯乙酮底物的 量按重量計低於約的量的酮還原酶多肽進行該方法時,底物的至少約95%以高於約 99%的立體異構過量、在不到24小時內被還原為產物,其中酮還原酶多肽包含對應於SEQ ID NO :18、32、34、36、38、40、42、44、46、74、76、78、80、82、84、86、88、90、92 和 94 的胺基酸序 列。在一些實施方案中,本公開提供了本文描述的酮還原酶和2,6取代苯乙酮,任選 地在3'、4'或5'位置的一個或多個被取代,和/或對應的取代(S)-苯乙醇的組合物。 在一些實施方案中,組合物包含本文描述的酮還原酶和式(I)的化合物和/或式(II)的化 合物。在一些實施方案中,組合物包含本文描述的酮還原酶和式(III)的化合物和/或式 (IV)的化合物。在一些實施方案中,組合物包含本文描述的酮還原酶和式(V)的化合物和 /或式(VI)的化合物。在一些實施方案中,組合物還可包含輔因子再生系統。在一些實施方案中,本公開涉及工程酮還原酶在合成描述於W006021886、 W006021884、W006021881和W004076412中的蛋白激酶抑制劑中的應用。在一些實施方案 中,在用於合成這些蛋白激酶抑制劑的方法中,方法的步驟可包含使用本公開的酮還原酶 將式(I)的底物2',6' -二氯-3' _氟苯乙酮還原或轉化為其對應的式(II)的(S)-醇 產物(S)-l-[2,6-二氯-3-氟苯基]-乙醇。5.附圖簡述
圖1說明了酮還原酶(KRED)在將式(I)的底物化合物2',6' -二氯_3_氟苯 乙酮轉化為式(II)的對應的手性醇產物(S)-l-[2,6,_ 二氯-3-氟苯基]-乙醇中的作用。 該反應中,底物被生物催化地還原為對應的(S)_醇。該還原使用本文描述的KRED和諸如 NADPH的輔因子。使用葡萄糖脫氫酶(GDH)來將NADP+轉化/再循環為NADPH。葡萄糖被 轉化為葡萄糖酸,其然後通過加入氫氧化鈉被轉化為其鈉鹽(葡萄糖酸鈉)。6.詳述6. 1 定義如本文所用,以下術語預期具有以下含義。「酮還原酶」和「_」在本文可交換使用,指具有將羰基基團還原為其對應的醇 的酶促能力的多肽。更具體地,本發明的酮還原酶多肽能將上文式(I)的化合物立體選擇 性地還原為上文式(II)的對應的產物。該多肽一般使用輔因子還原型煙醯胺腺嘌呤二核
15苷酸(NADH)或還原型煙醯胺腺嘌呤二核苷酸磷酸(NADPH)作為還原劑。如本文所用的酮 還原酶包括天然存在的(野生型)酮還原酶以及通過人工操作產生的非天然存在的工程多 肽。「編碼序列」指編碼蛋白的胺基酸序列的那部分核酸(例如,基因)。「天然存在的」 或「野牛型」指自然中發現的形式。例如,天然存在的或野生型多肽或多核苷酸序列是存在 於有機體中的序列,其可從自然中的來源分離,並且沒有有意地通過人工操作來修飾。當參考例如細胞、核酸或多肽使用時,「皿」指已經以不在自然中存在的方式被 修飾,或者與自然形式相同但從合成材料和/或通過使用重組技術的操作產生或衍生的材 料,或對應於材料的天然或自然形式的材料。非限制性實例包括但不限於表達在細胞的天 然(非重組)形式內未發現的基因或者表達以不同水平另外表達的天然基因的重組細胞。「序列同一件百分比」和「百分比同源件」在本文可交換使用,指多核苷酸和多肽之 間的比較,並通過在比較窗口(comparison window)比較兩個最佳比對的序列來確定,其中 與用於兩個序列的最佳比對的參考序列(其不包含添加或缺失)相比,比較窗口中的多核 苷酸或多肽序列的部分可包含添加或缺失(即缺口)。百分比可通過以下計算確定兩個 序列中相同核酸鹼基或胺基酸殘基出現的位置的數目以產生匹配位置的數目,用匹配位置 的數目除以比較窗口中的位置總數,結果乘以100以產生序列同一性的百分比。可選地,百 分比可通過以下計算確定兩個序列中相同核酸鹼基或胺基酸殘基出現的位置的數目或者 核酸鹼基或胺基酸殘基與缺口來比對的位置的數目以產生匹配位置的數目,用匹配位置的 數目除以比較窗口中位置的總數,結果乘以100以產生序列同一性的百分比。本領域技術 人員理解,存在許多建立的算法可用來比對兩個序列。用於比較的序列的最佳比對可例如 通過 Smith 和 Waterman,1981,Adv. Appl. Math. 2 482 的局部同源性算法、通過 Needleman 和 Wunsch,1970,J. Mol. Biol. 48 443 的同源性比對算法、通過 Pearson 和 Lipman,1988, Proc. Natl. Acad. Sci USA85 2444的搜索相似性方法、通過這些算法的計算機化執行(GCG Wisconsin軟體包中的GAP、BESTFIT、FASTA和TFASTA)、或通過視覺檢查來進行(一般參見 CurrentProtocols in Molecular Biology (分子生物學最新實驗方法彙編),F. M. Ausubel 等,編輯,Current Protocols, Greene PublishingAssociates, Inc.禾口 John Wiley & Sons, Inc.的合資企業,(1995增刊)(Ausubel))。適合於確定百分比序列同一性和序列相 似性的算法的實例為BLAST和BLAST 2. 0算法,其分別描述於Altschul等,1990,J. Mol. Biol. 215 :403-410 和 Altschul 等,1977,Nucleic Acids Res. 3389-3402。用於執行 BLAST 分析的軟體可通過美國國家生物技術信息中心的網站公開獲得。該算法涉及首先通過鑑定 查詢序列中長度W的短字來鑑定高得分序列對(HSP),所述短字當與資料庫序列中相同長 度的字比對時,匹配或者滿足一些正值閾值得分T。T指相鄰字得分閾值(Altschul等,上 文)。這些最初的相鄰字匹配字串(word hits)作為起始搜索的種子來發現含有這些字的 更長的HSP。然後字匹配字串沿每個序列以兩個方向延伸,直到累積比對得分不能被增加。 對核苷酸序列,累積得分使用參數M(匹配殘基對的獎勵分,總是> 0)和N(不匹配殘基的 懲罰分,總是<0)來計算。對胺基酸序列,使用得分矩陣來計算累積得分。當出現以下情 況時,每個方向的字匹配字串的延伸被暫停累積比對分從其最大獲得值減少量X時;由於 一個或多個負得分殘基比對的累積,累積得分變為零或小於零;或者達到任一序列的末端。 BLAST算法參數W、T和X確定了比對的敏感性和速度。BLASTN程序(用於核苷酸序列)使用以下作為默認參數字長(W)為11、期望值(E)為10、M = 5、N = -4和雙鏈比較。對氨 基酸序列,BLASTP程序使用以下作為默認參數字長(W)為3、期望值(E)為10和BL0SUM62 得分矩陣(參見 Henikoff 和 Henikoff,1989,Proc Natl Acad Sci USA 89:10915)。序列 比對和%序列同一性的示例性確定可採用GCG Wisconsin軟體包中的BESTFIT或GAP程序 (Accelrys, Madison WI),使用提供的默認參數。「參考序列」指用作序列比較基礎的確定序列。參考序列可以是更大的序列的子 集,例如,全長基因或多肽序列的區段。一般而言,參考序列為至少20個核苷酸或胺基酸殘 基長度、至少25個殘基長度、至少為50個殘基長度或核酸或多肽的全長。由於兩個多核苷 酸或多肽可各自(1)包含兩個序列之間相似的序列(即完整序列的一部分),和⑵還可包 含兩個序列之間不同的序列,因此兩個(或多個)多核苷酸或多肽之間的序列比較一般通 過在「比較窗口 」比較兩個多核苷酸的序列以鑑定和比較序列相似性的局部區域來進行。在一些實施方案中,「參考序列」可基於一級胺基酸序列,其中參考序列是可在一 級序列中具有一個或多個改變的序列。例如,「基於SEQ IDN0 4的在對應於X190的殘基處 具有脯氨酸的」參考序列指其中在SEQ IDN0 4的X190處的對應殘基已改變為脯氨酸的參 考序列。「比較窗口」指至少約20個連續核苷酸位置或胺基酸殘基的概念區段,其中序列可 與至少20個連續核苷酸或胺基酸的參考序列比較,並且其中與用於兩個序列最佳比對的 參考序列(其不包含添加或缺失)相比,比較窗口中序列部分可包含20%或更少的添加或 缺失(即缺口)。比較窗口可長於20個連續殘基,並且包括任選地30個、40個、50個、100 個或更長的窗口。「大體同一性」指在至少20個殘基位置的比較窗口中、通常在至少30-50個殘基 的窗口中與參考序列相比,具有至少80%序列同一性、至少85%同一性和89%至95%序 列同一性、更通常地至少99%序列同一性的多核苷酸或多肽序列,其中序列同一性的百分 比通過在比較窗口中比較參考序列與包括總計為參考序列的20%或更少缺失或添加的序 列來計算。在應用於多肽的具體實施方案中,術語「大體同一性」意指當諸如通過程序GAP 或BESTFIT使用默認缺口權重進行最佳比對時,兩個多肽序列共享至少80%的序列同一 性,優選地至少89 %的序列同一性、至少95 %的序列同一性或更高(例如,99 %的序列同一 性)。優選地,不相同的殘基位置通過保守胺基酸置換而不同。當在特定胺基酸或多核苷酸序列的編號的上下文中使用時,「對應於」、「參考」或 「相對於」指當給定胺基酸或多核苷酸序列與參考序列相比時,特定參考序列的殘基的編 號。換句話說,給定聚合體的殘基數目或殘基位置針對參考序列指定,而不是通過給定氨基 酸或多核苷酸序列內殘基的實際編號位置指定。例如,可通過將缺口引入以優化兩個序列 之間的殘基匹配來比對給定胺基酸序列諸如工程酮還原酶的胺基酸序列和參考序列。在這 些實例中,儘管存在缺口,給定胺基酸或多核苷酸序列中殘基的編號針對其比對的參考序 列產生。「立體詵擇件」指化學或酶促反應中一種立體異構體針對另一種立體異構體的優 先形成。立體選擇性可以是部分的,其中一種立體異構體的形成優於另一種,或者其可以是 完全的,其中只形成一種立體異構體。當立體異構體是對映體時,立體選擇性稱為對映選擇 性,兩者總和中一種對映體的分數(一般報導為百分比)。本領域通常可選地報導為根據下式從中計算的(一般作為百分比)對映體過量(e.e.)[主要對映體_次要對映體]/[主 要對映體+次要對映體]。這還可稱為立體異構過量(s.e)。其中立體異構體是非對映異 構體時,立體選擇性稱為非對映選擇性,兩種非對映異構體混合物中一種非對映異構體的 分數(一般報導為百分比)。「高度立體詵擇件」指能以至少約85%的立體異構過量將2',6' -二氯_3'-氟 苯乙酮(式(I))轉化或還原為對應的(S)-醇產物(S)-l-[2,6-二氯-3-氟苯基]-乙醇 (式(II))的酮還原酶多肽。「改講的酶特件」指與參考酮還原酶相比表現出仵何酶特件的改講的酮還原酶多 肽。對本文描述的工程酮還原酶多肽,比較一般針對野生型酮還原酶,儘管在一些實施方案 中,參考酮還原酶可以是另一種改進的工程酮還原酶。需要改進的酶特性包括但不限於酶 促活性(其可以底物轉化的百分比表示)、熱穩定性、PH活性譜(profile)、輔因子需求、對 抑制劑(例如產物抑制)的耐性(refractoriness)、立體專一性和立體選擇性(包括立體 選擇性)。「增強的酶促活件」指工稈酮還原酶多肽的改講的特件,其可由與參考酮還原酶相 比比活性(例如,產生的產物/時間/重量蛋白)的增強或者底物轉化為產物的百分比(例 如使用特定量的KRED在特定時間內起始量底物轉化為產物的百分比)的增加來代表。確 定酶活性的示例性方法提供於實施例中。涉及酶活性的任何特性可被影響,包括經典的酶 特性Km、V_或k。at,其改變可導致增強的酶促活性。酶活性的改進可為從對應的野生型酮 還原酶的酶促活性的約1. 5倍,至超過天然存在的酮還原酶或酮還原酶多肽衍生自其的另 一種工程酮還原酶的酶促活性多達2倍、5倍、10倍、20倍、25倍、50倍、75倍、100倍或更 高。在特定實施方案中,工程酮還原酶表現出高於母酮還原酶活性1. 5至50倍、1. 5至100 倍範圍內的改進的酶促活性。熟練的技術人員應理解,任何酶的活性是擴散限制的,以致催 化周轉速率不能超過底物的擴散速率,包括任何需要的輔因子。擴散限制或k。at/Km的理論 最大值一般為約108至109 (M^s-1)。因此,酮還原酶的酶活性的任何改進具有與酮還原酶所 作用的底物的擴散速率相關的上限。酮還原酶活性可通過用於測量酮還原酶的任一種標準 測定來測量,諸如由於伴隨酮還原成醇的NADPH氧化導致的NADPH的吸光度或螢光的減弱 (參見實施例5),或通過偶聯測定中產生的產物來測量。使用確定的酶製品、在設定條件下 的確定測定和一種或多種確定的底物進行酶活性的比較,進一步詳細描述於本文。一般而 言,當比較裂解物時,確定細胞的數目和測定的蛋白的量,以及使用相同的表達系統和相同 的宿主細胞來使宿主細胞產生的和裂解物中存在的酶量的變化最小。「體,指將底物酶促還原為對應的產物。「百分比轉化」指在特定條件下在一定 時間內還原為產物的底物的百分比。因此,酮還原酶多肽的「酶促活性」或「活性」可表示 為底物變為產物的「百分比轉化」。「熱穩定」指與未處理的酶相比,暴露於高溫(例如40-80°C ) 一段時間(例如 0. 5-24小時後)保持相似活性(超過例如60%至80% )的酮還原酶多肽。「溶劑穩定」指與未處理的酶相比,在暴露於可變濃度(例如5-99% )的溶劑(異 丙醇、四氫呋喃、2-甲基四氫呋喃、丙酮、甲苯、乙酸丁酯、甲基叔丁醚)一段時間(例如 0. 5-24小時)後保持相似活性(超過例如60%至80% )的酮還原酶多肽。「pH穩定」指與未處理的酶相比,在暴露於高或低pH (例如4. 5-6或8_12) —段時
18間(例如0. 5-24小時)後保持相似活性(超過例如60%至80% )的酮還原酶多肽。「熱和溶劑穩定件」指既熱穩定又溶劑穩定的酮還原酶多肽。在工程酮還原酶上下文中,如本文所用的「ffi^」鑑定工程化所基於的初始酮還 原酶和/或編碼此類酮還原酶的基因。例如,SEQ ID NO :38的工程酮還原酶是通過在多代 期間人工演化編碼SEQ ID NO :4的克菲爾乳桿菌酮還原酶的基因獲得的。因此,該工程酮 還原酶「衍生自」 SEQ ID NO :4的野生型酮還原酶。「親水件胺基酸或殘基」指具有表現出根據Eisenberg等,1984, T. Mol. Biol. 179 125-142的歸一化一致疏水性等級,小於零的疏水性的側鏈的胺基酸或殘基。遺傳編碼的親 水性胺基酸包括 L-Thr (T),L-Ser (S),L-His (H),L-Glu (E),L-Asn (N),L-Gln (Q),L-Asp (D), L-Lys(K)禾口 L-Arg(R)。「酸件胺基酸或殘基」指當胺基酸包括於肽或多肽內時,具有表現出小於約6的pK 值的側鏈的親水性胺基酸或殘基。在生理PH下,酸性胺基酸由於缺少氫離子而一般具有帶 負電的側鏈。遺傳編碼的酸性胺基酸包括L-Glu (E)和L-Asp (D)。「鹼件胺基酸或殘基」指當胺基酸包括於肽或多肽內時,具有表現出大於約6的pK 值的側鏈的親水性胺基酸或殘基。在生理PH下,鹼性胺基酸由於與水合氫離子締合而一般 具有帶正電的側鏈。遺傳編碼的鹼性胺基酸包括L-Arg(R)和L-Lys(K)。「極件胺基酸或殘基」指具有在牛理DH下不帶電荷的側鏈、佰該側鏈具有其中兩個 原子共同共享的電子對更靠近維持原子之一的至少一個鍵的側鏈的親水性胺基酸或殘基。 遺傳編碼的極性胺基酸包括L-Asn (N),L-Gln (Q),L-Ser (S)和L_Thr (T)。「疏水胺基酸或殘基」指具有表現出根據Eisenberg等,1984,J. Mol. Biol. 179 125-142的歸一化一致疏水性等級大於零的疏水性的側鏈的胺基酸或殘基。遺傳編碼的疏 水胺基酸包括 L-Pro (P),L-Ile (I),L-Phe (F),L-Val (V),L-Leu (L),L-Trp (ff),L-Met (M), L-Ala(A)和 L-Tyr(Y)。「芳族胺基酸或殘基」指具有包括至少一個芳環或雜芳環的側鏈的親水或疏水氨 基酸或殘基。遺傳編碼的芳族胺基酸包括L-Phe(F),L-Tyr(Y)和L_Trp (W)。儘管由於 L-His (H)的雜芳氮原子的pKa,其有時分類為鹼性殘基,或因為其側鏈包括雜芳環而分類 為芳族殘基,本文中組氨酸分類為親水性殘基或作為「受限殘基」(參見下文)。「受限胺基酸或殘基」指具有受限(constrained)幾何學的胺基酸或殘基。本文 中,受限殘基包括L-pro (P)和L-his(H)。組氨酸因為其具有相對小的咪唑環而具有受限幾 何學。脯氨酸因為其還具有五元環而具有受限幾何學。「非極件胺基酸或殘基」指具有在生理pH下不帶電荷的側鏈並且該側鏈具有其 中兩個原子共同共享的電子對一般由兩個原子中的每一個平等地維持的鍵(即側鏈不 是極性的)的疏水胺基酸或殘基。遺傳編碼的非極性胺基酸包括L-Gly(G),L-Leu(L), L-Val (V),L-Ile (I),L-Met (M)禾口 L_Ala(A)。「脂肪族胺基酸或殘基」指具有脂肪族烴側鏈的疏水胺基酸或殘基。遺傳編碼的脂 肪族胺基酸包括 L-Ala(A),L-Val (V),L-Leu (L)和 L_Ile(I)。「半胱氨酸」胺基酸L-Cys (C)是不常見的,因為其可與其他L_Cys (C)胺基酸或其 他含有硫烷基或巰基的胺基酸形成二硫鍵。「半胱氨酸樣殘基」包括半胱氨酸和含有可用於 形成二硫鍵的巰基部分的其他胺基酸。L-Cys (C)(和具有含有-SH側鏈的其他胺基酸)在肽中以還原型游離-SH或氧化型二硫鍵合形式存在的能力影響L-Cys (C)是否有助於肽的 淨疏水或親水性特徵。儘管根據Eisenberg的歸一化一致等級(Eisenberg等,1984,上文) L-Cys (C)表現出0. 29的疏水性,應理解,為了本公開的目的,L-Cys (C)被分類為其自身獨 特的組。「小胺基酸或殘基」指具有包括總計3個或更少的碳和/或雜原子(不包括a -碳 和氫)的側鏈的胺基酸或殘基。根據以上定義,小胺基酸或殘基可進一步分為脂肪族、非極 性、極性或酸性小胺基酸或殘基。遺傳編碼的小胺基酸包括L-Ala(A),L_Val (V), L-Cys (C), L-Asn (N),L-Ser (S),L-Thr (T)和 L_Asp (D)。「含有羥基的胺基酸或殘基」指含有羥基(-0H)部分的胺基酸。遺傳編碼的含有羥 基的胺基酸包括 L-Ser (S),L-Thr (T)和 L_Tyr (Y)。「保立」胺基酸取代或突變指具有相似側鏈的殘基的可交換性,因此一般涉及用處 於胺基酸的相同或相似定義類別的胺基酸取代多肽中的胺基酸。在一些實施方案中,如本 文所用的保守突變不包括從親水性殘基到親水性殘基、疏水殘基到疏水殘基、含有羥基的 殘基到含有羥基的殘基或小殘基到小殘基的取代,如果保守突變可相反是從脂肪族殘基到 脂肪族殘基、非極性殘基到非極性殘基、極性殘基到極性殘基、酸性殘基到酸性殘基、鹼性 殘基到鹼性殘基、芳族殘基至芳族殘基、或受限殘基至受限殘基的取代。進一步,如本文所 用,A、V、L或I可被保守地突變為另一個脂肪族殘基或突變為另一個非極性殘基。下文表 1顯示了示例性的保守取代。表1 保守取代
殘基可能的保守突變A,L,V,I其他脂肪族殘基(A,L,V,I) 其他非極性殘基(A,L,V,I,G,M)G, M其他非極性殘基(A,L,V,I,G,M)D, E其他酸性殘基(D,E)K, R其他鹼性殘基(K,R)P,H其他受限殘基(P,H)N, Q, S, T其他極性殘基Y, ff, F其他芳族殘基(Y,W,F)C無 「韭指用具有顯著不同側鏈特性的胺基酸取代或突變多肽中的胺基酸。
20非保守取代可使用上文所列的定義組之間而非之內的胺基酸。在一個實施方案中,非保守 突變影響(a)取代區域內肽主鏈的結構(例如脯氨酸取代甘氨酸)(b)電荷或疏水性、或 (c)側鏈的體積。指通過從參考多肽去除一個或多個胺基酸來修飾多肽。胺基酸序列中的 缺失可包含去除1個或多個胺基酸、2個或更多個胺基酸、3個或更多個胺基酸、4個或更多 個胺基酸、5個或更多個胺基酸、6個或更多個胺基酸、8個或更多個胺基酸、10個或更多個 胺基酸、15個或更多個胺基酸、或20個或更多個胺基酸、多達構成參考酶的胺基酸總數的 10%、多達構成參考酶的胺基酸總數的15%、或多達構成參考酶的胺基酸總數的20%,同 時保持酶促活性和/或保持工程酮還原酶的改進特性。缺失可涉及多肽的內部部分和/或 末端部分。在不同實施方案中,缺失可包含連續的區段,或者可以是不連續的。「通入」指通過從參考多肽添加一個或多個胺基酸來修飾多肽。在一些實施方案 中,改進的工程酮還原酶包含向天然存在的酮還原酶多肽插入一個或多個胺基酸以及向其 他改進的酮還原酶多肽插入一個或多個胺基酸。插入可以在多肽的內部部分,或者插入羧 基或氨基末端。如本文所用的插入包括如本領域已知的融合蛋白。插入可以是胺基酸的連 續區段,或者由天然存在的多肽中的一個或多個胺基酸隔開。如本文所用的「M」指具有氨基末端和/或羧基末端缺失但其中剩餘的胺基酸 序列與序列中對應的位置相同的多肽。片段可以是至少14個胺基酸長、至少20個胺基酸 長、至少50個胺基酸長或更長和多達SEQ IDN0 2或SEQ ID NO 4的全長天然存在的酮還 原酶多肽的 70%、80%、90%、95%、98%和 99%。「分離的多肽」指與天然伴隨其的其他汙染物大體上分開的多肽,例如蛋白質、脂 類和多核苷酸。該術語包含已被從其天然存在環境或表達系統(例如宿主細胞或體外合 成)中移出或純化的多肽。改進的酮還原酶可存在於細胞內、存在於細胞培養基中或以各 種形式製備,諸如裂解物或分離的製品。這樣,在一些實施方案中,改進的酮還原酶可以是 分離的多肽。「大體純的多肽,,指其中多肽物類(species))是存在的優勢物類(即基於摩爾或 重量基礎,其比組合物中任何其他單個大分子物類更豐富)的組合物,並且當目標物類構 成通過摩爾或%重量計存在的大分子種的至少約50%時,其一般為大體純化的組合物。一 般而言,大體純的酮還原酶組合物將包含組合物中存在的所有大分子物類的按摩爾或%重 量計的約60%或更多、約70%或更多、約80%或更多、約90%或更多、約95%或更多以及 約98%或更多。在一些實施方案中,目標物類被純化為基本均質(即組合物中的汙染物類 不能通過傳統的檢測方法檢測),其中組合物主要由單個大分子物類組成。溶劑物類、小分 子(< 500道爾頓)和元素離子物類不被認為是大分子物類。在一些實施方案中,分離的 改進酮還原酶多肽是大體純的多肽組合物。本文使用的「嚴緊雜交」指核酸雜交體(hybrid)穩定的條件。如本領域技術人 員所知,雜交體的穩定性反映在雜交體的解鏈溫度(TJ。一般而言,雜交體的穩定性是離 子強度、溫度、G/C含量和促溶劑(chaotropic agent)的存在的函數。多核苷酸的Tm值可 使用用於預測解鏈溫度的已知方法來計算(參見,例如,Baldino等,Methods Enzymology 168 -.761-777 ;Bolton 等,1962,Proc. Natl. Acad. Sci. USA 48 1390 ;Bresslauer 等,1986, Proc. Natl. Acad. Sci USA 83 :8893_8897 ;Freier 等,1986,Proc. Natl. Acad. Sci USA83 9373-9377 ;Kierzek 等,Biochemistry 25 7840-7846 ;Rychlik 等,1990,Nucleic Acids Res 18 :6409-6412(勘誤,1991,Nucleic Acids Res 19:698) ;Sambrook 等,上文);Suggs 等,1981,於Developmental Biology UsingPurified Genes (使用純化基因的發育生物學) (Brown等,編輯),第683-693頁,Academic Press ;禾口Wetmur,1991,Crit Rev Biochem Mol Biol26 :227-259。所有出版物通過引用併入本文)。在一些實施方案中,多核苷酸編碼本 文公開的多肽,並且在定義條件下諸如中等嚴緊或高嚴緊條件與編碼本公開的工程酮還原 酶的序列的互補序列雜交。「雜交嚴緊件」涉及核酸雜交中諸如洗滌條件的雜交條件。一般而言,雜交反應在 較低嚴緊性條件下進行,然後進行可變但更高嚴緊性的洗滌。術語「中等嚴緊性雜交」指 允許靶DNA結合於與靶DNA具有約60%同一性、優選地約75%同一性、約85%同一性、與 靶多核苷酸具有高於約90%同一性的互補核酸的條件。示例性中等嚴緊性條件是等同於 在42°C下於50%甲醯胺、5x Denhart溶液、5xSSPE、0. 2 % SDS中雜交,然後在42 °C下於 0. 2xSSPE、0. 2% SDS中洗滌的條件。「高嚴緊性雜交」一般指比在確定的多核苷酸序列的溶 液條件下確定的熱解鏈溫度低約10°c或更少的條件。在一些實施方案中,高嚴緊性條件指 僅允許65°c下於0. 018M NaCl中形成穩定雜交體的那些核酸序列的雜交的條件(即如果雜 交體在65°C下於0. 018M NaCl中不穩定,其在高嚴緊性條件下將不穩定,如本文所涵蓋)。 可例如通過在等同於42°C下50%甲醯胺、5x Denhart溶液、5x SSPE、0. 2% SDS中雜交、然 後通過65°C下於0. lx SSPE和0. SDS中洗滌的條件下雜交來提供高嚴緊性條件。另一 種高嚴緊性條件是在等同於65°C下在含有0. (w v)SDS的5X SSC中雜交並於65°C下 在含有0. 1% SDS的0. lx SSC中洗滌的雜交條件下雜交。其他高嚴緊性雜交條件以及中等 嚴緊性條件描述於上文引用的參考文獻中。「顯遯」多核苷酸指通過實驗室技術被引入宿主細胞的任何多核苷酸,包括從宿主 細胞中移出、經受實驗室操作然後重新引入宿主細胞的多核苷酸。「密碼子優化」指編碼蛋白的多核苷酸的密碼子改變為在特定有機體中優先使用 的那些密碼子,以便編碼的蛋白在感興趣的有機體中有效地表達。儘管遺傳密碼是簡併的, 即大多數胺基酸由幾個稱為「同義」(synonyms)或「同義」(synonymous)密碼子的密碼子 代表,公知的是特定有機體的密碼子使用是非隨機的,並且偏向於特定的密碼子三聯體。這 種密碼子使用偏好在特定基因、共同功能或祖先來源的基因、對比低拷貝數蛋白高表達的 蛋白和有機體基因組的聚集蛋白編碼區中可能更高。在一些實施方案中,編碼酮還原酶的 多核苷酸可進行密碼子優化以便從選擇用於表達的宿主有機體中最佳產生。「優詵、最佳、高密碼子使用偏向密碼子」可交換地指在蛋白編碼區中的使用頻 率高於編碼相同胺基酸的其他密碼子的密碼子。優選密碼子可根據單個基因、共同功能 或來源的一套基因、高表達基因中的密碼子使用、整個有機體的聚集蛋白編碼區中的密碼 子頻率、相關有機體的聚集蛋白編碼區中的密碼子頻率或其組合來確定。其頻率隨基因 表達水平增加的密碼子一般是用於表達的最佳密碼子。用來確定特定有機體中密碼子 頻率(例如,密碼子使用、相對同義密碼子使用)和密碼子偏愛性的多種方法是已知的, 包括多變量分析,例如,使用聚類分析或相關性分析和基因中使用的密碼子的有效數目 (參見 GCG CodonPreference,Genetics Computer GroupWisconsin Package ;CodonW, John Peden,University of Nottingham ;Mclnerney, J.0,1998,Bioinformatics 14:
22372-73 ;Stenico 等,1994,NucleicAcids Res. 222437-46 ;Wright, F.,1990,Gene 87 23-29)。可獲得不斷增加的有機體清單的密碼子使用表(參見例如,Wada等,1992, Nucleic Acids Res. 20 :2111_2118 ;Nakamura 等,2000,Nucl. Acids Res. 28 292 ;Duret 等,上文;Henaut 禾口 Danchin, 「 Escherichia coli and Salmonella(大腸桿菌禾口沙門 氏菌),」 1996,Neidhardt,等編輯,ASM Press, Washington D. C.,第 2047-2066 頁。用 於獲得密碼子使用的數據源可依賴於能編碼蛋白的任何可獲得的核苷酸序列。這些數 據集包括實際上已知來編碼表達蛋白(例如,完整蛋白編碼序列-CDS)、表達序列標籤 (EST)或基因組序列的預測編碼區的核酸序列(參見例如,Mount, D.,Bioinformatics Sequence and Genome Analysis (生物信息學序列和基因組分析),第8章,Cold Spring Harbor LaboratoryPress, Cold Spring Harbor, N. Y. , 2001 ;Uberbacher, E.C,1996, MethodsEnzymol. 266 :259_281 ;Tiwari 等,1997,Comput. Appl. Biosci. 13 :263_270)。「控制序列」在本文定義為包括對感興趣的多核苷酸和/或多肽的表汰必需或有利 的所有組分。每種控制序列可以是編碼多肽的核酸序列的天然或外源序列。此類控制序列 包括但不限於前導序列、多聚腺苷化序列、前體肽序列、啟動子、信號肽序列和轉錄終止子。 控制序列至少包括啟動子和轉錄和翻譯終止信號。為了引入特定限制性酶切位點以促進控 制序列與感興趣的多核苷酸例如編碼多肽的核酸序列的編碼區連接的目的,控制序列可提 供有接頭。「可操作地連接」在本文定義為其中控制序列被適當地置於相對於多核苷酸序列 的某一位置(即處於功能性關係)以便控制序列指引多核苷酸和/或多核苷酸編碼的多肽 的表達的構型。「啟動子庫列」是由宿主細胞識別用於多核苷酸表達的核酸序列。控制序列可包含 適當的啟動子序列。啟動子序列含有介導多核苷酸表達的轉錄控制序列。啟動子可以是在 選擇的宿主細胞中顯示轉錄活性的任何核酸序列,包括突變、截短和雜合(hybrid)的啟動 子,並且可獲自編碼與宿主細胞同源或異源的胞外或胞內多肽的基因。6. 2酮還原酶本公開提供了能將確定的酮底物立體選擇性地還原為其對應的醇產物、並且當與 獲自克菲爾乳桿菌(SEQ ID NO 2)或短乳桿菌(SEQ ID NO 4)或小乳桿菌(SEQ ID NO 98) 的天然存在的野生型KRED酶相比時或者當與其他工程酮還原酶相比時具有改進特性的工 程酮還原酶("KRED")。如本公開所示,野生型克菲爾乳桿菌或短乳桿菌或小乳桿菌酮 還原酶對2' ,6' -二氯-3'-氟苯乙酮的還原具有非常低的活性,如果有任何活性的話 (參見實施例)。野生型酶對更少的取代苯乙酮底物具有更高的活性,野生型酶一般選擇性 地將苯乙酮還原為其對應的(R)_醇。野生型乳桿菌種酮還原酶將典型參考化合物苯乙酮 還原為(R)-l-苯乙醇,並且因此稱為(R)_選擇性酮還原酶或(R)_酮還原酶。然而,衍生 自野生型乳桿菌種酮還原酶的本公開的工程酮還原酶將苯乙酮還原為(S)-l-苯乙醇,並 且因此稱為(S)-選擇性酮還原酶或(S)-酮還原酶。因此,本公開的改進的酮還原酶多肽 與野生型克菲爾乳桿菌或短乳桿菌或小乳桿菌酮還原酶(ketoredutases)相比能反向對 映選擇性地還原苯乙酮。這種反向對映選擇性是基於將野生型酶位置190的殘基優選地突 變為非芳族殘基,特別是突變為脯氨酸殘基。不限於理論,位於位置190的野生型酪氨酸殘 基似乎與處於proj構象的底物不協調。因此,在一些實施方案中,本公開的酮還原酶多肽在對應於SEQ ID NO :2或4或98的位置190的殘基處具有王是酪氨酸的殘基。優選地,該 殘基是非芳族殘基,諸如,例如脂肪族、受限、非極性或半胱氨酸殘基。在一些實施方案中, 該殘基是脯氨酸。在一些實施方案中,如上文提到,具有改進酶特性的工程酮還原酶參考SEQ ID NO :4的克菲爾乳桿菌酮還原酶或SEQ ID NO :2的短乳桿菌或SEQ ID NO :98的小乳桿菌 酮還原酶描述。從起始甲硫氨酸(M)殘基(即M代表殘基位置1)開始確定酮還原酶中氨 基酸殘基的位置,儘管熟練的技術人員將理解該起始甲硫氨酸殘基可通過生物加工機制去 除,諸如在宿主細胞或體外翻譯系統以產生缺少起始甲硫氨酸殘基的成熟蛋白。特定氨基 酸或胺基酸改變位置處的胺基酸殘基存在於胺基酸序列中,有時在本文描述為「Xn」或「位 置n」,其中n指殘基位置。其中位於相同殘基位置的胺基酸殘基在酮還原酶之間不同時,不 同的殘基可由"/"表示,排列為「克菲爾乳桿菌殘基/短乳桿菌殘基/小乳桿菌」。為參考 序列中胺基酸殘基的替換的取代突變,例如具有不同胺基酸殘基的SEQ ID NO :2和SEQ ID NO :4和SEQ ID NO :98的野生型酮還原酶可由符號〃一〃表示。本文中突變優勢描述為突 變「為」一類胺基酸。例如,SEQ ID NO :2的殘基16可被突變「為」極性殘基。但是用短語 「為」不排除從一類胺基酸突變為相同類的另一個胺基酸。例如,SEQ ID NO :2的殘基16是 極性殘基蘇氨酸,但是其可被突變為不同的極性殘基,例如,突變可以是「T16S」(16 — S)的 突變。編碼克菲爾乳桿菌、短乳桿菌或小乳桿菌的天然存在酮還原酶(也稱為「ADH」或 「醇脫氫酶」)的天然存在多核苷酸可獲自已知編碼酮還原酶活性的分離的多核苷酸(例 如,克菲爾乳桿菌Genbank登錄號AAP94029GI :33112056或SEQ ID NO :3;短乳桿菌: Genbank 登錄號 CAD66648GL28400789 或 SEQ ID NO 1 ;和小乳桿菌SEQ ID NO 97)。在一些實施方案中,酮還原酶多肽的改進特性(與野生型或另一種工程多肽相 比)是關於其將式(III)的取代苯乙酮底物還原或轉化為式(IV)的其對應的(s)-醇 產物的其立體選擇性的增強。在一些實施方案中,酮還原酶特性的改進特性是關於其將 2' 6' -二氯-3-氟苯乙酮還原為(S)-l-(2,6-二氯-3-氟苯基)乙醇的立體選擇性的增 加。在一些實施方案中,酮還原酶特性的改進特性是關於其將底物轉化為產物的速率的增 加。在一些實施方案中,酮還原酶特性的改進特性是關於其穩定性或熱穩定性。在一些實 施方案中,酮還原酶多肽具有超過一種改進的特性。在一些實施方案中,本文的酮還原酶多肽可具有對參考序列(例如天然存在的多 肽或工程多肽)的多種修飾,以導致改進的酮還原酶特性。如本文所用,「修飾」包括胺基酸 取代、缺失和插入。修飾的任一種或組合可被引入天然存在的或工程多肽,以產生工程酶。 在此類實施方案中,胺基酸序列的修飾數目可包括1個或多個胺基酸、2個或更多個氨基 酸、3個或更多個胺基酸、4個或更多個胺基酸、5個或更多個胺基酸、6個或更多個胺基酸、8 個或更多個胺基酸、10個或更多個胺基酸、15個或更多個胺基酸或20個或更多個胺基酸、 多達參考多肽序列的胺基酸總數的10%、多達參考多肽序列的胺基酸總數的10%、多達參 考多肽序列的胺基酸總數的15%、多達參考多肽序列的胺基酸總數的20%或多達參考多 肽序列的胺基酸總數的30%。在一些實施方案中,產生改進的酮還原酶特性的天然存在 多肽或工程多肽的修飾數目可包含從約1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11, 1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個參考序列的修
24飾。在一些實施方案中,修飾數目可以是1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,
22,24,26,30,35或約40個胺基酸殘基。修飾可包含插入、缺失、取代或其組合。在一些實施方案中,修飾包含對參考序列的胺基酸取代。可產生改進的酮還原酶 特性的取代可以位於1個或多個胺基酸、2個或更多個胺基酸、3個或更多個胺基酸、4個或 更多個胺基酸、5個或更多個胺基酸、6個或更多個胺基酸、8個或更多個胺基酸、10個或更 多個胺基酸、15個或更多個胺基酸或20個或更多個胺基酸、多達參考酶序列的胺基酸總 數的10%、多達參考酶序列的胺基酸總數的10%、多達參考酶序列的胺基酸總數的20%或 多達參考酶序列的胺基酸總數的30%。在一些實施方案中,產生改進的酮還原酶特性的天 然存在多肽或工程多肽的取代數目可包含約1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10, 1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個參考序 列的胺基酸取代。在一些實施方案中,取代的數目可以是1,2,3,4,5,6,7,8,9,10,11,12, 14,15,16,18,20,22,24,26,30,35 或約 40 個胺基酸殘基。在一些實施方案中,本文的酮還原酶多肽包含與基於SEQ ID N0:2、4或98的參 考序列具有至少約 85 %,86 %,87 %,88 %,89 %,90 %,91 %,92 %,93 %,94%,95 %,96 %, 97%,98%,99%或更高同一性的胺基酸序列,條件是該酮還原酶多肽在對應於X190的殘 基處是酪氨酸之外的殘基,特別是非芳族殘基,所述參考序列在對應於X190的殘基處具有 非芳族殘基(例如,脂肪族、受限、非極性或半胱氨酸殘基),優選地丙氨酸、異亮氨酸、半胱 氨酸或脯氨酸,特別是脯氨酸。在一些實施方案中,酮還原酶多肽具有其中對應於X190的 殘基是脂肪族、受限、非極性或半胱氨酸殘基的胺基酸序列。在一些實施方案中,酮還原酶 具有其中對應於X190的殘基是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸特別是脯氨酸的氨基 酸序列。在一些實施方案中,這些酮還原酶多肽與參考胺基酸序列相比在其他殘基位置可 具有1個或多個殘基差異。差異包括各種修飾,諸如取代、缺失和插入。取代可以是非保 守取代、保守取代或非保守和保守取代的組合。在一些實施方案中,這些酮還原酶多肽與參 考序列相比可具有任選地在其他胺基酸殘基處的約1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9, 1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個殘 基差異。在一些實施方案中,與參考序列相比,差異的數目可以是在其他胺基酸殘基處的1, 2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。在一些實施方案中,這些立體選擇性或高度立體選擇性(本文中能以至少約85% 的e. e.將底物還原為產物)的酮還原酶多肽包含對應於如SEQID NO :95,96和119所列的 序列式(或其區域或結構域,諸如殘基90-211)的胺基酸序列。SEQ ID N0:95是基於短乳 桿菌酮還原酶的野生型胺基酸序列(SEQ ID N0:2) ;SEQ ID NO :96是基於克菲爾乳桿菌酮 還原酶的野生型胺基酸序列(SEQ ID N0:4) ;SEQ ID NO :119是基於小乳桿菌酮還原酶的 野生型胺基酸序列(SEQ ID N0:98)。基於SEQ ID NO :95,96或119的序列式的酮還原酶 指定對應於X190的殘基是非芳族殘基。在一些實施方案中,酮還原酶多肽具有其中對應於 X190的殘基是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸的胺基酸序列。在一些實施方案中,酮 還原酶多肽具有其中對應於X190的殘基是脯氨酸的胺基酸序列。在一些實施方案中,包含基於SEQ ID NO :95,96或119的序列式或其區域諸如殘 基90-211的胺基酸序列、具有如本文所述的殘基X190的指定特點的酮還原酶多肽還可包 括選自以下的一個或多個特點對應於X7的殘基是芳族、非極性、極性、受限、酸性或鹼性殘基;對應於X16的殘基是極性殘基;對應於X43的殘基是非極性或極性殘基;對應於X60 的殘基是芳族、非極性或脂肪族殘基;對應於X94的殘基是半胱氨酸、非極性或脂肪族殘 基;對應於X95的殘基是非極性或脂肪族殘基;對應於X96的殘基是極性或酸性殘基;對應 於X97的殘基是極性、非極性、脂肪族或鹼性殘基;對應於X120的殘基是芳族、非極性或脂 肪族殘基;對應於X125的殘基是極性或非極性殘基;對應於X142的殘基是極性殘基;對應 於X147的殘基是芳族、極性、非極性或脂肪族殘基;對應於X149的殘基是非極性或芳族殘 基;對應於X150的殘基是受限或酸性殘基;對應於X152的殘基是非極性或極性殘基;對應 於X196的殘基是脂肪族、非極性或芳族殘基;對應於X202的殘基是脂肪族、芳族或非極性 殘基;對應於X205的殘基是鹼性、非極性或脂肪族殘基;和對應於X206的殘基是非極性或 芳族殘基。在一些實施方案中,胺基酸序列可具有所述特點中的2個、3個、4個、5個或6個 或更多。在一些實施方案中,包含對應於SEQ ID NO :95,96或119提供的序列式(或其區 域)的胺基酸序列的多肽與SEQ ID NO :2,4或98的參考序列相比可另外具有不由X指定的 突變的一個或多個殘基。在一些實施方案中,突變可以是在不由上文X定義的其他胺基酸 殘基處的約 1—2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18, 1-20,1-22,1-24,1-26,1-30,1-35或約1-40個突變。在一些實施方案中,突變的數目可以 是 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個其他胺基酸 殘基。在一些實施方案中,突變包含保守突變。在一些實施方案中,包含基於SEQ ID NO :95,96或119的序列式或其區域諸如殘 基90-211的胺基酸序列的多肽與SEQ ID NO :2,4或98的胺基酸序列相比可具有一個或多 個保守突變。示例性保守突變包括胺基酸置換,諸如但不限於用另一個極性殘基例如天冬 醯胺、穀氨醯胺或絲氨酸置換對應於X16的殘基蘇氨酸(T);用另一個非極性或脂肪族殘基 例如異亮氨酸置換對應於X43的殘基纈氨酸;用脂肪族或芳族殘基例如丙氨酸置換對應於 X60的殘基;用另一個非極性或脂肪族殘基例如纈氨酸、亮氨酸或異亮氨酸置換對應於X94 的殘基丙氨酸(A);用另一個非極性或脂肪族殘基例如丙氨酸、亮氨酸或異亮氨酸)置換對 應於X95的殘基纈氨酸(V);用另一個極性殘基例如天冬醯胺、穀氨醯胺或蘇氨酸置換對應 於X96的殘基絲氨酸(S);用另一個極性殘基例如絲氨酸或天冬醯胺置換對應於X142的殘 基絲氨酸(S);用另一個非極性或脂肪族殘基例如丙氨酸、亮氨酸或異亮氨酸置換對應於 X196的殘基纈氨酸(V);和用另一個非極性或脂肪族殘基例如纈氨酸、亮氨酸或異亮氨酸 置換對應於X205的殘基丙氨酸(A)。在一些實施方案中,包含基於SEQ ID N0:95,96或119的序列式或其區域諸如 殘基90-211)、具有如本文所述的殘基X190的指定特點的胺基酸序列的酮還原酶多肽還 可包括選自以下的一個或多個特點對應於X7的殘基是色氨酸、酪氨酸、苯丙氨酸、脯氨 酸、組氨酸、甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸、異亮氨酸、絲氨酸、蘇氨酸、穀氨醯 胺、天冬醯胺、精氨酸或賴氨酸,特別是甘氨酸、組氨酸、蘇氨酸、脯氨酸、色氨酸、精氨酸、組 氨酸或天冬醯胺;對應於X16的殘基是絲氨酸、蘇氨酸、天冬醯胺或穀氨醯胺,特別是絲氨 酸;對應於X43的殘基是甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸或異亮氨酸,特別是異 亮氨酸;對應於X60的殘基是酪氨酸、苯丙氨酸、色氨酸、甘氨酸、甲硫氨酸、丙氨酸、纈氨 酸、亮氨酸或異亮氨酸,特別是丙氨酸;對應於X94的殘基是半胱氨酸、甘氨酸、甲硫氨酸、 丙氨酸、纈氨酸、亮氨酸或異亮氨酸,特別是丙氨酸、纈氨酸或半胱氨酸;對應於X95的殘基
26是甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸、異亮氨酸,特別是異亮氨酸或亮氨酸;對應於 X96的殘基是天冬氨酸、穀氨酸、絲氨酸、蘇氨酸、天冬醯胺或穀氨醯胺,特別是絲氨酸、天 冬醯胺、蘇氨酸或穀氨酸;對應於X97的殘基是絲氨酸、蘇氨酸、天冬醯胺、穀氨醯胺、甘氨 酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸、異亮氨酸、賴氨酸或精氨酸,特別是賴氨酸、蘇氨酸、 纈氨酸、精氨酸、甲硫氨酸或異亮氨酸;對應於X120的殘基是酪氨酸、苯丙氨酸、色氨酸、 甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸或異亮氨酸,特別是苯丙氨酸或纈氨酸;對應於 X125的殘基是甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸或異亮氨酸,特別是甘氨酸或絲氨 酸;對應於X142的殘基是絲氨酸、蘇氨酸、天冬醯胺或穀氨醯胺殘基,特別是天冬醯胺;對 應於X147的殘基是酪氨酸、苯丙氨酸、色氨酸、甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸、 異亮氨酸、絲氨酸、蘇氨酸、天冬醯胺或穀氨醯胺,特別是苯丙氨酸、亮氨酸、異亮氨酸、纈氨 酸或穀氨醯胺;對應於X149的殘基是甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸、異亮氨 酸、酪氨酸、苯丙氨酸或色氨酸,特別是甘氨酸或苯丙氨酸;對應於X150的殘基是脯氨酸、 組氨酸、天冬氨酸或穀氨酸,特別是天冬氨酸或組氨酸;對應於X152的殘基是甘氨酸、甲硫 氨酸、丙氨酸、纈氨酸、亮氨酸、異亮氨酸、絲氨酸、蘇氨酸、天冬醯胺或穀氨醯胺,特別是絲 氨酸、蘇氨酸或甲硫氨酸;對應於X196的殘基是酪氨酸、苯丙氨酸、色氨酸、甘氨酸、甲硫氨 酸、丙氨酸、纈氨酸、亮氨酸或異亮氨酸,特別是纈氨酸、異亮氨酸、甲硫氨酸、苯丙氨酸或異 亮氨酸;對應於X202的殘基是酪氨酸、苯丙氨酸、色氨酸、甘氨酸、甲硫氨酸、丙氨酸、纈氨 酸、亮氨酸或異亮氨酸,特別是丙氨酸、色氨酸、酪氨酸或甲硫氨酸;對應於X205的殘基是 賴氨酸、精氨酸、甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸或異亮氨酸,特別是精氨酸;和 對應於X206的殘基是甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸、異亮氨酸、酪氨酸、苯丙 氨酸、色氨酸,特別是甲硫氨酸或酪氨酸。在一些實施方案中,胺基酸序列可具有所述特點 中的2個、3個、4個、5個、6個或更多個。在一些實施方案中,包含對應於SEQ ID NO :95, 96或119提供的序列式(或其區域)的胺基酸序列的多肽與SEQ ID NO :2,4或98的參考 序列相比可另外具有不由X指定的突變的一個或多個殘基。在一些實施方案中,突變可以 是在不由上文X定義的其他胺基酸殘基處的約1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10, 1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個突變。在 一些實施方案中,突變的數目可以是 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22, 24,26,30,35或約40個其他胺基酸殘基。在一些實施方案中,突變包含保守突變。
在一些實施方案中,包含基於SEQ ID N0:95,96或119的序列式或其區域諸如 殘基90-211、具有如本文所述對應於X190的殘基處的特點的胺基酸序列的立體選擇性酮 還原酶多肽可另外具有以下特點的一個或多個或至少所有特點對應於X147的殘基是芳 族、極性、非極性或脂肪族殘基,特別是穀氨醯胺、異亮氨酸或亮氨酸,和對應於X202的殘 基是脂肪族、芳族或非極性殘基,特別是色氨酸、甲硫氨酸或酪氨酸。在一些實施方案中, 與SEQ ID NO :2,4或98的參考序列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22, 1-24,1-26,1-30,1-35或約1_40個殘基差異。在一些實施方案中,差異的數目可以是在其 他胺基酸殘基處的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40個殘基差異。在一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多 肽包含具有至少前述特點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQID NO :2,4 或98 的參考序列具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%, 94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,包含基於SEQ ID NO :95,96或119的序列式或其區域諸如殘 基90-211、具有如本文所述對應於X190的殘基處的特點的胺基酸序列的立體選擇性酮還 原酶多肽可另外具有以下特點的一個或多個或至少所有特點對應於X7的殘基是芳族、 非極性、極性、受限或鹼性殘基,特別是組氨酸、色氨酸、脯氨酸、蘇氨酸或精氨酸;對應於 X147的殘基是芳族、極性、非極性或脂肪族殘基,特別是穀氨醯胺、異亮氨酸或亮氨酸;和 對應於X202的殘基是脂肪族、芳族或非極性殘基,特別是色氨酸、甲硫氨酸或酪氨酸。在一 些實施方案中,與SEQ ID NO :2,4或98的參考序列相比,酮還原酶多肽可另外具有在其他 胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16, 1-18,1-20,1-22,1-24,1-26,1-30,1-35或約1-40個殘基差異。在一些實施方案中,差異 的數目可以是在其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22, 24,26,30,35或約40個殘基差異。在一些實施方案中,差異包含保守突變。在一些實施方案 中,酮還原酶多肽包含具有至少前述特點的胺基酸序列,並且其中胺基酸序列與具有前述 特點的基於SEQ ID NO :2,4或98的參考序列具有至少85%,86%,87%,88%,89%,90%, 91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,包含基於SEQ ID NO :95,96或119的序列式或其區域(諸如殘 基90-211)、具有如本文所述對應於X190的殘基處的特點的胺基酸序列的立體選擇性酮還 原酶多肽可另外具有以下特點的一個或多個或至少所有特點對應於X7的殘基是芳族、非 極性、極性、受限或鹼性殘基,特別是組氨酸、色氨酸、脯氨酸、蘇氨酸或精氨酸;對應於X97 的殘基是極性、非極性、脂肪族或鹼性殘基,特別是甲硫氨酸、纈氨酸、異亮氨酸、蘇氨酸或 精氨酸;對應於X147的殘基是芳族、極性、非極性或脂肪族殘基,特別是穀氨醯胺、異亮氨 酸或亮氨酸;對應於X202的殘基是脂肪族、芳族或非極性殘基,特別是色氨酸、甲硫氨酸或 酪氨酸。在一些實施方案中,與SEQ ID NO :2,4或98的參考序列相比,酮還原酶多肽可另外 具有在其他胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14, 1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個殘基差異。在一些實施方 案中,差異的數目可以是在其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16, 18,20,22,24,26,30,35或約40個殘基差異。在一些實施方案中,差異包含保守突變。在一 些實施方案中,酮還原酶多肽包含具有至少前述特點的胺基酸序列,並且其中胺基酸序列 與具有前述特點的基於SEQ ID NO :2,4或98的參考序列具有至少85%,86%,87%,88%, 89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,包含基於SEQ ID NO :95,96或119的序列式或其區域諸如殘 基90-211、具有如本文所述對應於X190的殘基處的特點的胺基酸序列的立體選擇性酮還 原酶多肽可另外具有以下特點的一個或多個或至少所有特點對應於X94的殘基是半胱氨 酸、非極性或脂肪族殘基,特別是半胱氨酸或纈氨酸;對應於X96的殘基是極性或酸性殘 基,特別是蘇氨酸;和對應於X147的殘基是芳族、極性、非極性或脂肪族殘基,特別是穀氨 醯胺、異亮氨酸或亮氨酸。在一些實施方案中,與SEQ ID NO :2,4或98的參考序列相比,酮 還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10, 1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個殘基差
28異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10, 11,12,14,15,16,18,20,22,24,26,30,35或約40個殘基差異。在一些實施方案中,差異包 含保守突變。在一些實施方案中,酮還原酶多肽包含具有至少前述特點的胺基酸序列,並 且其中胺基酸序列與具有前述特點的基於SEQ IdNO :2,4或98的參考序列具有至少85%, 86 %,87 %,88 %,89 %,90 %,91 %,92 % 1,93 %,94 %,95 %,96 %,97 %,98 % 或 99 % 同一 性。在一些實施方案中,包含基於SEQ ID NO :95,96或119的序列式或其區域諸如殘 基90-211、具有如本文所述對應於X190的殘基處的特點的胺基酸序列的立體選擇性酮還 原酶多肽可另外具有以下特點的一個或多個或至少所有特點對應於X7的殘基是芳族、 非極性、極性、受限或鹼性殘基,特別是組氨酸、色氨酸、脯氨酸、蘇氨酸或精氨酸;對應於 X147的殘基是芳族、極性、非極性或脂肪族殘基,特別是穀氨醯胺、異亮氨酸或亮氨酸;對 應於X196的殘基是脂肪族、非極性或芳族殘基,特別是纈氨酸、異亮氨酸、甲硫氨酸、苯丙 氨酸或異亮氨酸;和對應於X202的殘基是脂肪族、芳族或非極性殘基,特別是色氨酸、甲硫 氨酸或酪氨酸。在一些實施方案中,與SEQ ID NO :2,4或98的參考序列相比,酮還原酶多肽 可另外具有在其他胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12, 1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個殘基差異。在一些 實施方案中,差異的數目可以是在其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10,11,12,14, 15,16,18,20,22,24,26,30,35或約40個殘基差異。在一些實施方案中,差異包含保守突 變。在一些實施方案中,酮還原酶多肽包含具有至少前述特點的胺基酸序列,並且其中氨基 酸序列與具有前述特點的基於SEQ ID NO :2,4或98的參考序列具有至少85%,86%,87%, 88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,包含基於SEQ ID NO :95,96或119的序列式或其區域諸如殘 基90-211、具有如本文所述對應於X190的殘基處的特點的胺基酸序列的立體選擇性酮還 原酶多肽可另外具有以下特點的一個或多個或至少所有特點對應於X147的殘基是芳族、 極性、非極性或脂肪族殘基,特別是穀氨醯胺、異亮氨酸或亮氨酸;對應於X196的殘基是脂 肪族、非極性或芳族殘基,特別是纈氨酸、異亮氨酸、甲硫氨酸、苯丙氨酸或異亮氨酸;和對 應於X202的殘基是脂肪族、芳族或非極性殘基。在一些實施方案中,與SEQ ID N0:2,4或 98的參考序列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5, 1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30, 1-35或約1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處 的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。 在一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有至少前 述特點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID N0:2,4或98的 參考序列具有至少 85 %,86 %,87 %,88 %,89 %,90 %,91 %,92 %,93 %,94 %,95 %,96 %, 97%,98%或 99% 同一性。在一些實施方案中,包含基於SEQ ID NO :95,96或119的序列式或其區域諸如殘 基90-211、具有如本文所述對應於X190的殘基處的特點的胺基酸序列的立體選擇性酮還 原酶多肽可另外具有以下特點的一個或多個或至少所有特點對應於X7的殘基是芳族、非 極性、極性、受限或鹼性殘基,特別是組氨酸、色氨酸、脯氨酸、蘇氨酸或精氨酸;對應於X96的殘基是極性或酸性殘基,特別是蘇氨酸;對應於X147的殘基是芳族、極性、非極性或脂肪 族殘基,特別是穀氨醯胺、異亮氨酸或亮氨酸;對應於X196的殘基是脂肪族、非極性或芳 族殘基,特別是纈氨酸、異亮氨酸、甲硫氨酸、苯丙氨酸或異亮氨酸;和對應於X202的殘基 是脂肪族、芳族或非極性殘基,特別是色氨酸、甲硫氨酸或酪氨酸。在一些實施方案中,與 SEQ ID N0:2,4或98的參考序列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22, 1-24,1-26,1-30,1-35或約1_40個殘基差異。在一些實施方案中,差異的數目可以是在其 他胺基酸殘基處的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40個殘基差異。在一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多 肽包含具有至少前述特點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID NO :2,4 或 98 的參考序列具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%, 94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;和對應於X7的 殘基是芳族、非極性、極性、受限或鹼性殘基,特別是組氨酸、色氨酸、脯氨酸、蘇氨酸或精氨 酸。在一些實施方案中,與SEQ ID NO :2,4或98的參考序列相比,酮還原酶多肽可另外 具有在其他胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14, 1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個殘基差異。在一些實施方 案中,差異的數目可以是在其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16, 18,20,22,24,26,30,35或約40個殘基差異。在一些實施方案中,差異包含保守突變。在一 些實施方案中,酮還原酶多肽包含具有至少前述特點的胺基酸序列,並且其中胺基酸序列 與具有前述特點的基於SEQ ID NO :2,4或98的參考序列具有至少85%,86%,87%,88%, 89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;對應於X16的殘 基是極性殘基,特別是絲氨酸。在一些實施方案中,與SEQ ID NO :2,4或98的參考序列相 比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9, 1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個殘 基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處的1,2,3,4,5,6,7,8, 9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。在一些實施方案中, 差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有至少前述特點的胺基酸序 列,並且其中胺基酸序列與具有前述特點的基於SEQ ID NO :2,4或98的參考序列具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同 一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;和對應於X43的
30殘基是非極性或脂肪族殘基,特別是異亮氨酸。在一些實施方案中,與SEQ ID N0:2,4或98 的參考序列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5,1-6, 1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處的1, 2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。在一 些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有至少前述特 點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID N0:2,4或98的參考 序列具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%, 98%或99%同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸,和對應於X60的 殘基是芳族、非極性或脂肪族殘基,特別是丙氨酸。在一些實施方案中,與SEQ ID N0:2,4或 98的參考序列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5, 1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30, 1-35或約1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處 的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。 在一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有至少前 述特點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID N0:2,4或98的 參考序列具有至少 85 %,86%,87%,88 %,89%,90%,91 %,92 %,93%,94%,95 %,96%, 97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID N0:95,96或119的序列 式或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應 於X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸,和對應於X94 的殘基是半胱氨酸、非極性或脂肪族殘基,特別是半胱氨酸或纈氨酸。在一些實施方案中, 與SEQ IDN0:2,4或98的參考序列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22, 1-24,1-26,1-30,1-35或約1_40個殘基差異。在一些實施方案中,差異的數目可以是在其 他胺基酸殘基處的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40個殘基差異。在一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多 肽包含具有至少前述特點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID NO :2,4 或98 的參考序列具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%, 94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸,和對應於X95的 殘基是非極性或脂肪族殘基,特別是亮氨酸或異亮氨酸。在一些實施方案中,與SEQ ID NO 2,4或98的參考序列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4, 1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35或約1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘 基處的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差
異。在一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有至 少前述特點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ IDN0 :2,4或 98 的參考序列具有至少 85%,86%,87%,88%,89%,90%,91 %,92%,93%,94%,95%, 96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸,和對應於X96的 殘基是極性或酸性殘基,特別是蘇氨酸或穀氨酸。在一些實施方案中,與SEQ ID N0:2,4或 98的參考序列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5, 1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30, 1-35或約1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處 的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。 在一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有至少前 述特點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID N0:2,4或98的 參考序列具有至少 85 %,86 %,87 %,88 %,89 %,90 %,91 %,92 %,93 %,94 %,95 %,96 %, 97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸,和對應於X97的 殘基是極性、非極性、脂肪族或鹼性殘基,特別是甲硫氨酸、纈氨酸、異亮氨酸、蘇氨酸或精 氨酸。在一些實施方案中,與SEQ ID NO :2,4或98的參考序列相比,酮還原酶多肽可另外 具有在其他胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14, 1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個殘基差異。在一些實施方 案中,差異的數目可以是在其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16, 18,20,22,24,26,30,35或約40個殘基差異。在一些實施方案中,差異包含保守突變。在一 些實施方案中,酮還原酶多肽包含具有至少前述特點的胺基酸序列,並且其中胺基酸序列 與具有前述特點的基於SEQ ID NO :2,4或98的參考序列具有至少85%,86%,87%,88%, 89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸,和對應於X120的 殘基是芳族、非極性或脂肪族殘基,特別是纈氨酸。在一些實施方案中,與SEQ ID N0:2,4或 98的參考序列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5, 1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30, 1-35或約1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處 的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。 在一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有至少前
32述特點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID N0:2,4或98的 參考序列具有至少 85 %,86%,87%,88 %,89%,90%,91 %,92 %,93%,94%,95 %,96%, 97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸,和對應於X125的 殘基是極性或非極性殘基,特別是絲氨酸。在一些實施方案中,與SEQ ID N0:2,4或98的參 考序列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5,1-6,1-7, 1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處的1,2,3,4, 5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。在一些實施 方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有至少前述特點的氨 基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID NO :2,4或98的參考序列具 有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99%同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸,和對應於X142的 殘基是極性殘基,特別是天冬醯胺。在一些實施方案中,與SEQ ID N0:2,4或98的參考序 列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5,1-6,1-7,1-8, 1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個殘基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處的1,2,3,4,5,6, 7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。在一些實施方案 中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有至少前述特點的氨基 酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID NO :2,4或98的參考序列具 有至少 85%,86%,87%,88%,89%, %,91%,92%,93%,94%,95%,96%,97%,98%或 99%同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸,和對應於X147的 殘基是芳族、極性、非極性、或脂肪族殘基,特別是穀氨醯胺、亮氨酸或異亮氨酸。在一些實 施方案中,與SEQ ID NO :2,4或98的參考序列相比,酮還原酶多肽可另外具有在其他氨基 酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18, 1-20,1-22,1-24,1-26,1-30,1-35或約1-40個殘基差異。在一些實施方案中,差異的數目 可以是在其他胺基酸殘基處的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26, 30,35或約40個殘基差異。在一些實施方案中,差異包含保守突變。在一些實施方案中,酮 還原酶多肽包含具有至少前述特點的胺基酸序列,並且其中胺基酸序列與具有前述特點的 基於 SEQ ID NO :2,4 或 98 的參考序列具有至少 85%,86%,87%,88%,89%,90%,91%, 92%,93%,94%,95%,96%,97%,98%或 99% 同一性。
在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸,和對應於X149的 殘基是非極性或芳族殘基,特別是苯丙氨酸。在一些實施方案中,與SEQ ID NO :2,4或98 的參考序列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5,1-6, 1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處的1, 2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。在一 些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有至少前述特 點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID N0:2,4或98的參考 序列具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%, 98%或99%同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸,和對應於X150的 殘基是受限或酸性殘基,特別是組氨酸。在一些實施方案中,與SEQ ID N0:2,4或98的參 考序列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5,1-6,1-7, 1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處的1,2,3,4, 5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。在一些實施 方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有至少前述特點的氨 基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID NO :2,4或98的參考序列具 有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99%同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸,和對應於X152的 殘基是非極性或極性殘基,特別是甲硫氨酸。在一些實施方案中,與SEQ ID N0:2,4或98 的參考序列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5,1-6, 1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處的1, 2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。在一 些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有至少前述特 點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID N0:2,4或98的參考 序列具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%, 98%或99%同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列 式或其區域諸如殘基90-211的序列式的胺基酸序列,其中該胺基酸序列具有至少以下特 點對應於X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸,和對
34應於X196的殘基是脂肪族、非極性或芳族殘基,特別是甲硫氨酸、異亮氨酸、亮氨酸或苯丙 氨酸。在一些實施方案中,與SEQ ID NO :2,4或98的參考序列相比,酮還原酶多肽可另外 具有在其他胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14, 1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個殘基差異。在一些實施方 案中,差異的數目可以是在其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16, 18,20,22,24,26,30,35或約40個殘基差異。在一些實施方案中,差異包含保守突變。在一 些實施方案中,酮還原酶多肽包含具有至少前述特點的胺基酸序列,並且其中胺基酸序列 與具有前述特點的基於SEQ ID NO :2,4或98的參考序列具有至少85%,86%,87%,88%, 89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸,和對應於X202的 殘基是脂肪族、芳族或非極性殘基,特別是甲硫氨酸、酪氨酸或色氨酸。在一些實施方案中, 與SEQ ID NO :2,4或98的參考序列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22, 1-24,1-26,1-30,1-35或約1_40個殘基差異。在一些實施方案中,差異的數目可以是在其 他胺基酸殘基處的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40個殘基差異。在一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多 肽包含具有至少前述特點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID NO :2,4 或 98 的參考序列具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%, 94%,95%,96%,97%,98%^; 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;和對應於X205的 殘基是鹼性、非極性或脂肪族殘基,特別是精氨酸或纈氨酸。在一些實施方案中,與SEQ ID N0:2,4或98的參考序列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3, 1-4,1-5,1-6,1-7,1-8,1-9,1-10,11-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24, 1-26,1-30,1-35或約1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他氨 基酸殘基處的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個 殘基差異。在一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含 具有至少前述特點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ IDN0 2,4 或 98 的參考序列具有至少 85%, 86%, 87%, 88%, 89%, 90%, 91 %,92%, 93%, 94%, 95%,96%,97%,98% 或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸,和對應於X206的 殘基是非極性或芳族殘基,特別是酪氨酸。在一些實施方案中,與SEQ ID N0:2,4或98的參 考序列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5,1-6,1-7, 1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處的1,2,3,4, 5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。在一些實施 方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有至少前述特點的氨 基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID NO :2,4或98的參考序列具 有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99%同一性。在一些實施方案中,本公開的改進的酮還原酶包含具有列於下文表2中突變集的 任一種的胺基酸序列。在一些實施方案中,該多肽與包含選自SEQ DyF NO :6,8,10,12,14, 16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64, 66,68,70,72,74,76,78,80,82,84,86,88,90,92 和 94 的胺基酸序列的多肽具有至少 85%, 86 %,87 %,88 %,89 %,90 %,91 %,92 %,93 %,94 %,95 %,96 %,97 %,98 % 或 99 %序列同 一性,其中該酮還原酶多肽的胺基酸序列包括列於表2中的取代組合的任一套。在一些 實施方案中,與參考序列相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3, 1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24, 1-26,1-30,1-35或約1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他氨基 酸殘基處的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘 基差異。在一些實施方案中,差異包含保守突變。在一些實施方案中,改進的酮還原酶多肽包含選自SEQ ID NO =6,8,10,12,14,16, 18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66, 68,70,72,74,76,78,80,82,84,86,88,90,92 和 94 的胺基酸序列。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸,和對應於X196的 殘基是脂肪族、非極性或芳族殘基,特別是甲硫氨酸、異亮氨酸、亮氨酸或苯丙氨酸。在一些 實施方案中,與具有前述特點的SEQ ID NO :2,4或98的參考序列諸如SEQ IDN0 :8,10,14, 16,24,26或48相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1_2,1-3,1-4,1-5, 1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30, 1-35或約1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處 的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。 在一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有前述特 點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID N0:2,4或98的參考 序列(例如 SEQ ID NO :8,10,14,16,24,26 或 48)具有至少 85%,86%,87%,88%,89%, 90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;對應於X125的殘 基是極性或非極性殘基,特別是絲氨酸;和對應於X196的殘基是脂肪族、非極性或芳族殘 基,特別是甲硫氨酸、異亮氨酸、亮氨酸或苯丙氨酸。在一些實施方案中,與具有前述特點的 SEQ ID NO :2,4或98的參考序列諸如SEQ ID NO :52相比,酮還原酶多肽可另外具有在其他
36胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16, 1-18,1-20,1-22,1-24,1-26,1-30,1-35或約1-40個殘基差異。在一些實施方案中,差異 的數目可以是在其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22, 24,26,30,35或約40個殘基差異。在一些實施方案中,差異包含保守突變。在一些實施方案 中,酮還原酶多肽包含具有至少前述特點的胺基酸序列,並且其中胺基酸序列與具有前述 特點的基於SEQ ID NO :2,4或98的參考序列(例如SEQ ID NO 52)具有至少85%,86%, 87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;對應於X95的殘 基是非極性或脂肪族殘基,特別是亮氨酸或異亮氨酸;和對應於X196的殘基是脂肪族、非 極性或芳族殘基,特別是甲硫氨酸、異亮氨酸、亮氨酸或苯丙氨酸。在一些實施方案中,與具 有前述特點的SEQ ID NO :2,4或98的參考序列諸如SEQ IDN0 :20,62或64相比,酮還原酶 多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11, 1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個殘基差異。在 一些實施方案中,差異的數目可以是在其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10,11, 12,14,15,16,18,20,22,24,26,30,35或約40個殘基差異。在一些實施方案中,差異包含 保守突變。在一些實施方案中,酮還原酶多肽包含具有前述特點的胺基酸序列,並且其中氨 基酸序列與具有前述特點的基於SEQ ID NO :2,4或98的參考序列(例如SEQ ID NO 20, 62 或 64)具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%, 97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;對應於X196的殘 基是脂肪族、非極性或芳族殘基,特別是甲硫氨酸、異亮氨酸、亮氨酸或苯丙氨酸;和對應於 X206的殘基是非極性或芳族殘基,特別是酪氨酸。在一些實施方案中,與具有前述特點的 SEQ ID NO :2,4或98的參考序列諸如SEQ ID NO :36相比,酮還原酶多肽可另外具有在其他 胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16, 1-18,1-20,1-22,1-24,1-26,1-30,1-35或約1-40個殘基差異。在一些實施方案中,差異 的數目可以是在其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22, 24,26,30,35或約40個殘基差異。在一些實施方案中,差異包含保守突變。在一些實施方案 中,酮還原酶多肽包含具有至少前述特點的胺基酸序列,並且其中胺基酸序列與具有前述 特點的基於SEQ ID NO :2,4或98的參考序列(例如SEQ ID NO 36)具有至少85%,86%, 87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;對應於X7的殘基 是芳族、非極性、極性、受限或鹼性殘基,特別是組氨酸、色氨酸、脯氨酸、蘇氨酸或精氨酸; 和對應於X196的殘基是脂肪族、非極性或芳族殘基,特別是甲硫氨酸、異亮氨酸、亮氨酸或苯丙氨酸。在一些實施方案中,與具有前述特點的SEQID而2,4或98的參考序列諸如5£0 ID NO 54或56相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5, 1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30, 1-35或約1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。在 一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有至少前述 特點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID N0:2,4或98的參 考序列(例如 SEQ IDN0 :54 或 56)具有至少 85%,86%,87%,88%,89%,90%,91 %,92%, 93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;對應於X147的 殘基是芳族、極性、非極性或脂肪族殘基,特別是穀氨醯胺、異亮氨酸或亮氨酸;和對應於 X196的殘基是脂肪族、非極性或芳族殘基,特別是甲硫氨酸、異亮氨酸、亮氨酸或苯丙氨酸。 在一些實施方案中,與具有前述特點的SEQ ID NO :2,4或98的參考序列諸如SEQ ID NO 22,66,68或72相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1_2,1-3,1-4,1-5, 1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30, 1-35或約1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。在 一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有前述特點 的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID N0:2,4或98的參考序 列(例如 SEQ ID NO :22,66,68 或 72)具有至少 85%,86%,87%,88%,89%,90%,91%, 92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;對應於X196的殘 基是脂肪族、非極性或芳族殘基,特別是甲硫氨酸、異亮氨酸、亮氨酸或苯丙氨酸;和對應於 X202的殘基是脂肪族、芳族或非極性殘基,特別是甲硫氨酸、酪氨酸或色氨酸。在一些實施 方案中,與具有前述特點的SEQ ID NO :2,4或98的參考序列諸如SEQ ID N0:28,30或32相 比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9, 1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個殘 基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處的1,2,3,4,5,6,7,8, 9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。在一些實施方案中, 差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有前述特點的胺基酸序列,並 且其中胺基酸序列與具有前述特點的基於SEQ ID NO :2,4或98的參考序列(例如SEQ ID NO :28,30 或 32)具有至少 85%,86%,87%,88%,89%,90%,91 %,92%,93%,94%,95%, 96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;對應於X152的殘 基是非極性或極性殘基,特別是甲硫氨酸;對應於X196的殘基是脂肪族、非極性或芳族殘 基,特別是甲硫氨酸、異亮氨酸、亮氨酸或苯丙氨酸;和對應於X205的殘基是鹼性、非極性 或脂肪族殘基,特別是精氨酸或纈氨酸。在一些實施方案中,與具有前述特點的SEQ ID NO 2,4或98的參考序列諸如SEQ ID NO :20相比,酮還原酶多肽可另外具有在其他胺基酸殘基 處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20, 1-22,1-24,1-26,1-30,1-35或約1_40個殘基差異。在一些實施方案中,差異的數目可以是 在其他胺基酸殘基處的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約40個殘基差異。在一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原 酶多肽包含具有前述特點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID NO :2,4 或 98 的參考序列(例如 SEQ ID NO 20)具有至少 85%,86%,87%,88%,89%, 90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;對應於X43的殘 基是非極性或脂肪族殘基,特別是異亮氨酸;對應於X147的殘基是芳族、極性、非極性或脂 肪族殘基,特別是穀氨醯胺、異亮氨酸或亮氨酸;對應於X196的殘基是脂肪族、非極性或芳 族殘基,特別是甲硫氨酸、異亮氨酸、亮氨酸或苯丙氨酸。在一些實施方案中,與具有前述特 點的SEQ ID NO :2,4或98的參考序列諸如SEQ ID NO :70相比,酮還原酶多肽可另外具有 在其他胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15, 1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個殘基差異。在一些實施方案中, 差異的數目可以是在其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18, 20,22,24,26,30,35或約40個殘基差異。在一些實施方案中,差異包含保守突變。在一些 實施方案中,酮還原酶多肽包含具有前述特點的胺基酸序列,並且其中胺基酸序列與具有 前述特點的基於SEQ ID NO :2,4或98的參考序列(例如SEQ ID NO 70)具有至少85%, 86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;對應於X94的殘 基是半胱氨酸、非極性或脂肪族殘基,特別是半胱氨酸或纈氨酸;對應於X196的殘基是脂 肪族、非極性或芳族殘基,特別是甲硫氨酸、異亮氨酸、亮氨酸或苯丙氨酸;和對應於X205 的殘基是芳族、極性、非極性或脂肪族殘基,特別是穀氨醯胺、亮氨酸或異亮氨酸。在一些實 施方案中,與具有前述特點的SEQ IDN0:2,4或98的參考序列諸如SEQ ID N0:34相比,酮 還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10, 1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個殘基差 異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10, 11,12,14,15,16,18,20,22,24,26,30,35或約40個殘基差異。在一些實施方案中,差異包 含保守突變。在一些實施方案中,酮還原酶多肽包含具有前述特點的胺基酸序列,並且其中 胺基酸序列與具有前述特點的基於SEQ ID NO :2,4或98的參考序列(例如SEQ ID NO 34)
39具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98% 或99%同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;對應於X97的殘 基是極性、非極性、脂肪族或鹼性殘基,特別是精氨酸、纈氨酸、甲硫氨酸、蘇氨酸或異亮氨 酸;對應於X147的殘基是芳族、極性、非極性或脂肪族殘基,特別是穀氨醯胺、異亮氨酸或 亮氨酸;和對應於X196的殘基是脂肪族、非極性或芳族殘基,特別是甲硫氨酸、異亮氨酸、 亮氨酸或苯丙氨酸。在一些實施方案中,與具有前述特點的SEQ ID N0:2,4或98的參考 序列諸如SEQ ID NO 74相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1_2,1-3, 1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24, 1-26,1-30,1-35或約1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他氨基 酸殘基處的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘 基差異。在一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具 有前述特點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID N0:2,4或 98 的參考序列(例如 SEQ ID NO 74)具有至少 85 %,86 %,87 %,88 %,89%,90 %,91 %, 92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID N0:95,96或119的序列 式或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應 於X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;對應於X7的 殘基是芳族、非極性、極性、受限或鹼性殘基,特別是組氨酸、蘇氨酸、脯氨酸、色氨酸或精氨 酸;對應於X147的殘基是芳族、極性、非極性或脂肪族殘基,特別是穀氨醯胺、異亮氨酸或 亮氨酸;對應於X196的殘基是脂肪族、非極性或芳族殘基,特別是甲硫氨酸、異亮氨酸、亮 氨酸或苯丙氨酸;和對應於X202的殘基是脂肪族、芳族或非極性殘基,特別是甲硫氨酸、酪 氨酸或色氨酸。在一些實施方案中,與具有前述特點的SEQ ID NO :2,4或98的參考序列諸 如SEQ ID NO :40,76,78,80或82相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22, 1-24,1-26,1-30,1-35或約1_40個殘基差異。在一些實施方案中,差異的數目可以是在其 他胺基酸殘基處的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40個殘基差異。在一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽 包含具有前述特點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID NO 2,4 或 98 的參考序列(例如 SEQ ID NO :40,76,78,80 或 82)具有至少 85 %,86 %,87 %, 88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;對應於X7的殘基 是芳族、非極性、極性、受限或鹼性殘基,特別是組氨酸、蘇氨酸、脯氨酸、色氨酸或精氨酸; 對應於X94的殘基是半胱氨酸、非極性或脂肪族殘基,特別是半胱氨酸或纈氨酸;對應於 X147的殘基是芳族、極性、非極性或脂肪族殘基,特別是穀氨醯胺、亮氨酸或異亮氨酸;對應於X196的殘基是脂肪族、非極性或芳族殘基,特別是甲硫氨酸、異亮氨酸、亮氨酸或苯丙 氨酸;和對應於X202的殘基是脂肪族、芳族或非極性殘基,特別是甲硫氨酸、酪氨酸或色氨 酸。在一些實施方案中,與具有前述特點的SEQ ID而2,4或98的參考序列諸如3£0 ID NO 42相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5,1-6,1-7, 1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40個殘基差異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處的1,2,3,4, 5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個殘基差異。在一些實施 方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有前述特點的胺基酸 序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID NO :2,4或98的參考序列(例如 SEQ ID NO 42)具有至少 85%,86%,87%,88%,89%,90%,91 %,92%,93%,94%,95%, 96%,97%,98% 或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID N0:95,96或119的序列 式或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應 於X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;對應於X7的 殘基是芳族、非極性、極性、受限或鹼性殘基,特別是組氨酸、蘇氨酸、脯氨酸、色氨酸或精氨 酸;對應於X94的殘基是半胱氨酸、非極性或脂肪族殘基,特別是半胱氨酸或纈氨酸;對應 於X147的殘基是芳族、極性、非極性或脂肪族殘基,特別是穀氨醯胺、亮氨酸或異亮氨酸; 對應於X149的殘基是非極性或芳族殘基,特別是苯丙氨酸;對應於X150的殘基是受限或 酸性殘基,特別是組氨酸;對應於X196的殘基是脂肪族、非極性或芳族殘基,特別是甲硫氨 酸、異亮氨酸、亮氨酸或苯丙氨酸;和對應於X202的殘基是脂肪族、芳族或非極性殘基,特 別是甲硫氨酸、酪氨酸或色氨酸。在一些實施方案中,與具有前述特點的SEQ ID N0:2,4或 98的參考序列諸如SEQ ID NO :84相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22, 1-24,1-26,1-30,1-35或約1_40個殘基差異。在一些實施方案中,差異的數目可以是在其 他胺基酸殘基處的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40個殘基差異。在一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽 包含具有前述特點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID NO 2,4 或 98 的參考序列(例如 SEQ ID NO 84)具有至少 85%,86%,87%,88%,89%,90%, 91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;對應於X7的殘基 是芳族、非極性、極性、受限或鹼性殘基,特別是組氨酸、蘇氨酸、脯氨酸、色氨酸或精氨酸; 對應於X96的殘基是極性或酸性殘基,特別是蘇氨酸或穀氨酸;對應於X147的殘基是芳族、 極性、非極性或脂肪族殘基,特別是穀氨醯胺、亮氨酸或異亮氨酸;對應於X196的殘基是脂 肪族、非極性或芳族殘基,特別是甲硫氨酸、異亮氨酸、亮氨酸或苯丙氨酸;和對應於X202 的殘基是脂肪族、芳族或非極性殘基,特別是甲硫氨酸、酪氨酸或色氨酸。在一些實施方案 中,與具有前述特點的SEQ ID NO :2,4或98的參考序列諸如SEQ ID NO :44或46相比,酮 還原酶多肽可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,
411-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個殘基差 異。在一些實施方案中,差異的數目可以是在其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10, 11,12,14,15,16,18,20,22,24,26,30,35或約40個殘基差異。在一些實施方案中,差異包 含保守突變。在一些實施方案中,酮還原酶多肽包含具有前述特點的胺基酸序列,並且其 中胺基酸序列與具有前述特點的基於SEQ ID NO :2,4或98的參考序列(例如SEQ ID NO 44 或 46)具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%, 97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列 式或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應 於X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;對應於X7的 殘基是芳族、非極性、極性、受限或鹼性殘基,特別是組氨酸、蘇氨酸、脯氨酸、色氨酸或精氨 酸;對應於X96的殘基是極性或酸性殘基,特別是蘇氨酸或穀氨酸;對應於X120的殘基是 芳族、非極性或脂肪族殘基,特別是纈氨酸;對應於X147的殘基是芳族、極性、非極性或脂 肪族殘基,特別是穀氨醯胺、亮氨酸或異亮氨酸;對應於X196的殘基是脂肪族、非極性或芳 族殘基,特別是甲硫氨酸、異亮氨酸、亮氨酸或苯丙氨酸;和對應於X202的殘基是脂肪族、 芳族或非極性殘基,特別是甲硫氨酸、酪氨酸或色氨酸。在一些實施方案中,與具有前述特 點的SEQ ID NO :2,4或98的參考序列諸如SEQ ID NO 86相比,酮還原酶多肽可另外具有 在其他胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15, 1-16,1-18,1-20,1-22,1-24,1-26,1-30,1-35 或約 1-40 個殘基差異。在一些實施方案中, 差異的數目可以是在其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18, 20,22,24,26,30,35或約40個殘基差異。在一些實施方案中,差異包含保守突變。在一些 實施方案中,酮還原酶多肽包含具有前述特點的胺基酸序列,並且其中胺基酸序列與具有 前述特點的基於SEQ ID NO :2,4或98的參考序列(例如SEQ ID NO 86)具有至少85%, 86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,改進的酮還原酶包含基於SEQ ID NO :95,96或119的序列式 或其區域諸如殘基90-211的胺基酸序列,其中該胺基酸序列具有至少以下特點對應於 X190的殘基是非芳族殘基,特別是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸;對應於X7的殘基 是芳族、非極性、極性、受限或鹼性殘基,特別是組氨酸、蘇氨酸、脯氨酸、色氨酸或精氨酸; 對應於X97的殘基是極性、非極性、脂肪族或鹼性殘基,特別是纈氨酸、甲硫氨酸、蘇氨酸或 異亮氨酸;對應於X147的殘基是芳族、極性、非極性或脂肪族殘基,特別是穀氨醯胺、亮氨 酸或異亮氨酸;對應於X196的殘基是脂肪族、非極性或芳族殘基,特別是甲硫氨酸、異亮氨 酸、亮氨酸或苯丙氨酸;和對應於X202的殘基是脂肪族、芳族或非極性殘基,特別是甲硫氨 酸、酪氨酸或色氨酸。在一些實施方案中,與具有前述特點的SEQID N0:2,4或98的參考序 列諸如SEQ ID NO :88,90,92或94相比,酮還原酶多肽可另外具有在其他胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18,1-20,1-22, 1-24,1-26,1-30,1-35或約1_40個殘基差異。在一些實施方案中,差異的數目可以是在其 他胺基酸殘基處的 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40個殘基差異。在一些實施方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽 包含具有前述特點的胺基酸序列,並且其中胺基酸序列與具有前述特點的基於SEQ ID NO2,4 或 98 的參考序列(例如 SEQ ID NO :88,90,92 或 94)具有至少 85%,86%,87%,88%, 89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,本公開的改進的酮還原酶包含具有對應於SEQ IDN0 95,96 或119的序列式的殘基90-211的區域或結構域的胺基酸序列,其中對應於X190的殘基不 是酪氨酸。在一些實施方案中,對應於殘基90-211的結構域或區域包含其中對應於X190 的殘基是非芳族殘基諸如脂肪族、受限、非極性或半胱氨酸殘基的胺基酸序列。在一些實施 方案中,對應於殘基90-211的結構域或區域包含其中對應於X190的殘基是丙氨酸、異亮氨 酸、半胱氨酸或脯氨酸特別是脯氨酸的胺基酸序列。在一些實施方案中,與基於SEQ ID NO 2,4或98的參考序列的對應結構域相比,對應於殘基90-211的區域或結構域可另外具有 在其他胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15, 1-16,1-18或1-20個殘基差異。在一些實施方案中,差異的數目可以是在結構域的其他氨 基酸殘基處的1,2, 3,4, 5,6, 7,8,9,10,11,12,14,15,16,18或20個殘基差異。在一些實施 方案中,差異包含保守突變。在一些實施方案中,酮還原酶多肽包含具有對應於SEQ ID NO 95,96或119的序列式的殘基90-211的結構域或區域的胺基酸序列,其中對應於X190的殘 基具有至少前述特點,並且其中該結構域或區域的胺基酸序列與對應於具有前述特點的基 於SEQID NO :2,4或98的參考序列的殘基90_211的胺基酸序列具有至少85 %,86 %,87 %, 88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,具有對應於SEQ ID NO :95,96或119的序列式的殘基90-211 結構域或區域、並且在對應於X190的殘基處具有如本文所述的指定特點的酮還原酶多肽 的結構域或區域還可包括選自以下的一個或多個特點對應於X94的殘基是半胱氨酸、非 極性或脂肪族殘基;對應於X95的殘基是非極性或脂肪族殘基;對應於X96的殘基是極性 或酸性殘基;對應於X97的殘基是極性、非極性、脂肪族或鹼性殘基;對應於X120的殘基是 芳族、非極性或脂肪族殘基;對應於X125的殘基是極性或非極性殘基;對應於X147的殘 基是芳族、極性、非極性或脂肪族殘基;對應於X149的殘基是非極性或芳族殘基;對應於 X150的殘基是受限或酸性殘基;對應於X152的殘基是非極性或極性殘基;對應於X196的 殘基是脂肪族、非極性或芳族殘基;對應於X202的殘基是脂肪族、芳族或非極性殘基;對應 於X205的殘基是鹼性、非極性或脂肪族殘基;和對應於X206的殘基是非極性或芳族殘基。 在一些實施方案中,與基於SEQ ID N0 :2,4或98的參考序列的對應結構域相比,對應於殘 基90-211的區域或結構域可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5,1-6,1-7, 1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18 或 1-20 個殘基差異。在一些實施方案中, 差異的數目可以是在結構域的其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10,11,12,14,15, 16,18或約20個殘基差異。在一些實施方案中,差異包含保守突變。在一些實施方案中,與SEQ ID NO :2,4或98的對應結構域的胺基酸序列相比,具 有對應於如上文所述SEQ ID NO :95,96或119的序列式的殘基90-211的胺基酸序列的結 構域或區域的酮還原酶多肽可具有在該結構域或區域中的一個或多個保守突變。此類保守 突變的實例包括胺基酸置換,諸如但不限於用另一個非極性或脂肪族殘基例如纈氨酸、亮 氨酸或異亮氨酸置換對應於X94的殘基丙氨酸(A);用另一個非極性或脂肪族殘基例如丙 氨酸、亮氨酸或異亮氨酸置換對應於X95的殘基纈氨酸(V);用另一個極性殘基例如天冬醯 胺、穀氨醯胺或蘇氨酸置換對應於X96的殘基絲氨酸(S);用另一個非極性或脂肪族殘基例如丙氨酸、亮氨酸或異亮氨酸置換對應於X196的殘基纈氨酸(V);和用另一個非極性或脂 肪族殘基例如纈氨酸、亮氨酸或異亮氨酸置換對應於X205的殘基丙氨酸(A)。在一些實施方案中,具有對應於SEQ ID NO :95,96或119的序列式的殘基90-211 的結構域或區域、並且具有如本文所述對應於X190的殘基處的指定特點的酮還原酶多肽 的區域或結構域還可包括選自以下的特點的一個或多個對應於X94的殘基是半胱氨酸、 甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸或異亮氨酸,特別是丙氨酸、纈氨酸或半胱氨酸; 對應於X95的殘基是甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸、異亮氨酸,特別是異亮氨 酸或亮氨酸;對應於X96的殘基是天冬氨酸、穀氨酸、絲氨酸、蘇氨酸、天冬醯胺或穀氨醯 胺,特別是絲氨酸、天冬醯胺、蘇氨酸或穀氨酸;對應於X97的殘基是絲氨酸、蘇氨酸、天冬 醯胺、穀氨醯胺、甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸、異亮氨酸、賴氨酸或精氨酸,特 別是賴氨酸、蘇氨酸、纈氨酸、精氨酸、甲硫氨酸或異亮氨酸;對應於X120的殘基是酪氨酸、 苯丙氨酸、色氨酸、甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸或異亮氨酸,特別是苯丙氨酸 或纈氨酸;對應於X125的殘基是甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸或異亮氨酸,特 別是甘氨酸或絲氨酸;對應於X142的殘基是絲氨酸、蘇氨酸、天冬醯胺或穀氨醯胺殘基,特 別是天冬醯胺;對應於X147的殘基是酪氨酸、苯丙氨酸、色氨酸、甘氨酸、甲硫氨酸、丙氨 酸、纈氨酸、亮氨酸、異亮氨酸、絲氨酸、蘇氨酸、天冬醯胺或穀氨醯胺,特別是苯丙氨酸、亮 氨酸、異亮氨酸、纈氨酸或穀氨醯胺;對應於X149的殘基是甘氨酸、甲硫氨酸、丙氨酸、纈氨 酸、亮氨酸、異亮氨酸、酪氨酸、苯丙氨酸或色氨酸,特別是甘氨酸或苯丙氨酸;對應於X150 的殘基是脯氨酸、組氨酸、天冬氨酸或穀氨酸,特別是天冬氨酸或組氨酸;對應於X152的殘 基是甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸、異亮氨酸、絲氨酸、蘇氨酸、天冬醯胺或谷 氨醯胺,特別是絲氨酸、蘇氨酸或甲硫氨酸;對應於X196的殘基是酪氨酸、苯丙氨酸、色氨 酸、甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸或異亮氨酸,特別是纈氨酸、異亮氨酸、甲硫 氨酸、苯丙氨酸或異亮氨酸;對應於X202的殘基是酪氨酸、苯丙氨酸、色氨酸、甘氨酸、甲硫 氨酸、丙氨酸、纈氨酸、亮氨酸或異亮氨酸,特別是丙氨酸、色氨酸、酪氨酸或甲硫氨酸;對應 於X205的殘基是賴氨酸、精氨酸、甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸或異亮氨酸, 特別是精氨酸;並且對應於X206的殘基是甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸、異亮 氨酸、酪氨酸、苯丙氨酸、色氨酸,特別是甲硫氨酸或酪氨酸。在一些實施方案中,與基於SEQ ID N0:2,4或98的參考序列的對應結構域相比,對應於殘基90-211的區域或結構域可另 外具有在其他胺基酸殘基處的約 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12, 1-14,1-15,1-16,1-18或1-20個殘基差異。在一些實施方案中,差異的數目可以是在結構 域的其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18或約20個殘基差 異。在一些實施方案中,差異包含保守突變。在一些實施方案中,具有對應於SEQ ID NO :95,96或119的序列式的殘基90-211 的結構域或區域、並且具有如本文所述對應於X190的殘基處的指定特點的酮還原酶多肽 的區域或結構域內還可包括選自以下的一個或多個或所有特點對應於X147的殘基是芳 族、極性、非極性或脂肪族殘基,特別是穀氨醯胺、異亮氨酸或亮氨酸,對應於X202的殘基 是脂肪族、芳族或非極性殘基,特別是色氨酸、甲硫氨酸或酪氨酸。在一些實施方案中,與 基於SEQ ID NO :2,4或98的參考序列的結構域相比,對應於殘基90-211的區域或結構域 可另外具有在其他胺基酸殘基處的 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,
441-14,1-15,1-16,1-18或1-20個殘基差異。在一些實施方案中,差異的數目可以是在結構 域的其他胺基酸殘基處的1,2, 3,4, 5,6, 7,8,9,10,11,12,14,15,16,18或約20個殘基差 異。在一些實施方案中,差異包含保守突變。在一些實施方案中,該酮還原酶多肽包含具 有至少前述特點的胺基酸序列,並且其中該胺基酸序列與對應於具有前述特點的基於SEQ ID NO :2,4或98的參考序列的殘基90-211的胺基酸序列相比具有至少85%,86%,87%, 88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,具有對應於SEQ ID NO :95,96或119的序列式的殘基90-211 的結構域或區域、並且具有如本文所述對應於X190的殘基處的指定特點的酮還原酶多肽 的區域或結構域還可包括選自以下的一個或多個或所有特點對應於X97的殘基是極性、 非極性、脂肪族或鹼性殘基,特別是甲硫氨酸、纈氨酸、異亮氨酸、蘇氨酸或精氨酸;對應於 X147的殘基是芳族、極性、非極性或脂肪族殘基,特別是穀氨醯胺、異亮氨酸或亮氨酸;對 應於X202的殘基是脂肪族、芳族或非極性殘基,特別是色氨酸、甲硫氨酸或酪氨酸。在一 些實施方案中,與基於SEQ ID NO :2,4或98的參考序列的結構域相比,對應於殘基90-211 的區域或結構域可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9, 1-10,1-11,1-12,1-14,1-15,1-16,1-18或1-20個殘基差異。在一些實施方案中,差異的數 目可以是在結構域的其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18或 約20個殘基差異。在一些實施方案中,差異包含保守突變。在一些實施方案中,該酮還原酶 多肽包含具有至少前述特點的胺基酸序列,並且其中該胺基酸序列與對應於具有前述特點 的基於SEQ ID NO :2,4或98的參考序列的殘基90-211的胺基酸序列相比具有至少85%, 86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。在一些實施方案中,具有對應於SEQ ID NO :95,96或119的序列式的殘基90-211 的結構域或區域、並且具有如本文所述對應於X190的殘基處的指定特點的酮還原酶多肽 的區域或結構域還可包括選自以下的一個或多個或所有特點對應於X94的殘基是半胱氨 酸、非極性或脂肪族殘基,特別是半胱氨酸或纈氨酸;對應於X96的殘基是極性或酸性殘 基,特別是蘇氨酸;對應於X147的殘基是芳族、極性、非極性或脂肪族殘基,特別是穀氨醯 胺、異亮氨酸或亮氨酸。在一些實施方案中,與基於SEQ ID NO :2,4或98的參考序列的結構 域相比,對應於殘基90-211的區域或結構域可另外具有在其他胺基酸殘基處的1-2,1-3, 1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18 或 1-20 個殘基差異。 在一些實施方案中,差異的數目可以是在結構域的其他胺基酸殘基處的1,2,3,4,5,6,7,8, 9,10,11,12,14,15,16,18或約20個殘基差異。在一些實施方案中,差異包含保守突變。 在一些實施方案中,該酮還原酶多肽包含具有至少前述特點的胺基酸序列,並且其中該氨 基酸序列與對應於具有前述特點的基於SEQID NO :2,4或98的參考序列的殘基90-211的 胺基酸序列相比具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%, 96%,97%,98%或 99% 同一性。在一些實施方案中,該酮還原酶多肽還可包括對應於SEQ ID N0 :95,96或119的 序列式的殘基1-89的區域或結構域。在一些實施方案中,對應於殘基1-89的區域或結構域 可具有以下特點的一種或多種對應於X7的殘基是芳族、非極性、極性、受限或鹼性殘基; 對應於X16的殘基是極性殘基;對應於X43的殘基是非極性或極性殘基;對應於X60的殘基 是芳族或非極性或脂肪族殘基。
45
在一些實施方案中,對應於殘基1-89的結構域或區域與對應於基於SEQ ID NO 2,4或98的參考序列的殘基1-89的胺基酸序列具有至少85%,86%,87%,88%,89%, 90 %,91 %,92 %,93 %,94 %,95 %,96 %,97 %,98 % 或 99 % 同一性,條件是該酮還原酶多 肽的區域或結構域具有其中對應於X7的殘基是芳族、非極性、極性、受限或鹼性殘基特別 是組氨酸的胺基酸序列,所述參考序列在對應於X7的殘基處具有芳族、非極性、極性、受限 或鹼性殘基特別是組氨酸。在一些實施方案中,與基於SEQ ID NO :2,4或98的參考序列 的結構域相比,對應於殘基1-89的區域或結構域可另外具有在其他胺基酸殘基處的1-2, 1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18 或 1-20 個殘基差 異。在一些實施方案中,差異的數目可以是在結構域的其他胺基酸殘基處的1,2,3,4,5,6, 7,8,9,10,11,12,14,15,16,18或約20個殘基差異。在一些實施方案中,差異包含保守突 變。在一些實施方案中,該酮還原酶多肽包含具有至少前述特點的胺基酸序列,並且其中該 胺基酸序列與對應於具有前述特點的基於SEQ IDN0 :2,4或98的參考序列的殘基1_89的 胺基酸序列相比具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%, 96%,97%,98%或 99% 同一性。在一些實施方案中,對應於殘基1-89的區域或結構域可具有一種或多種或至少 所有以下特點對應於X7的殘基是芳族、非極性、極性、受限或鹼性殘基;對應於X16的殘 基是極性殘基;對應於X43的殘基是非極性或極性殘基;對應於X60的殘基是芳族或非極 性或脂肪族殘基。在一些實施方案中,與基於SEQ ID NO :2,4或98的參考序列的結構域 相比,對應於殘基1-89的區域或結構域可另外具有在其他胺基酸殘基處的1-2,1-3,1-4, 1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18 或 1-20 個殘基差異。在一 些實施方案中,差異的數目可以是在結構域的其他胺基酸殘基處的1,2,3,4,5,6,7,8,9, 10,11,12,14,15或16個殘基差異。在一些實施方案中,差異包含保守突變。在一些實施方 案中,該酮還原酶多肽包含具有至少前述特點的胺基酸序列,並且其中該胺基酸序列與具 有前述特點的對應於基於SEQ ID NO :2,4或98的參考序列的殘基1-89的胺基酸序列相比 具有至少 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98% 或99%同一性。在一些實施方案中,對應於殘基1-89的區域或結構域可具有一種或多種或至少 所有以下特點對應於X7的殘基是色氨酸、酪氨酸、苯丙氨酸、脯氨酸、組氨酸、甘氨酸、甲 硫氨酸、丙氨酸、纈氨酸、亮氨酸、異亮氨酸、絲氨酸、蘇氨酸、穀氨醯胺、天冬醯胺、精氨酸或 賴氨酸,特別是甘氨酸、組氨酸、蘇氨酸、脯氨酸、色氨酸、精氨酸、組氨酸或天冬醯胺;對應 於X16的殘基是絲氨酸、蘇氨酸、天冬醯胺或穀氨醯胺,特別是絲氨酸;對應於X43的殘基是 甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸或異亮氨酸,特別是異亮氨酸;對應於X60的殘 基是酪氨酸、苯丙氨酸、色氨酸、甘氨酸、甲硫氨酸、丙氨酸、纈氨酸、亮氨酸或異亮氨酸,特 別是丙氨酸。在一些實施方案中,與基於SEQ ID NO :2,4或98的參考序列的結構域相比,對 應於殘基1-89的區域或結構域可另外具有在其他胺基酸殘基處的1-2,1-3,1-4,1-5,1-6, 1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15或1-16個殘基差異。在一些實施方案中,差異 的數目可以是在結構域的其他胺基酸殘基處的1,2,3,4,5,6,7,8,9,10,11,12,14,15或16 個殘基差異。在一些實施方案中,差異包含保守突變。在一些實施方案中,該酮還原酶多肽 包含具有至少前述特點的胺基酸序列,並且其中該胺基酸序列與對應於具有前述特點的基於SEQ ID NO :2,4或98的參考序列的殘基1_89的胺基酸序列相比具有至少85%,86%, 87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99% 同一性。下文表2提供了本文公開的具有與取代苯乙酮的還原相關的活性水平的一些SEQ ID NO的列表。下文所有序列來自野生型克菲爾乳桿菌酮還原酶序列(SEQ ID N0:3和4), 除非另外指明。表2:序列列表 在上文表2的活性列中,單個加號"+〃表示SEQ ID NO :6的活性的100-450%的 活性改進,兩個加號〃 ++〃表示SEQ ID NO :6的450-1500%的活性改進,三個加號〃 +++〃 表示SEQ ID NO :6的大於1500%的活性改進。在穩定性列中,單個加號〃 +〃表示在50°C 下熱處理2小時之後該多肽顯示可測量的活性,兩個加號"++"表示當比較兩個蛋白在 50°C下熱處理2小時之後的活性時,與SEQ ID NO 16相比該多肽的活性具有大於400%的 改進。在一些實施方案中,與具有(S)選擇性的工程KRED酶例如SEQ IDN0 6相比,本 公開的酮還原酶多肽在其酶促活性速率例如其將底物轉化為產物的速率方面具有改進。本 文使用具有SEQ ID NO :6的序列的多肽作為參考多肽,因為野生型克菲爾乳桿菌或短乳 桿菌KRED沒有表現出可估計的將2',6' -二氯-3'-氟苯乙酮轉化為(S)_1_[2,6-二 氯-3-氟苯基]-乙醇的活性。在一些實施方案中,該酮還原酶多肽能以超過SEQ ID NO 6 的速率的至少5倍、10倍、25倍、50倍、75倍、100倍、150倍、200倍、250倍或300倍的速率 將底物轉化為產物。在一些實施方案中,該酮還原酶多肽能以SEQ ID NO :6的速率的至少 100%,150%,200%,250%,300%,400%,450%,500%,750%,1000%,1250%或 1500%將 底物轉化為產物。
49
在一些實施方案中,本公開的酮還原酶多肽能以高於99%的立體異構過量並且以 比具有SEQ ID NO :6的序列的酮還原酶多肽改進的速率將2' ,6' -二氯-3'-氟苯乙酮 轉化為(S)-l-[2,6-二氯-3-氟苯基]-乙醇。比SEQ ID NO :6的酶促活性改進的示例性 多肽包括但不限於包含對應於 SEQ ID NO :8,10,12,14,16,18,20,22,24,26,28,30,32,34, 36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70,72,74,76,78,80,82,84, 86,88,90,92和94的胺基酸序列的多肽。在一些實施方案中,本公開的酮還原酶多肽能以高於99%的立體異構過量並且以 比具有SEQ ID NO :6的序列的酮還原酶多肽改進的速率將2' ,6' -二氯-3'-氟苯乙酮 轉化為(S)-l_[2,6-二氯-3-氟苯基]-乙醇,其中該多肽與具有SEQ ID NO :6的序列的多 肽相比還具有改進的熱穩定性。具有此類改進的示例性多肽包括但不限於包含對應於SEQ ID NO 8,16,18,20,22,26,28,30,32,34,38,40,42,44,46,54,66,68,70,72,74,76,78,80, 82,84,86,88,90,92和94的胺基酸序列的多肽。在一些實施方案中,本公開的酮還原酶多肽能以高於99%的立體異構過量並 且以比具有SEQ ID NO :6的序列的酮還原酶多肽高至少約450%的速率將2' ,6' -二 氯-3'-氟苯乙酮轉化為(S)-l-[2,6-二氯-3-氟苯基]-乙醇。能具有此類改進的示例 性多肽包括但不限於包含對應於 SEQ ID NO :8,10,14,16,18,22,24,26,28,30,32,34,36, 38,40,42,44,46,54,56,58,60,62,64,66,68,70,72,74,76,78,80,82,84,86,88,90,92 和 94的胺基酸序列的多肽。在一些實施方案中,本公開的酮還原酶多肽能以高於99%的立體異構過量並 且以比具有SEQ ID NO :6的序列的酮還原酶多肽高至少約450%的速率將2' ,6' -二 氯-3'-氟苯乙酮轉化為(S)-l-[2,6-二氯-3-氟苯基]-乙醇,其中該多肽與具有SEQ ID NO :6的序列的多肽相比還具有改進的熱穩定性。具有此類特性的示例性多肽包括但不 限於包含對應於 SEQ ID NO 8,16,18,22,26,28,30,32,34,38,40,42,44,46,54,66,68,70, 72,74,76,78,80,82,84,86,88,90,92 和 94 的胺基酸序列的多肽。在一些實施方案中,本公開的酮還原酶多肽能以高於99%的立體異構過量並且 以比具有SEQ ID NO :6的序列的酮還原酶多肽高至少約1500%的速率將2' ,6' -二 氯-3'-氟苯乙酮轉化為(S)-l-[2,6-二氯-3-氟苯基]-乙醇。能具有此類改進的示例 性多肽包括但不限於包含對應於 SEQ ID NO 18,32,34,36,38,40,42,44,46,74,76,78,80, 82,84,86,88,90,92和94的胺基酸序列的多肽。在一些實施方案中,本公開的酮還原酶多肽能以高於99%的立體異構過量並且 以比具有SEQ ID NO :6的序列的酮還原酶多肽高至少約1500%的速率將2' ,6' -二 氯-3'-氟苯乙酮轉化為(S)-l-[2,6-二氯-3-氟苯基]-乙醇,其中該多肽與SEQ ID NO 6的多肽相比還具有改進的熱穩定性。具有此類特性的示例性多肽包括但不限於包含對應 於 SEQ ID NO :18,32,34,36,38,40,42,44,46,74,76,78,80,82,84,86,88,90,92 和 94 的氨 基酸序列的多肽。在一些實施方案中,當使用相比2' ,6' -二氯-3'-氟苯乙酮底物的量按重 量計小於約的量的多肽進行時,本公開的酮還原酶多肽能在不到約24小時內以至 少約99%的立體異構過量將至少約95%的2' ,6' -二氯-3'-氟苯乙酮底物轉化為 (S)-l-(2,6-二氯-3-氟苯基)乙醇。具有該能力的示例性多肽包括但不限於包含對應於
5018,32,34,36,38,40,42,44,46,74,76,78,80,82,84,86,88,90,92 和 94 的胺基酸序列的多肽。在一些實施方案中,本公開的酮還原酶多肽能以高於99%的立體異構過量並 且以比具有SEQ ID NO :6的序列的酮還原酶多肽高至少約450%的速率將2' ,6' -二 氯-3'-氟苯乙酮轉化為(S)-l-[2,6-二氯-3-氟苯基]-乙醇,其中在50°C下熱處理2 小時後該多肽還能以比具有SEQ ID NO: 16的序列的多肽高至少約400%的速率將底物轉 化為產物(其中SEQ ID NO :16的多肽也用相同的熱處理來處理)。具有此類特性的示例 性多肽包括但不限於包含對應於 SEQ ID NO 18,32,34,36,38,40,42,44,46,74,76,78,80, 82,84,86,88,90,92或94的胺基酸序列的多肽。在一些實施方案中,該酮還原酶多肽能以至少約99%的百分比e. e.將底物立體 選擇性地還原為產物,其中該多肽包含對應於SEQ ID NO =6,8,10,12,14,16,18,20,22,24, 26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70,72,74, 76,78,80,82,84,86,88,90,92 或 94 的胺基酸序列。在一些實施方案中,該酮還原酶多肽能以至少約25%,50%,75%,80%,85%, 85 %, 87 %, 88 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 % , 97 %, 98 %, 99 %, 99. 9 % 或99.99%的百分比立體異構過量將2' ,6' -二氯-3-氟苯乙酮立體選擇性地還原為 (S)-l-(2,6-二氯-3-氟苯基)乙醇。在一些實施方案中,該酮還原酶多肽可包含與SEQ ID NO :2,4或98或其區域或 結構域諸如殘基 90-211 具有至少約 85%,86%,87%,88%,89%,90%,91%,92%,93%, 94 %,95 %,96 %,97 %,98 %或99 %同一性的胺基酸序列,條件是對應於殘基X190的殘基 不是酪氨酸,特別地對應於殘基X190的殘基是非芳族殘基,並且其中該多肽能以至少約 85% e. e將底物還原為產物。在一些實施方案中,對應於X190的殘基是脂肪族、受限、非極 性或半胱氨酸殘基。在一些實施方案中,對應於X190的殘基是脯氨酸,並且另外具有以下 取代的一種或多種,以便該多肽與野生型克菲爾乳桿菌酮還原酶或另一種工程酮還原酶相 比進一步改進(關於立體選擇性、酶促活性和/或熱穩定性)7 — H,T,P,ff, R,N(即對應 於SEQ ID NO :2,4或98的殘基7的殘基被取代為組氨酸、蘇氨酸、脯氨酸、色氨酸、精氨酸 或天冬醯胺);16 — S ;43 — I ;60 — A ;94 — C, V ;95 — I,L ;96 — E,T ;97 — R, V, M, T, I ;120 — V ;125 — S ; 142 — N ;147 — L, Q, I,V ; 149 — F ;150 — H ;152 — H ;196 — I,L, M,F ;202 — W,M,F和206 — Y。在一些實施方案中,對應於X190的殘基是脯氨酸,並且另 外具有以下取代的一種或多種,以便該多肽與野生型克菲爾乳桿菌酮還原酶或另一種工程 酮還原酶相比進一步改進7 — H ;94 — V ;96 — T ;147 — L ;196 — L和202 — W。如本領域技術人員將理解,除非另外指明,上文定義的一些分類不是相互排斥的。 因此,具有表現出兩種或多種物理_化學特性的側鏈的胺基酸可包括於多種分類中。任何 胺基酸或殘基的適當分類對本領域技術人員將是顯而易見的,特別是根據本文提供的詳細 的公開內容。在一些實施方案中,改進的工程酮還原酶包含天然存在的酮還原酶多肽的缺失或 其他工程酮還原酶多肽的缺失。在一些實施方案中,本文描述的每種改進的工程酮還原酶 可包含本文描述的多肽的缺失。因此,對本公開的酮還原酶多肽的每一種實施方案,缺失可 包含一個或多個胺基酸、2個或更多個胺基酸、3個或更多個胺基酸、4個或更多個胺基酸、5個或更多個胺基酸、6個或更多個胺基酸、8個或更多個胺基酸、10個或更多個胺基酸、15個 或更多個胺基酸或20個或更多個胺基酸、多達酮還原酶多肽的胺基酸總數的10%、多達酮 還原酶多肽的胺基酸總數的10%、多達酮還原酶多肽的胺基酸總數的20%或多達酮還原 酶多肽的胺基酸總數的30%,只要保持了酮還原酶活性的功能活性。在一些實施方案中, 缺失可包含 1-2,1-3,1-4,1-5,1-6,1-7,1-8,1-9,1-10,1-11,1-12,1-14,1-15,1-16,1-18, 1-20,1-22,1-24,1-25,1-30,1-35或約1_40個胺基酸殘基。在一些實施方案中,缺失的數 目可以是 1,2,3,4,5,6,7,8,9,10,11,12,14,15,16,18,20,22,24,26,30,35 或約 40 個氨基 酸。在一些實施方案中,缺失可包含 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,18 或 20 個胺基酸殘基的缺失。如本文所述,本公開的酮還原酶多肽可以是以其中酮還原酶多肽與其他多肽融合 的融合多肽的形式,所述其他多肽諸如抗體標籤(例如myc表位)或純化序列(例如His 標籤)。因此,可使用具有或沒有與其他多肽融合的酮還原酶多肽。在一些實施方案中,本文描述的多肽不限於遺傳編碼的胺基酸。除了遺傳編碼的 胺基酸外,本文描述的多肽可完全或部分地包含天然存在和/或合成的非編碼胺基酸。本 文所述的多肽可包含的一些經常遇到的非編碼胺基酸,包括但不限於遺傳編碼的胺基酸 的D-立體異構體;2,3-二氨基丙酸(Dpr) ; a-氨基異丁酸(Aib) ; 氨基已酸(Aha); S-氨基戊酸(Ava) ;N-甲基甘氨酸或肌氨酸(MeGly或Sar);鳥氨酸(0m);瓜氨酸(Cit); 叔丁基丙氨酸(Bua);叔丁基甘氨酸(Bug) ;N-甲基異亮氨酸(Melle);苯基甘氨酸(Phg); 環己基丙氨酸(Cha);正亮氨酸(NIe);萘基丙氨酸(Nal) ;2_氯苯丙氨酸(Ocf) ;3_氯苯丙 氨酸(Mcf) ;4-氯苯丙氨酸(Pcf) ;2-氟苯丙氨酸(Off) ;3-氟苯丙氨酸(Mff) ;4-氟苯丙 氨酸(Pff) ;2-溴苯丙氨酸(Obf) ;3-溴苯丙氨酸(Mbf) ;4-溴苯丙氨酸(Pbf) ;2-甲基苯 丙氨酸(Omf) ;3-甲基苯丙氨酸(Mmf) ;4-甲基苯丙氨酸(Pmf) ;2-硝基苯丙氨酸(Onf); 3-硝基苯丙氨酸(Mnf) ;4-硝基苯丙氨酸(Pnf) ;2-氰基苯丙氨酸(Ocf) ;3-氰基苯丙氨酸 (Mcf) ;4-氰基苯丙氨酸(Pcf) ;2-三氟甲基苯丙氨酸(Otf) ;3-三氟甲基苯丙氨酸(Mtf); 4_三氟甲基苯丙氨酸(Ptf) ;4-氨基苯丙氨酸(Paf) ;4-碘苯丙氨酸(Pif) ;4-氨甲基苯 丙氨酸(Pamf) ;2,4-二氯苯丙氨酸(Opef) ;3,4-二氯苯丙氨酸(Mpcf) ;2,4-二氟苯丙氨 酸(Opff) ;3,4-二氟苯丙氨酸(Mpff);吡啶-2-基丙氨酸(2pAla);吡啶_3_基丙氨酸 (3pAla);吡啶-4-基丙氨酸(4pAla);萘基丙氨酸(InAla);萘_2_基丙氨酸(2nAla); 噻唑丙氨酸(taAla);苯並噻吩基丙氨酸(bAla);噻吩基丙氨酸(tAla);呋喃基丙氨酸 (fAla);高苯丙氨酸(hPhe);高酪氨酸(hTyr);高色氨酸(hTrp);五氟苯丙氨酸(5ff);苯 乙烯基丙氨酸(styrylkalanine) (sAla);蒽基丙氨酸(authrylalanine, aAla) ;3,3-二苯 丙氨酸(Dfa) ;3-氨基-5-苯基戊酸(phenypentanoic acid) (Afp);青黴胺(Pen) ; 1,2,3, 4_四氫異喹啉-3-羧酸(Tic) ; 0-2-噻吩基丙氨酸(Thi);甲硫氨酸亞碸(Mso) ;N(w)_硝 基精氨酸(nArg);高賴氨酸(hLys);膦醯基甲基苯丙氨酸(pmPhe);磷酸絲氨酸(pSer);磷 酸蘇氨酸(pThr);高天冬氨酸(hAsp);高穀氨酸(homoglutanic acid) (hGlu) ;1_氨基環 戊-(2或3)-烯-4羧酸;哌可酸(PA)、吖丁啶-3-羧酸(ACA) ; 1_氨基環戊烷_3_羧酸; 烯丙基甘氨酸(aOly);炔丙基甘氨酸(pgGly);高丙氨酸(hAla);正纈氨酸(nVal);高亮 氨酸(hLeu)、高纈氨酸(hVal);高異亮氨酸(homoisolencine) (hlle);高精氨酸(hArg); N-乙醯賴氨酸(AcLys) ;2,4_ 二氨基丁酸(Dbu) ;2,3_ 二氨基丁酸(Dab) ;N-甲基纈氨酸(MeVal);高半胱氨酸(hCys);高絲氨酸(hSer);羥脯氨酸(Hyp)和高脯氨酸(hPro)。可 包含於本文描述的多肽的其他非編碼胺基酸對本領域技術人員將是顯而易見的(參見, 例如,提供於 Fasman, 1989, CRCPractical Handbook of Biochemistry and Molecular Biology (CRC生物化學和分子生物學實踐手冊),CRC Press, Boca Raton, FL,第3-70頁中 和其中引用的參考文獻中的各種胺基酸,其全部通過引用併入)。這些胺基酸可以是L-或 D-構型。本領域技術人員將承認,具有側鏈保護基團的胺基酸或殘基也可構成本文描述 的多肽。在本實例中屬於芳族類別的此類保護胺基酸的非限制性實例包括(保護基團列 於括號內)但不限於:Arg (tos)、Cys (甲苄基)、Cys (硝基吡啶亞磺醯基)、Glu ( S -苄基 酯)、Gin (佔噸基)、Asn (N- 8 -佔噸基)、His (bom)、His (苄基)、His (tos)、Lys (fmoc)、 Lys (tos)、Ser (0_ 苄基)、Thr (0-苄基)和 Tyr (0-苄基)。可包括於本文描述的多肽的構象受限的非編碼胺基酸包括但不限於,N-甲基氨 基酸(L-構型);1-氨基環戊-(2或3)-烯-4-羧酸;哌可酸;吖丁啶-3-羧酸;高脯氨酸 (hPro)和1-氨基環戊烷-3-羧酸。如上文所述,被引入天然存在的多肽以產生工程酮還原酶的各種修飾可被靶向酶 的特定特性。6. 3編碼工程酮還原酶的多核苷酸在另一個方面,本公開提供了編碼工程酮還原酶的多核苷酸。該多核苷酸可以與 控制基因表達的一種或多種異源調節序列可操作地連接以產生能表達該多肽的重組多核 苷酸。含有編碼工程酮還原酶的異源多核苷酸的表達構建體可被引入適當的宿主細胞來表 達對應的酮還原酶多肽。由於對應於各種胺基酸的密碼子的知識,蛋白序列的可用性提供了能編碼該蛋白 序列的所有多核苷酸的描述。其中相同的胺基酸由可選或同義密碼子編碼的遺傳密碼的簡 並性允許製備相當大量的核酸,所有這些核酸編碼本文公開的改進的酮還原酶。因此,已鑑 定了特定的胺基酸序列,本領域技術人員可通過簡單地以不改變蛋白質的胺基酸序列的方 式修飾一個或多個密碼子的序列來製備任何數目的不同的核酸。在這方面,本公開特別涵 蓋可通過選擇基於可能的密碼子選擇的組合製備的多核苷酸的每一種可能的改變,並且, 對於本文公開的任何多肽,包括表2中所示的胺基酸序列,所有此類改變被視為特別公開。 在不同實施方案中,優選地選擇密碼子來適合其中產生蛋白的宿主細胞。例如,細菌中使 用的優選密碼子被用來在細菌中表達基因;酵母中使用的優選密碼子被用於在酵母中的表 達;哺乳動物中使用的優選密碼子被用於在哺乳動物細胞中的表達。作為實例,SEQ ID NO 3的多核苷酸已被密碼子優化用於在大腸桿菌(E.coli)中表達,但是仍編碼克菲爾乳桿菌 的天然存在的酮還原酶。在一些實施方案中,多核苷酸包含編碼與本文所述的參考工程酮還原酶多肽具有 至少約 85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99%或更高序列同一性的胺基酸序列的酮還原酶多肽的核苷酸序列,其中編碼的酮還原酶 多肽包含其中對應於SEQ ID NO :2,4或98的X190的殘基不是酪氨酸的胺基酸序列。在一 些實施方案中,多核苷酸編碼包含其中對應於X190的殘基是非芳族殘基的胺基酸序列的 酮還原酶多肽。在一些實施方案中,多核苷酸編碼包含其中對應於X190的殘基是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸特別是脯氨酸的胺基酸序列的酮還原酶多肽。在一些實施方 案中,多核苷酸編碼包含選自 SEQ ID NO =6,8,10,12,14,16,18, 20, 22, 24, 26, 28, 30, 32, 34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70,72,74,76,78,80,82, 84,86,88,90,92和94的胺基酸序列的工程酮還原酶多肽。在一些實施方案中,編碼工程酮還原酶的多核苷酸選自SEQ ID NO :5,7,9,11,13, 15,17,19,21,23,25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63, 65,67,69,71,73,75,77,79,81,83,85,87,89,91 和 93。在一些實施方案中,該多核苷酸能 在高嚴緊條件下與包含SEQ IDN0 :5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37, 39,41,43,45,47,49,51,53,55,57,59,61,63,65,67,69,71,73,75,77,79,81,83,85,87, 89,91和93的多核苷酸雜交,其中在高嚴緊條件下雜交的多核苷酸對取代苯乙酮底物具有 (S)_選擇性,例如能將結構式(I)的底物還原或轉化為結構式(II)的產物。在一些實施方 案中,在高嚴緊條件下雜交的多核苷酸能將結構式(III)的底物還原或轉化為結構式(IV) 的產物。在一些實施方案中,多核苷酸編碼本文所述的多肽,但在核苷酸水平與編碼工程 酮還原酶的參考多核苷酸具有約80%或更高的序列同一性、約85%,86%,87%,88%, 89%,90%,91%,92%,93%,94%,95%,96%,97%,98%或 99%或更高的序列同一性。在 一些實施方案中,參考多核苷酸選自對應於SEQ ID NO =5,7,9,11,13,15,17,19, 21, 23, 25, 27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63,65,67,69,71,73,75, 77,79,81,83,85,87,89,91 和 93 的多核苷酸序列。編碼改進的酮還原酶多肽的分離的多核苷酸可以多種方式操作以提供多肽的表 達。取決於表達載體,在插入載體之前對分離的多核苷酸的操作可以是需要的或必需的。利 用重組DNA方法修飾多核苷酸和核酸序列的技術在本領域是公知的。指南提供於Sambrook 等,2001,MolecularCloning :A Laboratory Manual (分子克隆實驗手冊),第 3 版,Cold SpringHarbor Laboratory Press ;禾口 Current Protocols in Molecular Biology (分子 生物學最新技術),Ausubel. F.編輯,Greene Pub. Associates,1998,更新至 2006。對細菌宿主細胞,用於指引本公開的核酸構建體的轉錄的適合啟動子包括 獲自大腸桿菌lac操縱子、天藍色鏈黴菌(Str印tomyces coelicolor)瓊脂糖酶基 因(dagA)、枯草芽孢桿菌(Bacillus subtilis)果聚糖蔗糖酶基因(sacB)、地衣 芽孢桿菌(Bacillus licheniformis) a -澱粉酶基因(amyL),嗜熱脂肪芽孢桿菌 (Bacillus stearothermophilus)麥芽糖澱粉酶基因(amyM)、解澱粉芽孢桿菌(Bacillus amyloliquefaciens) a-澱粉酶基因(amyQ)、地衣芽孢桿菌青黴素酶基因(penP)、枯草 芽孢桿菌(Bacillus subtilis)XylA和xylB基因和原核內醯胺酶基因的啟動子 (Villa-Kamaroff 等,1978,Proc. Natl Acad. Sci. USA 75 :3727_3731),以及 tac 啟動子 (DeBoer 等,1983,Proc. Natl Acad. Sci. USA 80 :21_25)。其他啟動子描述於 Sambrook 等, 上文。對絲狀真菌宿主細胞,用於指引本公開的核酸構建體的轉錄的適合啟動子包括獲 自米麴黴(Aspergillus oryzae)TAKA澱粉酶、米黑根毛黴(Rhizomucor miehei)天冬氨酸 蛋白酶、黑麴黴(Aspergillus niger)中性a -澱粉酶、黑麴黴酸穩定型a-澱粉酶、黑曲 黴或泡盛麴黴(Aspergillusawamori)葡萄糖澱粉酶(glaA)、米黑根毛黴脂肪酶、米麴黴鹼性蛋白酶、米麴黴磷酸丙糖異構酶、構巢麴黴(Aspergillus nidulans)乙醯胺酶和尖孢鐮 刀菌(Fusarium oxysporum)胰酶樣蛋白酶(W0 96/00787)基因的啟動子,以及NA2_tpi啟 動子(來自黑麴黴中性a-澱粉酶和米麴黴磷酸丙糖異構酶基因的啟動子的雜合體)及其 突變、截短和雜合啟動子。在酵母宿主中,有用的啟動子可來自釀酒酵母(Saccharomycescerevisiae)烯醇 化酶(EN0-1)、釀酒酵母半乳糖激酶(GAL1)、釀酒酵母醇脫氫酶/甘油醛-3-磷酸脫氫酶 (ADH2/GAP)和釀酒酵母3-磷酸甘油激酶的基因。用於酵母宿主細胞的其他啟動子描述於 Romanos 等,1992,Yeast8 :423-488。控制序列也可以是適合的轉錄終止子序列,由宿主細胞識別來終止轉錄的序列。 終止子序列與編碼多肽的核酸序列的3'末端可操作地連接。在選擇的宿主細胞中有功能 的任何終止子可用在本發明中。例如,用於絲狀真菌宿主細胞的示例性轉錄終止子可獲自米麴黴TAKA澱粉酶、黑 麴黴葡萄糖澱粉酶、構巢麴黴鄰氨基苯甲酸合成酶、黑麴黴a-葡萄糖苷酶和尖孢鐮刀菌 胰酶樣蛋白酶的基因。用於酵母宿主細胞的示例性終止子可獲自釀酒酵母烯醇化酶、釀酒酵母細胞色素 C(CYC1)和釀酒酵母甘油醛-3-磷酸脫氫酶的基因。其他用於酵母宿主細胞的終止子描述 於 Romanos 等,1992,上文。控制序列也可以是適合的前導序列,前導序列是對宿主細胞的翻譯重要的mRNA 的非翻譯區。前導序列與編碼多肽的核酸序列的5'末端可操作地連接。可使用在選擇的 宿主細胞中有功能的任何前導序列。用於絲狀真菌宿主細胞的示例性前導序列獲自米麴黴 TAKA澱粉酶和構巢麴黴磷酸丙糖異構酶基因。適合於酵母宿主細胞的前導序列獲自釀酒酵 母烯醇化酶(EN0-1)、釀酒酵母3-磷酸甘油激酶、釀酒酵母a-因子和釀酒酵母醇脫氫酶/ 甘油醛-3-磷酸脫氫酶(ADH2/GAP)的基因。控制序列也可以是多聚腺苷化序列,多聚腺苷化序列是與核酸序列的3'末端可 操作地連接並且當轉錄時由宿主細胞識別作為信號以便向轉錄的mRNA加入多腺苷殘基的 序列。在選擇的宿主細胞中有功能的任何多聚腺苷化序列可用在本發明中。用於絲狀真 菌宿主細胞的示例性多聚腺苷化序列可來自米麴黴TAKA澱粉酶、黑麴黴葡萄糖澱粉酶、 構巢麴黴鄰氨基苯甲酸合成酶、尖孢鐮刀菌胰酶樣蛋白酶和黑麴黴a-葡萄糖苷酶的基 因。用於酵母宿主細胞的多聚腺苷化序列描述於Guo和Sherman,1995,Mol CellBio 15: 5983-5990。控制序列還可以是編碼與多肽的氨基末端連接的胺基酸序列並且指引編碼的多 肽進入細胞的分泌途徑的信號肽編碼區。核酸序列的編碼序列的5'末端可內在地含有以 翻譯閱讀框與編碼分泌多肽的編碼區的區段天然地連接的信號肽編碼區。可選地,編碼序 列的5'末端可含有編碼序列外源的信號肽編碼區。在編碼序列不天然地含有信號肽編碼 區的情況中,可能需要外源信號肽編碼區。可選地,外源信號肽編碼區可簡單地替換天然信號肽編碼區,以便增強多肽的分 泌。然而,指引表達的多肽進入選擇的宿主細胞的分泌途徑的任何信號肽編碼區可用在本 發明中。用於細菌宿主細胞的有效信號肽編碼區是獲自芽孢桿菌(BacillUS)NClB 11837麥芽糖澱粉酶、嗜熱脂肪芽孢桿菌a 「澱粉酶、地衣芽孢桿菌枯草桿菌蛋白酶、地衣芽孢杆 菌日-內醯胺酶、嗜熱脂肪芽孢桿菌中性蛋白酶(nprT,nprS, nprM)和枯草芽孢桿菌prsA 基因的信號肽編碼區。其他信號肽描述於Simonen和Palva,1993,Microbiol Rev 57: 109-137。用於絲狀真菌宿主細胞的有效信號肽編碼區可以是獲自米麴黴TAKA澱粉酶、 黑麴黴中性澱粉酶、黑麴黴葡萄糖澱粉酶、米黑根毛黴天冬氨酸蛋白酶、特異腐質黴 (Humicola insolens)纖維素酶和柔毛腐質黴(Humicolalanuginosa)脂肪酶基因的信號 肽編碼區。用於酵母宿主細胞的信號肽可來自釀酒酵母a -因子和釀酒酵母轉化酶基因。其 他有用的信號肽編碼區描述於Romanos等,1992,上文。控制序列也可以是編碼位於多肽氨基末端的胺基酸序列的前肽編碼區。得到的 多肽稱為原酶(proenzyme)或多肽原(或酶原,在一些實例中)。一般而言,多肽原是沒 有活性的,並且可通過從多肽原催化或自催化切割前肽轉化為成熟有活性的多肽。前肽編 碼區可獲自枯草芽孢桿菌鹼性蛋白酶(aprE)、枯草芽孢桿菌中性蛋白酶(nprT)、釀酒酵母 a-因子、米黑根毛黴天冬氨酸蛋白酶和嗜熱毀絲黴(Myceliophthora thermophila)乳糖 酶(W095/33836)基因。在信號肽和前肽區域都存在於多肽氨基末端的情況中,前肽區域位於多肽氨基末 端的相鄰位置,而信號肽區域位於前肽區域的氨基末端的相鄰位置。可能還需要加入調節序列,這允許相對於宿主細胞的生長來調節多肽的表達。調 節系統的實例是響應於化學或物理刺激使基因表達啟動或關閉的系統,所述刺激包括調節 化合物的存在。原核宿主細胞中,適合的調節序列包括lac、tac和trp操縱子系統。酵母 宿主細胞中,作為實例,適合的調節系統包括ADH2系統或GAL1系統。絲狀真菌中,適合的 調節序列包括TAKAa-澱粉酶啟動子、黑麴黴葡萄糖澱粉酶啟動子和米麴黴葡萄糖澱粉酶 啟動子。調節序列的其他實例是允許基因擴增的序列。真核系統中,這些序列包括在氨甲 蝶呤存在下擴增的二氫葉酸還原酶基因和使用重金屬擴增的金屬硫蛋白基因。在這些實例 中,編碼本發明的KRED多肽的核酸序列將與調節序列可操作地連接。因此,在一些實施方案中,本公開還涉及重組表達載體,該重組表達載體包含編碼 工程酮還原酶多肽或其變體的多核苷酸,和一個或多個表達調節區域,取決於其將被引入 的宿主類型,諸如啟動子和終止子、複製起點等。上文所述的各種核酸和控制序列可連接到 一起以產生可包括一個或多個方便的限制性酶切位點以便允許編碼多肽的核酸序列在此 位點插入或取代的重組表達載體。可選地,本公開的核酸序列可通過將核酸序列或包含該 序列的核酸構建體插入用於表達的適當載體來表達。產生表達載體時,編碼序列位於載體 內,以便編碼序列可操作地與用於表達的適當的控制序列連接。重組表達載體可以是任何載體(例如質粒或病毒),其可方便地經受重組DNA程 序,並且可引起多核苷酸序列的表達。載體的選擇一般取決於載體與該載體將被引入的宿 主細胞的相容性。載體可以是線性質粒或閉合的環狀質粒。表達載體可以是自主複製載體,即作為染色體外實體存在的載體,其複製不依賴 於染色體的複製,例如,質粒、染色體外元件、微型染色體或人工染色體。載體可含有用於確
56保自我複製的任何部件(means)。可選地,載體可以是當引入宿主細胞時被整合到基因組中 並與其所整合的染色體一起複製的載體。此外,可使用單個載體或質粒、或一起含有將引入 宿主細胞基因組的總DNA的兩個或多個載體或質粒、或轉座子。本發明的表達載體優選地含有一個或多個可選擇標記,這允許容易地檢測轉化細 胞。可選擇標記可以是其產物提供殺生物劑或病毒抗性、對重金屬的抗性、營養缺陷型的原 養型及類似性質的基因。細菌可選擇標記的實例是來自枯草芽孢桿菌或地衣芽孢桿菌的 dal基因,或賦予抗生素抗性的標記,所述抗生素抗性諸如氨苄青黴素、卡那黴素、氯黴素 (實施例1)或四環素抗性。適合於酵母宿主細胞的標記是ADE2,HIS3,LEU2,LYS2,MET3, TRP1 禾口 URA3。用在絲狀真菌宿主細胞的可選擇標記包括但不限於,amdS(乙醯胺酶)、argB (鳥 氨酸氨甲醯基轉移酶)、bar (草丁膦(phosphinothricin)乙醯轉移酶)、hph (潮黴素磷 酸轉移酶)、niaD (硝酸還原酶)、pyrG (乳清苷-5 『-磷酸脫羧酶)、sC (硫酸腺苷醯轉 移酶(sulfate adenyltransferase))和trpC(鄰氨基苯甲酸合成酶),以及其等效物。 用在麴黴細胞中的實施方案包括構巢麴黴或米麴黴的amdS和pyrG基因和吸水鏈黴菌 (Streptomyceshygroscopicus)的 bar 基因。本發明的表達載體可含有允許載體整合到宿主細胞的基因組或載體獨立於基因 組在細胞中自主複製的元件。對整合到宿主細胞的基因組,載體可依賴於編碼多肽的核酸 序列或載體的任何其他元件來通過同源或非同源重組將載體整合到基因組中。可選地,表達載體可含有用於指引通過同源重組整合到宿主細胞基因組的其他核 酸序列。其他核酸序列使載體能被整合到宿主細胞基因組染色體的精確位置上。為了增加 在精確位置整合的可能性,整合元件應優選地含有與對應的靶序列高度同源的足夠數目的 核酸,諸如100至10,000個鹼基對,優選地400至10,000個鹼基對,最優選地800至10,000 個鹼基對,以增強同源重組的概率。整合元件可以是與宿主細胞基因組內靶序列同源的任 何序列。此外,整合元件可以是非編碼或編碼的核酸序列。另一方面,載體可通過非同源重 組被整合到宿主細胞的基因組中。對自主複製,載體還可包含使載體能在相關的宿主細胞中自主複製的複製起 點。細菌複製起點的實例是P15A ori或允許在大腸桿菌中複製的質粒pBR322、pUC19、 pACYC177(該質粒具有P15A ori)或者pACYC184的複製起點,和允許在芽孢桿菌中複製 的pUBllO、pE194、pTA1060或pAM0 1的複製起點。用於在酵母宿主細胞中使用的複製起 點的實例是2微米複製起點、ARS1、ARS4、ARS1和CEN3的組合和ARS4和CEN6的組合。復 制起點可以是具有使其在宿主細胞中溫度敏感地起作用的突變的複製起點(參見,例如, Ehrlich, 1978, Proc Natl Acad Sci USA75:1433)。本發明的核酸序列的不止一個拷貝可插入宿主細胞以便增加基因產物的產生。核 酸序列拷貝數的增加可通過將序列的至少一個其他拷貝整合到宿主細胞基因組或通過隨 核酸序列中包括可擴增的選擇標記基因來獲得,其中含有可選擇標記基因的擴增拷貝並由 此含有核酸序列的另外拷貝的細胞可通過將細胞在適當的可選擇物質存在下培養來選擇。本公開中使用的許多表達載體是商業可獲得的。適合的商業化表達載體包括來 自 Sigma-Aldrich Chemicals, St. Louis M0.的 p3xFLAGTM 表達載體,其包括用於在哺乳 動物宿主細胞中表達的CMV啟動子和hGH多聚腺苷化位點和pBR322複製起點和用於在大腸桿菌中擴增的氨苄青黴素抗性標記。其他適合的表達載體是可商業獲自Stratagene, Lajolla CA 的 pBluescriptll SK (-)和 pBK-CMV,和衍生自 pBR322 (Gibco BRL)、pUC (Gibco BRL)、pREP4、pCEP4(Invitrogen)或 pPoly (Lathe 等,1987,Gene 57:193-201)的質粒。6. 4用於表達酮還原酶多肽的宿主細胞在另一個方面,本公開提供了包含編碼本公開的改進酮還原酶多肽的多核苷酸 的宿主細胞,該多核苷酸與用於在宿主細胞中表達酮還原酶的一個或多個控制序列可操 作地連接。用於表達由本發明的表達載體編碼的KRED多肽的宿主細胞是本領域公知的, 並且包括但不限於細菌細胞,諸如大腸桿菌、克菲爾乳桿菌、短乳桿菌、小乳桿菌、鏈黴菌 (Streptomyces)和鼠傷寒沙門氏菌(Salmonella typhimurium)細胞;真菌細胞,諸如酵母 細胞(例如釀酒酵母或巴氏畢赤酵母(Pichia pastoris) (ATCC登錄號201178));昆蟲細 胞,諸如果蠅S2和灰翅夜蛾(Spodoptera) Sf9細胞;動物細胞,諸如CH0、COS、BHK、293和 Bowes黑色素瘤細胞;和植物細胞。用於上述宿主細胞的適當的培養基和生長條件是本領 域公知的。用於表達酮還原酶的多核苷酸可通過本領域已知的各種方法引入細胞。技術包括 但不限於電穿孔、生物射彈粒子轟擊、脂質體介導的轉染、氯化鈣轉染和原生質體融合。用 於將多核苷酸引入細胞的各種方法對熟練的技術人員將是顯而易見的。示例性宿主細胞是大腸桿菌W3110。表達載體通過將編碼改進的酮還原酶的多核 苷酸可操作地連接到質粒PCK110900中以與在lacl阻抑物控制下的lac啟動子可操作地 連接來產生。表達載體還含有P15a複製起點和氯黴素抗性基因。大腸桿菌W3110中含有 主題多核苷酸的細胞可通過來使細胞經受氯黴素選擇來分離。6. 5產生工程酮還原酶多肽的方法在一些實施方案中,為了製備本公開的改進KRED多核苷酸和多肽,催化還原反應 的天然存在的酮還原酶獲自(或衍生自)克菲爾乳桿菌或短乳桿菌或小乳桿菌。在一些實 施方案中,母體多核苷酸序列被密碼子優化以增強酮還原酶在特定宿主細胞中的表達。作 為例證,編碼克菲爾乳桿菌的野生型KRED多肽的母體多核苷酸序列是從基於Genbank數據 庫中可獲得的克菲爾乳桿菌KRED序列(Genbank登錄號AAP94029GI :33112056)的已知多 肽序列製備的寡核苷酸構建的。命名為SEQ ID NO :3的母體多核苷酸序列被密碼子優化以 在大腸桿菌中表達,並將密碼子優化的多核苷酸克隆到表達載體中,將酮還原酶基因的表 達置於lac啟動子和lacl阻抑物基因的控制下。鑑定在大腸桿菌中表達活性酮還原酶的 克隆,並測序該基因以確認其同一性。命名的序列(SEQ ID N0:3)是用作自克菲爾乳桿菌 酮還原酶演化的工程酮還原酶的大多數實驗和文庫構建的起始點的母體序列。工程酮還原酶可通過使編碼天然存在的酮還原酶的多核苷酸經受如上文討論的 誘變和/或定向演化方法來獲得。示例性定向演化技術是誘變和/或DNA改組,如描述於 Stemmer,1994, Proc Natl Acad Sci USA91 10747-10751 ;W0 95/22625 ;W0 97/0078 ;W0 97/35966 ;W0 98/27230 ;W0 00/42651 ;W0 01/75767 和美國專利 6,537,746。可使用的其 他定向演化程序包括但不限於交錯延伸過程(staggered extension process, StEP)、體 外重組(Zhao 等,1998,Nat. Biotechnol. 16 :258_261)、誘變 PCR(Caldwell 等,1994,PCR Methods Appl. 3 :S136_S140)和盒式誘變(Black 等,1996,Proc Natl Acad Sci USA 93: 3525-3529)。用於本文目的的其他誘變和定向演化技術可發現於以下參考文獻Ling,等,1997, 「 Approaches to DNA Mutagenesis :anoverview(DNA fl^Jl^^M ), 「 Anal. Biochem. 254(2) 157-78 ;Dale 等,1996, " 01 igonucleotide-directed random Mutagenesis using thephosphorothioate Method(貞M^ltftMSI^t去白勺胃TOSI胃t^lPil l/li^^ ) 「 Methods Mol. Biol. 57 369-74 ;Smith, 1985, 「 In vitro Mutagenesis ( # 夕卜誘變), 「Ann. Rev. Genet. 19 :423-462 ;Botstein 等,1985, 「 Strategies andapplications of in vitro Mutagenesis (體夕卜誘變的策略禾口應用),〃 Science 229 1193-1201 ;Carter, 1986, 「 Site-directed Mutagenesis (位點定向誘變),「Biochem. J. 237 :1-7 ;Kramer 等,1984,「 Point Mismatch Repair (點錯配修復),「Cell, 38 879-887 ;Wells等,1985,〃 Cassette Mutagenesis :an efficientMethod for generation of multiple mutations at defined sites (盒式誘變用於在特定位點產生多個突變的 有效方法),〃 Gene 34 :315_323 ;Minshull 等,1999,〃 Protein evolution by molecular breeding(通過分子育種的蛋白演化),「Curr Op in Chem Biol 3 284-290 ;Christians 等,1999, " Directed evolution ofthymidine kinase for AZT phosphorylation using DNA family shuffling(使用DNA家族改組的用於AZT磷酸化的胸苷激酶的定向演 化),「Nature Biotechl7 :259-264 ;Crameri 等,1998,「 DNA shuffling of a family of genes fromdiverse species accelerates directed evolution (來自多樣物禾中的基因 家族的 DNA 改組加速定向演化),「Nature 391 :288_291 ;Crameri 等,1997,「 Molecular evolution of an arsenate detoxification pathway by DNA shuffling( iE ii DNA 改組的砷酸鹽解毒途徑的分子演化),「Nature Biotechl5 =436-438 ;Zhang等, 1997, 「 Directed evolution of an effective fructosidasefrom a galactosidase by DNA shuffling and screening(通過DNA改組和篩選的有效的果糖苷酶從半乳糖苷酶的 定向演化),「Proc Natl Acad Sci USA94 :45-4_4509 ;Crameri 等,1996,「 Improved green fluorescent protein bymolecular evolution using DNA shuffling(使用DNA改 組通過分子演化的改進的綠色螢光蛋白),「Nature Biotech 14 :315_319 ;和Stemmer, 1994,「 Rapidevolution of a protein in vitro by DNA shuffling(通過 DNA 改組的 蛋白質的體外迅速演化),「Nature 370:389-391。所有參考文獻通過引用併入本文。篩選誘變處理後獲得的克隆中具有需要的改進酶特性的工程酮還原酶。測量表達 文庫的酶活性可使用監測當NADH或NADPH被轉化為NAD+或NADP+時NADH或NADPH濃度減 少的速率(通過吸光度或螢光的降低)的標準生物化學技術來實現。(例如,參見實施例 7)。該反應中,當酮還原酶將酮底物還原為對應的羥基基團時,酮還原酶消耗(氧化)NADH 或NADPH。如通過吸光度或螢光的降低測量的每單位時間NADH或NADPH濃度下降的速率 指示固定量的裂解物(或從其製備的凍乾粉末)中KRED多肽的相對(酶促)活性。產物 的立體化學可通過各種已知技術確定,如實施例中提供。在需要的改進酶特性是熱穩定性 的情況中,酶活性可在酶製品經受特定溫度以及測量熱處理之後餘下的酶促活性量之後測 量。然後分離含有編碼酮還原酶的多核苷酸的克隆,並測序以鑑定核苷酸序列的改變(如 果有改變),並用來在宿主細胞中表達酶。在工程多肽的序列已知的情況中,編碼酶的多核苷酸可根據已知的合成方法通過 標準的固相方法製備。在一些實施方案中,可單獨合成多達約100個鹼基的片段,然後連 接(例如通過酶促或化學連接(litigation)方法或聚合酶介導的方法)以形成任何需要的連續序列。例如,本發明的多核苷酸和寡核苷酸可通過化學合成來製備,使用例如描述 於Beaucage等,1981,Tet Lett 22 1859-69的經典亞磷醯胺方法,或描述於Matthes等, 1984,EMBO J. 3:801-05的方法,例如其一般以自動合成方法實踐。根據亞磷醯胺方法,寡 核苷酸例如在自動DNA合成儀中合成、純化、退火、連接並克隆到適當的載體。另外,基本上 任何核酸可獲自各種商業來源的任一種,諸如The Midland Certified Reagent Company, Midland, TX ;The GreatAmerican Gene Company, Ramona, CA ;ExpressGen Inc. Chicago, IL ;Operon Technologies Inc. , Alameda, CA 禾口許多其他公司。使用用於蛋白純化的公知技術的任一種或多種,可從細胞和/或培養基中回收 宿主細胞中表達的工程酮還原酶,所述技術包括但不限於溶菌酶處理、超聲處理、過濾、鹽 析法、超速離心和層析。用於從細菌諸如大腸桿菌中裂解和高效提取蛋白的適合溶液是以 St. Louis M0的Sigma-Aldrich的商標名CelLytic B 可商業地獲得的。用於分離酮還原酶多肽的層析技術包括但不限於反相層析、高效液相層析、離子 交換層析、凝膠電泳和親和層析。用於純化特定酶的條件將部分取決於諸如淨電荷、疏水 性、親水性、分子量、分子形狀等因素,並且對熟悉本領域的技術人員將是顯而易見的。在一些實施方案中,親和技術可用來分離改進的酮還原酶。對親和層析純化,可使 用特異結合酮還原酶多肽的任何抗體。為了產生抗體,包括但不限於兔、小鼠、大鼠等的各 種宿主動物可通過用酮還原酶注射來免疫接種。通過側鏈功能基團或附著於側鏈功能基團 的接頭,酮還原酶多肽可附著於適合的載體,諸如BSA。取決於宿主物種,可使用各種佐劑 來增強免疫應答,包括但不限於弗氏(完全和不完全)、諸如氫氧化鋁的礦物膠、諸如溶血 卵磷脂的表面活性物質、普朗尼克多元醇、聚陰離子、肽、油乳劑、匙孔血藍蛋白、二硝基苯 酚和潛在有用的人類佐劑,諸如BCG(卡介苗,bacilli Calmette Guerin)和短小棒狀桿菌 (Corynebacterium parvum)。酮還原酶可以表達酶的細胞的形式、作為粗提物或作為分離或純化的製品被製備 和使用。酮還原酶可作為粉末形式(例如丙酮粉末)的凍乾產物製備或作為酶溶液製備。 在一些實施方案中,酮還原酶可以是以大體純的製品的形式。在一些實施方案中,酮還原酶多肽可附著於固相基質。基質可以是固相、表面和/ 或膜。固體支持物可主要包含有機聚合體,諸如聚苯乙烯、聚乙烯、聚丙烯、聚氟乙烯、聚氧 乙烯和聚丙烯醯胺,以及其共聚物及接枝物(graft)。固體支持物也可以是無機的,諸如玻 璃、矽膠、可控孔度玻璃(controlled pore glass,CPG)、反相矽膠或金屬,諸如金或鉬。基 質的結構可以是以珠、球、微粒(particle)、顆粒(granule)、凝膠、膜或表面的形式。表面 可以是平面的、大體平面的或非平面的。固體支持物可以是多孔或無孔的,並且可具有膨脹 或非膨脹特性。固體支持物可配置為孔、凹陷、或其他容器、導管、要素或位置的形式。多種 支持物可配置為試劑的機器人遞送可訪問的或通過檢測方法和/或儀器可訪問的陣列上 的各種位置。6. 6使用工程酮還原酶的方法和用該工程酮還原酶製備的化合物本文描述的酮還原酶能催化2' ,6'取代苯乙酮底物,任選地在3' ,4'或5'位 置的一個或多個被取代,中的酮基團轉化為對應的取代(S)-苯乙醇的還原反應。在一些實施方案中,酮還原酶能將結構式(I)的底物化合物(2',6' -二 氯-3'-氟苯乙酮)
還原或轉化為結構式(II)的對應的手性醇產物⑶-1_[2,6-二氯-3-氟苯 基]-乙醇 在一些實施方案中,本文所述的酮還原酶能將結構式(III)的2' ,6'-取代苯乙
酮化合物 其中Y和Z獨立地選自CH3、CF3、NH2、0H、0CH3、C1和Br,還原或轉化為結構式(IV)
的對應的手性醇產物 在一些實施方案中,本文所述的酮還原酶能催化結構式(III)的2' ,6'-取代 苯乙酮化合物,其可在3' ,4'和5'位置的一個或多個位置被相似地取代,轉化為對應 的(S)-醇產物的還原反應。本文所述的酮還原酶催化除了苯乙酮之外特定的其他取代的 2',6'-取代苯乙酮化合物的還原反應的能力可通過常規實驗法來確定,例如通過諸如 實施例中所述的方法。結構式(I)的化合物2' ,6' -二氯-3'-氟苯乙酮是其他取代的 2',6' _取代苯乙酮化合物的實例。因此,在一些實施方案中,本文公開的酮還原酶能催 化結構式(V)的化合物 其中Y 禾口 Z 獨立地選自 CH3、CF3、NH2、OH、0CH3、CI 禾口 Br,W 選自 H 或 F、CI 或 Br,
轉化為結構式(VI)的對應的(S)醇產物的還原反應 因此,在一些實施方案中,本文描述的酮還原酶可用在用於將2' ,6'-取代苯乙 酮底物,任選地在3' ,4'或5'位置的一個或多個位置被取代,還原為對應的取代(S)-苯 乙醇的方法中,其中該方法包括在適合於將取代苯乙酮還原或轉化為對應的取代(S)-苯 乙醇的反應條件下使取代苯乙酮底物與本文描述的酮還原酶接觸。在該方法的一些實施方 案中,底物以大於約25%,50%,75%,80%,85%,90%,95%,99%或99. 9%的立體異構過 量被還原為產物。在一些實施方案中,本文描述的酮還原酶可用在用於將式(III)的2' ,6'-取代 苯乙酮底物還原為式(IV)的對應的取代(S)-苯乙醇化合物的方法中,其中該方法包括在 適合於將式(III)的化合物還原或轉化為式(IV)的對應的取代(s)-苯乙醇化合物的反應 條件下使式(III)的化合物與本文所述的酮還原酶多肽接觸或孵育。在該方法的一些實施 方案中,底物以大於約25%,50%,75%,80%,85%,90%,95%,99%或99. 9%的立體異構 過量被還原為產物。在一些實施方案中,本文所述的酮還原酶可用在用於將式(I)的2',6' -二 氯-3'-氟苯乙酮底物還原為其對應的(S)-醇產物,式(II)的(S)-l-[2,6-二氯-3-氟 苯基]-乙醇的方法中,其中該方法包括在適合於將2' ,6' -二氯-3'-氟苯乙酮還原或 轉化為(S)-l_[2,6-二氯-3-氟苯基]-乙醇的反應條件下使2',6' -二氯-3'-氟苯 乙酮與本文所述的酮還原酶多肽接觸或孵育。在該方法的一些實施方案中,底物以大於約 85 %,90 %,95 %,99 %或99. 9 %的立體異構過量被還原為產物。在一些實施方案中,底物以 大於約85%的立體異構過量被還原為產物,其中該酮還原酶多肽包含基於SEQ ID NO 95, 96或119的序列式的胺基酸序列。在一些實施方案中,衍生自野生型乳桿菌屬酮還原酶的工程(S)_選擇性酮還 原酶可用在以大於約 85 %,90 %,91 %,92 %,93 %,94 %,95 %,96 %,97 %,98 %,99 % 或 99. 9%或更高的立體異構過量將苯乙酮還原為(S)-l-苯乙醇的方法中。在一些實施方案中,底物以大於約99%的立體異構過量被還原為產物,其中該方 法中使用的酮還原酶多肽包含選自SEQ ID NO =6,8,10,12,14,16,18, 20, 22, 24, 26, 28, 30, 32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70,72,74,76,78,80,
6282,84,86,88,90,92和94的胺基酸序列。在該方法的一些實施方案中,當方法使用相對 2',6' -二氯-3'-氟苯乙酮底物的量的按重量計低於約的量的酮還原酶多肽來實 行時,至少約95%的底物在不到24小時內以大於約99%的立體異構過量被還原為產物。在該方法的一些實施方案中,當方法使用至少約200g/L的底物和少於約lg/L的 酮還原酶多肽來進行時,至少約95%的底物在不到24小時內以至少約99%的立體異構過 量被還原為產物,其中該方法中使用的酮還原酶多肽包含選自SEQ ID NO =18,32,34,36, 38,40,42,44,46,74,76,78,80,82,84,86,88,90,92 和 94 的胺基酸序列。在一些實施方案中,本公開的酮還原酶多肽和方法可用來合成描述於以下 參考文獻中的蛋白酪氨酸激酶抑制化合物W02006021886(氨基雜芳基化合物)、 W02006021884(對映體大體純的氨基雜芳基化合物)、W02006021881 (吡唑-取代的氨基雜 芳基化合物)和W02004076412(氨基雜芳基化合物)),其合成依賴於式(II)的化合物作為 中間體。所有參考文獻通過引用整體併入本文。相應地,在一些實施方案中,本文所述的酮還原酶多肽和方法可用來產生結構式 (VII)的蛋白酪氨酸激酶抑制化合物, Y 是 N 或 CR12;R1選自氫、滷素、C6_12芳基、5-12元雜芳基、C3_12環烴基、3_12元雜脂環、-0(CR6R7) nR4、-C (0) R4、-C (0) OR4、-CN、_N02、_S (0) mR4、_S02NR4R5、_C (0) NR4R5、_NR4C (0) R5、_C ( = NR6) NR4R5、(V8烴基、C2_8烯基和C2_8炔基;並且R1中的每個氫任選地由一個或多個R3基團取代;R2是氫、滷素、(V2烴基、C2_12烯基、C2_12炔基、C3_12環烴基、C6_12芳基、3-12元雜脂 環、5-12 元雜芳基、_S(0)mR4、-S02NR4R5、-S(0)20R4、_N02、_NR4R5、_(CR6R7)n0R4、-CN、-C(0) R4、-0C(0)R4、-0(CR6R7)nR4、_NR4C(0)R5、- (CR6R7) nC (0) OR4、- (CR6R7) nNCR4R5、_C( = NR6) NR4R5、-NR4C(0)NR5R6、-NR4S (0)PR5 或-C(0)NR4R5,並且 R2 中每個氫任選地由 R8 取代;每個R3獨立地為滷素、(V2烴基、C2_12烯基、C2_12炔基、C3_12環烴基、C6_12芳基、 3-12 元雜脂環、5-12 元雜芳基、-S(0)mR4、-S02NR4R5、-S(0)20R4、_N02、_NR4R5、-(CR6R7) n0R4、-CN、-C(0)R4、-0C(0)R4、-0 (CR6R7) nR4、-NR4C(0)R5、- (CR6R7) nC (0) OR4、- (CR6R7) n0R4、_(CR6R7)nC(0)NR4R5、- (CR6R7) nNCR4R5、_C( = NR6)NR4R5、_NR4C (0) NR5R6、-NR4S (0) PR5 或-C(0)NR4R5,R3中每個氫任選地由R8取代,並且鄰近原子上的R3基團可組合以形成C6_12 芳基、5-12元雜芳基、C3_12環烴基或3-12元雜脂環基團;每個R4、R5、R6和R7獨立地為氫、滷素、烴基、C2_12烯基、C2_12炔基、C3_12環烴基、C6_12芳基、3-12元雜脂環、5-12元雜芳基;或者與相同氮原子結合的R4、R5、R6和R7的任 兩個可與其結合的氮原子一起組合以形成3至12元雜脂環或5-12元雜芳基基團,該基團 任選地含有1至3個選自N、0和S的其他雜原子;或者與相同碳原子結合的R4、R5、R6和R7 的任兩個可組合以形成C3_12環烴基、C6_12芳基、3-12元雜脂環或5-12元雜芳基基團;並且 R4、R5、R6和R7中每個氫任選地被R8取代;每個R8獨立地為滷素、(V12烴基、C2_12烯基、C2_12炔基、C3_12環烴基、C6_12芳基、3-12 元雜脂環、5-12 元雜芳基、-NH^-CNrOHrO-Cu 烴基、_0_(CH2)nC3_12 環烴基、-0_(CH2)nC6_12 芳基、-0-(CH2)n(3-12元雜脂環)或-0-(CH2)n(5-12元雜芳基);並且R8中每個氫任選地被 R11取代;每個R9和R1Q獨立地為氫、滷素、(V12烴基、C3_12環烴基、C6_12芳基、3-12元雜脂 環、5-12 元雜芳基、_S(0)mR4、-S02NR4R5、-S(0)20R4、_N02、_NR4R5、_(CR6R7)nOR4、-CN、-C(0) R4、-0C(0)R4、-NR4C(0)R5、_(CR6R7)nC(0)0R4、- (CR6R7)nNCR4R5、_NR4C (0) NR5R6、-NR4S (0) PR5 或-C(0)NR4R5 ;R9或R"1可與A的環原子或A的取代基組合以形成C3_12環烴基、3-12元雜脂 環、C6_12芳基或與A稠合的5-12元雜芳基;並且R9和中每個氫任選地被R3取代;每個R11獨立地為滷素、Ci_12烴基、Ci_12烴氧基、C3_12環烴基、C6_12芳基、3-12元雜脂 環、5-12 元雜芳基、-0-Ch2 烴基、-0-(CH2)nC3_12 環烴基、-0-(CH2)nC6_12 芳基、-。-^!^、^-^ 元雜脂環)、-0_(CH2)n(5-12元雜芳基)或-CN,並且R11中每個氫任選地被滷素、-OH、-CN、 可部分或完全滷素化的_(V12烴基、可部分或完全滷素化的-O-CiM烴基、-CO、-SO或-S02 取代;R12是氫、滷素、Ci_12烴基、C2_12烯基、C2_12炔基、C3_12環烴基、C6_12芳基、3_12元雜 脂環、5-12 元雜芳基、-S (0) mR4、-S02NR4R5、-S (0) 20R4、_N02、_NR4R5、- (CR6R7) n0R4、-CN、_C (0) R4、-0C(0)R4、-0(CR6R7)nR4、_NR4C(0)R5、- (CR6R7) nC (0) OR4、- (CR6R7) nNCR4R5、_C( = NR6) NR4R5、-NR4C (0) NR5R6、-NR4S (0) PR5 或-C (0) NR4R5,並且 R12 中每個氫任選地被 R3 取代;每個R13獨立地為滷素、Ci_12烴基、C2_12烯基、C2_12炔基、C3_12環烴基、C6_12芳 基、3-12 元雜脂環、5-12 元雜芳基、-S(0)mR4、-S02NR4R5、-S(0)20R4、_N02、_NR4R5、-(CR6 R7)n0R4、-CN、-C(0)R4、-0C(0)R4、-0 (CR6R7) nR4、_NR4C(0)R5、- (CR6R7) nC (0) OR4、- (CR6R7) n0R4、-(CR6R7)nC(0)NR4R5、- (CR6R7) nNCR4R5、-C( = NR6)NR4R5、-NR4C (0) NR5R6、-NR4S (0) PR5、-C(0)NR4R5、-(CR6R7)n(3-12 元雜脂環)、-(CR6R7) n (C3_12 環烴基)、-(CR6R7) n (C6_12 芳 基)、-(CR6R7) n (5-12 元雜芳基)、-(CR6R7) nC (0) NR4R5 或-(CR6R7) nC (0) R4,鄰近原子上的 R13 基團可組合以形成C6_12芳基、5-12元雜芳基、C3_12環烴基或3-12元雜脂環基團,並且R13中 每個氫任選地被R3取代;其中,每個m獨立地為0、1或2 ;每個n獨立地為0、1、2、3或4 ;並且每個p獨立 地為1或2。各種取代基以及式(VII)包含的特定化合物的說明描述於W004076412和 W006021884。相應地,在用於產生結構式(VII)的對映體純的化合物的方法中,方法的步驟可 包括在適合於將式(I)的底物化合物還原或轉化為式(II)的產物化合物的反應條件下使 用本文所述的酮還原酶多肽將式(I)的化合物還原或轉化為式(II)的化合物。從式(II) 的化合物合成式(VII)的化合物描述於引用的參考文獻中。在一些實施方案中,本文所述的酮還原酶多肽和方法可用來產生結構式(VIII)
64 包括其鹽、水合物及溶劑合物,如W006021886中所述,其中R1(I、R2、Y和N描述於本 文。在一些實施方案中,對式(VIII)的化合物,Y 是 N 或 CR1 ;R1是氫、滷素、Ci_12烴基、C2_12烯基、C2_12炔基、C3_12環烴基、C6_12芳基、3_12元雜 脂環、5-12 元雜芳基、-S (0) mR4、-S02NR4R5、-S (0) 20R4、_N02、_NR4R5、- (CR6R7) n0R4、_CN、_C (0) R4、-0C(0)R4、-0(CR6R7)nR4、_NR4C(0)R5、- (CR6R7) nC (0) OR4、- (CR6R7) nNCR4R5、_C( = NR6) NR4R5、-NR4C (0) NR5R6、-NR4S (0) PR5 或-C (0) NR4R5,並且 R1 中每個氫任選地被 R3 取代;R2是氫、滷素、Ch2烴基、C2_12烯基、C2_12炔基、C3_12環烴基、C6_12芳基、3_12元雜 脂環、5-12 元雜芳基、-S (0) mR4、-S02NR4R5、-S (0) 20R4、_N02、_NR4R5、- (CR6R7) n0R4、_CN、_C (0) R4、-0C(0)R4、-0(CR6R7)nR4、_NR4C(0)R5、- (CR6R7) nC (0) OR4、- (CR6R7) nNCR4R5、_C( = NR6) NR4R5、-NR4C (0) NR5R6、-NR4S (0) PR5 或-C (0) NR4R5,並且 R2 中每個氫任選地被 R8 取代;每個R3獨立地為滷素、(V12烴基、C2_12烯基、C2_12炔基、C3_12環烴基、C6_12芳基、 3-12 元雜脂環、5-12 元雜芳基、-S(0)mR4、-S02NR4R5、-S(0)20R4、_N02、_NR4R5、_(CR6R7) n0R4、-CN、-C(0)R4、-0C(0)R4、-0 (CR6R7) nR4、_NR4C(0)R5、- (CR6R7) nC (0) OR4、- (CR6R7) n0R4、_(CR6R7)nC(0)NR4R5、- (CR6R7) nNCR4R5、_C( = NR6)NR4R5、_NR4C (0) NR5R6、-NR4S (0) PR5 或-C (0) NR4R5,R3中每個氫任選地被R8取代,鄰近原子上的R3基團可組合以形成C6_12芳基、 5-12元雜芳基、C3_12環烴基或3-12元雜脂環基團;每個R4、R5、R6和R7獨立地為氫、滷素、烴基、C2_12烯基、C2_12炔基、C3_12環烴 基、C6_12芳基、3-12元雜脂環、5-12元雜芳基;或者與相同氮原子結合的R4、R5、R6和R7的任 兩個可與其結合的氮原子一起組合以形成3至12元雜脂環或5-12元雜芳基基團,該基團 任選地含有1至3個選自N、0和S的其他雜原子;或者與相同碳原子結合的R4、R5、R6和R7 的任兩個可組合以形成C3_12環烴基、C6_12芳基、3-12元雜脂環或5-12元雜芳基基團;並且 R4、R5、R6和R7中每個氫任選地被R8取代;每個R8獨立地為滷素、(V12烴基、C2_12烯基、C2_12炔基、C3_12環烴基、C6_12芳基、3-12 元雜脂環、5-12 元雜芳基、-NHy-CKHrO-Cu 烴基、-0_(CH2)nC3_12 環烴基、-0_(CH2)nC6_12 芳基、-0-(CH2)n(3-12元雜脂環)或-0-(CH2)n(5-12元雜芳基);並且R8中每個氫任選地被 R9取代;每個R9獨立地為滷素、Ci_12烴基、Ci_12烴氧基、C3_12環烴基、C6_12芳基、3-12元雜月旨
CN 101855342 Ai^. ^ ^56/71 頁
的蛋白酪氨酸激酶抑制化合物,
R2 VIII環、5-12 元雜芳基、-0-Ch2 烴基、-0-(CH2)nC3_12 環烴基、-0-(CH2)nC6_12 芳基、-。-^!^、^-^ 元雜脂環)、-0-(CH2)n(5-12元雜芳基)或-CN,並且R9中每個氫任選地被滷素、-OH、-CN、 可部分或完全滷素化的_(V12烴基、可部分或完全滷素化的-0-CiM烴基、-CO、-SO或-S02 取代;R10代表一個、兩個或三個任選的取代基,其獨立地為滷素、Ci_12烴基、C2_12烯基、 c2_12 炔基、C3_12 環烴基、C6_12 芳基、3-12 元雜脂環、5-12 元雜芳基、-s (0)mR4、-S02NR4R5、_S (0 )20R4、-N02、-NR4R5、- (CR6R7) n0R4、-CN、-C (0) R4、-0C (0) R4、-0 (CR6R7) nR4、-NR4C (0) R5、- (CR6R7) nC(0)0R4、_(CR6R7)n0R4、_(CR6R7)nC(0)NR4R5、- (CR6R7) nNCR4R5、-C( = NR6)NR4R5、-NR4C (0) NR5R6、-NR4S (0) PR5、-C (0) NR4R5、- (CR6R7) n (3-12 元雜脂環)、-(CR6R7) n (C3_12 環烴基)、-(CR6R7) n(C6_12芳基)、-(CR6R7)n(5-12元雜芳基)或_(CR6R7)nC(0)NR4R5,並且R1。中每個氫任選地被 R3取代;其中每個m獨立地為0、1或2 ;每個n獨立地為0、1、2、3或4 ;並且每個p獨立地 為1或2。各種取代基以及式(VIII)包含的特定化合物的說明描述於W02006021886。相應地,在用於產生結構式(VIII)的化合物的方法中,方法的步驟可包括在適合 於將式(I)的底物化合物還原或轉化為式(II)的產物化合物的反應條件下使用本文所述 的酮還原酶多肽將式(I)的化合物還原或轉化為式(II)的化合物。從式(II)的化合物合 成式(VIII)的化合物描述於引用的參考文獻中。如本領域技術人員所知,酮還原酶_催化的還原反應一般需要輔因子。本文所述 的工程酮還原酶催化的還原反應一般也需要輔因子,儘管工程酮還原酶的許多實施方案需 要遠比野生型酮還原酶催化的反應更少的輔因子。如本文所用,術語「輔因子」指與酮還原 酶組合作用的非蛋白化合物。適合與本文描述的工程酮還原酶一起使用的輔因子包括但不 限於NADP+(煙醯胺腺嘌呤二核苷酸磷酸)、NADPH(NADP+的還原形式)、NAD+(煙醯胺腺嘌 呤二核苷酸)和NADH(NAD+的還原形式)。一般而言,將還原形式的輔因子加到反應混合物 中。可任選地使用輔因子再生系統從氧化型NAD (P)+形式再生還原型NAD(P)H形式。術語「輔因子再生系統」指參與還原氧化型輔因子(例如NADP+到NADPH)的反應 的一套反應物。酮還原酶-催化的酮底物的還原氧化的輔因子通過輔因子再生系統以還原 形式被再生。輔因子再生系統包含為還原氫等效物來源並且能還原氧化型輔因子的化學計 量的還原劑。輔因子再生系統還可包含催化劑,例如催化通過還原劑對氧化型輔因子的還 原的酶催化劑。分別從NAD+或NADP+再生NADH或NADPH的輔因子再生系統在本領域是已 知的,並且可用在本文所述的方法中。可採用的適合的示例性輔因子再生系統包括但不限於葡萄糖和葡萄糖脫氫酶、甲 酸和甲酸脫氫酶、葡萄糖-6-磷酸和葡萄糖-6-磷酸脫氫酶、仲(例如異丙醇)醇和仲醇脫 氫酶、亞磷酸和亞磷酸脫氫酶、分子氫和氫化酶和類似系統。這些系統可與作為輔因子的 NADP+/NADPH或NAD+/NADH組合使用。使用氫化酶的電化學再生也可用作輔因子再生系統。 參見例如,美國專利第5,538,867和6,495,023號,兩者都通過引用併入本文。包含金屬催 化劑和還原劑(例如分子氫或甲酸)的化學輔因子再生系統也是適合的。參見例如PCT公 布TO 2000/053731,其通過引用併入本文。術語「葡萄糖脫氫酶」和「GDH」在本文可交換使用,指分別催化D-葡萄糖和NAD+ 或NADP+轉化為葡萄糖酸和NADH或NADPH的依賴於NAD+或NADP+的酶。以下的反應式(1)描述了葡萄糖脫氫酶_催化的通過葡萄糖的NAD+或NADP+的還原。
⑴葡萄糖+ NAD(P)+ + H20 --葡萄糖酸 +NAD(P)H + H+適合用於本文所述的方法的實踐的葡萄糖脫氫酶包括天然存在的葡萄糖脫氫酶 以及非天然存在的葡萄糖脫氫酶。天然存在的葡萄糖脫氫酶編碼基因已報導於文獻資料 中。例如,枯草芽孢桿菌61297⑶H基因在大腸桿菌中表達,並報導為顯示與其天然宿主 產生的酶相同的物理化學特性(Vasantha 等,1983,Proc. Natl. Acad. Sci USA 80:785)。 對應於Genbank登錄號M12276的枯草芽孢桿菌⑶H基因的基因序列由Lampel等,1986, J. Bacteriol. 166 :238_243 報導,並且 Yamane 等,1996,Microbiologyl42 :3047_3056 報導其修正形式為Genbank登錄號D50453。天然存在的⑶H基因還包括編碼來自以下 的 GDH 的那些基因賭狀芽孢桿菌(B. cereus)ATCC 14579 (Nature, 2003,423 :87_91 ; Genbank 登錄號 AE017013)和巨大芽孢桿菌(B. megaterium) (Eur. J. Biochem.,1988,174 485-490,Genbank 登錄號 X12370 ;J. Ferment. Bioeng, 1990,70 :363_369,Genbank 登錄號 GI216270)。來自芽孢桿菌(Bacillus甲.)的葡萄糖脫氫酶在PCT公布WO 2005/018579 中提供為SEQ ID NO 10和12 (分別由對應於PCT公布的SEQ ID NO :9和11的多核苷酸序 列編碼),其公開內容通過引用併入本文。非天然存在的葡萄糖脫氫酶可使用已知的方法產生,諸如,例如,誘變、定向演化 和類似方法。無論是天然存在或非天然存在的酶,具有適合的活性的GDH酶可使用PCT公 布TO 2005/018579的實施例4中所述的測定容易地鑑定,其公開內容通過引用併入本文。 示例性的非天然存在的葡萄糖脫氫酶在PCT公布W0 2005/018579中提供為SEQ ID NO 62, 64,66,68,122,124和126。編碼這些酶的多核苷酸序列在PCT公布W02005/018579中分別 提供為SEQ ID NO :61,63,65,67,121,123和125。所有這些序列通過引用併入本文。適合 用在本文公開的酮還原酶-催化的還原反應中的其他非天然存在的葡萄糖脫氫酶提供於 美國申請公布第2005/0095619和2005/0153417號,其公開內容通過弓|用併入本文。本文所述的酮還原酶_催化的還原反應中採用的葡萄糖脫氫酶在PCT公布TO 2005/018579的實施例4所述的測定中可表現出至少約10 u mol/min/mg的活性,有時至少 約 102 u mol/min/mgor 或約 103 u mol/min/mg、多達約 104 u mol/min/mg 或更高的活性。本文所述的酮還原酶_催化的還原反應一般在溶劑中進行。適合的溶劑包括水、 有機溶劑(例如乙酸乙酯、乙酸丁酯、1-辛醇、庚烷、辛烷、甲基叔丁醚(MTBE)、甲苯和類似 溶劑)、離子液體(例如,1-乙基4-甲基咪唑鐺四氟硼酸、1-丁基-3-甲基咪唑鐺四氟硼 酸、1-丁基-3-甲基咪唑六氟磷酸和類似離子液體)。在一些實施方案中,使用包括水和水 性共溶劑系統的水性溶劑(aqueous solvent)。示例性水性共溶劑系統具有水和一種或多種有機溶劑。一般而言,選擇水性共溶 劑系統的有機溶劑組分,以便其不完全失活酮還原酶。適當的共溶劑系統可利用諸如描述 於本文的酶活性測定、通過在候選溶劑系統中用感興趣的特定底物來測量特定工程酮還原 酶的酶促活性來容易地鑑定。水性共溶劑系統的有機溶劑組分可與水性組分混溶,提供了單一液相,或者可與 水性組分部分混溶或不混溶,提供兩種液相。一般而言,當採用水性共溶劑系統時,選擇為 雙相的,其中水分散於有機溶劑中,或反之亦然。一般而言,當使用水性共溶劑系統時,需要選擇可容易地與水性分離的有機溶劑。一般而言,共溶劑系統中水和有機溶劑的比率一般 在從約90 10至約10 90 (v/v)有機溶劑比水、介於80 20和20 80(v/v)之間有 機溶劑比水的範圍內。共溶劑系統可在添加到反應混合物之前預先形成,或者其可在反應 容器中原位形成。水性溶劑(水或水性共溶劑系統)可以是pH-緩衝或不緩衝的。一般而言,還原 可在pH約10或更低、通常在從約5至約10的範圍內進行。在一些實施方案中,還原在pH 約9或更低、通常在從約5至約9的範圍內進行。在一些實施方案中,還原在pH約8或更 低、通常在從約5至約8的範圍內和通常在從約6至約8的範圍內進行。還原還可在pH約 7. 8或更低、或7. 5或更低下進行。可選地,還原可在中性pH(即約7)下進行。在還原反應過程中,反應混合物的pH可以改變。通過在反應期間加入酸或鹼,反 應混合物的PH可維持在需要的pH下或在需要的pH範圍內。可選地,可通過使用包含緩衝 劑的水性溶劑來控制pH。保持需要的pH範圍的適合緩衝液在本領域是已知的,並且包括例 如,磷酸緩衝液、三乙醇胺緩衝液和類似緩衝液。還可使用緩衝液和加入酸或鹼的組合。當採用葡萄糖/葡萄糖脫氫酶的輔因子再生系統時,如果得到的水性葡萄糖酸不 被另外中和,如反應式(1)中代表的葡萄糖酸(pKa = 3.6)的共同產生導致反應混合物pH 的下降。通過標準的緩衝技術或在轉化過程的同時加入鹼,反應混合物的PH可保持在需要 的水平,在所述標準的緩衝技術中緩衝液中和葡萄糖酸可達提供的緩衝能力。還可使用緩 衝和加入鹼的組合。保持需要的PH範圍的適合緩衝液描述於上文。用於中和葡萄糖酸的 適合鹼為有機鹼(例如胺、醇鹽和類似有機鹼)和無機鹼例如氫氧化物鹽(例如NaOH)、碳 酸鹽(例如NaHC03)、碳酸氫鹽(例如K2C03)、鹼性磷酸鹽(例如K2HP04、Na3P04)和類似無機 鹼。轉化過程的同時加入鹼可在監測反應混合物的PH的同時人工地進行,或者更方便地, 通過使用自動滴定儀作為PH穩態(pH stat)。部分緩衝能力和加入鹼的組合還可用於過程 控制。當採用加入鹼來中和酮還原酶_催化的還原反應期間釋放的葡萄糖酸時,轉化過 程可通過保持PH所加入的鹼的量來監測。在還原期間加入到未緩衝或部分緩衝的反應混 合物中的鹼一般以水性溶液加入。在一些實施方案中,輔因子再生系統可包含甲酸脫氫酶。術語「甲酸脫氫酶」和 「FDH」在本文可交換使用,指分別催化甲酸和NAD+或NADP+轉化為二氧化碳和NADH或NADPH 的依賴於NAD+或NADP+的酶。適合用作本文所述的酮還原酶-催化的還原反應中的輔因 子再生系統的甲酸脫氫酶包括天然存在的甲酸脫氫酶以及非天然存在的甲酸脫氫酶。甲酸 脫氫酶包括對應於PCT公布W0 2005/018579的SEQ ID N0:70(假單胞菌種(Pseudomonas sp.))和72(博伊丁假絲酵母(Candida boidinii))的甲酸脫氫酶,其分別由對應於PCT公 布2005/018579的SEQ ID NO 69和71的多核苷酸序列編碼,該PCT公布的公開內容通過 引用併入本文。無論是天然存在或非天然存在的,本文所述的方法中採用的甲酸脫氫酶可 表現出至少約1 U mol/min/mg、有時至少約10 u mol/min/mg或至少約102 u mol/min/mg、多 達約103 u mol/min/mg或更高的活性,並且在PCT公布W0 2005/018579的實施例4所述的 測定中可容易地篩選其活性。如本文所用,術語「甲酸」(formate)指甲酸陰離子(HC02_)、甲酸(HC02H)及其混合 物。甲酸可以鹽的形式提供,一般為鹼金屬鹽或銨鹽(例如,HC02Na、KHC02NH4和類似鹽),以甲酸的形式提供,一般為水性甲酸或其混合物。甲酸是中強酸。在其pKa(於水中pKa = 3.7)的幾個pH單位內的水溶液中,甲酸作為平衡濃度的HC02_和HC02H存在。在pH值高 於約pH 4時,甲酸主要作為HC02_存在。當甲酸作為甲酸提供時,反應混合物一般被緩衝或 者通過加入鹼變得酸性更弱以提供需要的PH,一般為約pH 5或更高。用於中和甲酸的適 合的鹼包括但不限於有機鹼例如胺、醇鹽和類似有機鹼,和無機鹼例如氫氧化物鹽(例如 NaOH)、碳酸鹽(例如NaHC03)、碳酸氫鹽(例如K2C03)、鹼性磷酸鹽(例如K2HP04、Na3P04)和 類似無機鹼。對高於約pH 5的pH值,其中甲酸主要作為HC02_存在,下文反應式⑵描述了甲 酸脫氫酶_催化的甲酸對NAD+或NADP+的還原。 當採用甲酸和甲酸脫氫酶作為輔因子再生系統時,可通過標準的緩衝技術或者通 過在轉化過程的同時加入酸將反應混合物的pH保持在需要的水平,在所述標準的緩衝技 術中緩衝液釋放質子以便達到提供的緩衝能力。在反應過程中加入以保持PH的適合的酸 包括有機酸例如羧酸、磺酸、膦酸和類似有機酸,無機酸例如氫商酸(諸如鹽酸)、硫酸、磷 酸和類似無機酸)、酸式鹽(例如二氫磷酸鹽(例如KH2P04)、亞硫酸鹽(例如NaHS04)和類 似酸式鹽。一些實施方案利用甲酸,其中保持甲酸的濃度和溶液的pH。在使用甲酸/甲酸脫氫酶輔因子再生系統的還原反應期間,當採用加入酸來保持 pH時,轉化的過程可通過保持pH所加入的酸的量來監測。一般而言,在轉化過程中加入到 未緩衝或部分緩衝的反應混合物中的酸以水性溶液加入。術語「仲醇脫氫酶」和「sADH」在本文可交換使用,指分別催化仲醇和NAD+或NADP+ 轉化為酮和NADH或NADPH的依賴於NAD+或NADP+的酶。下文的反應式(3)描述了由異丙 醇示例的仲醇對NAD+或NADP+的還原。 適合在本文所述的酮還原酶-催化的還原反應中用作輔因子再生系統的仲醇 脫氫酶包括天然存在的仲醇脫氫酶以及非天然存在的仲醇脫氫酶。天然存在的仲醇脫 氫酶包括來自布氏嗜熱厭氧菌(Thermoanerobiumbrockii)、紅平紅球菌(Rhodococcus etythropolis)、克菲爾乳桿菌和短乳桿菌的已知醇脫氫酶,非天然存在的仲醇脫氫酶包 括從其衍生的工程醇脫氫酶。無論是天然存在或非天然存在的,本文所述的方法中採用 的仲醇脫氫酶可表現出至少約lymol/min/mg、有時至少約10 y mol/min/mg或至少約 102ii mol/min/mg、多達約 103 ii mol/min/mg 或更高的活性。適合的仲醇包括低級仲烷醇(alkanol)和芳基-烴基甲醇。低級仲醇的實例包括 異丙醇、2-丁醇、3-甲基-2-丁醇、2-戊醇、3-戊醇、3,3-二甲基-2-丁醇和類似低級仲醇。 在一個實施方案中,仲醇是異丙醇。適合的芳基-烴基甲醇包括未取代和取代的1-芳基乙醇。當採用仲醇和仲醇脫氫酶作為輔因子再生系統時,得到的NAD+或NADP+通過仲醇 脫氫酶將仲醇偶聯氧化為酮而被還原。一些工程酮還原酶還具有使仲醇還原劑脫氫的活性。在使用仲醇作為還原劑的一些實施方案中,工程酮還原酶和仲醇脫氫酶是相同的酶。在採用輔因子再生系統執行本文所述的酮還原酶_催化的還原反應的實施方案 中,輔因子的氧化或還原形式可最初提供。如上文所述,輔因子再生系統將氧化型輔因子轉 化為其還原型,然後還原型輔因子在酮還原酶底物的還原中被利用。在一些實施方案中,不使用輔因子再生系統。對不使用輔因子再生系統執行的還 原反應,將輔因子以還原型加入到反應混合物中。在一些實施方案中,當使用宿主有機體的全細胞執行該過程時,全細胞可天然地 提供輔因子。可選地或組合地,細胞可天然地或重組地提供葡萄糖脫氫酶。在執行本文所述的立體選擇性還原反應中,工程酮還原酶和包含任選輔因子再生 系統的任何酶可以純化的酶、用編碼酶的基因轉化的全細胞和/或細胞提取物和/或此類 細胞的裂解物的形式加入到反應混合物中。編碼工程酮還原酶和任選地輔因子再生酶的基 因可被單獨轉化到宿主細胞,或者一起轉化到相同的宿主細胞中。例如,在一些實施方案 中,一套宿主細胞可用編碼工程酮還原酶的基因轉化,另一套宿主細胞可用編碼輔因子再 生酶的基因轉化。兩套轉化細胞可以全細胞的形式或以衍生自全細胞的裂解物或提取物的 形式在反應混合物中一起使用。在其他實施方案中,宿主細胞可用編碼工程酮還原酶和輔 因子再生酶的基因轉化。用編碼工程酮還原酶和/或任選的輔因子再生酶的基因轉化的全細胞或其細胞 提取物和/或其裂解物可以多種不同形式採用,包括固體(例如凍幹的固體、噴霧乾燥的固 體和類似固體)或半固體(例如粗糊劑)。細胞提取物或細胞裂解物可通過沉澱(硫酸銨、聚乙烯亞胺、熱處理或類似處 理),然後在凍幹之前進行脫鹽程序(例如超濾、透析和類似過程)被部分純化。任何細胞 製品可通過使用已知交聯劑(諸如,例如,戊二醛)交聯或固定於固相上(例如Eupergit C 和類似固相)被穩定。固體反應物(例如酶、鹽等)可以多種不同形式提供給反應,包括粉末(例如凍幹 粉末、噴霧乾燥的粉末和類似粉末)、溶液、乳劑、懸浮液和類似形式。使用本領域普通技術 人員已知的方法和設備可容易地凍幹或噴霧乾燥反應物。例如,蛋白溶液可以小等份冷凍 於-80°C,然後加入到預先冷卻的凍幹箱,隨後應用真空。從樣品去除水之後,在釋放真空和 回收凍幹樣品之前,溫度一般升高到4°C持續2小時。還原反應中使用的反應物的量將一般取決於需要的產物的量和伴隨的採用的酮 還原酶底物的量而變化。以下指南可用來確定使用的酮還原酶、輔因子和任選的輔因子再 生系統的量。一般而言,採用的酮底物的濃度可為約20至300克/升,使用從約50mg至約 5g的酮還原酶和約10mg至約150mg的輔因子。本領域普通技術人員將容易理解如何改變 這些量以調整這些量使其適應需要的生產率水平和產物規模。任選的輔因子再生系統的適 當的量可基於使用的輔因子和/或酮還原酶的量容易地通過常規實驗來確定。一般而言, 還原劑(例如葡萄糖、甲酸、異丙醇)以高於酮還原酶底物的等摩爾水平的水平使用以獲得 酮還原酶底物基本上完全或接近完全的轉化。加入反應物的順序不是關鍵的。反應物可同時一起加入到溶劑中(例如單相溶 劑、雙相水性共溶劑系統和類似溶劑),或可選地,可單獨加入一些反應物,並且一些反應物 可在不同的時間點一起加入。例如,輔因子再生系統、輔因子、酮還原酶和酮還原酶底物可
70首先加入到溶劑中。當使用水性共溶劑系統時,為了改進混合效率,可首先加入輔因子再生系統、酮還 原酶和輔因子並緩和到水性中。然後可加入有機相併混合,隨後加入酮還原酶底物。可選 地,在加入到水相之前,酮還原酶底物可在有機相中預先混合。用於執行本文所述的酮還原酶_催化的還原反應的適合條件包括可容易地通過 常規實驗被優化的多種條件,這些實驗包括但不限於使工程酮還原酶和底物在實驗PH和 溫度下接觸並檢測產物,例如使用本文提供的實施例中描述的方法。酮還原酶催化的還原一般在從約15°C至約75°C範圍的溫度下進行。對一些實施 方案,反應在從約20°C至約55°C範圍的溫度下進行。在其他實施方案中,反應在從約20°C 至約45°C範圍的溫度下進行。反應還可在常溫條件下進行。一般允許還原反應進行,直至獲得底物的基本完全或接近完全的還原。底物還原 為產物可通過檢測底物和/或產物使用已知方法監測。適合的方法包括氣相層析、HPLC和 類似方法。反應混合物中產生的醇還原產物的轉化產量一般大於約50%,還可能大於約 60 %,還可能大於約70 %,還可能大於約80 %,還可能大於90 %,並且常常大於約97 %。7.實施例本公開的各種特點和實施方案例證於以下代表性實施例中,這些實施例預期為例 證性的而不是限制性的。在以下描述中,使用葡萄糖脫氫酶(⑶H)的地方,其為⑶H⑶X901,獲自Julich Chiral Solutions, Julich, Germany。7. 1實施例1 野生型酮還原酶基因獲得和表達載體的構建。基於酮還原酶的報導的胺基酸序列和美國臨時申請序列號60/848,950和 W02008042876中所述的密碼子優化算法,其通過引用併入本文,設計酮還原酶(KRED)編碼 基因用於在大腸桿菌中表達。使用包括42個核苷酸的寡核苷酸合成基因,並克隆到在lac 啟動子控制下的表達載體pCKl 10900中(描述於美國專利申請公布20060195947的圖3)。 該表達載體還含有P15a複製起點和氯黴素抗性基因。使用標準方法將得到的質粒轉化到 大腸桿菌W3110中。密碼子優化的基因以及編碼的多肽列於表3。如美國臨時中請序列號 60/848,950中所述證實了野生型酮還原酶的活性。 編碼本公開的工程酮還原酶的多核苷酸被同樣地克隆到載體pCK110900中用於 在大腸桿菌W3110中表達。7. 2實施例2 酮還原酶粉末的產生;搖瓶程序。含有具有感興趣的酮還原酶基因的質粒的大腸桿菌的單個微生物菌落被接種到 含有30ii g/ml氯黴素和葡萄糖的50ml Luria Bertani肉湯中。細胞在30°C下伴有 250rpm的振蕩下在培養箱中生長過夜(至少16小時)。培養物稀釋到250ml Terrific肉湯中(12g/L細菌胰蛋白腖、24g/L酵母提取物、4ml/L甘油、65mM磷酸鉀,pH 7. OUmM MgS04、 30 u g/ml氯黴素)於1升瓶中)至600nm的光密度(0D600)為0. 2,並允許其在30°C下生 長。當培養物的0D600為0.6至0.8時,用ImM IPTG誘導酮還原酶基因的表達,並孵育過 夜(至少16小時)。通過離心(5000rpm,15min,4°C )收穫細胞,並棄掉上清液。細胞沉澱 用等體積的冷(4°C ) lOOmM三乙醇胺(氯化物)緩衝液,pH 7. 0 (在ADH-LK和ADH-LB和從 其衍生的工程酮還原酶的實例中包括2mM MgS04)重懸,並通過如上文的離心收穫。洗滌的 細胞在兩倍體積的冷三乙醇胺(氯化物)緩衝液中重懸,並以12000psi通過French Press 兩次,同時保持在4°C。通過離心(9000rpm,45min.,4°C)去除細胞碎片。收集透明的裂解 物上清液並儲存於-20°C。冷凍的透明裂解物的凍幹提供了粗酮還原酶的乾粉。7. 3實施例3 酮還原酶的產生;發酵程序。在通氣攪拌的15L發酵罐中,使含有0. 88g/L硫酸銨、0. 98g/L檸檬酸鈉;12. 5g/L 三水合磷酸氫二鉀、6. 25g/L磷酸二氫鉀、6. 2g/L Tastone-154酵母提取物、0. 083g/L檸檬 酸鐵銨和8. 3ml/L微量元素溶液的6. 0L生長培養基達到30°C的溫度,所述微量元素溶液 含有2g/L 二水合氯化鈣、2. 2g/L七水合硫酸鋅、0. 5g/L 一水合硫酸錳、lg/L七水合硫酸亞 銅、0. lg/L四水合鉬酸銨和0. 02g/L十水合四硼酸鈉。發酵罐用含有感興趣的酮還原酶基 因的質粒的指數生長末期的大腸桿菌W3110培養物接種,所述培養物如實施例3中所述在 搖瓶中生長至起始0D600為0. 5至2. 0。發酵罐以500-1500rpm攪拌,並以1. 0-15. OL/min 向發酵容器提供空氣以保持30%飽和或更高的溶解氧水平。通過加入20% v/v氫氧化銨 控制培養物的PH為7.0。通過加入含有500g/L工業葡萄糖(cerel0Se)、12g/L氯化銨和 10. 4g/L七水合硫酸鎂的料液保持培養物的生長。在培養物達到0D600為50後,通過加入 終濃度為ImM的異丙基-b-D-硫代半乳糖苷(IPTG)誘導酮還原酶的表達。培養物生長另 外14小時。然後冷卻培養物至4°C並保持在4°C直至收穫。通過在Sorval RC 12BP離心 機中於4°C 5000G下離心40分鐘收穫細胞。收穫的細胞直接用在以下的下遊回收過程或儲 存於4°C直至此類使用。細胞沉澱於4°C下重懸,每體積的溼細胞糊劑(wet cell paste)重懸於2倍體積 的100mM三乙醇胺(氯化物)緩衝液,pH 6. 8。使用12000psig的壓強通過使懸浮液通過 裝有兩相勻漿閥部件的勻漿器,使胞內酮還原酶從細胞中釋放。破壞後立即將細胞勻漿冷 卻至4°C。將10% w/v聚乙烯亞胺,pH 7. 2的溶液加入到裂解物中至終濃度為0. 5% w/v 並攪拌30分鐘。得到的懸浮液通過在標準實驗室離心機內以5000G離心30分鐘變得澄清。 輕輕倒出透明的上清液,並使用具有30Kd分子量截留的纖維素超濾膜濃縮10倍。最終的 濃縮液分散到淺容器中,在-20°C下冷凍並凍幹為粉末。酮還原酶粉末儲存於-80°C。7.4 實施例 4:確定 2',6' -二氯 _3'-氟苯乙酮向(S) _1_[2 『,6' -二 氯-3'-氟苯基]-乙醇的轉化和對映體過量的分析方法。2' ,6' -二氯-3'-氟苯乙酮的還原和醇產物的手性純度通過反相手性 HPLC(4. 6x150mm Chiralpak AD-RH柱(沒有保護柱(guard cartridge)) ;50 50ACN/H20, 0. 8mL/min ;25°C ;使用以下保留時間於 254nm 下檢測(S)-醇 5. 77min ; (R)_ 醇 6. 19min ; 酮 7. 49min)或正相手性 HPLC(4. 6x250mm ChiralpakAD 柱(沒有保護柱);2 :98IPA/ 己烷 以2. 5mL/min於室溫下(未調節);使用以下保留時間於220nm下檢測(S)-醇4. 72min ; (R)-醇 5. 30min ;酮 2. 03min)來確定。
可選地,使用以下氣相層析分析方法使用HP-5柱(30mx0. 25mm)、溫度程序為以 50°C /min的100°C (lmin)至200°C (4min)(酮的保留時間是4. 33min,醇的保留時間是 4. 70min)的非手性方法和使用 Beta Cyclodextrin (DM)柱(30mx0. 25mm)以 165°C恆溫(酮 的保留時間是3. 42min,R-異構體的保留時間是5. 92min,R-異構體的保留時間是6. 25min) 的手性方法。7. 5實施例5:評估野生型酮還原酶對2' ,6' -二氯-氟苯乙酮的還原描述於實施例1的表3的KRED使用化學計量的NADH或NADPH作為輔因子來篩選。 向96深孔平板的每個孔加入5-10mg 10 0、於5001^1001111 pH 7.0三乙醇胺(氯化物)緩 衝液的20mg NAD(P)H和L底物( 40g/L底物;通過輔因子的轉化限制為 25)。將 平板封口並振蕩6小時。通過加入lmL EtOAc猝滅反應。產物的轉化和立體純度如實施例 4所述測定。在這些條件下,使用NADPH 或 NADH,YDL、YGL、GRE、ADH-RE、ADH-SB、ADH-SC、 ADH-HL、LDH-LL、ADH-CP、ADH-CB和DR-LB不產生可檢測的轉化,而ADH-LB和YPR產生 <0.5%的轉化。ADH-LlUf 0. 5%的底物轉化為手性醇。 a0 0. 5-1% 的轉化;+ 1-20% 的轉化;++ > 20% 的轉化b0 99% e. e. (S_對 映體).c 指美國申請序列號 60/957,974 和 12/197, 286 中的 SEQ ID NO本實施例說明其中位置190的酪氨酸殘基被改變為苯丙氨酸、脯氨酸、半胱氨酸或丙氨酸的ADH-LK變體將2',6' -二氯_3'-氟苯乙酮還原為對應的S-醇。7. 7實施例7 鑑定還原2' ,6' -二氯-氟苯乙酮的酶的高通量NADPH螢光 預篩選。通過定向演化獲得並含有演化的酮還原酶基因的質粒文庫被轉化到大腸桿菌 W3110,並鋪板到含有1 %葡萄糖和30 u g/mL氯黴素(CAM)的Luria-Bertani (LB)瓊脂培養 基上。在30°C下孵育至少16小時後,使用Q-b0t 機器人菌落挑取器(Genetix USA, Inc., Beaverton,0R)將菌落挑取到含有180 y L Terrific肉湯(TB)、1 %葡萄糖和30 y g/mL氯黴 素(CAM)的96孔淺孔微量滴定板中。細胞在30°C下、200rpm振蕩生長過夜。然後將5 u L 該培養物轉移到含有380 u L Terrific肉湯(TB)、ImM MgS04和30 u g/mLCAM的96深孔平 板中。在深孔平板在30°C下、250rpm振蕩孵育2. 5至3小時後(0D_ 0. 6-0. 8),細胞培養物 的重組基因表達通過終濃度為ImM的異丙基硫代半乳糖苷(IPTG)誘導。然後平板在30°C 下、250rpm振蕩孵育15-17小時。通過離心沉澱細胞,並重懸於300 u L裂解緩衝液中,通過室溫下振蕩至少1小時 裂解。裂解緩衝液含有100mM三乙醇胺(氯化物)緩衝液,pH7.0-7.2、lmg/mL溶菌酶和 750 u g/mL多粘菌素B硫酸鹽。然後平板在離心機中以4000RPM、4°C下旋轉20分鐘,並在 螢光測定中分析透明的上清液(裂解物)。在96孔黑色微量滴定板中,將20 ill每種裂解物(於40_50°C下預先處理0_24hr, 如果需要,於lOOmM三乙醇胺(氯化物)緩衝液,pH 7.0、ImM MgS04中稀釋)加入到由100mM 三乙醇胺(氯化物)緩衝液,pH7. 0、lmM MgS04、0. 2g/L NADPH、100_600mM葡萄糖、600_900mM 葡萄糖酸鈉和0.2g/L 2' ,6' -二氯-3'-氟苯乙酮組成的180iU測定混合物中,通過 在 Flexstation (Molecular Devices, USA)中 330nm 激發後觀察 445nm 處 NADPH 螢光的降 低來測量反應的進程。本實施例描述了用來鑑定改進了 2' ,6' -二氯-3'-氟苯乙酮的還原速率的 KRED變體的方法。7.8實施例8:衍生自々011-0(的工程酮還原酶對2' ,6' -二氯-氟苯乙酮 的還原。用於將2' ,6' -二氯-3'-氟苯乙酮還原為(S)-l_[2' ,6' -二氯-氟 苯基]-乙醇的改進的ADH-LK變體在小規模化學反應中分析。於25°C下向100mL三頸容器 加入30ml lOOmM三乙醇胺(氯化物)緩衝液(pH 7)、2mMMgS04)、200mg具有如下表所述的 SEQ ID NO 的 KRED、50mg GDH、15mg NADP_Na、3. 13g 葡萄糖、6g 2',6' -二氯 _3'-氟苯 乙酮(200g/L),所述三頸容器裝有PTFE-包被的磁性攪拌杆和pH電極,該pH電極與自動 滴定儀連接以通過通到容器內的飼管PH-控制地加入需要的鹼。自動滴定儀通過加入4N NaOH保持pH為7,其被連續記錄。通過鹼的加入速率和累積加入以及反應混合物的定期取 樣來監測反應進程,定期取樣用於使用乙酸乙酯來提取和通過實施例4的方法分析。表5給出了對應於酮還原酶的SEQ ID NO、從野生型ADH-LK的胺基酸突變的數目 和2',6' -二氯-3'-氟苯乙酮向(S)-l-[2',6' -二氯-3'-氟苯基]-乙醇的轉化。 S-醇的立體純度總是> 99. 9%。表 5
75
a.-沒有活性;+ 100-450% 的 SEQ ID No. 6 的活性;++ :450_1500% 的 SEQ ID No. 6 的活性;+++ > 1500%的 SEQ ID No. 6 的活性。b. + :50°C下2小時後可測量的活性;++:50°C下2小時後>400%的SEQ ID No. 16的活性。本實施例說明衍生自野生型酮還原酶ADH-LK的工程酮還原酶與酮還原酶ADH-LK 相比提供了改進的活性。7. 9實施例9 衍生自ADH-LB的工程酮還原酶對2』 ,6' -二氯_3『-氟苯乙酮 的還原。用於將2' ,6' -二氯-3'-氟苯乙酮還原為(S)-l_[2' ,6' -二氯-氟 苯基]-乙醇的改進的ADH-LB變體如實施例8中的ADH-LK變體所述在小規模化學反應中 分析。表6給出了對應於酮還原酶的SEQ ID NO、從野生型ADH-LK的胺基酸突變的數目和 2',6' -二氯-3'-氟苯乙酮向(S)-l-[2',6' -二氯-3'-氟苯基]-乙醇的轉化。 S-醇的立體純度總是> 99. 9%。表6 a.-沒有活性;+ 100-450% 的 SEQ ID No. 6 的活性;++ :450_1500% 的 SEQ ID No. 6 的活性;+++ > 1500%的 SEQ ID No. 6 的活性。b. + :50°C下2小時後可測量的活性;++:50°C下2小時後>400%的SEQ ID No. 16
的活性。本實施例說明衍生自野生型酮還原酶ADH-LB的工程酮還原酶與酮還原酶ADH-LB 相比也提供了改進的活性。7. 10實施例10:製備規模產生(S)-l_[2',6' -二氯_3'-氟苯基]-乙醇向500mL套層(jacketed)三頸圓底瓶加入水(120mL)、三乙醇胺(1. 8g),然後加 入氫氯酸來調節PH至7.0,所述套層三頸圓底瓶裝有Ace Glass機械攪拌器(75mm直徑 的特氟龍攪拌刀片)和PH電極,該pH電極與自動滴定儀連接以通過通到容器內的輸送 管pH-控制地加入需要的鹼。加入1M的硫酸鎂溶液(120 u L,0. 12mmol, 14. 4mg MgS04)。通過使加熱液循環通過瓶的套層將溶液加熱至30°C。加入葡萄糖(20g),然後加入 Na-NADP(120mg)、GDH(0. 50g)和具有 SEQ ID No. 38 的 KRED(0. 50g)。pH 穩態被設定為通 過輸送管加入4N NaOH保持pH為7. 0士0. 1。加入2',6' -二氯_3'-氟苯乙酮(50g) 起始反應。需要定期潤洗電極以去除酶衍生的材料。隨著反應的進行,分部加入另外的葡 萄糖10g於104min (在已加入17. 5mL 4NNaOH之後)、5g於275min (在已加入35. 2mL 4N NaOH之後)、5g於379min (在已加入42mL 4N NaOH之後)和8g於488min (在已加入47mL 4N NaOH之後)。24小時後停止反應。然後加入庚烷(150mL),並將混合物加熱至40°C持 續45分鐘。在冷卻至30°C後,將得到的混合物倒入分液漏鬥,排乾大多數底層水性。上層 的庚烷乳劑在真空下通過硅藻土墊過濾(350mL,85mm直徑的粗濾器)。用庚烷(150mL)洗 滌濾器,將濾液轉移到分液漏鬥並分離兩相。庚烷相在旋轉真空蒸發器上濃縮( 50°C, 150mmHg增加到40mmHg)以產生作為油的(S)-l-[2' ,6' -二氯-氟苯基]-乙醇 (47. 8g,94% ),其一旦靜置就結晶。7. 11實施例11 衍生自ADH-LK的工程酮還原酶對2' ,6'-取代苯乙酮的還原。測試野生型ADH-LK和為了將2' ,6' -二氯-氟苯乙酮還原為(S)_l_[2', 6' -二氯-3'-氟苯基]-乙醇而改進的ADH-LK變體對兩種其他2' ,6'-取代苯乙酮 的活性。製備5mL lOOmM三乙醇胺(氯化物)緩衝液(pH 7,2mM MgS04)、33mg具有SEQ ID No. 10 的 KRED、8mg GDH、3mgNADP_Na 和 330mg 葡萄糖的溶液。1ml 該溶液於 25°C下用 0. 3ml 1M(鈉)磷酸緩衝液pH 7和20mg 2' ,6'-取代苯乙酮處理。反應樣品(24hr)通過實施 例5的方法分析。表7給出了使用ADH-LK和具有SEQ ID NO 10的ADH-K變體的兩種2『 ,6'-取 代苯乙酮的轉化和得到的手性醇的對映體純度。表7 本實施例顯示含有Y190P突變的ADH-LK變體提供了對2' 6'-取代苯乙酮的改 進的活性,並且提供了對應的2' 6'-取代(S)-l-苯乙醇.7. 12實施例12 ADH-LK和衍生自ADH-LK的含有Y190突變的工程酮還原酶對未 取代的苯乙酮的還原。向如實施例7中製備的每孔含有100 ii L細胞裂解物的96孔板的每個孔加入 50 ii L於lOOmM三乙醇胺(氯化物)緩衝液pH 7. 0的7mMNa-NADP+、300 u L異丙醇和50 ii L 於THF的100mg/ml苯乙酮。封口平板,在軌道振蕩器上以850rpm室溫下攪拌24h。向每 孔加入lmL甲基叔丁基醚(MTBE),並封口平板,然後以850rpm室溫下振蕩10分鐘。平板在4,000rpm(3220xg)下離心2分鐘以分離相,從每孔將50 y L有機相轉移到含有150 u L MTBE的淺孔平板的孔中。封口平板並通過正相HPLC分析(配有0D-H保護柱的Daicel Chiralcel 0D-H 柱(4. 6x250mm) ;2. 5u L 注射;流動相95 5v/v 庚烷-IPA ;流速1. 5mL min-1 ;柱溫40°C ;波長215nm)。保留時間苯乙酮3. 5min ; (R)-1-苯基乙醇5. 3min ; (S)-l-苯基乙醇5. 8min。表8顯示了 ADH-LK和ADH-LK變體對苯乙酮的轉化和得到的手性醇的立體異構純度。表 8 本實施例證明野生型乳桿菌酮還原酶對苯乙酮是R-選擇性,而從其衍生的本發 明的工程酮還原酶對苯乙酮是S-選擇性。儘管已例證和描述了各種具體的實施方案,應理解可進行各種改變而不偏離本發 明的精神和範圍。對於所有的目的,本申請中引用的所有出版物、專利、專利申請和其他文件通過引 用以其整體併入本文,如同對於所有的目的,單獨地指明每個個體出版物、專利、專利申請 或其他文件通過引用併入。
權利要求
一種酮還原酶多肽,該多肽能以至少約85%的百分比立體異構過量將2′,6′-二氯-3′-氟苯乙酮底物立體選擇性地還原為產物(S)-1-(2,6-二氯-3-氟苯基)乙醇。
2.如權利要求1所述的多肽,該多肽包含與基於SEQID N0:2、4或98的在對應於X190 的殘基處具有脯氨酸的參考序列具有至少約85%同一性的胺基酸序列,條件是所述酮還原 酶的胺基酸序列在對應於X190的殘基處具有非芳族殘基。
3.如權利要求2所述的多肽,其中所述酮還原酶的胺基酸序列在對應於X190的殘基處 具有脂肪族、非極性、受限或半胱氨酸殘基。
4.如權利要求2所述的多肽,其中所述酮還原酶的胺基酸序列在對應於X190的殘基處 具有脯氨酸。
5.如權利要求2所述的多肽,其中所述酮還原酶包含另外具有一種或多種以下特點的胺基酸序列對應於X7的殘基是芳族、非極性、極性、受限或鹼性殘基;對應於X16的殘基是極性殘基;對應於X43的殘基是非極性或極性殘基;對應於X60的殘基是芳族或非極性或脂肪族殘基;對應於X94的殘基是半胱氨酸、非極性或脂肪族殘基;對應於X95的殘基是非極性或脂肪族殘基;對應於X96的殘基是極性或酸性殘基;對應於X97的殘基是極性、非極性、脂肪族或鹼性殘基;對應於X120的殘基是芳族、非極性或脂肪族殘基;對應於X125的殘基是極性或非極性殘基;對應於X142的殘基是極性殘基,特別是絲氨酸或天冬醯胺;對應於X147的殘基是芳族、極性、非極性或脂肪族殘基;對應於X149的殘基是非極性或芳族殘基;對應於X150的殘基是受限或酸性殘基;對應於X152的殘基是非極性或極性殘基;對應於X196的殘基是脂肪族、非極性或芳族殘基;對應於X202的殘基是脂肪族、芳族或非極性殘基;對應於X205的殘基是鹼性、非極性或脂肪族殘基;對應於X206的殘基是非極性或芳族殘基;並且其中任選地所述胺基酸序列與所述參考序列相比在其他胺基酸殘基處具有一個或多 個殘基差異。
6.如權利要求2所述的多肽,該多肽包含另外具有一種或多種以下特點的胺基酸序列對應於X7的殘基是蘇氨酸、脯氨酸、色氨酸、精氨酸、組氨酸或天冬醯胺;對應於X16的殘基是絲氨酸;對應於X43的殘基是異亮氨酸;對應於X60的殘基是丙氨酸;對應於X94的殘基是丙氨酸、纈氨酸或半胱氨酸;對應於X95的殘基是異亮氨酸或亮氨酸;對應於X96的殘基是絲氨酸、天冬醯胺、蘇氨酸或穀氨酸;對應於X97的殘基是賴氨酸、蘇氨酸、纈氨酸、精氨酸、甲硫氨酸或異亮氨酸;對應於X120的殘基是苯丙氨酸或纈氨酸;對應於X125的殘基是甘氨酸或絲氨酸;對應於X142的殘基是天冬醯胺;對應於X147的殘基是苯丙氨酸、亮氨酸、異亮氨酸、纈氨酸或穀氨醯胺;對應於X149的殘基是甘氨酸或苯丙氨酸;對應於X150的殘基是天冬氨酸或組氨酸;對應於X152的殘基是絲氨酸、蘇氨酸或甲硫氨酸;對應於X196的殘基是纈氨酸、異亮氨酸、甲硫氨酸、苯丙氨酸或異亮氨酸;對應於X202的殘基是丙氨酸、色氨酸、酪氨酸或甲硫氨酸;對應於X205的殘基是精氨酸;對應於X206的殘基是甲硫氨酸或酪氨酸;並且其中任選地所述胺基酸序列與所述參考序列相比在其他胺基酸殘基處具有一個或多 個殘基差異。
7.如權利要求2所述的多肽,該多肽包含具有一種或多種以下特點的胺基酸序列 對應於X147的殘基是芳族、極性、非極性或脂肪族殘基,對應於X202的殘基是脂肪族、芳族或非極性殘基;並且其中任選地所述胺基酸序列與所述參考序列相比在其他胺基酸殘基處具有一個或多 個殘基差異。
8.如權利要求2所述的多肽,該多肽包含具有一種或多種以下特點的胺基酸序列 對應於X7的殘基是芳族、非極性、極性、受限或鹼性殘基;對應於X147的殘基是芳族、極性、非極性或脂肪族殘基; 對應於X202的殘基是脂肪族、芳族或非極性殘基;並且其中任選地所述胺基酸序列與所述參考序列相比在其他胺基酸殘基處具有一個或多 個殘基差異。
9.如權利要求2所述的多肽,該多肽包含具有一種或多種以下特點的胺基酸序列 對應於X7的殘基是芳族、非極性、極性、受限或鹼性殘基,對應於X97的殘基是極性、非極性、脂肪族或鹼性殘基 對應於X147的殘基是芳族、極性、非極性或脂肪族殘基; 對應於X202的殘基是脂肪族、芳族或非極性殘基;並且其中任選地所述胺基酸序列與所述參考序列相比在其他胺基酸殘基處具有一個或多 個殘基差異。
10.如權利要求2所述的多肽,該多肽包含具有一種或多種以下特點的胺基酸序列 對應於X94的殘基是半胱氨酸、非極性或脂肪族殘基;對應於X96的殘基是極性或酸性殘基;對應於X147的殘基是芳族、極性、非極性或脂肪族殘基;特別是穀氨醯胺、異亮氨酸或 亮氨酸;並且其中任選地所述胺基酸序列與所述參考序列相比在其他胺基酸殘基處具有一個或多 個殘基差異。
11.如權利要求2所述的多肽,該多肽包含具有一種或多種以下特點的胺基酸序列對應於X7的殘基是芳族、非極性、極性、受限或鹼性殘基;對應於X147的殘基是芳族、極性、非極性或脂肪族殘基;對應於X196的殘基是脂肪族、非極性或芳族殘基;對應於X202的殘基是脂肪族、芳族或非極性殘基;並且其中任選地所述胺基酸序列與所述參考序列相比在其他胺基酸殘基處具有一個或多 個殘基差異。
12.如權利要求2所述的多肽,該多肽包含具有一種或多種以下特點的胺基酸序列對應於X147的殘基是芳族、極性、非極性或脂肪族殘基;對應於X196的殘基是脂肪族、非極性或芳族殘基;對應於X202的殘基是脂肪族、芳族或非極性殘基;並且其中任選地所述胺基酸序列與所述參考序列相比在其他胺基酸殘基處具有一個或多 個殘基差異。
13.如權利要求1所述的多肽,其中所述百分比立體異構過量為至少約90%。
14.如權利要求1所述的多肽,其中所述百分比立體異構過量為至少約99%。
15.如權利要求14所述的多肽,該多肽包含選自SEQID NO :6,8,10,12,14,16,18,20, 22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70, 72,74,76,78,80,82,84,86,88,90,92 和 94 的胺基酸序列。
16.如權利要求1所述的多肽,其中所述多肽進一步能以比具有SEQIDNO :6的序列的 酮還原酶多肽所能達到的速率更高的速率將所述底物還原為所述產物。
17.如權利要求16所述的多肽,該多肽包含選自SEQID NO :8,10,12,14,16,18,20, 22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70, 72,74,76,78,80,82,84,86,88,90,92 和 94 的胺基酸序列。
18.如權利要求4所述的多肽,其中所述多肽進一步能以比具有SEQIDNO :6的序列的 酮還原酶多肽所能達到的速率高至少約450%的速率將所述底物還原為所述產物。
19.如權利要求18所述的多肽,所述多肽包含選自SEQID NO :8,10,14,16,18,22,24, 26,28,30,32,34,36,38,40,42,44,46,54,56,58,60,62,64,66,68,70,72,74,76,78,80, 82,84,86,88,90,92和94的胺基酸序列。
20.如權利要求4所述的多肽,其中所述多肽進一步能以比具有SEQIDNO :6的序列的 酮還原酶多肽所能達到的速率高至少約1500%的速率將所述底物還原為所述產物.
21.如權利要求21所述的多肽,該多肽包含選自SEQID NO 18,32,34,36,38,40,42, 44,46,74,76,78,80,82,84,86,88,90,92 和 94 的胺基酸序列。
22.如權利要求4所述的多肽,當使用相對2',6' -二氯-3'-氟苯乙酮底物的量 按重量計小於約1 %的量的所述多肽進行時,該多肽能在不到約24小時內將至少約95%的 2' ,6' -二氯-3'-氟苯乙酮底物轉化為(S)-l-(2,6-二氯-3-氟苯基)乙醇。
23.如權利要求22所述的多肽,該多肽包含選自SEQID NO 18,32,34,36,38,40,42, 44,46,74,76,78,80,82,84,86,88,90,92 和 94 的胺基酸序列。
24.—種酮還原酶多肽,該多肽包含具有與基於SEQ ID NO :2,4或98的、在對應於X190 的殘基處為脯氨酸的參考序列的殘基90至211具有至少約85%同一性的胺基酸序列的結 構域,條件是所述酮還原酶多肽的胺基酸序列在對應於X190的殘基處為非芳族殘基。
25.如權利要求24所述的多肽,其中所述酮還原酶的結構域包含其中對應於X190的殘 基為脂肪族、非極性、受限或半胱氨酸殘基的胺基酸序列。
26.如權利要求24所述的多肽,其中所述酮還原酶的結構域包含其中對應於X190的殘 基為脯氨酸的胺基酸序列。
27.如權利要求24所述的多肽,其中所述酮還原酶多肽的結構域包含具有一種或多種 以下特點的胺基酸序列對應於X94的殘基是半胱氨酸、非極性或脂肪族殘基;對應於X95的殘基是非極性或脂肪族殘基;對應於X96的殘基是極性或酸性殘基;對應於X97的殘基是極性、非極性、脂肪族或鹼性殘基;對應於X120的殘基是芳族、非極性或脂肪族殘基;對應於X125的殘基是極性或非極性殘基;對應於X142的殘基是極性殘基,特別是絲氨酸或天冬醯胺;對應於X147的殘基是芳族、極性、非極性或脂肪族殘基;對應於X149的殘基是非極性或芳族殘基;對應於X150的殘基是受限或酸性殘基;對應於X152的殘基是非極性或極性殘基;對應於X196的殘基是脂肪族、非極性或芳族殘基;對應於X202的殘基是脂肪族、芳族或非極性殘基;對應於X205的殘基是鹼性、非極性或脂肪族殘基;對應於X206的殘基是非極性或芳族殘基;並且其中所述胺基酸序列與所述參考序列相比在對應於殘基90-211的結構域的其他氨基 酸殘基處可任選地具有一個或多個差異。
28.如權利要求24所述的多肽,其中對應於殘基90-211的所述酮還原酶多肽的結構域 包含具有一種或多種以下特點的胺基酸序列對應於X94的殘基是丙氨酸、纈氨酸或半胱氨酸;對應於X95的殘基是異亮氨酸或亮氨酸;對應於X96的殘基是絲氨酸、天冬醯胺、蘇氨酸或穀氨酸;對應於X97的殘基是賴氨酸、蘇氨酸、纈氨酸、精氨酸、甲硫氨酸或異亮氨酸;對應於X120的殘基是苯丙氨酸或纈氨酸;對應於X125的殘基是甘氨酸或絲氨酸;對應於X142的殘基是天冬醯胺;對應於X147的殘基是苯丙氨酸、亮氨酸、異亮氨酸、纈氨酸或穀氨醯胺; 對應於X149的殘基是甘氨酸或苯丙氨酸; 對應於X150的殘基是天冬氨酸或組氨酸; 對應於X152的殘基是絲氨酸、蘇氨酸或甲硫氨酸;對應於X190的殘基是丙氨酸、異亮氨酸、半胱氨酸或脯氨酸; 對應於X196的殘基是纈氨酸、異亮氨酸、甲硫氨酸、苯丙氨酸或異亮氨酸; 對應於X202的殘基是丙氨酸、色氨酸、酪氨酸或甲硫氨酸; 對應於X206的殘基是甲硫氨酸或酪氨酸;並且其中所述胺基酸序列與所述參考序列相比在對應於殘基90-211的結構域的其他氨基 酸殘基處可任選地具有一個或多個差異。
29.如權利要求24所述的多肽,其中對應於殘基90-211的所述酮還原酶多肽的結構域 包含具有一種或多種以下特點的胺基酸序列對應於X147的殘基是芳族、極性、非極性或脂肪族殘基, 對應於X202的殘基是脂肪族、芳族或非極性殘基;並且其中所述胺基酸序列與所述參考序列相比在對應於殘基90-211的結構域的其他氨基 酸殘基處可任選地具有一個或多個差異。
30.如權利要求24所述的多肽,其中對應於殘基90-211的所述酮還原酶多肽的區域包 含具有一種或多種以下特點的胺基酸序列對應於X97的殘基是極性、非極性、脂肪族或鹼性殘基 對應於X147的殘基是芳族、極性、非極性或脂肪族殘基; 對應於X202的殘基是脂肪族、芳族或非極性殘基;並且其中所述胺基酸序列與所述參考序列相比在對應於殘基90-211的結構域的其他氨基 酸殘基處可任選地具有一個或多個差異。
31.如權利要求24所述的多肽,其中對應於殘基90-211的所述酮還原酶多肽的區域包 含具有一種或多種以下特點的胺基酸序列對應於X94的殘基是半胱氨酸、非極性或脂肪族殘基;對應於X96的殘基是極性或酸性殘基;對應於X147的殘基是芳族、極性、非極性或脂肪族殘基;並且其中所述胺基酸序列與所述參考序列相比在對應於殘基90-211的結構域的其他氨基 酸殘基處可任選地具有一個或多個差異。
32.如權利要求24所述的多肽,其中對應於殘基90-211的所述酮還原酶多肽的區域包 含具有一種或多種以下特點的胺基酸序列對應於X147的殘基是芳族、極性、非極性或脂肪族殘基; 對應於X196的殘基是脂肪族、非極性或芳族殘基; 對應於X202的殘基是脂肪族、芳族或非極性殘基;並且其中所述胺基酸序列與所述參考序列相比在對應於殘基90-211的結構域的其他氨基 酸殘基處可任選地具有一個或多個差異。
33.如權利要求24所述的多肽,其中對應於殘基90-211的所述酮還原酶多肽的區域包 含具有一種或多種以下特點的胺基酸序列對應於X147的殘基是亮氨酸; 對應於X196的殘基是亮氨酸; 對應於X202的殘基是色氨酸;並且其中所述胺基酸序列與所述參考序列相比在對應於殘基90-211的結構域的其他胺基酸殘基處可任選地具有一個或多個差異。
34.如權利要求24所述的多肽,該多肽還包含具有對應於基於SEQIDN0 :2,4或98的 參考序列的殘基1-89的胺基酸序列的區域,其中對應於殘基1-89的所述區域具有以下特佔.對應於X7的殘基是芳族、非極性、極性、受限或鹼性殘基;並且 其中所述胺基酸序列與所述參考序列相比在對應於殘基1-89的結構域的其他胺基酸 殘基處可任選地具有一個或多個差異。
35.如權利要求24所述的多肽,該多肽還包含具有對應於基於SEQIDN0 :2,4或98的 參考序列的殘基1-89的胺基酸序列的區域,其中對應於殘基1-89的所述區域具有以下特佔.對應於X7的殘基是芳族、非極性、極性、受限或鹼性殘基;對應於X16的殘基是極性殘基;對應於X43的殘基是非極性或極性殘基;並且其中所述胺基酸序列與所述參考序列相比在對應於殘基1-89的結構域的其他胺基酸 殘基處可任選地具有一個或多個差異。
36.如權利要求24所述的多肽,該多肽還包含具有對應於基於SEQIDN0 :2,4或98的 參考序列的殘基1-89的胺基酸序列的區域,其中對應於殘基1-89的所述區域具有以下特佔.對應於X7的殘基是蘇氨酸、脯氨酸、色氨酸、精氨酸、組氨酸或天冬醯胺; 對應於X16的殘基是絲氨酸; 對應於X43的殘基是異亮氨酸;並且其中所述胺基酸序列與所述參考序列相比在對應於殘基1-89的結構域的其他胺基酸 殘基處可任選地具有一個或多個差異。
37.如權利要求24所述的多肽,該多肽還包含具有對應於基於SEQIDN0 :2,4或98的 參考序列的殘基1-89的胺基酸序列的區域,其中對應於殘基1-89的所述酮還原酶多肽的 區域具有以下特點對應於X7的殘基是芳族、非極性、極性、受限或鹼性殘基;對應於X16的殘基是極性殘基;對應於X43的殘基是非極性或極性殘基;對應於X60的殘基是芳族或非極性或脂肪族殘基;並且其中所述胺基酸序列與所述參考序列相比在對應於殘基1-89的結構域的其他胺基酸 殘基處可任選地具有一個或多個差異。
38.如權利要求24所述的多肽,該多肽還包含具有對應於基於SEQIDN0 :2,4或98的 參考序列的殘基1-89的胺基酸序列的區域,其中對應於殘基1-89的所述酮還原酶多肽的 區域具有以下特點對應於X7的殘基是甘氨酸、組氨酸、蘇氨酸、脯氨酸、色氨酸、精氨酸、組氨酸或天冬醯胺;對應於X16的殘基是絲氨酸; 對應於X43的殘基是異亮氨酸;對應於X60的殘基是丙氨酸;並且其中所述胺基酸序列與所述參考序列相比在對應於殘基1-89的結構域的其他胺基酸 殘基處可任選地具有一個或多個差異。
39.一種工程酮還原酶多肽,與所述工程酮還原酶多肽衍生自的野生型酮還原酶相比, 該多肽能將2',6' -二氯-3'-氟苯乙酮底物反向立體選擇性地還原為(S)-l-(2,6-二 氯-3-氟苯基)乙醇。
40.一種工程酮還原酶多肽,該多肽衍生自野生型乳桿菌酮還原酶、能將苯乙酮立體選 擇性地還原為(S)-l-苯乙醇。
41.如權利要求40所述的多肽,其中所述多肽能以至少約90%的百分比立體異構過量 將苯乙酮立體選擇性地還原為(S)-l-苯乙醇。
42.如權利要求40所述的多肽,其中所述多肽能以至少約99%的百分比立體異構過量 將苯乙酮立體選擇性地還原為(S)-l-苯乙醇。
43.如權利要求40所述的多肽,其中所述工程多肽在對應於SEQIDN0 :2或4或98的 X190的殘基處包含非芳族殘基。
44.一種多核苷酸,該多核苷酸編碼如權利要求1至43任一項所述的多肽。
45.如權利要求44所述的多核苷酸,該多核苷酸選自由SEQID NO :5,7,9,11,13,15, 17,19,21,23,25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63,65, 67,69,71,73,75,77,79,81,83,85,87,89,91 和 93 組成的組。
46.一種表達載體,該表達載體包含與適合於指引在宿主細胞中表達的至少一種控制 序列可操作地連接的如權利要求44所述的多核苷酸。
47.如權利要求46所述的表達載體,其中所述控制序列包含啟動子。
48.如權利要求47所述的表達載體,其中所述啟動子包含大腸桿菌啟動子。
49.如權利要求47所述的表達載體,其中所述控制序列包含分泌信號。
50.一種宿主細胞,該宿主細胞包含如權利要求46所述的表達載體。
51.如權利要求50所述的宿主細胞,該宿主細胞為大腸桿菌。
52.如權利要求50所述的宿主細胞,其中構成所述表達載體的密碼子已經為在宿主細 胞中表達而優化。
53.—種用於將2' ,6'-取代苯乙酮底物立體選擇性地還原為對應的取代(S)-l-苯 乙醇的方法,所述2' ,6'-取代苯乙酮底物任選地在3' ,4'和5'位置的一個或多個被 取代,該方法包括在適合於將底物立體選擇性地還原或轉化為對應的(S)_醇產物的反應 條件下,使所述底物與如權利要求1-43任一項所述的酮還原酶多肽接觸。
54.如權利要求53所述的方法,其中所述底物為2',6' -二氯-3'-氟苯乙酮,並且 所述對應的(S)_醇產物為(S)-l-(2,6-二氯-3-氟苯基)乙醇。
55.如權利要求53所述的方法,其中所述(S)-l-(2,6-二氯-3-氟苯基)乙醇以大於 99%的立體異構過量形成。
56.如權利要求53所述的方法,其中所述酮還原酶多肽包含選自SEQIDNO =6,8,10, 12,14,16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60, 62,64,66,68,70,72,74,76,78,80,82,84,86,88,90,92 和 94 的胺基酸序列。
57.如權利要求53所述的方法,其中當所述方法用至少200g/L的底物和用小於2g/L的所述多肽進行時,至少約95%的所述底物在不到24小時內被還原為所述產物。
58.如權利要求53所述的方法,該方法用表達所述酮還原酶的全細胞或此類細胞的提 取物或裂解物來進行。
59.如權利要求53所述的方法,其中所述酮還原酶是分離的和/或純化的,並且所述還 原反應在針對所述酮還原酶的輔因子和任選地針對所述輔因子的再生系統存在下進行。
60.如權利要求59所述的方法,其中所述輔因子再生系統包含葡萄糖脫氫酶和葡萄 糖;甲酸脫氫酶和甲酸;或異丙醇和仲醇脫氫酶。
61.如權利要求60所述的方法,其中所述仲醇脫氫酶是所述酮還原酶。
62.—種組合物,該組合物包含2' ,6'-取代苯乙酮和/或對應的取代(S)-l-苯乙 醇和如權利要求1所述的酮還原酶,所述2' ,6'-取代苯乙酮任選地在3' ,4'和5'位 置的一個或多個被取代。
63.如權利要求62所述的組合物,其中所述底物為式(I)的2',6'-二氯-3'-氟 苯乙酮,所述對應的取代(S)-l-苯乙醇為式(II)的(幻-1-(2,6-二氯-3-氟苯基)乙醇。
64.如權利要求62所述的組合物,該組合物還包含輔因子再生系統。
65.如權利要求64所述的組合物,其中所述輔因子再生系統包含葡萄糖脫氫酶和葡萄 糖;甲酸脫氫酶和甲酸;或異丙醇和仲醇脫氫酶。
全文摘要
本公開提供了與天然存在的野生型酮還原酶相比具有改進特性的工程酮還原酶。還提供了編碼工程酮還原酶的多核苷酸、能表達工程酮還原酶的宿主細胞和使用工程酮還原酶來合成多種手性化合物的方法。
文檔編號C12N9/04GK101855342SQ200880115770
公開日2010年10月6日 申請日期2008年9月13日 優先權日2007年9月13日
發明者古伽特·W·哈思曼, 史提芬尼·J·珍妮, 安克·克萊伯, 傑克·梁, 沙琳·奇恩, 約翰·M·格魯伯, 艾米麗·穆德弗 申請人:科德克希思公司