多樣性合成肽和多肽文庫的設計和構建的製作方法
2023-09-09 20:57:05 1
專利名稱:多樣性合成肽和多肽文庫的設計和構建的製作方法
技術領域:
本發明涉及多樣性肽和多肽文庫的設計和構建。具體而言,本發明涉及
使用多重相關參數作為過濾器的用於創建數據集的分析資料庫設計方法;還 涉及通過定向多重合成寡核普酸合成(directed multisyntheses oligonucleotide synthesis)來生成序列多樣性的方法。本發明使得人們能夠基於可個別直接限 定的單一或多重相關關鍵參數,將大型、複雜的附註釋的資料庫簡化成更簡 單的相關序列數據集。所述方法還使得人們能夠基於這種方法,使用離散和 簡併寡核香酸的多重合成群集(multisynthetic collection)來捕獲多種多樣的序 列群集或其部分,來生成多樣性文庫。
背景技術:
基於肽或多肽的藥物候選物的開發通常起始於篩選相關肽或多肽序列 的文庫。因此篩選治療性抗體候選物的第 一步通常是創建高多樣性的抗體序 列文庫。
有數種用於設計和構建多樣性抗體文庫的方法是本領域已知的。 已經有人描述了絲狀噬菌體-肽組合抗體文庫可以通過改組重鏈和輕鏈 基因來增加多樣性(Kang等,ZVoc.淑/. A^/.園,88:11120-11123, (1991)),或通過易錯聚合酶鏈式反應(PCR)向文庫引入隨機突變來增加多樣 性(Gram等,屍rac. Ato/. ^cad 89:3576-3580, (1992))。使用確定的框
架作為生成抗體文庫的基礎已經由Barbas等,屍rac. A^z" L 4 89:4457-4461 (1992)(隨機化CD3-H3); Barbas等,G匿137:57-62 (2003)(對 VK CDR3的延伸隨機化);和Hayanashi等,B/o&c/zm々z^s 17:310 (1994)(通 過重疊序列延伸和PCR對抗體CDR區進行同時誘變)描述。其它文獻報導了 CDR-H3文庫與單一 VL基因的組合(Nissim等,五MS(97: 13:692-698 (1994)), CDR-H3文庫與VL基因的限定群集的組合(De Kruif等,J. Mo/.歷o/. 248:97-105 (1995))或CDR-H3文庫與VL基因的隨機化庫(randomized repertoire)的組合(Gri伍ths等,五MS(9J 13:3245-3260(1994))。另見美國專利Nos. 5667988; 6096551; 7067284,它們描述了使用通用 或隨機化的免疫球蛋白輕鏈來產生抗體文庫的方法。
Knappik等, / Mo/.所o/. 296:57-86 (2000)描述了 一種用於設計和構建人 抗體文庫的不同構思,稱為HuCAL (Human Combinatorial Antibody Libraries; 人類組合抗體文庫)。這種方法基於這樣的發現,在免疫應答過程中被頻繁 使用的人VH和VL亞家族各自分別由一種共有框架所代表,這樣就有七個重 鏈的HuCAL共有基因和七個輕鏈的HuCAL共有基因,它們產生49種可能 的組合。所有基因均通過全合成製備,同時考慮密碼子選擇、促進蛋白質聚 集的不利殘基和所有CDR側翼的獨特及通用限制位點等因素。所述方法導 致生成包含CDR的模塊化抗體,這些CDR可按照需要轉化成不同抗體形式。 HuCAL抗體文庫的設計和合成在美國專利6300064; 6696248; 6706484;和 6828422中有描述。
儘管有這些以及其它的進展,還是非常需要用於設計和構建高多樣性 (多)肽(如抗體)文庫的新的有效方法。
發明內容
本發明涉及多樣性肽和多肽文庫的設計和構建。
在一個方面,本發明涉及用於資料庫多樣性分析的方法,所述資料庫包 含相關的胺基酸序列,所述相關的胺基酸序列以至少 一個共享的序列基序為 特徵,所述方法包括步驟
(a) 對所述相關的胺基酸序列進行比對;
(b) 通過對包含共享序列基序的相關胺基酸序列應用預定的兩個或更多 個過濾器(filter)的組合來創建第 一數據集;
(c) 分析第一數據集在共享序列基序內的位置胺基酸使用頻率(positional amino acid usage frequency); 和
(d) 創建以共享序列基序內的一個或多個胺基酸位置處的最小閾值氨基 酸使用步頁率(minimum threshold amino acid usage frequency)為特徵的第二數 據集。
在步驟(d)中,可以為共享序列基序內的任何和全部胺基酸位置指定最小
閾值胺基酸使用頻率。
在一個具體實施方案中,為共享序列基序內的大多數胺基酸位置指定最
8小閾值胺基酸使用頻率。在另一個具體實施方案中,為共享序列基序內的全 部胺基酸位置指定最小閾值胺基酸使用頻率。在多種實施方案中,為共享序 列基序內的具體胺基酸位置指定的最小閾值胺基酸使用頻率可以是相同或 不同的。
在一個進一步的實施方案中,最小閾值胺基酸使用頻率被設定為給共享
序列基序內的大部分胺基酸位置提供最小總和胺基酸使用率(minimum sum amino acid usage)。
在一個更進一步的實施方案中,最小閾值胺基酸使用頻率被設定為給所 述共享序列基序內的所有胺基酸位置提供最小總和胺基酸使用率。
可以將最小總和胺基酸使用率設定為任何期望的水平,並且在具體的實 施方案中是至少約40%,或至少約45%,或至少約50%,或至少約55%, 或至少約60%,或至少約65%,或至少約70%,或至少約75%,或至少約 80%,或至少約85%,或至少約90%。
在另 一個實施方案中,所述相關的胺基酸序列是抗體序列。
在另 一個實施方案中,所述相關的胺基酸序列包含抗體重鏈序列。
在一個進一步的實施方案中,所述相關的胺基酸序列包含抗體輕鏈序列。
如果所述相關的胺基酸序列是抗體序列,那麼共享序列基序可以是,例 如,CDR序列,諸如CDR1、 CDR2或CDR3序列。
對可用於本發明方法的步驟(b)中的過濾器的性質或數目沒有限制。在一 種具體的實施方案中,在抗體序列的情況下,預定的過濾器組合可以選自下 組(1)抗體重鏈或輕^l的同種型;(2)CDR1、 CDR2和CDR3序列中一種或 多種的長度;(3)在CDR1、 CDR2和CDR3序列中的一種或多種內的一個或 多個預定位置處一個或多個預定胺基酸殘基的存在;(4)框架類型;(5)抗體 結合的抗原;(6)抗體親和力;和(7) CDR序列之外的位置胺基酸殘基 (positional amino acid residues)。
在一個進一步的實施方案中,抗體重鏈和/或輕鏈CDR1、CDR2和CDR3 序列中的至少一個的大小是匹配的。例如,這個參數可以作為附加的過濾器 與抗體重鏈和/或輕鏈序列的同種型組合。
在多種實施方案中,位置胺基酸使用頻率是至少約3%,或至少約5%, 或至少約10%,或至少約15%;或設定在約3%至約15%,或約5%至約10%。在本發明的方法的另一個實施方案中,CDR序列內的每個胺基酸以相
同的位置胺基酸使用頻率為特徵。在一個供選擇的實施方案中,位置胺基酸
使用頻率在所述CDR序列內的至少兩個胺基酸殘基處不同。 在另一個實施方案中,預定的過濾器組合包括框架類型。 在另一個實施方案中,對抗體重鏈和輕鏈序列二者進行分析。任選地,
將抗體重鏈序列與預定的抗體輕鏈特徵配對,或將抗體輕鏈序列與預定的抗
體重鏈特徵配對。
在一個進一步的實施方案中,相關的抗體序列來自至少一種功能性抗體。
在一個更進一步的實施方案中,本發明方法步驟(b)中應用的過濾器中的 至少 一個是與功能性抗體重鏈和/或輕鏈框架序列最相似的種系序列。
所述功能性抗體可以與例如,但不限於,選自下組的多肽結合細胞表 面和可溶性受體、細胞因子、生長因子、酶;蛋白酶;和激素。因此,所述 抗體可以與細胞因子結合,所述細胞因子諸如白細胞介素,例如IL-1、 IL-2、 IL-3、 IL-4、 IL-5、 IL-6、 IL-IO、 IL-11、 IL-12、 IL-15、 IL畫17、 IL-18、 IL-23, 以及它們各自的家族成員。或者,所述細胞因子可以例如選自下組幹擾素 a、 P和y (IFN-a、-卩和-力,腫瘤壞死因子a和卩(TNF-a和-(3), TWEAK, RANKL, BLys, RANTES, MCP-1, MIP-la, MIP-1(3, SDF-l,集落刺激因子(CSF), 粒細胞集落刺激因子(G-CSF),和粒細胞巨噬細胞集落刺激因子(GMCSF)。
抗體結合的多肽也可以是生長因子,包括但不限於,神經生長因子 (NGF)、胰島素樣生長因子1 (IGF-1)、表皮生長因子(EGF)、血小板衍生生 長因子(PDGF)、血管內皮生長因子(VEGF)、胎盤生長因子(PLGF)、組織生 長因子a (TGF-a)和組織生長因子p (TGF-P)。
在另一個實施方案中,功能性抗體與半抗原結合,所述半抗原例如Dig、 Bio、 DNP或FITC。
在本發明的方法的另 一個實施方案中,相關胺基酸序列源自分泌性蛋白 或胞外蛋白家族的成員,例如其可以是細胞因子。
在一個特定的實施方案中,細胞因子是幹擾素a,並且相關胺基酸序列 是IFN-a亞型的序列。
在一個具體實施方案中,本發明進一步包括合成相關胺基酸序列的物理 文庫的步驟,所述文庫的設計是在鑑定的數據集的輔助下進行的。中,所述文庫的合成是通過生成離散的多個 確定的或簡併的寡核香酸從而僅產生確定的胺基酸來實現的。
在一個進一步的實施方案中,產生的物理文庫的多樣性超過作為被鑑定
的數據集的物理表示(physical presentation)的文庫的多樣性。這可能是例如下 述事實所致的結果,即至少一個不滿足最小閾值胺基酸使用頻率的胺基酸也 被合成以提供所述多樣性。
在一個更進一步的實施方案中,產生的物理文庫的多樣性低於作為鑑定 的數據集的物理表示的文庫的多樣性。這可能是例如下述事實所致的結果, 即並非所有滿足最'J 、鬮值胺基酸使用頻率的胺基酸都被合成。
在另一個實施方案中,數據集包含抗體重鏈和/或輕鏈序列,其可以包括 一個或多個CDR。
在另一個實施方案中,所述CDR被克隆到框架序列支架中,任選地, 所述框架序列可以是包含所述CDR的資料庫中使用最頻繁的框架序列。
可以使用任何表達系統來表達所述物理文庫,包括所有原核和真核表達 系統。
在一個特定的實施方案中,使用噬菌粒展示、mRNA展示、微生物細胞 展示、哺乳動物細胞展示、孩O朱展示才支術(microbead display technique)、抗體 陣列或基於蛋白質-DNA關聯的展示(display based on protein-DNA linkage)來 表達並展示所述物理文庫。
在本發明的另一個實施方案中,對文庫篩選其成員的一種或多種化學和 /或生物學性質。這些性質可以包括,但不限於,半衰期、效價(potency)、效 力(e伍cacy)、結合親和力和免疫原性。
在另一個實施方案中,將胺基酸側鏈多樣性引入文庫成員的一個或多個 胺基酸位置處。
在一個具體的實施方案中,所述胺基酸側鏈多樣性通過在所述一個或多
個胺基酸位置提供具有至少兩種不同側鏈化學官能性(side chain chemical functionalities)的胺基酸殘基來引入。
在其它實施方案中,在每個胺基酸位置處呈現全部胺基酸化學的至少 30%,或至少50%,或至少55%,或至少60%。
優選地,所述胺基酸側鏈多樣性是通過使用組合式簡併寡核苦酸合成來 引入的。
ii在另一個方面,本發明涉及一種產生肽或多肽序列組合文庫的方法,包 括使用組合寡核香酸合成來將胺基酸側鏈化學多樣性引入肽或多肽序列的 兩個或更多個胺基酸位置。
在一個實施方案中,胺基酸側鏈化學多樣性被設計為模擬在所述肽或多 肽序列中天然存在的多樣性。
所述文庫可以是任何類型的文庫,包括,但不限於抗體文庫。 在一個特定的實施方案中,抗體文庫包含抗體重鏈可變域序列。 在另一個實施方案中,文庫包含抗體輕鏈可變域序列。 在另一個實施方案中,文庫是組合單鏈可變區片段(scFv)文庫。
在一個進一步的實施方案中,抗體文庫是Fab、 Fab'或F(ab')2片段的文庫。
附圖簡述
圖1是對多樣性人抗體文庫的設計和構建中代表性步驟的總結。 圖2: VKCDR1、 2和3的頻率分析;按照位置測定的絕對使用率。 圖3: VJ輕鏈閾值分析。不報告低於10%使用率的單獨胺基酸。 圖4: VKl輕鏈閾值分析。不報告低於5。/。使用率的單獨胺基酸。 圖5:合成輕鏈CDR1多樣性。
圖6: VH3重鏈合成文庫閾值分析;長度10個殘基。為每個胺基酸位置 單獨設定3%-10%的閾值百分比使用率。
圖7:用於合成如圖6中所示設計的文庫的寡核苷酸。
圖8:確定有效的(productive)抗TNF-a抗體重鏈的種系來源。
圖9:說明有效的(productive)抗TNP-a抗體重鏈種系來源的樹形比對圖。
圖10:確定有效的(productive)抗TNF-a抗體輕鏈的種系來源。
圖11:說明有效的(productive)抗TNF-a抗體輕鏈種系來源的樹形比對圖。
圖12: VK1輕鏈合成文庫多樣性。
圖13: VH3 CDR1和CDR2的頻率分析。
圖14: CDR1和CDR2閾值分析——第一部分。
圖15: CDR1和CDR2閾值分析——第二部分。
圖16: VH3重鏈合成文庫多樣性。圖17:基於抗洋地黃毒苷抗體D2E7設計VH3重鏈合成文庫多樣性。
圖18:抗洋地黃毒苦抗體Ig人輕鏈可變區和重鏈可變區序列。
圖19:確定抗洋地黃毒香抗體重鏈和輕鏈的種系來源。
圖20:對人長度匹配的QJ框架進行的半抗原分析。
圖21:對H3-長度8胺基酸進行的半抗原分析。
圖22: IFN-a亞型的胺基酸殘基32-38的比對。
圖23:編碼期望的IFN-ot多樣性的寡核苦酸設計。
圖24:按照側鏈化學分類的胺基酸。
圖25:編碼具有化學探針的(chemicallyprobed)多樣性位置。 圖26:包含具有化學探針的多樣性的CDR3。 圖27:使用化學4笨針集編碼CDR3重鏈多樣性。
發明詳述 A.
除非另有定義,本文使用的科技術語與本發明所屬技術領域普通技術人 員一般理解的意思相同。Singleton等,D/c"o"ao; o/ M/cra6/o/ogy朋d Mo/ecw/ar所o/ogv 2nd ed" J. Wiley & Sons (New York, NY 1994)為本領域技 術人員提供了關於本申請中使用的許多術語的綜合指導。
本領域技術人員將意識到許多與本文描述的那些方法和材料類似或等 效的方法和材料能夠用於實施本發明。事實上,本發明決不限於描述的方法 和材料。就本發明而言,在下文定義以下術語。
短語"共享序列基序(shared sequence motif)"按照最廣的含義用於本文, 用於表示在兩個或更多個肽或多肽序列之間共有的胺基酸殘基模式(pattern of amino acid residues)。序列基序可以通過多種模式發現算法(pattern discovery algorithm)輕易地鑑定,例如在本發明的詳述中討論的那些算法。
在本發明的上下文中,術語"抗體"(Ab)按照最廣的含義使用,包括對 特定抗原展現結合特異性的免疫球蛋白以及缺乏抗原特異性的免疫球蛋白 和其它抗體樣分子。例如,後一種類型的多肽被淋巴系統以低水平產生,而 -波骨髓瘤以增加的水平產生。在本申請中,術語"抗體,,具體涵蓋,但不限 於,單克隆抗體、多克隆抗體和抗體片段。
"天然抗體"通常是大約150000道爾頓的異四聚體糖蛋白,由兩個相同的輕鏈(L)和兩個相同的重鏈(H)構成。每條輕鏈通過共價二硫鍵與重鏈連 接,而不同免疫球蛋白同種型的重鏈之間的二硫鍵數目不同。每條重鏈和每 條輕鏈還具有規則間隔排列的鏈間二硫橋。每條重鏈在一端具有一個可變域
(VH),其後為多個恆定域。每條輕鏈在一端具有一可變域(vo,在其另一端 具有一恆定域;輕鏈的恆定域與重鏈的第一恆定域並列,輕鏈的可變域與重
鏈的可變域並列。認為特定胺基酸殘基在輕鏈和重鏈可變域之間形成一界
面,Chothia等,J Mo/, Ao/. 186:651 (1985);Novotny和Haber,屍rac. 7Va"爿cad 5W. 82:4592(1985)。
就抗體鏈而言,術語"可變的"用於指抗體鏈中在抗體之間存在廣泛序 列差異的部分,並且該部分參與每種特定抗體與其特定抗原的結合和特異 性。這種可變性集中在輕鏈和重鏈可變域中稱為超變區的三個區段。可變域 中更加高度保守的部分稱為框架區(FR)。天然重鏈和輕鏈的可變域各包含四 個FR (分別為FR1、 FR2、 FR3和FR4),主要採用由三個超變區連接的(3-摺疊構型,這三個超變區形成連接(3-摺疊結構且在某些情況下形成(3-摺疊結 構的一部分的環。每條鏈中的超變區通過FR緊密結合,並且與來自另一條 鏈的超變區一起對抗體的抗原結合部位的形成起貢獻(參見Kabat等, 5^wewc&s c^/"/Voto'ra o//wmwwo/ogz'ca/ /"fem^, 5th Ed. Public Health Service, National Institutes of Health, Bethesda, Md. (1991),第647-669頁)。恆定域不直 接參與抗體與抗原的結合,但顯示多種效應器功能(effector ftmctions),諸如 抗體對抗體依賴性細胞毒性的參與。
術語"超變區"當用於本文時指抗體中負責抗原結合的胺基酸殘基。超 變區包含來自"互補決定區"或"CDR"的胺基酸殘基(即,輕鏈可變域中的殘 基30-36 (Ll)、 46-55 (L2)和86-96 (L3)和重鏈可變域中的30-35 (Hl)、 47-58 (H2)和93-101 (H3); MacCallum等,/Mo/Ao/. 1996)。
術語"框架區"指抗體可變區中本領域公認的、存在於變異性更高的 CDR區之間的部分。這些框架區通常被稱為框架1 -4 (FR 1 、 FR2 、 FR3和FR4), 並且在三維空間中為重鏈和輕鏈抗體可變區中存在的三個CDR的結合提供 支架,從而使這些CDR能夠形成抗原結合表面。
依賴於它們重鏈恆定域的胺基酸序列,抗體可分為不同種類。主要有五 種抗體IgA、 IgD、 IgE、 IgG和IgM,而這些中的幾種可以進一步分成亞 類(同種型),例如,IgGl、 IgG2、 IgG3、 IgG4、 IgA和IgA2。對應於不同種類免疫球蛋白的重鏈恆定域分別稱為a、 S、 £、 Y和P。 來自任何脊推動物物種的抗體的"輕鏈"可以基於它們恆定域的胺基酸
序列歸於兩種明顯不同的類型之一,這兩種類型稱為kappa (k)和lambda (人)。 "抗體片段"包含全長抗體的一部分,通常是抗體的抗原結合域或可變 域。抗體片段的實例包括,但不限於,Fab、 Fab'、 F(ab')2、 Dab和Fv片段、 線性抗體、單鏈抗體分子、雙抗體和從抗體片段形成的多特異性抗體。
術語"單克隆抗體"用於指單個B細胞克隆所合成的抗體分子。修飾語 "單克隆,,表示抗體的這樣的性質,即它是從基本上均一的(homogeneous) 抗體群體獲得的,而不應解釋為要求通過任何特定方法來產生所述抗體。因 此,單克隆抗體可以通過由Kohler和Milstein, Mm^e 256:495 (1975); / /mw,o/. 6:511 (1976)首先描述的雜交瘤法製備,通過重組DNA技術製備, 或者也可以A^噬菌體抗體文庫分離。
術語"多克隆抗體"用於指由B細胞群體合成的抗體分子群體。 "單鏈Fv"或"sFv"抗體片段包含抗體的Vh和Vi結構域,其中這些結 構域存在於一個多肽單鏈中。概括而言,Fv多肽進一步包含Vh和V^結構 域之間的多肽接頭,其使得sFv能夠形成用於抗原結合的理想結構。關於sFv 的綜述參見Pliickthun in T7ze屍/zmvwaco/ogy o/j\^o"oc/cwa/ Jw/777<%//es, 第113 巻Rosenburg和Moore編,Springer-Verlag, New York,第269-315頁(1994)。 單鏈抗體記載在例如WO 88/06630和WO 92/01047中。
如用於本文,術語"抗體結合區"指能與抗原結合的免疫球蛋白或抗體 可變區的一個或多個部分。通常而言,抗體結合區是例如抗體輕鏈(VL)(或 其可變區),抗體重鏈(VH)(或其可變區),重鏈Fd區,抗體輕鏈和重鏈(或它 們的可變區)的組合諸如Fab、 F(ab,)2,單結構域,或單鏈抗體(scFv),或全 長抗體,例如IgG(例如IgGl、 IgG2、 IgG3或IgG4亞型)、IgAl、 IgA2、 IgD、 IgE或IgM抗體。
術語"閾值出現頻率(threshold frequency of occurrence)"指本發明的一 個標準,其要求本文文庫中選用的序列衍生自已被確定為受到表達偏愛的 (favored to be expressed)序列。依賴於最終目的,諸如需要的多樣性程度、期 望的文庫大小,"閾值出現頻率"可以設定為不同水平。
術語"胺基酸"或"胺基酸殘基"通常指具有本領域公認的定義的氨基 酸,諸如選自下組的胺基酸丙氨酸(Ala);精氨酸(Arg);天冬醯胺(Asn);
15天冬氨酸(Asp);半胱氨酸(Cys);穀氨醯胺(Gln);穀氨酸(Glu);甘氨酸(Gly); 組氨酸(His);異亮氨酸(Ile);亮氨酸(Leu);賴氨酸(Lys);曱硫氨酸(Met); 苯丙氨酸(Phe);脯氨酸(Pro);絲氨酸(Ser);蘇氨酸(Thr);色氨酸(Trp);酪 氨酸(Tyr);和纈氨酸(Val);但如有需要也可以使用經修飾的、合成的或罕見 的胺基酸。因此,將37CFR 1.822(b)(4)中列出的經修飾的和不常用的胺基酸 具體地包括在本定義中,並且明確地通過引用併入它們。可將胺基酸細分為 多個亞組。因此,可將胺基酸分為具有非極性側鏈的組(例如,Ala、 Cys、 Ile、 Leu、 Met、 Phe、 Pro、 Val);具有帶負電的側鏈的組(例如,Asp、 Glu); 具有帶正電的側鏈的組(例如,Arg、 His、 Lys);或具有不帶電的極性側鏈的 組(例如,Asn、 Cys、 Gln、 Gly、 His、 Met、 Phe、 Ser、 Thr、 Trp和Tyr)。 胺基酸也可以分成小胺基酸組(Gly、 Ala),親核胺基酸組(Ser、 His、 Thr、 Cys), 疏水胺基酸組(Val、 Leu、 Ile、 Met、 Pro),芳族胺基酸組(Phe、 Tyr、 Trp、 Asp、 Glu),醯胺組(Asp、 Glu),和鹼性胺基酸組(Lys、 Arg)(參見,圖25)。
術語"保守胺基酸殘基"指對於在兩個或更多個被比較的胺基酸序列中 的給定殘基位置而言,確定為以高頻率出現的某種胺基酸殘基,所述頻率通 常為至少50%或更高(例如,約60%、 70%、 80%、 90%、 95%或更高)。
術語"半保守胺基酸殘基"指被確定為對於給定殘基位置而言,在所比 較的兩個或更多個胺基酸序列之間以高頻率出現的多種胺基酸殘基(amino acid residues determined to occur with a high frequency between two or more amino acid sequences compared for a given residue position)。 當2-3種殘基(特 別是2種殘基)合起來的出現頻率為約40%機率或更高的頻率(例如,50%、 60%、 70%、 80%、 90%或更高)時,將所述殘基確定為半保守的。
術語"可變胺基酸殘基"指被確定為對於給定殘基位置而言,在所比較 的兩個或更多個序列之間以可變的頻率出現的多種胺基酸殘基(amino acid residues determined to occur with a variable frequency between two or more amino acid sequences compared for a given residue position)。 當在給定位置處 出現許多殘基時,將該殘基位置確定為可變的。
術語"可變性譜(variability profile)"指對多肽序列內(例如抗體的CDR 內)特定胺基酸位置上存在的胺基酸和它們各自的出現頻率所做的編錄 (cataloguing)。
術語"多核香酸"指核酸如DNA分子和RNA分子和它們的類似物(analog)(例如,使用核芬酸類似物或使用核酸化學產生的DNA或RNA)。如果希望,
所述多核苷酸可以以合成方法製備,例如,使用本領域公認的核酸化學或酶 促方法(使用例如聚合酶),並且如果希望的話對其進行修飾。典型的修飾包 括曱基化、生物素化和其它本領域已知的修飾。此外,核酸分子可以是單鏈 或雙鏈的,並且在希望的情況下與可檢測的部分相連接。
除非另有指定,術語"誘變"指任何本領域公認的用於改變多核苷酸或
多肽序列的技術。優選的誘變類型包括易錯PCR誘變、飽和誘變(saturation mutagenesis)或其它定點i秀變。
術語"栽體"用於指這樣的rDNA分子,其能夠在細胞中自主複製,並 且可以與DNA區段(例如基因或多核苷酸)可操作地連接,從而引起該附接 區段的複製。能夠指導編碼一種或多種多肽的基因表達的載體在本文稱為 "表達載體',。
術語"引物",用於本文時,指這樣的多核苷酸,其或是從核酸限制消 化反應純化的,或是合成產生的,當其處於與核酸鏈互補的引物延伸產物的 合成受到誘導的條件下時,能起到核酸合成起始點的作用。這些條件可以包 括在合適的溫度和pH下核苷酸和DNA聚合酶、逆轉錄酶等的存在。所述 引物優選是單鏈的,但是也可以是雙鏈形式的。引物必須長到足以在用於聚 合的作用劑的存在下引發衍生產物的合成。引物的確切長度將依賴於許多因 素,包括靶序列的複雜度、溫度和引物的來源。引物通常含有約15至約25 個核苷酸,但是也可以使用更短或更長的引物。較短的引物通常需要較低的 溫度來與模板形成穩定的複合物。
"噬菌體展示文庫"是一種蛋白質表達文庫,其將克隆的蛋白質序列的 群集表達為與噬菌體外殼蛋白的融合物。因此,短語"噬菌體展示文庫"在 本文指噬菌體(例如,絲狀噬菌體)的群集,其中所述噬菌體表達外來的(通常 為異源的)蛋白。外來蛋白可自由地與噬菌體所接觸的其它部分(moiety)相互 作用(結合)。每個展示外來蛋白的噬菌體都是所述噬菌體文庫中的一個"成 貝。
"抗體噬菌體展示文庫"指展示抗體或抗體片段的噬菌體展示文庫。抗 體文庫包括噬菌體群體或編碼這樣的噬菌體群體的載體群集,或含有這樣的 噬菌體或載體群集的細胞。文庫可以是單價的,平均每個噬菌體顆粒展示一 個單鏈抗體或抗體片段,或者可以是多價的,平均每個病毒顆粒展示兩個或更多個抗體或抗體片段。術語"抗體片段"包括,但不限於,單鏈Fv(scFv) 片段和Fab片段。優選的抗體文庫平均包含超過106,或超過107,或超過 108,或超過109個不同的成員。
術語"絲狀噬菌體"指能夠在其表面上展示異源多肽的病毒顆粒,包括, 但不限於,fl、 fd、 Pfl和M13。絲狀噬菌體可以包含選擇性標記,諸如四 環素(例如,"fd-tet")。多種絲狀噬菌體展示系統是本領域技術人員所熟知的 (參見,例如,Zacher等,Gene 9: 127-140 (1980); Smith等,Science 228: 1315-1317 (1985);和Parmley和Smith Gene 73: 305-318 (1988》。
術語"淘選(paniiing)"用於指在對攜帶與靶物具有高親和力和特異性的 化合物(諸如抗體)的噬菌體的鑑定和分離中的多輪篩選過程。B.
用於實施本發明方法的技術是本領域熟知的,並且在標準實驗室手冊, 包4舌例3口 Ausubel等,Current Protocols of Molecular Biology, John Wiley and Sons (1997); Molecular Cloning: A Laboratory Manual, Third Edition, J. Sambrook and D. W. Russell編,Cold Spring Harbor, New York, USA, Cold Spring Harbor Laboratory Press, 2001; O'Brian等,Antibody Phage Display, Methods and Protocols, Humana Press, 2001; Phage Display: A Laboratory Manual, C.R Barbas III等編,Cold Spring Harbor, New York, USA, Cold Spring Harbor Laboratory Press, 2001; 和Antibodies, G. Subramanian編,Kluwer Academic, 2004中有記載。例如,誘變可以使用定點誘變進行(Kunkel等, Proc. Natl. Acad. Sci USA 82:488-492 (1985))。 PCR擴增方法在美國專利 4683192、 4683202、 4800159和4965188,和幾種教科書包括"PCR Technology: Principles and Applications for DNA Amplification", H. Erlich編,Stockton Press: New York (1989);禾口"PCR Protocols: A Guide to Methods and Applications", Innis等編,Academic Press, San Diego, Calif. (1990)中描述。
關於使用Kabat資料庫和Kabat規程進行的抗體序列分析的信息可以在 例^口 Johnson等,The Kabat database and a bioinformatics example, A/e^zcxis Mo/ 2004;248:11-25;和Johnson等,Preferred CDRH3 lengths for
antibodies with defined specificities, /"f/wmi/wo/. 1998, Dec;10(12):1801-5中找 到。關於使用Chothia規程進行的抗體序列分析的信息可以在例如Chothia 等,Structural determinants in the sequences of immunoglobin variable domain, / Mo/所o/. 1998 May l;278(2):457-79; Morea等,Antibody structure, prediction and redesign, 5z.o; /z;^ CTzew. 1997; 68(l-3):9-16.; Morea等,Conformations of 'the third hypervariable region in the VH domain of immunoglobins; / A/b/ ^/o/. 1998, 275(2):269-94; Al-Lazikani等,Standard conformations for the canonical structures of immunoglobins, / Mo/編.1997, 273(4):927-48. Barre等, Structural conservation of hypervariable regions in immunoglobins evolution, Nat Struct Biol. 1994, l(12):915-20; Chothia等,Structural repertoire of the human VH segments, / Mo/ B/o/: 1992, 227(3):799畫817 Conformations of immunoglobin hypervariables, Nature. 1989, 342(6252):877-83; 和Chothia等, Review Canonical structures for the hypervariables of immunoglobins, J" Mo/ 脂.1987, 196(4):901-17)中找到。
1. /" w7/co多樣性(多)肽文庫設計
根據本發明,多樣性(多)肽文庫的設計首先是使用相關感興趣(多)肽序 列的資料庫,以及,典型地,鑑定由文庫中各個成員所共享的序列基序。多 種用於鑑定多肽中序列基序的電腦程式是本領域熟知的,並可在線使用。 因此,例如,序列基序可以使用ELPH(—種用於在一組DNA或蛋白質序列 中查找基序的通用型Gibbs採樣器),MEME (多重EM基序引出(Multiple EM for Motif Elicitation)系統,可用來在多組相關DNA或蛋白質序列中發現高度 保守區);PPSEARCH (可用於在PROSITE資料庫(EBI)中搜索序列的基序或 功能模式);emotif (—種研究系統,其針對被比對序列的子集形成基序,並 且通過基序的特異性和其覆蓋的供給序列的數目二者來對其所找到的基序 進行評級(Stanford Bioinformatics Group));等來鑑定。
在接下來的步驟中,將鑑定出的一個或多個序列基序相互進行比對,並 把它們細分成不同的數據集,每個數據集的特徵在於共享預定的參數組合, 其中所述參數是一個或多個被比對的序列基序的特徵參數。例如,這樣的參 數可以是長度、特定序列基序所屬的亞家族、該序列來源的物種、生物學功 能等。然後,對於以給定的兩種或更多種參數的組合為特徵的數據集進行逐 位胺基酸使用頻率分析,從而鑑定數據集內單獨的胺基酸序列段(stretche)中的關鍵胺基酸使用率。
序列基序的比對可以以本領域技術範圍內的多種方式實現,例如通過j吏
用公眾可以獲得的計算機軟體如BLAST、 BLAST-2、 ALIGN或Megalign (DNASTAR)軟體。本領域技術人員能夠確定用於測量比對的適當參數,包 括在被比較的序列的全長範圍內實現最大比對所需的任何算法。
胺基酸使用頻率的確定可以基於數據集全部成員中給定位置(保守氨基 酸殘基)上的高度同一性(通常為至少50%)的出現,優選完全同一性的出現; 或者基於就給定的殘基位置而言某種胺基酸殘基在數據集的兩個或更多個 成員(優選大多數成員)中的出現。然後可以創建以一種或多種附加參數為特 徵的附加數據集,所述附加數據集無需全部與序列相關。
例如,如果目的是設計多樣性抗體文庫,可以使用預定參數的獨特組合 (過濾器)來分析Kabat資料庫(一種含有非冗餘重排抗體序列的電子資料庫) 中存在的抗體重鏈和輕鏈CDR序列的位置頻率。Kabat資料庫含有在提交時 進行了注釋的抗體蛋白序列。可以將來自Kabat資料庫的信息導入到可方便 地應用過濾器的其它環境下,例如,Microsoft Access資料庫,並且可以將 結果制表並使用任何其它軟體(包括,例如Excel)進一步分析。
本發明的方法允許使用很多種(a wide array of)參數(過濾器)和參數(過濾 器)組合來同時過濾抗體重鏈和輕鏈序列。因此,針對特定重鏈的多樣性數 據集的生成可以與所選擇的輕鏈限制條件聯繫起來。例如,用於抗體重鏈 CDR序列分析的過濾器可以包括以下的一種或多種(1 )與特定輕鏈類型(例 如kappa (k)或lambda (X))的配對;(2) CDR大小(例如CDR1=6個殘基;CDR2 =13個殘基);和(3) CDR3亞家族(例如VHl相對於VH3)。在輕《逸中,全部 CDR都可以是大小匹配的。例如,可以預先決定CDRl-7個,CDR240個, CDR3=8個胺基酸殘基。此外/或者,可以基於輕鏈亞家族的類型(例如Kl或 k3亞家族)來對輕鏈進行過濾(細分)。
因此,例如,重鏈多樣性分析可以基於與K輕鏈的配對來進行,但是也 可進一步將所述分析限制到與VK3亞家族輕鏈配對的那些重鏈序列,或限制 到具有長度為8個胺基酸的CDR3的輕鏈,或它們的組合。
用於抗體重鏈和/或輕4連的共變分析(covariant analysis)的附加過濾器可 以包括,但不限於,同種型、抗原類型、親和力和/或與CDR或抗體鏈類型 或亞型不相關的位置殘基。此外,本發明使得基於"有效的"(productive)重鏈和輕鏈配對來設計主 題文庫(themedlibraries)成為可能。由此能夠對抗相同抗原的多種抗體,包括 商業抗體,進行多樣性分析來鑑定最有可能在人類治療中成功的抗體。
如果目標是設計主題抗體文庫(themed antibody library),那麼基於有效性 的重鏈和輕鏈配對,針對所選擇的抗原選擇一種或多種有效的(productive) (例如商品化的)抗體。然後,確定重鏈和輕鏈二者的種系來源(germline or^in),並且對相同類型的重鏈和輕鏈CDR序列(例如VH3, VJ)施以上述 類型的多變量分析以創建多樣性數據集。優選地,所述分析應該僅基於大小 匹配的CDR來進行。
在本發明的方法中,在比對和應用過濾器之後進行位置分析,以確定先 前創建的數據集內的單獨胺基酸或胺基酸組的位置頻率,並且生成多樣性數 據集,例如CDR多樣性數據集。在針對每個感興趣的胺基酸位置確定了絕 對位置胺基酸使用率之後,可以降低胺基酸的百分比使用率及總和使用率的 閾值,以適用於更大的多樣性覆蓋率。因此,例如,需要的總覆蓋率可以設 定為高於80%,且不呈現低於10。/。的單獨胺基酸(with no individual amino acid being represented below 10%)。
& w7/co建模以使用來自任何相關來源的附加建模信息持續更新,例如,
來自基因和蛋白質序列和三維資料庫和/或先前測試的多肽(例如抗體)的結
果,從而使& w7/co資料庫在其預測能力方面變得更加精確。
此外, 7/co子集可以用生物學測定的結果來加以補充,例如,結合
親和力(affmity)/親合力(avidity)結果,先前測定的抗體的生物學活性。這樣,
可以將結構特徵與在期待用途上的預期性能更加緊密地關聯起來。
設計CDR多樣性數據集之後合成提供所需多樣性的組合(簡併)寡核苷
酸序列的群集,並且將所述群集克隆至合適的模板背景上。
2.溝建多存'/W多j應X岸
在如上所述創建組合位置多樣性數據集之後,可以通過多重合成寡核香 酸合成(multisyntheses oligonucleotide synthesis)生成物理組合多樣性集合 (physical combinatorial diversity sets)。才艮據本發明,不4吏用誘變密碼或混合 密碼子三聚體,取而代之的是生成離散的筒並寡核芬酸群集(discrete degenerate oligonucleotide collections),可將所述群集定量i也卩艮縮(restrict)或方丈寬(relax)以物理地呈現(physically represent)通過前述分析和設計而產生的組 合多樣性集合。放寬標準有助於通過合成較少的寡核苷酸探針來捕獲期望的 多樣性,或者,如果克隆群集的能力超過了通過多樣性分析生成的預測群集, 有助於合理地放大多樣性集合。此外,物理組合多樣性集合可以包括虛擬多 樣性集合(virtual diversity sets)中不存在的副產物,同時具有或不具有附加規 則集(additional rule sets)。這種方法在組合抗體文庫生成領域中幫助最大,但 是也可以合理地延伸至其它適合的應用中,例如生成各種多肽類型的文庫 (例如生長因子文庫)等。重要的是應注意所述物理文庫不是必須要求含有在 任何給定位置上包含通過如上所述設定閾值百分比使用率而筌定的所有氨 基酸的成員(members comprising all amino acids at any given position that were identified by setting the threshold percentage usage as described above)。 出於多 種理由,例如為了降低需要的寡核苷酸的數目,在某個給定位置上省略特定 的胺基酸可能是有利的。或者/並且,可以通過合成在給定位置上具有不滿足 預定閾值頻率使用率的胺基酸殘基的成員,來增加文庫的覆蓋率和多樣性。 所述兩種方法可以結合起來,即可以省略& w7/co多樣性數據集中存在的特 定胺基酸殘基,同時可以加入未呈現於w7/co多樣性數據集中的給定位置 上的胺基酸殘基。
創建本文的肽或多肽文庫的第 一步是對胺基酸群集進行反向翻譯,以進 行多重合成(multiplexed synthesis)來含有完整的位置群集(positional collection)。反向翻譯工具是本領域熟知且可通過商業途徑獲得的。例如,基 於Java的逆向翻譯工具Entelechon (DE)使用適合的密碼子用法將蛋白質翻 譯成核苷酸序列,並且容許針對在特定生物中的表達來優化序列。在優選的 實施方案中,本發明的方法採用自動反向翻譯算法,該算法能夠合成離散且 簡併的寡核苦酸集合來呈現通過/" w7/co分析創建的多樣性表。這種算法可 包括或排除特定密碼子,並且甚至可包含非等摩爾簡併度,從而不僅更精確 地實現數據集的多樣性,還更精確地實現相對分布。
需要的寡核苷酸的數目可以通過選擇簡併鹼基以每次同時編碼多於一 種常用胺基酸來加以限制。此外,可以限制這樣的簡併鹼基來避免感興趣的 物種的罕用密碼子。例如,如果在大腸桿菌中合成所述群集,可以在反向翻 譯中限制使用大腸桿菌罕用的精氨酸密碼子用法。此外,已知不是所有的氨 基酸均以相同的頻率被使用。因此,可以使用非等摩爾混合物來更精確地反映虛擬O w7/co)多樣性表的概貌(profile)。
當位置多樣性需要合成過多的寡核苷酸時,可以使用化學探針群集來任 意地限定多樣性。因此,可以將胺基酸側鏈化學捕獲(capture)在胺基酸子集 內,例如小胺基酸、疏水胺基酸、芳族胺基酸、鹼性胺基酸、酸性胺基酸、 醯胺類胺基酸、親核胺基酸等胺基酸可構成這些子集。正如實施例將會闡述 的,這種帶化學探針的(chemically probed)多樣性位置可使用比其它方式所需 數目少得多的寡核苷酸來合成。具有化學探針的多樣性(chemically probed diversity)覆蓋大部分天然存在的多樣性,並且提供廣泛的相互作用化學。
當構建本發明的多樣性抗體文庫時,可以按照期望向抗體序列(例如 CDR)中引入經修飾的胺基酸殘基,例如大多數多肽中使用的20種傳統氨基 酸之外的殘基(例如,高半胱氨酸)。這可以使用本領域公認的技術來進行, 所述技術通常將終止密碼子摻入多核苷酸中希望存在修飾的胺基酸殘基處。 該技術隨後提供修飾的tRNA (所謂的阻抑tRNA (suppressor RNA),例如琥 珀、乳白或赭石終止密碼子的阻抑tRNA),該tRNA連接著待4參入所述多肽 的修飾胺基酸(參見,例如,K6hrer等,iW必,98, 14310-14315 (2001 ))。
在優選的實施方案中,上述步驟中的一步或多步是由計算機輔助的。在 具體的實施方案中,計算機輔助的步驟包括,例如,挖掘Kabat資料庫,以 及任選地,將結果相對於Vbase序歹寸目錄(Tomlinson, I M.等,.VBASE Sequence Directory. Cambridge, U.K.: MRC Centre for Protein Engineering; 1995)進行相 互參照。本發明的方法適用於高通量方法,所述高通量方法包含執行多個步 驟的軟體(例如,計算機可讀的指令)和硬體(例如,計算機、機器人和晶片)。
用於生成本文的文庫的寡核苷酸可以通過已知用於DNA合成的方法來 合成。已知的合成方法包括亞磷醯胺化學法(Beaucage 和 Caruthers, T^ra/^dra"22(20):1859 1862 (1981)),其允許有效的寡核苷酸(oligo) 製備,特別是最常見的40 80 bp大小範圍的寡核苷酸,其中使用自動合成儀, 如例如Needham-VanDevanter等A^c/e/c爿c/cfe i 仏,12:61596168 (1984)中所 述。此外,寡核苦酸可以通過本領域熟知的三酯、亞磷酸酯和H-膦酸酯方 法。關於寡核苷酸合成方法的綜述,參見,例如"Oligonucleotide Synthesis: A Practical Approach", ed. M. J. Gait, JRL Press, New York, N.Y. (1990)。寡核苷酸 也可以從多種商業來源訂購,例如,The Midland Certified Reagent Company (Midland, TX)、 The Great American Gene Company (Salt Lake City, UT),ExpressGen Inc. (Chicago, IL)、 Operon Technologies Inc. (Alameda, Calif.)。
如果文庫是抗體文庫,在接下來的步驟中,將多樣性克隆到框架中以產 生多樣性抗體文庫。
框架支架(framework scaffold)可以通過本領域熟知的方法來選擇。因此, 可以選擇資料庫中最經常使用的框架用作支架,並且將多樣性克隆到種系框 架中。對於框架序列的選擇,將確定為響應於特定抗原而表達的所有可用框 架支架的子集排成陣列(arrayed)。通過確定在自然條件下(in nature)響應於給 定的抗原類別表達頻率最高的框架,選擇合適的框架受體。例如,為了確定 響應於蛋白質抗原而表達的優選受體框架,在Kabat資料庫搜索"定向於蛋 白質的(protein-directed)"框架。如果需要優選的受體序列來呈現(present)針 對不同的抗原類別的CDR和/或特定物種的受體序列,則相應地/沒置Kabat 蛋白序列過濾器。因此,為了確定作為針對蛋白質靶物的人用治療劑使用的 序列,將過濾器設置為僅集中針對識別蛋白質/肽抗原的人抗體序列。這大大 降低了數據集中的冗餘和可能使結果產生偏差的序列信息。對於VH、 Vk和/ 或V^基因可以按照類似方式進行這種分析。
可以將多樣性群集摻入靶特異性受體以生成變體群集,用於抗體工程。 生成的CDR多樣性可以通過本領域已知的方法諸如聚合酶鏈式反應 (PCR)摻入框架區。例如,可以使用寡核苷酸作為延伸用引物。在這種方法 中,編碼對應於確定區域如CDR (或其部分)的誘變盒(mutagenic cassette)的 寡核苷酸彼此互補,並且使用聚合酶(例如Taq聚合酶)能夠將它們延伸形成 大的基因盒(例如,scFv)。
在另一種方法中,設計部分重疊的寡核苷酸。內部寡核苷酸與它們的互 補鏈退火產生雙鏈DNA分子,這樣分子具有單鏈延伸,可用於進一步退火。 其後可以將退火後的配對混合在一起,利用PCR進行延伸並且連接形成全 長雙鏈分子。可以在合成基因的末端附近設計方便的限制位點用於克隆入合 適載體中。在這種方法中,也可以直接引入簡併核苷酸來替代所述寡核苷酸 之一。在引物延伸反應過程中,通過由聚合酶輔助的酶促延伸,從來自另一 條鏈的部分互補寡核苷酸合成互補鏈。在合成階段摻入簡併多核苷酸可使克 隆更簡單,例如,在對基因中多於一個結構域或限定區域進行誘變或工程改 造的來產生多樣性的情況下。
無論使用什麼方法,在轉化成雙鏈形式之後,可以通過標準技術將寡核芬酸連接至合適的表達載體中。依靠適當的載體,諸如合適的質粒,可以將 質粒引入無細胞提取物,或適於抗體表達的原核細胞或真核細胞。
在 一種不同的方法中,可以將希望的編碼序列克隆到噬菌體載體或具有 絲狀噬菌體複製起點的載體(其允許利用輔助噬菌體來增殖單鏈分子)中。可 以將單鏈模板與一組呈現期望突變的簡併寡核苦酸退火、延伸並連接,由此
將每種類似鏈(analog strand)摻入一群分子中,可以將這群分子引入適當的宿 主(參見,例如,Sayers, J.R.等,Nucleic Acids Res. 16: 791-802 (1988))。
適於產生本文的文庫(如合成人抗體文庫)的多種噬菌粒克隆系統是本領 域已知的,並且已經由例如Kang等,A^/. Jcad 5W.,88:4363 4366
(1991) ; Barbas等,麵.Jcad 5W.腦,88:7978 7982 (1991); Zebedee 等,屍rac. A^/. Jcad 5W"89:3175 3179 (1992); Kang等,屍rac. A/af/.爿cad
,, 88:11120 11123 (1991); Barbas等,屍rac.胸/.爿cW. 5W"園, 89:4457 446I (1992);和Gram等,屍rac. A^/.」c^/. 89:3576 3580
(1992) 進行了描述。
文庫的大小將依賴於CDR長度和需要呈現的CDR多樣性的量而變化。 優選地,文庫將設計為含有少於1015、 1014、 1013、 1012、 1011、 1010、 109、 108、 107個,並且更優選106個或更少的抗體或抗體片段。
體,如微晶片,並且優選使其形成陣列(arrayed)。
根據本發明構建的文庫可以使用任何本領域已知的方法表達,所述方法 包括,但不限於,細菌表達系統,哺乳動物表達系統,和體外核糖體展示系 統。
在優選的實施方案中,本發明包括使用噬菌體載體表達本文的多樣性文 庫。所述方法通常包括使用用於克隆和表達的絲狀噬菌體(噬菌粒)表面表達 載體系統。參見,例如,Kang等,屍rac. A^/. Jcad L/SA 88:4363-4366
(1991) ; Barbas等,戶rac, A^/. Jcad 5W" 88:7978-7982 (1991); Zebedee 等,屍rac. A^/. JcW. 5W" L/iSA 89:3175-3179 (1992); Kang等,屍rac. A^/.爿cad Sc/., t/&4, 88:11120-11123 (1991); Barbas等,屍roc. A/a"爿cad SW., "5^, 89:4457-4461 (1992); Gram等,屍rac. A^/. Jcad 5W" 89:3576-3580
(1992) ; Brinkman等,/扁腳/. M&Ws 182:41-50 (1995); Ames等,J. /mmwwo/. Afef/zoiis1 184:177-186 (1995); Kettleborough等,£wr J. 7mmwwo/.24:952-958 (1994); Persic等,187 9-18 (1997); Burton等,^/va"ce"" /mm,o/ogv 57:191-280 (1994);和美國專利Nos. 5698426; 5233409; 5580717; 5427908; 5750753; 5821047; 5403484; 5571698; 5516637; 5780225; 5658727; 5733743; 5837500; 5969108; 6326155; 5885793; 6521404; 6492160; 6492123; 6489123; 6342588; 6291650; 6225447; 6180336; 6172197; 6140471; 5994519; 6969108; 5871907;和5858657。
用載體轉化重組宿主細胞,培養所述細胞以使得引入的噬菌體基因和展 示蛋白基因得以表達,對於噬菌體顆粒而言,使其得以裝配並從宿主細胞釋 放。其後從宿主細胞培養基收穫(收集)釋放的噬菌體顆粒並且篩選期望的抗 體結合性質。通常,對收穫的顆粒"淘選"其與預先選4奪的抗原的結合。收 集強結合的顆粒,並且克隆分離單種顆粒(individual species of particles),並 且進一步篩選與所述抗原的結合。選擇產生具有期望的抗原結合特異性的結 合位點的噬菌體。
需要強調的是,本發明的方法不限於任何用於抗體文庫表達和展示的特 定技術。其它展示技術也是合適的,諸如核糖體或mRNA展示(Mattheakis 等,屍rac. 7Va" ^cad L/SJ 91:卯22-9026 (1994); Hanes和Pluckthun, Ato/. jcad 5W. 94:4937-4942 (1997));微生物細胞展示,諸如細菌展示 (Georgiou等,Atowe 15:29-34 (1997)),或酵母細胞展示(Kieke等,
屍rafe/"五^. 10:1303-1310(1997));哺乳動物細胞上的展示;孢子展示;病毒 展示,諸如逆轉錄病毒展示(Urban等,A^c/e/c ^c/A i 仏33:e35 (2005));基 於蛋白質-DNA關聯的展示(Odegrip等,Proc. Acad. Natl. Sci.腦 101:2806-2810 (2004); Reiersen等,A^c/ez.c Jc/& 33:el0 (2005))和微珠 展示(Sepp等,F五5S丄e". 532:455-458 (2002))。
在核糖體展示中,抗體和編碼mRNA通過核糖體連4妻,在翻i爭結束時, 使mRNA終止而不釋放多肽。基於作為整體的三元複合物進行選擇。
在mRNA展示文庫中,抗體和編碼mRNA之間藉由作為遊f接分子的噪 呤黴素建立共價鍵(Wilson等,屍rac. Ato/. ^a^/. 98:3750-3755 (2001))。關於使用這種技術來展示抗體,參見,例如,Lipovsek和Pluckthun, J /畫,/. M函o血290:51-67 (2004)。
微生物細胞展示技術包括酵母(諸如釀酒酵母(5"acc/zaramycas ce v/w'ae)) 上的表面展示(Boder和Wittrup, A^. 5/oto:/7"o/. 15:553-557 (1997))。因此,例如,可以藉由與位於酵母細胞壁上的a-凝集素酵母粘附受體(a-agglutinin yeast adhesion receptor)的融合,將抗體展示在酉良酒酵母的表面上。這種方法 提供了通過流式細胞儀篩選全套抗體(repertoire)的可能性。通過用螢光標記 的抗原和抗表位標籤試劑蠟染色細胞,可以根據細胞表面上的抗原結合和抗 體表達水平來分選酵母細胞。酵母展示平臺還可以與噬菌體聯用(參見,例 如,VandenBeucken等,F五^S丄e". 546:288-294 (2003))。
關於用於選擇和篩選抗體文庫的4支術的綜述,參見,例如,Hoogenboom, 淑匿跑ec/7"o/. 23(9):1105陽1116 (2005)。
將通過以下非限定性實施例對本發明進行說明。
實施例
用於進行本發明的方法的技術是本領域熟知的並且在標準實驗室手冊 中有戶斤4苗述,包才舌,^f列嘖口, Ausubel等,Cw^re"/ /Votoco/j A/o/ecM/a, John Wiley and Sons (1997); Mo/ecw/or C7om'"g.' ^丄aZ orato^y Ma肌a/' Third Edition, J. Sambrook及D. W. Russell編,Cold Spring Harbor, New York, USA, Cold Spring Harbor Laboratory Press, 2001; O'Brian等,J"".6o辦/Vzage /qy, 朋(i屍ratoc喊Humana Press, 2001; _P/2"ge 爿Z^ora/c^
Mawwa/, C.F. Barbas III等編,Cold Spring Harbor, New York, USA, Cold Spring Harbor Laboratory Press, 2001; 和^幼c^/as, G. Subramanian編,Kluwer Academic, 2004。例如,誘變的進行可以使用定點誘變(Kunkel等,屍rac. A^/. 」c^/. 82:488-492 (1985》;Z)A^4 C7om'"g, Vols. 1 and 2, (D.N. Glover,
Ed. 1985); (9//go"wc/eo"^ SywA^h (M丄Gait編1984); PC7 //a"^ oo/: Cw^re"f屍ratoco/i1 /" iVwc/e/c Jcz'd C7 ew/W y, Beaucage編.John Wiley & Sons (1999) (Editor); Qx》ni //a"必oo^: iVwc/ez.c 5b^"wre, Neidle編,Oxford Univ Press (1999); 屍CT /Vofoco/&. ^ Gwz.cfe to A/eAofife J; p//ca/7.0Rs, Innis 等,Academic Press (1990); _PC/ 7fec/2"—w £^ew/7-a/ Rc/m—es,
Burke編,John Wiley & Son Ltd (1996); 屍C/ rec/zm々we: Ar-PC尺Siebert 糹扁,Eaton Pub. Co. (1998); 爿w/7力oc/y £wg7> een>7g /Vofoco/s f"Mef/zo(is M /ecw/a7- 5/o/ogv」,510, Paul, S., Humana Pr (1996); 」油'6o辦£> g7'"em>zg.'爿 /Vacf/ca/ ^(/7;7roac/z (PnaCca/ y4/ / n ac/2 <Sen.es, /69」,McCafferty, Ed., Irl Pr (1996); JwZ^od/es: ^丄a60rato7 Afowwa/, Harlow等,C.S.H丄.Press, Pub.(1999); 丄(arge-5ba/e TWawmaZ/aw Ce〃 Cw/f"re rec/7"o/owo/., 328:430-44 (2000);核糖體展示,如 Pluckthun等在美國專利No. 6348315中所述,和Profusion ,如Szostak等 在美國專利Nos. 6258558; 6261804;和6214553中所述;和細菌周質表達, 如US20040058403A1中所述。
有關使用Kabat規程的抗體序列分析的更詳細內容可以參見,例如, Johnson等,The Kabat database and a bioinformatics example,她^zoA Mo/歷o/. 2004;248:11-25; Johnson等,Preferred CDRH3 lengths for antibodies with defined specificities, /"f /m應wo/. 1998, Dec;10(12):1801-5; Johnson等, SEQHUNT. A program to screen aligned nucleotide and amino acid sequences, M"/zoA Mo/ 1995;51:1-15.和Wu等,Length distribution of CDRH3 in
antibodies; 和Johnson等,屍rafe/ra. 1993 May;16(l):l-7. Review。
有關使用Chothia規程的抗體序列分析的更詳細內容可以參見,例如, Chothia等,Structural determinants in the sequences of immunoglobulins variable domain, JAfo/所o/. 1998 May l;278(2):457陽79; Morea等,Antibody structure, prediction and redesign, 5/0/7/2;^ CTzem. 1997 Oct;68(l-3):9-16.; Morea等' Conformations of the third hypervariable region in the VH domain of immunoglobulins; /Mo/1998 Jan 16;275(2):269-94; Al-Lazikani等, Standard conformations for the canonical structures of immunoglobulins, / Mo/ 5/o/. 1997 Nov 7;273(4):927-48. Barre 等,Structural conservation of hypervariable regions in immunoglobulins evolution, Nat Struct Biol. 1994 Dec;l(12):915-20; Chothia等,Structural repertoire of the human VH segments, / M /編.1992 Oct 5;227(3):799-817 Conformations of immunoglobulin hypervariable regions, Nature. 1989 Dec 21-28;342(6252):877-83;和Chothia 等 , Review Canonical structures for the hypervariable regions of immunoglobulins, J Mo/傷o/. 1987 Aug 20; 196(4):901-17)。
有關Chothia分才斤的更i爭細內容在例如Morea V, Tramontane) A, Rustici M, Chothia C, Lesk AM. Conformations of the third hypervariable region in the VHdomain of immunoglobulins. J Mol Biol. 1998 Jan 16;275(2):269醒94; Chothia C, Lesk AM, Gherardi E, Tomlinson IM, Walter G Marks JD, Llewelyn MB, Winter G. Structural repertoire of the human VH segments. J Mol Biol. 1992 Oct 5;227(3):799-817; Chothia C, Lesk AM, Tramontano A, Levitt M, Smith-Gill SJ, Air G, Sheriff S, Padlan EA, Davies D, Tulip WR等,Conformations of immunoglobulin hypervariable regions. Nature. 1989 Dec 21-28;342(6252):877-83; Chothia C, Lesk AM. Canonical structures for the hypervariable regions of immunoglobulins. J Mol Biol. 1987 Aug 20;196(4):901-17; 和Chothia C, Lesk AM. The evolution of protein structures. Cold Spring Harb Symp Quant Biol. 1987;52:399-405中有描述。
有關CDR接觸的考慮因素的更詳細內容在例如MacCallum RM, Martin AC, Thornton JM. Antibody-antigen interactions: contact analysis and binding site Topography. J Mol Biol. 1996 Oct ll;262(5):732-45中有描述。
有關本文涉及的抗體序列和資料庫的更詳細內容可見,例如,Tomlinson IM, Walter G, Marks JD, Llewelyn MB, Winter G The repertoire of human germline VH sequences reveals about fifty groups of VH segments with different hypervariable loops. J Mol Biol. 1992 Oct 5;227(3):776-98; Li W, Jaroszewski L, Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases. Bioinformatics. 2001 Mar;17(3):282-3 ; [VBDB] www.mrc-cpe.cam.ac.uk/vbase-ok.php menu=901; [KBTDB] datobase.com; [BLST] www.ncbi.nlm.nih.gov/BLAST/ [CDHIT] bioinformatics.ljcrf.edu/cd-hi/; [EMBOSS] www.hgmp.mrc.ac.uk/Software/EMBOSS/ ; [PHYLIP] evolution.genetics.washington.edu/phylip.html ; 和 [FASTA]
fasta.bioch.virginia.edu。
實施例1
抗體輕鏈CDR1 、 2和3序列的頻率分析
在第一步中,從Kabat免疫學相關蛋白序列資料庫(Kabat Database of Sequences of Proteins of Immunological Interest)收集了 2374個人抗體VK1輕 鏈可變域序列。對於每個序列,將基因序列翻譯成相應的胺基酸序列,並且 根據Kabat編號系統按位置比對所述胺基酸序列。接下來,對於所獲得的VK1輕鏈序列群集,通過選擇在位置18-19具有
胺基酸"RV,,的序列並且應用以下長度限制來進行過濾CDR1=7個胺基酸, CDR2=10個胺基酸,且CDR3二8個胺基酸。通過應用這些過濾器,將最初 2374個成員的群集減少至771個成員。
通過僅使用含有從CDR1之前的"RV"基序直至整個CDR3序列的完整 明確序列的成員(entries),將VK1輕鏈可變域序列的數目進一步減少至383。
接下來,比對這些序列,將每個位置出現的胺基酸列表,並且計算在每 個位置上20種天然存在的胺基酸的分布,根據逐位的胺基酸絕對使用率 (absolution usage of amino acids by position)來產生基於葉立置步貞率的CDR結構 域多樣性資料庫。這個表格的結果示於圖2。
通過對於任何給定位置僅報告10%以上的胺基酸使用率來進一步過濾 圖2中所列的數據集。結果列於圖3。為了評估指定的百分比使用率對於多 樣性的影響,通過僅包括在5%以上的胺基酸使用率來生成另一個數據集。 結果列於圖4。通過比較圖3和圖4的數據集清楚可見,要求較低的胺基酸 使用率百分比可實現更大的多樣性覆蓋。
如圖5中所示,為了編碼圖4中所列的輕鏈CDR1多樣性,需要合成 128種組合寡核苷酸或16種簡併組合寡核苷酸。鹼基無需是等摩爾的,並且 可以加以調整來造成胺基酸使用率偏差以反映當前分析中發現的頻率,甚至 包括頻率表中不包括的殘基。或者/並且,可以省略頻率表中包括的殘基,例 如以進一步減少合成所需的寡核苷酸的數目。
實施例2
VH3重鏈合成文庫多樣性的設計
通過分析長度為10個胺基酸的VH3重鏈多肽序列生成了表6中所示的 數據,其中所述序列是基本上如實施例1中所述從Kabat抗體序列資料庫獲 得的。如圖6中所示,僅使用96種簡併寡核苷酸,為各個胺基酸位置設置 不同的閾值百分比使用率,可提供3.3x105的CDR3多樣性,呈現除殘基97 外的全部位置的至少75%的位置覆蓋率。因此,所述閾值百分比使用率第 93、 94、 100和101位是10%;第95、 96、 98和99位是5%;第97位是4%; 第100A位是3。/。。合成這種多樣性需要的寡核苷S吏序列示於圖7。實施例3
製備半合成抗體文庫
如先前所述,對VH CDR多樣性的分析和VH CDR多樣性的生成可以進
行調整,以配合具體情況反映出與K和X輕鏈的有效且特異性的配對(即導致
抗體特異性結合輩巴抗原的配對)的組成。這些合成VH庫(repertoires)並不需要 排他性地與合成輕鏈庫配對,而可以與淋巴細胞衍生的輕鏈的群集一起組合
克隆。在實踐中,將K和X輕鏈的群集分別克隆至噬菌體展示載體中,繼而或
者克隆單獨重鏈可變區框架以便隨後引入多樣性,或者克隆預先多樣化 (pre-diversified)的可變區框架群集。在任一情況下,與輕鏈兼容配對的重鏈 可哭區(the light chain compatibly paired heavy chain variable regions)均可望更 有效地與相應的輕鏈配對。
實施例4
通過針對基礎克隆產生變體文庫來工程改造改進的抗體 以類似於在種系受體框架(germline acceptor framework)上虧1入有效多樣 性(productive diversity)來從頭產生免疫球蛋白庫的方式,為特定的抗體或抗 體的特定群集生成耙特異性誘變文庫(target specific mutagenesis library)。這 樣的文庫可用於抗體工程作業,特別是在親和力成熟領域中。從感興趣的單 克隆抗體出發,確定限定性特徵(defming characteristics),這些特徵是在先前 限定的本發明的多樣性影響要素(diversity influencing elements)中捕捉 (capture)的,所述要素例如種系框架起源、輕鏈類型以及輕鏈和重鏈CDR長 度。在確定了這些特徵或類似的特徵之後,接下來的步驟是查閱(refer to)對 應於這些參數的資料庫序列。鑑定了相應的序列集合之後,進行類似於前文 所述的分析,以檢查子集庫(subsetrepertoire)的多樣性,然後生成編碼期望的 多樣性所必需的相應的多重簡併寡核芬酸(multi-degenerate oligonucleotide)。 然後將這些多重簡併寡核苷酸作為單一或組合CDR群集予以克隆。由於使 用多重CDR誘變更有可能發現協同性的改進(synergistic improvement),優選 生成組合CDR誘變文庫。使用來自上述分析的多重簡併寡核苷酸,合理地 生成抗體並根據與人類偏差和偏好相關的位置多樣性重新多樣化 (re-diversify)抗體。重要的是應注意,在任意輕鏈CDR序列或重鏈CDR1或 CDR2序列是從種系序列異化而來(diverge from the germline s叫uence)的情況下,相應的編碼種系的寡核苷酸也要包括在組合CDR文庫中。這樣,通過
將編碼種系的寡核苷酸包括在內,為種系序列回交(backcrossing)以生成更有 效(productive)的CDR組合提供了可能。
這種"多樣性再引入方案(diversity reincorporation scheme)"也可用於工 程改造來自已有的合成抗體克隆的、重新多樣化的抗體集合。由於根據本發 明生成的合成文庫的潛在多樣性超過了目前可用的技術展示和選擇全部成 員的極限,非常有可能的是任何發現的靶特異性克隆僅代表在任何經通常篩 選的文庫中在DNA水平上存在且可訪問的可能解決方案(possible solutions present and accessible at the DNA-level)中的一部分。因此,經過進行四輪淘 選在本發明的文庫中鑑定了一種抗EFG抗體之後,再將最初設計的多樣性 以組合方式重新引入(combinatorially reintroduce)克隆中以生成新的變體集 合。然後通過針對EGF進行淘選並且逐輪增加結合和清洗的嚴緊度來重新 篩選這些新的變體集合。淨結果生成了 EGF結合噬菌體的池(pools),其與原 始淘選中存在的那些相比被富集至更高的相對於背景的水平。
實施例5
細胞因子主題文庫的設計
為了生成用於發現新的抗細胞因子抗體的有效性文庫(productive library),選擇了 一種有效性(productive)抗TNF-a抗體HUMIRA (阿達木單 抗(adalimumab))作為基礎主題(basic theme)。 HUMIRA (阿達木單抗)是一種 重組人IgGl單克隆抗體,系使用導致具有源自人的重鏈和輕鏈可變區和人 IgGl:K恆定區的抗體的噬菌體展示技術所產生。
為了確定親本抗體D2E7的重鏈的種系來源,對框架區進行了分析。這 通過掩蔽D2E7和人種系VH基因的CDR來實現。接下來,通過BLAST算 法將D2E7的FR1和FR3之間的其餘序列相對於全部人種系VH基因進行比 對。如圖8中所示,D2H7 VH區顯示出與VH3—3-09的最大相似度。圖9中 所示的樹形比對圖顯示了相同的結果。按照相似的方式,發現親本抗體D2E7 的輕鏈與VK1 A20最相似(圖10和11)。
對實施例1中所述的對抗體輕鏈VKl CDR1、 CDR2和CDR3序列的頻 率分析進行修改,將閾值百分比使用率過濾器設置為6%。如圖12中所示, 使用這個過濾器,對於除位置91外的全部胺基酸位置,總和使用率均超過80%,其提供了 9乂106的文庫多樣性,並且這種多樣性可由30種簡併寡核苷 酸來提供。
接下來,從Kabat免疫學相關蛋白序列資料庫收集了 5971個人抗體重 鏈可變域序列。對於每個序列,將基因序列翻譯成相應的胺基酸序列,並且 根據Kabat編號系統按位置比對所述胺基酸序列。
然後對該重鏈可變域群集施用以下過濾器
1. 在胺基酸位置22-25含有"CAAS"的VH3序列(5971個成員中的1530
個);
2. 與K輕鏈組合的序列,CDR^6個胺基酸並且CDR243個胺基酸(1530 個成員中的226個)
3. 僅包括含有從CDR1之前的"CAAS"直至整個CDR2序列的完整序列 的成員(226個成員中的180個)。
然後,比對所述序列,將每個位置出現的胺基酸列表,並且計算在每個 位置上20種天然存在的胺基酸的分布以基於逐位的胺基酸絕對使用率來產 生基於位置頻率的CDR結構域多樣性資料庫。該制表結果示於圖13。
通過對於任何給定位置僅報告至少為10%的胺基酸使用率來進一步過 濾圖13中所列的數據集。如圖14中所示,使用這種過濾器,在CDR2中, 第52、 52A、 55和58位的總和胺基酸覆蓋率小於75%。為了提供更大的覆 蓋率,將要求的百分比使用率從10%降低至5%。如圖15中所示,這種變化 已經使得全部位置的總和胺基酸使用率升高至75%以上。
對CDR1和CDR2 二者應用5%使用率過濾器,合成CDR1區需要4種 簡併寡核香酸,CDR2多樣性可以由28種簡併寡核苷酸編碼(見圖16)。由此, 使用總共28種簡併寡核苷酸,能夠實現1.5x108的總體多樣性,提供超過80% 的位置覆蓋率。
在下一步中,從上述5971個人抗體重鏈可變域序列,不考慮同種型, 彙編(compile)長度為13個胺基酸的VH3序列。將每個位置所要求的百分比 胺基酸使用率設定為4。/。,除了第93、 94和101位胺基酸將閾值設定為4% 使用率之外。結果示於圖17。通過設定這些閾值,能夠通過使用384種簡併 寡核苷酸來製備具有7.5xlO"的總體多樣性的合成VH3重鏈合成文庫。可見, CDR3區中的殘基顯示出與親本抗體D2E7中相應殘基的良好一致性。實施例6
半抗原主題抗體文庫的設計
這種方法的目的是為鑑定新的抗半抗原抗體設計有效性(productive)文庫。
該設計從抗洋地黃毒苦(抗DIG)抗體開始(Dorsam, H.等,FEBS Lett. 414:7-13 (1997》。這種抗體的Ig人輕鏈可變區序列(SEQ ID NO: l)和重鏈可 變區序列(SEQIDNO:2)示於圖18。
為確定這種親本抗體的重鏈和輕鏈的種系來源進行了分析。如圖19中 所示,VL-lg與所述輕鏈最相似,而VH 3-23與所述重鏈最相似,因此,將 CDR置於這種環境中來創造有效性(productive)文庫用於鑑定抗半抗原抗體。
接下來,如前文實施例中所述對輕鏈CDR1和CDR2序列分析了 X長度 匹配的V!^框架殘基。將對於每個位置要求的百分比胺基酸使用率設定為6。/。, 從而低於6%的單獨序列不被報告。如圖20中所示,這種過濾器為每個氨基 酸位置提供了極好的覆蓋率。對H3長度匹配(8個胺基酸)的重鏈進行了類似 的分析,但是應用6.25%過濾器,包括全部位置在內的總和胺基酸覆蓋率在 75%以上(圖21)。
實施例7
細胞因子(IFN-a)分析和文庫創建
IFN是具有抗病毒活性的細胞因子的通稱,其中在病毒或雙鏈核酸刺激 下由白細胞或淋巴母細胞的那些細胞因子稱作IFN-a。 IFN-a具有多種活性, 包括抗病毒活性和細胞生長抑制活性,已經發現這些活性可用於治療多種疾 病,例如乙型和C型肝炎感染,以及癌症。對來自多種DNA文庫克隆的IFN-a 基因序列的分析揭示了 IFN-a以幾種亞型存在。例如,對於IFN-a2基因, 已經鑑定了三種額外的類型(a2a、 oc2b和a2c)。總體而言,存在超過20種目 前已知的IFN-a亞型。其它已知的亞型包括,例如,IFN-ala、 IFN-oclb、 IFN-a4a、 IFN-a4b、 IFN-ot5、 IFN-a6等。已經證明了多數IFN-a亞型在它 們的生物活性和其它生物學性質方面有差異。因此,基於IFN-a家族成員之 間現存的天然多樣性創建的文庫可用於生成具有新的和改進的性質的IFN-a 多肽,所述性質例如增加的效價、降低的免疫原性、增加的半衰期、改進的 蛋白水解穩定性。作為創建多樣性IFN-oc文庫的第一步,鑑定了 ll個長度為189個胺基酸 的基因產物。將這些IFN-a多肽的第32-38位胺基酸殘基相互比對,確定了 殘基使用頻率,如圖22中所示。當閾值百分比胺基酸使用率設定為9%時, 使用2種簡併寡核普酸能夠達到100°/。覆蓋率(見圖22和23)。如圖23中所 示,使用無簡併設計,需要40種寡核苷酸來提供要求的覆蓋率。
一旦製成了文庫,對期望的新性質的篩選可以通過本領域已知的方法來 進行。因此,可以用標準生物學測定法測試增加的效價,例如通過生物淘選 (biopanning)噬菌體展示IFN-ot文庫。可以例如通過針對IFN-a受體生物淘選 噬菌體展示文庫,或者通過將文庫成員曝露於一種或多種血清蛋白酶,來鑑 定具有增加的半衰期的成員。降低的免疫原性的測試可以通過例如鑑定文庫
中存在的與MHC分子顯示最小結合的肽或多肽,或者通過直接測試完整蛋 白質的T細胞表位呈遞來進行。
這些測試和多種其它測試是相關領域普通技術人員們熟知的。
實施例8
具有化學探針的(chemically 。robed)的抗體群集
本實施例顯示使用基於化學原理設計的探針集來創建CDR3重鏈多樣性。
胺基酸可以分成七類,其特徵分別在於小的、親核的、疏水的、芳族的、 酸性的、醯胺類的和鹼性的側鏈化學功能性(圖24)。圖25中左上圖面顯示 七組中的每一組的胺基酸的單字母符號。選擇了九種代表不同側鏈化學的氨 基酸(A, S, H, L, P, Y, D, Q, R)。如圖25的剩餘部分所示,通過九種密碼子或 2種簡併密碼子可編碼高亮顯示的九種胺基酸,並且由此可捕獲側鏈化學多 樣性。(B=C、 G或T; M二A或C; Y-C或T; D = A、 G或T。)
天然重鏈CDR3序列含有高度的化學多樣性(大約60°/。或更多)。已經確 定,通過使用128種簡併寡核苷酸的組合式簡併寡核苷酸合成可生成類似的 化學多樣性。相應的簡併寡核苷酸的設計示於圖27。如圖26中所示,這種 方法覆蓋了大部分天然存在的多樣性並且提供了廣泛的相互作用化學。
這種具有化學探針的多樣性方法可以單獨使用,或與任何本發明的其它 方法組合使用,從而產生具有期望性質的組合文庫。儘管在前述說明書中參考特定實施方案闡釋了本發明,但是本發明不限 於此。事實上,除了本文說明和描述的那些之外,根據前述說明書對本發明 的各種修改對於本領域那些技術人員將是顯而易見的並且在所附權利要求 書的範圍之內。因此,儘管本發明是援引抗體文庫進行示例說明的,但是可 將其廣泛地擴展至所有的肽和多肽文庫。
說明書全文中引用的全部參考文獻通過提述明確併入本文。
權利要求
1. 一種用於資料庫多樣性分析的方法,所述資料庫包含以至少一個共享序列基序為特徵的相關胺基酸序列,所述方法包括如下步驟(a)對所述相關胺基酸序列進行比對;(b)通過對所述包含共享序列基序的相關胺基酸序列應用預定的兩個或更多個過濾器的組合來創建第一數據集;(c)分析所述第一數據集在所述共享序列基序內的位置胺基酸使用頻率;和(d)創建以在所述共享序列基序內的一個或多個胺基酸位置處的最小閾值胺基酸使用頻率為特徵的第二數據集。
2. 權利要求1的方法,其中在步驟(d)中最小閾值胺基酸使用頻率被指 定給所述共享序列基序內的大部分胺基酸位置。
3. 權利要求1的方法,其中在步驟(d)中最小閾值胺基酸使用頻率被指 定給所述共享序列基序內的全部胺基酸位置。
4. 權利要求2或權利要求3的方法,其中所有指定給所述胺基酸位置的 閾值胺基酸使用頻率都是相同的。
5. 權利要求2或權利要求3的方法,其中並非所有指定給所述胺基酸位 置的閾值胺基酸使用頻率都是相同的。
6. 權利要求1的方法,其中所述最小閾值胺基酸使用頻率被設定為對所 述共享序列基序內的大部分胺基酸位置提供最小總和胺基酸使用率。
7. 權利要求6的方法,其中所述最小閾值胺基酸使用頻率被設定為對所 述共享序列基序內的全部胺基酸位置提供最小總和胺基酸使用率。
8. 權利要求7的方法,其中所述最小總和胺基酸使用率是至少約60%。
9. 權利要求7的方法,其中所述最小總和胺基酸使用率是至少約65。/。。
10. 權利要求7的方法,其中所述最小總和胺基酸使用率是至少約70%。
11. 權利要求7的方法,其中所述最小總和胺基酸使用率是至少約75%。
12. 權利要求7的方法,其中所述最小總和胺基酸使用率是至少約80%。
13. 權利要求7的方法,其中所述最小總和胺基酸使用率是至少約85%。
14. 權利要求7的方法,其中所述最小總和胺基酸使用率是至少約90%。
15. 權利要求1的方法,其中所述相關胺基酸序列是抗體序列。
16. 權利要求15的方法,其中所述相關胺基酸序列包含抗體重鏈序列。
17. 權利要求15的方法,其中所述相關胺基酸序列包含抗體輕鏈序列。
18. 權利要求16或權利要求17的方法,其中所述共享序列基序是CDR序列。
19. 權利要求18的方法,其中所述共享序列基序選自下組CDR1 、 CDR2 和CDR3序列。
20. 權利要求19的方法,其中在步驟(b)中,所述預定的過濾器的組合 選自下組(l)所述抗體重鏈或輕鏈的同種型;(2)所述CDR1、 CDR2和CDR3 序列中一種或多種的長度;(3)在所述CDR1、 CDR2和CDR3序列中一種或 多種內的一個或多個預定位置處一個或多個預定胺基酸殘基的存在;(4)框架 類型;(5)所述抗體結合的抗原;(6)所述抗體的親和力;和(7)所述CDR序列 之外的位置胺基酸殘基。
21. 權利要求20的方法,其中抗體重鏈和/或輕鏈CDR1 、 CDR2和CDR3 序列中的至少一種是大小匹配的。
22. 權利要求21的方法,其中一種附加的過濾器是所述抗體重鏈和/或 輕鏈序列的同種型。
23. 權利要求19的方法,其中所述位置胺基酸殘基使用頻率是至少約3%。
24. 權利要求19的方法,其中所述位置胺基酸殘基使用頻率是至少約5%。
25. 權利要求19的方法,其中所述位置胺基酸殘基使用頻率是至少約 10%。
26. 權利要求19的方法,其中所述位置胺基酸殘基使用頻率是至少約 15%。
27. 權利要求19的方法,其中所述位置胺基酸殘基使用頻率是約3%至 約15%。
28. 權利要求19的方法,其中所述位置胺基酸殘基使用頻率是約5%至 約10%。
29. 權利要求18的方法,其中相同的位置胺基酸使用頻率是所述CDR 序列內的每個胺基酸的特徵。
30. 權利要求18的方法,其中所述位置氨基S吏使用頻率在所述CDR序列內的至少兩個胺基酸殘基處是不同的。
31. 權利要求20的方法,其中所述預定的過濾器的組合包括框架的類型。
32. 權利要求15的方法,其中對抗體重鏈和輕鏈序列二者進行分析。
33. 權利要求32的方法,其中將所述抗體重鏈序列與預定的抗體輕鏈特 徵配對。
34. 權利要求32的方法,其中將所述抗體輕鏈序列與預定的抗體重鏈特 徵配對。
35. 權利要求15的方法,其中所述相關抗體序列來自至少一種功能性抗體。
36. 權利要求35的方法,其中步驟(b)中應用的所述過濾器之一是與所 述功能性抗體的重鏈和/或輕鏈的框架序列最相似的種系序列。
37. 權利要求35的方法,其中所述功能性抗體與多肽結合,所述多肽選 自下組細胞表面和可溶性受體,細胞因子,生長因子,酶;蛋白酶;和激素。
38. 權利要求37的方法,其中所述多肽是細胞因子。
39. 權利要求38的方法,其中所述細胞因子是白細胞介素。
40. 權利要求39的方法,其中所述白細胞介素選自下組IL-1、 IL-2、 IL-3、 IL-4、 IL-5、 IL陽6、 IL-IO、 IL-ll、 IL-12、 IL-15、 IL-17、 IL-18、 IL-23, 和它們各自的家族成員。
41. 權利要求38的方法,其中所述細胞因子選自下組幹擾素a、卩和y (IFN-ot、-卩和-力,腫瘤壞死因子oc和(3(TNF-a和-(3), TWEAK, TANKL, BLys, RANTES, MCP-1 , MIP-la, MIP-ip, SDF-l,集落刺激因子(CSF),粒細 胞集落刺激因子(G-CSF),和粒細胞巨噬細胞集落刺激因子(GMCSF)。
42. 權利要求38的方法,其中所述多肽是生長因子。
43. 權利要求42的方法,其中所述生長因子選自下組神經生長因子 (NGF)、胰島素樣生長因子1 (IGF-1)、表皮生長因子(EGF)、血小板衍生生 長因子(PDGF)、血管內皮生長因子(VEGF)、胎盤生長因子(PLGF)、組織生 長因子a (TGF-a)和組織生長因子(3 (TGF-P)。
44. 權利要求35的方法,其中所述功能性抗體與半抗原結合。
45. 4又利要求44的方法,其中所述半抗原選自下組Dig、 Bio、 DNP和FITC。
46. 權利要求1的方法,其中所述相關胺基酸序列源自分泌性蛋白或胞 外蛋白家族的成員。
47. 權利要求46的方法,其中所述相關胺基酸序列源自細胞因子家族成員。
48. 權利要求47的方法,其中所述細胞因子是幹擾素a。
49. 權利要求48的方法,其中所述相關胺基酸序列是IFN-a亞型的序列。
50. 權利要求1的方法,進一步包括合成相關胺基酸序列的物理文庫的 步驟,所述文庫的設計在所鑑定的數據集的輔助下進行。
51. 權利要求50的方法,其中所述文庫的合成是通過生成離散的多個確 定的或簡併的寡核苷酸,從而僅產生確定的胺基酸而進行的。
52. 權利要求50的方法,其中產生的物理文庫的多樣性超過作為所鑑定 的數據集的物理表示的文庫的多樣性。
53. 權利要求52的方法,其中還合成至少一個不滿足最小閾值胺基酸使 用頻率的胺基酸以提供所述多樣性。
54. 權利要求50的方法,其中產生的物理文庫的多樣性低於作為所鑑定 的數據集的物理表示的文庫的多樣性。
55. 權利要求54的方法,其中並非所有滿足最小閾值胺基酸使用頻率的 胺基酸都被合成。
56. 權利要求50-55中任一項的方法,其中所述數據集包含抗體重鏈和/ 或輕鏈序列。
57. 權利要求56的方法,其中所述抗體重鏈和/或輕鏈序列包含一個或 多個CDR。
58. 權利要求57的方法,其中將所述CDR克隆至框架序列支架中。
59. 權利要求58的方法,其中所述框架序列是在包含所述CDR的數據 庫中最頻繁使用的框架序列。
60. 權利要求50的方法,其中所述物理文庫是使用原核或真核表達系統 表達的。
61. 權利要求50的方法,其中所述物理文庫是使用噬菌粒展示、mRNA 展示、微生物細胞展示、哺乳動物細胞展示、微珠展示技術、抗體陣列或基 於蛋白質-DNA關聯的展示來表達並展示的。
62. 權利要求50的方法,其中針對所述文庫篩選其成員的一種或多種化 學和/或生物學性質。
63. 權利要求62的方法,其中所述生物學性質選自下組半衰期、效價、 效力、結合親和力和免疫原性。
64. 權利要求50的方法,包括在一個或多個胺基酸位置處引入胺基酸側 鏈多樣性。
65. 權利要求64的方法,其中所述胺基酸側鏈多樣性通過在所述一個或 多個胺基酸位置處提供具有至少兩種不同側鏈化學官能性的胺基酸殘基來 引入。
66. 權利要求65的方法,其中在每個胺基酸位置呈現全部胺基酸化學的 至少30%。
67. 權利要求65的方法,其中在每個胺基酸位置呈現全部胺基酸化學的 至少50%。
68. 權利要求65的方法,其中所述側鏈多樣性通過使用組合式簡併寡核 苷酸合成來引入。
69. —種產生肽或多肽序列的組合文庫的方法,包括^f吏用組合式寡核苷 酸合成來將胺基酸側鏈化學多樣性引入所述肽或多肽序列的兩個或更多個 胺基酸位置。
70. 權利要求69的方法,其中所述胺基酸側鏈化學多樣性被設計為模擬 在所述肽或多肽序列中天然存在的多樣性。
71. 權利要求69或權利要求70的方法,其中所述文庫是抗體文庫。
72. 權利要求71的方法,其中所述抗體文庫包含抗體重鏈可變域序列。
73. 權利要求71的方法,其中所述文庫包含抗體輕鏈可變域序列。
74. 權利要求71的方法,其中所述文庫是組合單鏈可變片段(scFv)文庫。
75. 權利要求71的方法,其中所述抗體文庫是Fab、 Fab'或F(ab')2片段 的文庫。
全文摘要
本發明涉及多樣性肽和多肽文庫的設計和構建。具體而言,本發明涉及使用多重相關參數作為過濾器創建數據集的分析資料庫設計方法;還涉及通過定向多重合成寡核苷酸合成(directed multisyntheses oligonucleotide synthesis)來生成序列多樣性的方法。本發明使得人們能夠基於可個別直接限定的單一或多重相關關鍵參數,將大型、複雜的附註釋的資料庫簡化成更簡單的相關序列數據集。所述方法還使得人們能夠基於這種方法,使用離散和簡併寡核苷酸的多重合成群集來捕獲多種多樣的序列群集或其部分,來生成多樣性文庫。
文檔編號C40B50/02GK101548034SQ200780044613
公開日2009年9月30日 申請日期2007年9月28日 優先權日2006年10月2日
發明者勞倫斯·霍羅威茨, 拉梅什·R·巴特, 阿倫·L·庫爾茨曼 申請人:航道生物技術有限責任公司