新四季網

對專利基因或基因專利進行檢索、注釋和數據挖掘的方法

2023-06-07 16:36:41

專利名稱:對專利基因或基因專利進行檢索、注釋和數據挖掘的方法
技術領域:
本發明屬於生物信息學領域,具體而言涉及生物化學與分子生物學以及計算機網絡和數據挖掘領域。
背景技術:
專利基因是在專利中被涵蓋的基因、微陣列序列、序列通式或單核苷酸多態等,基因專利則體現為包含專利基因的申請公開書或審定授權書。有關基因專利的智慧財產權保護問題很早就受到關注[1]。基因專利處理不當會引發一系列的法律問題[2]或倫理問題[3]。我國某轉基因棉花研究由於初期沒有可用的專利基因檢索技術,對專利基因檢索不充分,導致開發完成後與該基因的專利權人間發生法律糾紛。而即使對於已授權的基因專利,也會因當初檢索和數據挖掘工作上的缺漏而被判予無效[4]。當前,智慧財產權問題已成為立項的核心問題,基因專利的考察對於生命科學研究戰略制定、審批立項和項目執行等均具有重要意義。這些考察重點包括哪些基因已被專利覆蓋,哪些尚未被覆蓋;某基因的哪些技術或功能在已覆蓋範圍之外還有創新餘地等。由此可見,專利基因是基因專利的核心,對基因專利的考察最終要落實到對專利基因的考察上來。
專利基因是一種具生物學、社會偏好和法律狀態三重意義的特殊文本。對專利基因進行全面而精確的檢索並進行深入的數據挖掘,除能啟迪開發思路外,還能避免對基因的重複研究和智慧財產權糾紛隱患的產生。此前考察我國專利基因的唯一途徑是對中國基因專利標題或摘要進行文字檢索。但目前專利中存在的用詞艱深隱晦及基因名使用不標準等問題均可能造成重要信息漏檢。BLAST技術[5]的運用可開發成一種不通過標題和摘要而直接到達專利基因的檢索方法,然而專利文獻海量性和圖片或紙質形式的文本又成為實現這種檢索的瓶頸。此外,基因的查新工作當前多限於對GenBank等公共非冗餘庫運用BLAST來執行序列同源比對,多數研究者可能無法並且也忽視了對專利基因的BLAST檢索。據FIZ Karlsruhe信息研究所報導,近60%的世界專利(WIPO)基因尚未被三大核酸資料庫收錄,即使對收錄的專利基因也沒有分子生物學意義方面的注釋;我國專利基因幾乎未被任何公共資料庫收錄,即使在收費極昂貴的私營資料庫中也收錄不全。這是由於申請人和各國智慧財產權管理部門未系統地向世界三大核酸資料庫提交專利基因。因此,如果某基因在公共資料庫中不存在功能已知的同源序列,並不能將其判定為新基因,更不能武斷地追加投資進而對其展開深入研究和開發。
上述現狀表明,通過專利資料庫對我國專利基因所能完成的檢索和分析十分有限,而公共核酸資料庫幾乎不能提供有關中國專利基因的任何信息。目前,人們對海量專利基因的檢索需求日益精確化和專業化,除進行BLAST檢索外,研究者還需針對基因名、專利基序、基因的細胞組分、分子功能和生物學過程等方面進行檢索和深入分析,並且需進行面向通路、基因微陣列和SNP的專利覆蓋情況考察。
1 Doll J J.The Patenting of DNA.Science,1998,280(5364)689-6902 Abbott A.Clinicians win fight to overturn patent for breast-cancer gene.Nature,2004,429,329 3293 Abbott A.Europe pares down double patents on breast-cancer gene.Nature,2005,433,344 3444 Paradise J,Andrews L,Holbrook T.Patents on human genesan analysis ofscope and claims.Science,2005,307,1566-15675 Schaffer A A,Aravind L,Madden T L,et al.Improving the accuracy ofPSI-BLAST protein database searches with composition-based statistics andother refinements.Nucleic Acids Res.,2001,29(14)2994-3005發明目的本發明的目的是針對上述該領域內的現狀,創造一種對專利基因或基因專利進行檢索、注釋和數據挖掘的方法,從而使基因專利文獻在較低的電子化程度上能夠為生命科學界提供儘可能多的信息。
技術方案資料庫創建方法選取符合智慧財產權行業標準(ZC 0003-2001)的且未失效的基因專利,人工或計算機識別專利文獻中的核酸序列、蛋白序列、專利基序、引物序列、探針序列、SNP、RNA序列、基因微陣列及多肽核酸(PNA)等,並將其電子化。其中,專利基序是指型如「一種肽,具有『X1CYDX2A』的通式,其中X1是L或I,X2是E或Q或缺失」的描述,在NASDAP中以核酸序列正則表達式或蛋白序列正則表達式的形式存儲;專利SNP則選取左右各20nt的側翼序列連同突變位點儲存為正則表達式。定期進行序列更新和法律狀態更新。用cgi技術構建web檢索界面。
注釋方法本發明所採用的技術方案是以基因為單位組織專利。將不同專利中相同的基因聚合成一類,以便進行注釋和數據挖掘。核酸序列無論是否編碼蛋白質,均按6個相位翻譯,選擇其中最長的開放閱讀框(ORF)所對應的胺基酸序列作為代表序列。將核酸代表序列與蛋白序列合併再執行兩兩比對,將一致性98%以上且共有序列佔總長度80%以上的序列聚為一簇,稱為一個基因專利簇(UniPat)。定義每簇中最長的蛋白序列為該簇的參考序列。
將參考序列對標準參考資料庫,例如SWISS-PROT進行BLASTP,BLASTP的E值設置為1e-40,從而保證了精確度。注釋後的序列擁有蛋白名、基因名、登錄時間、國際酶學委員會編號以及物種名等屬性。將參考序列通過SWISS-PROT登陸號及基因本體注釋關聯到基因本體(GO)和基因縮略本體(GO slim)。對專利序列和專利微陣列的檢索方法通過WEB提交待檢序列(圖1),通過POST方法傳送至伺服器端的cgi程序。cgi程序讀取待檢序列並判斷提交的序列類型是核酸序列還是蛋白序列,隨後通過BLAST或FASTA或Smith-Waterman或HMM或Needleman-Wunsch等方法執行待檢序列與資料庫中序列的比對。如果選用BLAST算法,則對於DNA序列,可選用″blastn″、″tblastx″或″blastx″三種子算法來完成對庫檢索,而對於蛋白序列,則可選用″blastp″或″tblastn″程序。在運行程序之前,去除非DNA或蛋白質序列的非法字符,同時去除對伺服器造成安全隱患的字符,並且屏蔽可能造成伺服器死機的長度超過20000個核苷酸或5000個胺基酸的超長序列。對於選用″blastn″、″tblastx″或″tblastn″程序的情況,待檢序列所比對的對象為核酸專利序列;而″blastp″或″blastx″程序的比對目標為蛋白序列。比對完成後,按照與待檢序列相似性從高到低的順序輸出專利序列及其所在的專利。隨後創建日誌文檔,對於提交人的IP位址、提交時間、選擇程序、序列類型以及序列情況進行記錄。
對專利序列通式和專利單核苷酸多態的檢索方法通過WEB提交待檢序列(圖1),通過POST方法傳送至伺服器端的cgi程序。cgi程序讀取待檢序列並判斷提交的序列類型是核酸序列還是蛋白序列,從而選擇相應的核酸序列正則表達式或蛋白序列正則表達式。在運行程序之前,去除非DNA或蛋白質序列的非法字符,同時去除對伺服器造成安全隱患的字符,並且屏蔽可能造成伺服器死機的長度超過20000個核苷酸或5000個胺基酸的超長序列。運行正則表達式匹配程序,從而實現對待檢序列的專利序列通式和專利單核苷酸多態的掃描。在程序運行結果中輸出待檢序列所包含的正則表達式、這些正則表達式在待檢序列中的位置及其所對應的專利。
數據挖掘方法數據挖掘主要針對編碼蛋白的專利基因,暫不包括對引物、RNA、核酶、STS探針、微陣列探針、SNP側翼序列、專利基序、多肽核酸以及各種順式作用元件等專利對象的分析。對專利基因和基因專利間的多對多關係的挖掘採用通過perl語言編程來實現對SQL查詢結果進行數據分析的方法。對專利基因的生命周期挖掘採用階層聚類或K值聚類的算法。


圖1實現對專利序列和專利微陣列的檢索方法的WEB界面。
圖2實現對專利序列通式和專利單核苷酸多態的檢索方法的WEB界面。
圖3專利基因的生命周期。
(a)為平均每年申請數大於1的UniPat的生命周期聚類。顏色深淺表示從1999年到2003年每年的申請數量的多少。聚類採用階層聚類方法。
(b)為上述聚類結果中四個典型類的生命周期明細。up37為大腸桿菌肌醇六磷酸酶基因;up4為人免疫球蛋白Fc片斷基因;up67為促肝再生因子基因;up18為幹擾素α-2b基因。
具體實施例方式
(一)通過本檢索方法實現對於未知序列的檢索和功能調查在某癌旁組織與癌組織差異表達的文庫中獲得一全長序列,欲了解其功能,將其ORF對應的蛋白序列提交針對GenBank的nr庫(2006年1月12日版)的BLASTP服務。將所有參數均為默認值可以得到數條(第一條序列gi號為10732642)功能未知序列,這表明該基因的功能可能尚未鑑定。此時研究者希望追加投資對此基因進行下一步研究。然而,如將此序列通過本專利所述方法中的」blastp」程序進行檢索,嚴格設定E值為0,仍可得到一條存在於申請號為「CN00111997.4」的中國專利中的序列。檢索該專利全文得知,該基因早在2000年就已由上海市腫瘤研究所申請了較大覆蓋範圍的物質專利,權利要求涵蓋此基因在腫瘤治療中的應用,並已於2004年被授權。此例展示了本方法在科研決策中防止重複研究、避免浪費及知識產糾紛隱患的重要作用。
(二)通過本檢索方法常規檢索漏檢的信息為了解美國FDA批准藥物「ω芋螺毒素MVIIA」及其類似物在中國的專利申請和授權狀況,首先在國家知識產權局網站的專利名稱檢索欄中輸入「芋螺毒素」,結果返回5條記錄,其中有關MVIIA的專利僅2條。然而用MVIIA的胺基酸序列採用本方法執行檢索後發現,除上述2條外,還有5條E值最高為5e-11的序列出現在已授權專利「CN00109828.4」中。因此,儘管作者的權利要求是與MVIIA僅相差一個胺基酸的人工多肽,然而採用傳統檢索則已造成重要信息的漏檢。其原因是作者對「ω芋螺毒素」採用了「歐米加-海螺毒素」的非標準提法。類似漏檢案例還會發生於許多採用「肽」、「新肽」等短標題命名以及採用低信息量摘要的專利。儘管這是一種申請策略,然而卻可能導致糾紛。上述情況通過NASDAP的BLAST均可檢出,因此最大限度地保證了專利基因檢索的精確性,也維護了專利的公開原則。
(三)通過本檢索方法實現潛在生物信息的挖掘通過對NASDAP執行TBLASTX獲得東亞鉗蠍α毒素基因家族專利群的16條序列。該家族序列間相似性多在60%以上,且權利要求多樣化,如抗昆蟲、抗心律失常、抗腫瘤、抗神經興奮等。這啟發研究人員對該家族具有不同生物活性根源的探索或引發對該家族其他成員開發潛力的思索。對該家族序列執行多重比對發現這些序列間存在高度保守的半胱氨酸殘基,進一步獲悉這是一種名為「CSαβ」的基序,它存在於多個物種內並承載多樣的生物學功能。昆蟲防禦素、芋螺毒素、人內皮素、蜂毒和Brazzein甜味蛋白等均具有該基序。由此可見,自然和人類社會不約而同地選擇了「CSαβ」基序,這提示我們針對擁有此基序的蛋白的開發可能還存在很多機會。
(四)採用本專利所述的數據挖掘方法實現專利基因和基因專利間多對多關係的挖掘通過考察以UniPat為組織的專利群而明確了基因與專利間多對多的關係。一方面,圍繞一個基因所進行的多方面開發將衍生出不同的權利要求,進而對應多個不同的專利申請;另一方面,在一個專利中被要求權利的基因可能存在多個。對一個基因的多方面開發歸納起來主要包括核苷酸分子、蛋白分子、改性的蛋白分子、基因微陣列、SNP、基因或蛋白在疾病診斷方面的應用、基因或蛋白作為藥物、基因或蛋白作為藥靶、包含該基因的載體、宿主、細胞系、不同的製備工藝以及極少數的基因治療用途等。通過perl語言編程來實現對SQL查詢結果進行數據分析的方法,可以發現我國專利中申請數最多的5個基因分別是人免疫球蛋白重鏈VDJ區基因、人免疫球蛋白Fc區基因、人免疫球蛋白重鏈V-J4區基因、促紅細胞生成素、PSCA抗體基因。抗體基因被密集申請的原因除了本身具有治療作用外,我國基因專利權利要求主體是肽類藥物也是一個重要因素抗體基因通過與各種肽類基因融合表達可發揮其靶向功能,因此可作為藥物載體被廣泛使用。採用該方法進而發現中國專利這種以蛋白本身作為藥物為主的申請策略與美國人類基因專利以藥靶、致病基因、重要通路的節點以及診斷用基因等上位概念為主的申請策略完全不同。在美國人類基因專利中,藥物基因或免疫球蛋白基因這樣的「工具基因」未排入密集申請基因的前10位。
在一專利對應多基因這個方面,69.7%的專利申請採用覆蓋多於一個基因的申請方式,甚至還出現了一個專利申請覆蓋數百個基因的情況。然而對授權基因專利的分析表明,平均每個專利僅能獲得1.04個基因的專利權。
上述結論通過本技術之外的現有數據挖掘方法並不能得到。
(五)採用本專利所述的數據挖掘方法實現專利基因的典型生命周期的挖掘對UniPat每年的被引數進行考察,從而獲得每個專利基因生命周期的輪廓。對UniPat按其生命周期進行階層聚類或K值聚類,聚類結果顯示中國專利基因生命周期主要有以下四種類型(圖3)1)先熱後冷型一些功能和應用範圍較專一的基因往往呈現這種生命周期特徵。它們的申請人往往局限於少數幾個。如大腸桿菌肌醇六磷酸酶(UniPat編號up37)在一年內呈現突然爆發式的申請,權利要求內容大致包括物質專利、點突變性質改進等[18-20]。然而由於其開發空間有限,隨後的申請呈現下降趨勢。
2)多熱點型這些基因在專利中所承載的功能是諸如提高蛋白可溶性或藥靶導向性等。因常與其他蛋白組成融合蛋白共表達,它們扮演一種「肽類藥物伴娘」的角色。其生命周期決定於各種肽類藥物的應用狀況,因此生命曲線常常出現波動。該類的典型代表如人免疫球蛋白Fc基因片斷(up4)等。
3)先冷後熱型此類基因在其物質專利申請初期並未引起足夠的關注。沉寂之後可能某事件激發了市場需求或開發熱情,在短時間內相繼有不同機構介入,形成的競爭效應能夠進一步激發申請熱情。例如促肝再生因子(up67)的專利群。
4)持續熱點型具有此類生命周期的基因往往能夠開發成為廣泛應用的藥物。一個基因常對應多個申請人及多種開發方式。圍繞此基因競爭格外激烈,不同申請人的權利要求間甚至出現了交疊。如幹擾素α-2b基因(up18)自從被申請了原核表達的工藝專利後,不同機構又對其從上遊調控元件、在浮萍中表達、與胸腺肽融合表達、與Fc片斷融合表達,分子修飾及性質改良等多個方面進行開發。
採用本專利所述的數據挖掘方法可以得出結論上述4個專利基因生命周期的代表基因在審批方面除胸腺肽從1999年至2003年每年授權1件外,其餘僅授權最早的申請。
上述結論通過本技術之外的現有數據挖掘方法並不能得到。
權利要求
1.一種檢索專利中的基因或基因微陣列序列及其所對應的專利的方法,其特徵是將專利文獻中的核酸序列、蛋白序列或基因微陣列序提取並儲存為計算機文件的形式並定期更新,同時將待檢序列通過序列比對程序與之進行比對從而獲得與待檢序列相似的專利基因或專利基因微陣列序列及其所對應的專利。
2.一種檢索專利中的序列通式或單核苷酸多態及其所對應的專利的方法,其特徵是將專利文獻中的核酸、蛋白序列通式或單核苷酸多態等生物信息提取並儲存為正則表達式的形式並定期更新,同時通過對待檢序列進行正則表達式的掃描而獲得待檢序列中的專利基因通式或單核苷酸多態以及它們所對應的專利。
3.如權力要求1所述的檢索核酸、蛋白序列或基因微陣列序列的方法,其特徵是通過人工識別或計算機識別而將專利文獻中的基因序列格式化為純文本格式或fasta格式或NCBI的blastall程序所認可的格式或關係型資料庫的兼容格式並與專利申請號進行關聯,用BLAST或FASTA或Smith-Waterman或HMM或Needleman-Wunsch等算法進行待檢序列與專利序列之間的比對,並按照相似性的大小輸出並排序。
4.如權力要求2所述的檢索核酸或蛋白序列通式以及單核苷酸多態的方法,其特徵是將專利通式和單核苷酸多態儲存為正則表達式形式並與專利申請號進行關聯,對待檢序列進行正則表達式掃描後獲得待檢序列所包含的正則表達式、其在待檢序列中的位置及其所對應的專利。
5.一種對專利基因或基因專利進行注釋的方法,其特徵是將專利中經翻譯的基因序列和蛋白序列以相似性98%以上為標準聚成一簇,由此獲得多個簇,選擇每簇中最長的蛋白序列對標準蛋白資料庫進行BLASTP而完成注釋。
6.一種對專利基因或基因專利進行數據挖掘的方法,其特徵是採用SQL語言結合聚類算法、相關性發掘算法等技術對已經聚類的專利基因或基因專利進行數據挖掘。
7.如權力要求1所述的檢索方法在設計製造面向基因的搜尋引擎中的應用。
全文摘要
本發明實現了對專利序列、專利微陣列、專利單核苷酸多態性(SNP)、專利基序等專利基因對象以及基因專利進行檢索、注釋和數據挖掘的方法。其中的檢索方法在相關研究的立項、基因研發狀態追蹤以及基因專利申請和審批等工作中將具有廣泛的應用。而注釋和數據挖掘方法可以供企業用來對專利基因在自然進化和社會偏好雙重選擇壓下的生命周期、申請偏好及授權偏好等特性進行考察。
文檔編號G06F19/00GK1851704SQ200610040349
公開日2006年10月25日 申請日期2006年5月17日 優先權日2006年5月17日
發明者楊侖, 夏振華, 徐朗萊 申請人:楊侖, 夏振華, 徐朗萊

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀