一種進行microRNA與蛋白相互作用研究的方法
2024-04-03 07:21:05 3
專利名稱:一種進行microRNA與蛋白相互作用研究的方法
技術領域:
本發明屬於生物技術領域,涉及一種基於文獻挖掘技術進行microRNA與蛋白相互作用研究的方法。
背景技術:
MicroRNA (微小核糖核酸)是一種長度為18 25核苷酸單鏈的內源性非編碼性微小RNA。它主要通過與靶標基因3'非翻譯區的完全或不完全配對,抑制其翻譯,從而參與調控個體發育、細胞凋亡、增殖及分化等生命活動。在病理條件下,microRNA可通過調控其靶標基因及其參與的信號通路,影響腫瘤的發生和發展,發揮著類似於癌基因或抑癌基因的功能。實驗表明在很多腫瘤中,一些類型的microRNA是高表達的,這些高表達的 microRNA與腫瘤的侵入性、轉移性等有一定的相關性。這些microRNA為腫瘤診斷和治療提供了新的策略。蛋白質是一類複雜的有機化合物,其基本組成單位是胺基酸。胺基酸通過脫水縮合反應結合成肽鏈,再由一條或多條肽鏈以不同空間結構形成的生物大分子便是蛋白質。 蛋白質是一切生命的物質基礎,是具細胞結構生物機體的重要組成部分,對於高等生物尤其是我們人類的生長發育非常重要。人體中的蛋白質含量佔了 20%左右,在大多數的人體生命活動過程中,蛋白質都頻繁的參與進來並發揮著相當重要的作用。蛋白質在人類的醫學研究中有著不可忽視的作用,生物學家及醫學家們往往從研究生物體中蛋白質的表達與調控開始,來研究某種疾病的發病機理和治療途徑。MicroRNA多見於人體細胞中,已有許多醫學研究表明,microRNA很有可能參與了人類多種疾病的形成過程,以直接調控或間接影響的方式,引起人體細胞中蛋白質的表達異常,從而導致疾病。然而,在實際的生物實驗研究中,由於生物物質種類、形式和功能的多種多樣,使得研究microRNA與蛋白質的相互作用以及對人類疾病的調控機制變得複雜。為了更好的研究microRNA與蛋白質之間的相互作用關係,本發明引入了一項基於NLP(自然語言處理)的文獻挖掘技術。NLP(Natural Language Processing)是人工智慧的一項新型技術,也是很困難的一項。它依賴於高效率的計算機,通過不斷的機器學習, 實現對海量自然語言文檔的高效處理,從中提取我們需要的信息。本發明中所述的文獻挖掘基於這種技術,通過檢索海量已經報導的文獻的關鍵詞、摘要等信息,提取出我們需要的文獻信息,以節省大量重複實驗所耗費的經費與時間。
發明內容
通過研究大量實驗數據及相關文獻我們發現,microRNA與蛋白質很可能存在其他的調控方式,為此,本發明提出一種「間接」靶基因的模型,即microRNA直接作用靶基因,靶基因表達作用於目的基因,從而使microRNA實現對目的基因的間接調控。為了研究 microRNA與蛋白質之間的相互作用,本發明設計了一套方法,其基本流程為步驟1、選擇microRNA高表達的細胞,進行差異蛋白的篩選。
步驟2、microRNA靶基因的預測。步驟3、對差異蛋白和microRNA的靶基因引入文獻挖掘技術,構建相互作用網絡。步驟4、整合分析結果,建立microRNA與蛋白質的調控通路。步驟5、引入文獻挖掘,搜索已有實驗驗證的文獻報導,對上述調節通路進行驗證。以上的分析流程基於權威性的分析軟體以及已報導的有實驗驗證的文獻資料,因此結果可信度高。
圖1、本發明所述方法的實施流程2、本發明所用實例mir-144與蛋白的互作關係網絡圖實施方式本發明將以mir-144與蛋白的互作研究為例,介紹本發明所述方法-一種進行 microRNA與蛋白互作研究的方法,具體的實施步驟。步驟1、本實例中,我們選取mir-144高表達的肝癌細胞系Huh7細胞作為實驗樣本,對該細胞應用mir-144抑制劑和對照,轉染Huh7細胞,並進行DIGE (螢光差異雙向電泳)染色後,篩選差異蛋白,獲得樣本中差異蛋白的質譜數據,共19個差異表達的蛋白。步驟2、對mir-144進行靶基因的預測。這裡為擴大結果範圍,我們選取4種最為常用的分析軟體KmicroT 3. 0 (http://diana. cslab. ece. ntua. gr/microT/)2> miRanda v5(http://microrna. Sanger, ac. uk/targets/)3> TargetScan 5. 1(http://www. targetscan. org/)4>PicTar vertebrate 2007(http://pictar. mdc-berlin. de/)取得上述4種預測軟體對mir-144靶基因預測結果的合集,共935個基因,作為 mir-144的潛在靶基因。步驟3、對上述差異表達蛋白和靶基因引入文獻挖掘技術,構建基因-基因的相互作用網絡。方法為1、文檔搜索及格式化,利用關鍵詞mir-144進行文檔搜索,並將文檔整理成XML格式。2、利用Lingpipe工具包中的kntence tokenlization工具將摘要文本分離成單個句子,作為後續分析的基本單位。3、利用ABNER軟體進行人類轉錄因子基因的描述的定位,提取出文獻中出現的人類轉錄因子基因。4、對於提取的基因的描述中,如「 STAT3/5gene,,將被解析成STAT3gene和 STAT5gene5、將文章中的基因描述統一為官方基因符號,以方便分析和比較。基因符號以 NCBI 的 Entrez gene (http://www. ncbi. nlm. nih. gov/sites/entrez ? db = gene)資料庫為準。6、先建立一個基因互作動詞的詞典,包含如impress,regulate, inhibit等動詞及其變型,然後利用Lingpipe (http://alias-i.com/lingpipe/)工具包分離含有基因互作動詞的句子。7、統計分析包含mir-144及基因或蛋白互作的句子,統計句子中基因及蛋白出現的頻率。8、依據上述統計信息構建mir-144為中心的相互作用關係網絡。步驟4、上述的mir-144相互作用關係網絡反應了 mir_144參與的調控網絡全局狀況,經過分析互作關係我們發現,mir-144存在多條潛在的間接調控關係。以CALR基因為例,我們發現,CALR為mir-144的差異表達蛋白,CALR又受到IL3基因的調控,而IL3為 mir-144預測出的靶基因,於是我們得出了如下的調節通路mir-144上調IL3基因的表達, IL3調控CALR蛋白,從而實現了 mir-144與CALR蛋白之間的間接調控。5、再次引入文獻挖掘技術,搜索已報導的具有實驗驗證的文獻,對上述mir-144 間接調控蛋白和mir-144的相互作用關係進行驗證。以上是對本發明的描述而非限定,基於本發明思想的其它實施方式,均在本發明的保護範圍之中。
權利要求
1.本發明專利所述的一種進行microRNA與蛋白相互作用研究的方法,它具有如下幾步主要特徵步驟1、選擇microRNA高表達的細胞,進行差異蛋白的篩選。 步驟2、microRNA靶基因的預測。步驟3、對差異蛋白和microRNA的靶基因引入文獻挖掘技術,構建相互作用網絡。步驟4、整合分析結果,建立microRNA與蛋白質的調控通路。步驟5、引入文獻挖掘,搜索已有實驗驗證的文獻報導,對上述調節通路進行驗證。
全文摘要
本發明設計了一種進行microRNA與蛋白相互作用研究的方法,提取一個「間接」靶基因模型的概念,並依據已有的文獻報導進行相互作用的研究,其基本流程為步驟1、選擇microRNA高表達的細胞,進行差異蛋白的篩選;步驟2、microRNA靶基因的預測;步驟3、對差異蛋白和microRNA的靶基因引入文獻挖掘技術,構建相互作用網絡;步驟4、整合分析結果,建立microRNA與蛋白質的調控通路;步驟5、引入文獻挖掘,搜索已有實驗驗證的文獻報導,對上述調節通路進行驗證。
文檔編號G01N33/68GK102268475SQ201010214030
公開日2011年12月7日 申請日期2010年6月29日 優先權日2010年6月29日
發明者曾華宗 申請人:上海聚類生物科技有限公司