人類常見病遺傳風險評估方法
2023-09-14 20:06:15
專利名稱:人類常見病遺傳風險評估方法
技術領域:
本發明涉及一種涉及生物醫藥領域的方法,尤其是一種人類常見病遺傳風險評估方法。
背景技術:
目前對於疾病風險評估主要技術是邏輯回歸Logistic Regression,縮寫為LR。LR的簡要模型如下
I-P i
其中P為個體患病概率,Xi為各種風險因素,例如基因缺陷、不良生活習慣等。Bi和b都是回歸係數。該內容在以下參考文獻中有詳細描述Hilbe,Joseph Μ. (2009). Logistic Regression Models. Chapman & Hall/CRC Press. ISBN 978-1-4200-7575-5。在LR模型中,事實上假定了
1.各個風險因子互相獨立;
2.這些風險因子之間沒有交互作用。而現實的情況常常是
1.風險因子之間有相關性,例如所謂的「菸酒不分家」,吸菸的人更有可能飲酒;
2.風險因子之間有交互作用,例如先天性過敏體質的人,在花粉刺激下會導致哮喘。 而兩個風險因子單獨作用卻不易導致哮喘。因此,傳統的LR模型無法很好的在現實條件下進行患病綜合風險評估。隨著基因檢測技術的進步與普及,如何利用檢測到的個人基因信息結合環境暴露情況來評估特定疾病的患病風險已經成為人們關注的熱點。現有的邏輯回歸的方法並非為患病風險評估定製,無論應用的可行性與風險評估的準確性都無法滿足實際需求。疾病風險評估有其自身的特點疾病特別是複雜疾病牽涉到的因子很多,而且其結果不是個因子的簡單累加,使得難以對其建模,從而使得邏輯回歸方法效果欠佳。
發明內容
本發明所要解決的技術問題是提供一種人類常見病遺傳風險評估方法,能夠結合疾病風險評估這一特點,發展出一種能充分利用個人基因信息以及環境暴露情況,但又獨立於對疾病機理假設的通用方法來評估患病風險。為解決上述技術問題,本發明人類常見病遺傳風險評估方法的技術方案是,包括如下步驟
建立一個資料庫,該資料庫需要包含健康人與病人的流行病學資料,以及在若干遺傳相關位點上的基因分型資料;
對於以上資料/變量,根據其與疾病的相關性排序,重要的變量列在前面; 對於一個待檢測個體,首先獲取其上述各個資料,作為風險評估的依據;依據變量的重要程度進行資料庫匹配比較資料庫中的某樣本與待檢測樣本的第一個變量,如果匹配則繼續比較第二個,第三個,直到無法匹配為止;選擇資料庫中與待檢測樣本最為匹配的前多個樣本;根據這些最匹配的資料庫樣本中的患者比例估計待檢測樣本的患病概率,並用群體患病率校正資料庫樣本採集的偏差。本發明通過上述方法,不需要對疾病機理有所假設,特別適用於多因子複雜疾病; 對風險的評估準確性高;可擴展性好,即隨著樣本庫的增加,風險評估的準確性能持續提高;算法實現容易,速度快。
圖1為本發明人類常見病遺傳風險評估方法中資料庫的示意圖。
具體實施例方式本發明公開了一種一種人類常見病遺傳風險評估方法,結合圖1所示,包括如下步驟
建立一個資料庫,該資料庫需要包含健康人與病人的流行病學資料,以及在若干遺傳相關位點上的基因分型資料;
對於以上資料/變量,根據其與疾病的相關性排序,重要的變量列在前面; 對於一個待檢測個體,首先獲取其上述各個資料,作為風險評估的依據; 依據變量的重要程度進行資料庫匹配比較資料庫中的某樣本與待檢測樣本的第一個變量,如果匹配則繼續比較第二個,第三個,直到無法匹配為止;選擇資料庫中與待檢測樣本最為匹配的前多個樣本;根據這些最匹配的資料庫樣本中的患者比例估計待檢測樣本的患病概率,並用群體患病率校正資料庫樣本採集的偏差。本發明還包括不斷擴大資料庫的樣本量以及變量數目。本發明相對於現有的Logisitic Regression方法
1.本發明可以對任意多個風險因子的總體效應進行評估,而現有的LR方法只能做數個風險因子的總體效應評估;
2.本發明在對待監測個體的鑑別率上,本方法顯著的好於傳統的LR方法。由於前一條原因,在比較兩種方法評估效果的時候,無法使用多達上百個因子的實際數據,這裡只展示一次模擬4個因子數據的結果
本方法預測健康預測患病正確率健康37013074. 0%患病5144989. 8%總計81. 9%LR方法預測健康預測患病正確率健康32917165. 8%患病14535571. 0%總計68. 4%
3.本發明的實際鑑定正確率依賴於其支持資料庫,隨著資料庫質量和數量提高,鑑定正確率可以相應的不斷提高。 綜上所述,本發明建立一個較大的病例——正常人環境資料和遺傳信息支持資料庫,然後通過關聯分析,找出與疾病關係比較密切的風險因子,再對待風險評估者,搜索資料庫,找出與其最相似若干個樣本。統計這些樣本的患病概率。作為該人的患病風險概率。若其風險很大/很小,則作出患病/健康的預測。本發明不需要對疾病機理有所假設, 特別適用於多因子複雜疾病;對風險的評估準確性高;可擴展性好,即隨著樣本庫的增加, 風險評估的準確性能持續提高;算法實現容易,速度快。
權利要求
1.一種人類常見病遺傳風險評估方法,其特徵在於,包括如下步驟建立一個資料庫,該資料庫需要包含健康人與病人的流行病學資料,以及在若干遺傳相關位點上的基因分型資料;對於以上資料/變量,根據其與疾病的相關性排序,重要的變量列在前面; 對於一個待檢測個體,首先獲取其上述各個資料,作為風險評估的依據; 依據變量的重要程度進行資料庫匹配比較資料庫中的某樣本與待檢測樣本的第一個變量,如果匹配則繼續比較第二個,第三個,直到無法匹配為止;選擇資料庫中與待檢測樣本最為匹配的前多個樣本;根據這些最匹配的資料庫樣本中的患者比例估計待檢測樣本的患病概率,並用群體患病率校正資料庫樣本採集的偏差。
2.根據權利要求1所述的人類常見病遺傳風險評估方法,其特徵在於,還包括不斷擴大資料庫的樣本量以及變量數目。
全文摘要
本發明公開了一種人類常見病遺傳風險評估方法,建立一個較大的病例——正常人環境資料和遺傳信息支持資料庫,然後通過關聯分析,找出與疾病關係比較密切的風險因子,再對待風險評估者,搜索資料庫,找出與其最相似若干個樣本。統計這些樣本的患病概率。作為該人的患病風險概率。若其風險很大/很小,則作出患病/健康的預測。本發明不需要對疾病機理有所假設,特別適用於多因子複雜疾病;對風險的評估準確性高;可擴展性好,即隨著樣本庫的增加,風險評估的準確性能持續提高;算法實現容易,速度快。
文檔編號G06F19/00GK102419791SQ20101029449
公開日2012年4月18日 申請日期2010年9月28日 優先權日2010年9月28日
發明者王一, 王穎, 金力, 黃薇 申請人:上海人類基因組研究中心, 上海南方基因科技有限公司, 復旦大學