新四季網

一種改進的阿爾茨海默病發病風險預測方法與流程

2023-06-13 07:03:26


本發明涉及醫療檢測領域,特別涉及一種改進的阿爾茨海默病發病風險預測方法。



背景技術:

阿爾茨海默病是一種神經系統退行性疾病,臨床上以記憶力減退、認知能力下降等痴呆表現為特徵。現代科學認為阿爾茨海默病是基因和環境因素共同作用的結果,其中基因起著主要作用。

目前,阿爾茨海默病患者的比例逐年上升,嚴重影響著人們的日常生活。近年來,全基因組關聯研究和候選基因研究發現了大量阿爾茨海默病易感多態位點。因此,通過阿爾茨海默病個體和正常對照個體的基因型數據建立相應的模型,進而預測個體的阿爾茨海默病發病風險就顯的十分重要。

如果測定一個人的基因型數據,利用模型就可以計算出阿爾茨海默病發病風險的大小。若發病風險較高,則需要制定健康的生活、運動及營養平衡方案,從而降低發病風險。

遺傳風險評分(Genetic risk score,GRS)作為分析單核苷酸多態性(Single nucleotide polymorphisms,SNP)與複雜疾病臨床表型的有效方法。單個SNP對疾病具有微弱效應,該方法整合了若干個SNPs的微弱效應。GRS認為每個風險等位基因對疾病的作用相同,只是把風險等位基因的個數簡單相加。實際上,每個風險等位基因對疾病的作用不可能相同,於是誕生了加權的遺傳風險評分(wGRS)。

加權的GRS可以表示為:(βi表示第i個SNP的權重,Si表示第i個SNP的風險等位基因的個數,n為SNPs的數量)。該算法認為每個風險等位基因對疾病的影響不同,通過給每個風險等位基因賦予相應的權重來表明SNPs對疾病的影響程度,wGRS較GRS更廣泛應用在複雜疾病的預測評估中。

目前研究表明,SNP之間的相互作用對阿爾茨海默病發病有重要影響,而wGRS進行風險預測時忽略了SNP之間的相互作用。



技術實現要素:

本發明的目的是克服上述現有技術中存在的問題,提供一種改進的阿爾茨海默病發病風險預測方法,該方法基於阿爾茨海默病(Alzheimer disease,AD)疾病個體和正常個體的基因型數據,建立一個更準確的阿爾茨海默病風險預測模型,利用該模型及個體的基因型數據預測阿爾茨海默病的發病風險。

本發明的技術方案是:一種改進的阿爾茨海默病發病風險預測方法,包括如下步驟:

(1)獲取阿爾茨海默病疾病個體和正常對照個體的基因型數據;

對於阿爾茨海默病,首先對大量阿爾茨海默病病人和正常人的常染色體進行基因測序,得到阿爾茨海默病病人和正常人的原始SNP基因型數據;對原始的SNP基因型數據進行質量控制,剔除最小等位基因頻率MAF小於0.02、不滿足哈迪-溫伯格平衡檢驗、分型成功比小於75%、及位於連鎖不平衡區域的SNP基因型數據;樣本所對應的所有SNP的分型成功率需在75%以上,否則,再從SNP基因型數據中剔除不滿足樣本的基因型缺失比控制的樣本;對滿足條件的SNP基因型數據保留下來,用於進一步分析;

(2)剔除不滿足控制條件的SNP基因型數據後,對保留的SNP基因型數據進行評分;根據SNP基因型數據中含有的高風險等位基因的個數,對於SNP基因型數據進行0,1,2評分,採用0,1,2分來表示相應的SNP基因型數據;

對於SNP基因型數據,規定有兩個高風險等位基因的純合子記為2分,有一個高風險等位基因雜合子記為1分,有兩個低風險等位基因的純合子記為0分;

(3)與阿爾茨海默病關聯性水平p<0.05的SNP被認為是與該病顯著相關;篩選出與阿爾茨海默病顯著相關的SNP以及SNP之間的相互作用對疾病有顯著相關的SNP-SNP對;

將患阿爾茨海默病病人用1表示,正常人用0表示;通過單因素logistic回歸算法得到校正年齡、性別後與阿爾茨海默病顯著相關的SNP,同時利用Lasso多重回歸方法得到Bonferroni校正後與阿爾茨海默病顯著有關的SNP-SNP對;

(4)得到阿爾茨海默病獨立影響的SNP以及SNP之間的相互作用對疾病有獨立影響的SNP-SNP對;

比值比OR值表示疾病與暴露之間關聯強度的指標,與相對危險度(RR)類似,指暴露者的疾病危險性為非暴露者的倍數;對顯著相關的SNP和SNP對進行多因素logistic回歸算法分析,得到對阿爾茨海默病獨立影響的SNP、SNP-SNP對、相應的比值比OR值、95%置信區間以及logistic回歸的常量項α,對每一個SNP和SNP-SNP對的比值比OR值取自然對數,得到每個SNP和SNP-SNP對的權重值β;

(5)利用阿爾茨海默病獨立影響的SNP以及SNP-SNP對,建立改進的的wGRS模型;把每個SNP及SNP-SNP對都當作變量S,根據得到的每個SNP和SNP-SNP對的權重值β,於是改進的wGRS模型表示為各變量與自己的權重乘積之和,即其中n為SNP及SNP-SNP對的數量,βi表示第i個變量的權重值,Si表示第i個變量;對阿爾茨海默病獨立影響的SNP及SNP-SNP對的OR值取自然對數得到相對應的權重βi;把阿爾茨海默病獨立影響的SNP及SNP-SNP對全部納入wGRS模型,則得到阿爾茨海默病發病風險的模型為logit P(D=1|G)=α+wGRS,其中D=1表示一個人患病,G表示一個人的SNP基因數據,P(D=1|G)為一個人根據自己SNP基因數據計算出可能患阿爾茨海默病的概率,α為logistic回歸的常量項;其中n為SNP及SNP-SNP對的數量,βi表示第i個變量的權重值,Si表示第i個變量;

(6)阿爾茨海默病風險預測;

對一個人進行阿爾茨海默病風險預測,只需測定該人的基因型數據,利用步驟(5)中的阿爾茨海默病發病風險的模型就可以計算出該人患阿爾茨海默病的風險大小。

較佳地,步驟(1)中所述的對原始的SNP基因型數據進行質量控制,包括如下具體步驟:

1)對原始的SNP基因型數據,剔除最小等位基因頻率MAF小於0.02的SNP;

2)剔除不滿足哈迪-溫伯格平衡檢驗的SNP;

3)對於某個SNP在所有樣本中的分型成功率需控制在75%以上;剔除不滿足SNP分型成功比例控制的SNP;

4)對於基因組範圍內關聯分析而言,對於一個需要檢驗的樣本。一般情況下,樣本所對應的所有SNP的分型成功率需控制在75%以上,對樣本的SNP基因型數據質量控制時,從分析數據中剔除不滿足樣本的基因型缺失比控制的樣本;

5)剔除位於連鎖不平衡區域的SNP;留下的SNP基因型數據進行下一步分析。

較佳地,步驟(3)具體包括如下步驟:

(3)對SNP基因型數據進行評分完成後,將每個樣本的SNP基因型通過0,1,2表示;在進行單因素logistic回歸分析時,將單個SNP作為自變量,樣本的患病狀態0,1作為因變量,同時把年齡、性別當作協變量;則得到該SNP與阿爾茨海默病關聯性水平、比值比以及95%置信區間;若SNP與阿爾茨海默病關聯性水平p<0.05的SNP被認為是與該病顯著相關,則保留下來;

(4)利用Lasso多重回歸方法得到Bonferroni校正後與阿爾茨海默病顯著有關的SNP-SNP對。

較佳地,步驟(4)具體包括如下步驟:

1)對顯著相關的SNP和SNP-SNP對進行多因素logistic回歸算法分析時,顯著相關的SNP基因型數據通過0,1,2表示,而顯著相關的SNP-SNP對通過兩個SNP基因型數據的乘積表示,並把每個顯著相關的SNP和SNP-SNP對都看作一個變量;通過多因素logistic回歸算法,得到每個變量與阿爾茨海默病關聯性水平p值、比值比OR值、95%置信區間以及logistic回歸的常量項α;認為關聯性水平p<0.05的變量是對阿爾茨海默病獨立影響的變量;

2)對每一個SNP和SNP-SNP對的比值比OR值取自然對數,得到每個SNP和SNP-SNP對的權重值β,即每個SNP和SNP-SNP對都有對應自己的權重值β。

本發明的有益效果:本發明實施例中,提供一種改進的阿爾茨海默病發病風險預測方法,該方法基於現有的wGRS提出了改進的wGRS方法,計算wGRS時不但考慮了單個SNP的作用,同時也考慮SNP之間的相互作用。該改進的wGRS方法能夠對阿爾茨海默病發病風險預測的正確性進一步提高。因此本方法考慮到SNP之間的相互作用對阿爾茨海默病的重要影響,並將SNP之間的相互作用應用到阿爾茨海默病發病風險預測中,進一步提高了阿爾茨海默病發病風險預測的正確率。

附圖說明

圖1為本發明的方法流程圖;

圖2為對原始樣本預測ROC曲線圖。

具體實施方式

下面結合附圖,對本發明的一個具體實施方式進行詳細描述,但應當理解本發明的保護範圍並不受具體實施方式的限制。

如圖1所示,本發明實施例提供了一種改進的阿爾茨海默病發病風險預測方法,本發明採用基因型數據預測阿爾茨海默病風險時,應用SNP之間的相互作用關係對進行阿爾茨海默病發病風險預測;本發明的目的是利用阿爾茨海默病疾病個體和正常對照個體的基因型數據訓練得到一個阿爾茨海默病風險模型,然後利用該模型及待測個體的基因型數據對阿爾茨海默病風險進行預測。本發明方法包括如下步驟:

(1)獲取阿爾茨海默病疾病個體和正常對照個體的基因型數據;

對於阿爾茨海默病,首先對大量阿爾茨海默病病人和正常人的常染色體進行基因測序,得到阿爾茨海默病病人和正常人的原始SNP基因型數據;對原始的SNP基因型數據進行質量控制,剔除最小等位基因頻率MAF小於0.02、不滿足哈迪-溫伯格平衡檢驗、分型成功比小於75%、及位於連鎖不平衡區域的SNP基因型數據;樣本所對應的所有SNP的分型成功率需在75%以上,否則,再從SNP基因型數據中剔除不滿足樣本的基因型缺失比控制的樣本;對滿足條件的SNP基因型數據保留下來,用於進一步分析;

所述的對原始的SNP基因型數據進行質量控制,包括如下具體步驟:

1)在關聯研究中,較小的MAF將會使統計效能降低,從而造成假陰性的結果。對原始的SNP基因型數據,剔除最小等位基因頻率MAF小於0.02的SNP;

2)在理想狀態下,各等位基因的頻率和等位基因的基因型頻率在遺傳中是穩定不變的,即保持著基因平衡。通常哈迪-溫伯格平衡檢驗顯著性水平p值取1×10-6。對原始的SNP基因型數據質量控制,剔除不滿足哈迪-溫伯格平衡檢驗的SNP;

3)一般情況下,對於某個SNP在所有樣本中的分型成功率需控制在75%以上,否則不能通過質量控制;剔除不滿足SNP分型成功比例控制的SNP;

4)對於基因組範圍內關聯分析而言,對於一個需要檢驗的樣本。一般情況下,樣本所對應的所有SNP的分型成功率需控制在75%以上,否則不能通過質量控制,對樣本的SNP基因型數據質量控制時,從分析數據中剔除不滿足樣本的基因型缺失比控制的樣本;

5)對原始的SNP基因型數據質量控制時,剔除位於連鎖不平衡區域的SNP;經過質量控制後,留下的SNP基因型數據進行下一步分析。

(2)剔除不滿足控制條件的SNP基因型數據後,對保留的SNP基因型數據進行評分;根據SNP基因型數據中含有的高風險等位基因的個數,對於SNP基因型數據進行0,1,2評分,採用0,1,2分來表示相應的SNP基因型數據;

對於SNP基因型數據,規定有兩個高風險等位基因的純合子記為2分,有一個高風險等位基因雜合子記為1分,有兩個低風險等位基因的純合子記為0分;

(3)與阿爾茨海默病關聯性水平p<0.05的SNP被認為是與該病顯著相關;篩選出與阿爾茨海默病顯著相關的SNP以及SNP之間的相互作用對疾病有顯著相關的SNP-SNP對;

將患阿爾茨海默病病人用1表示,正常人用0表示;通過單因素logistic回歸算法得到校正年齡、性別後與阿爾茨海默病顯著相關的SNP,同時利用Lasso多重回歸方法得到Bonferroni校正後與阿爾茨海默病顯著有關的SNP-SNP對;

本步驟(3)具體包括:

a)對SNP基因型數據進行評分完成後,將每個樣本的SNP基因型通過0,1,2表示;在進行單因素logistic回歸分析時,將單個SNP作為自變量,樣本的患病狀態0,1作為因變量,同時把年齡、性別當作協變量;則得到該SNP與阿爾茨海默病關聯性水平、比值比以及95%置信區間;若SNP與阿爾茨海默病關聯性水平p<0.05的SNP被認為是與該病顯著相關,則保留下來;

b)利用Lasso多重回歸方法得到Bonferroni校正後與阿爾茨海默病顯著有關的SNP-SNP對。

(4)得到阿爾茨海默病獨立影響的SNP以及SNP之間的相互作用對疾病有獨立影響的SNP-SNP對;

比值比OR值表示疾病與暴露之間關聯強度的指標,與相對危險度(RR)類似,指暴露者的疾病危險性為非暴露者的倍數;對顯著相關的SNP和SNP對進行多因素logistic回歸算法分析,得到對阿爾茨海默病獨立影響的SNP、SNP-SNP對、相應的比值比OR值、95%置信區間以及logistic回歸的常量項α,對每一個SNP和SNP-SNP對的比值比OR值取自然對數,得到每個SNP和SNP-SNP對的權重值β;

本步驟(4)具體包括如下步驟:

1)對顯著相關的SNP和SNP-SNP對進行多因素logistic回歸算法分析時,顯著相關的SNP基因型數據通過0,1,2表示,而顯著相關的SNP-SNP對通過兩個SNP基因型數據的乘積表示,並把每個顯著相關的SNP和SNP-SNP對都看作一個變量;通過多因素logistic回歸算法,得到每個變量與阿爾茨海默病關聯性水平p值、比值比OR值、95%置信區間以及logistic回歸的常量項α;認為關聯性水平p<0.05的變量是對阿爾茨海默病獨立影響的變量;

2)對每一個SNP和SNP-SNP對的比值比OR值取自然對數,得到每個SNP和SNP-SNP對的權重值β,即每個SNP和SNP-SNP對都有對應自己的權重值β。

(5)利用阿爾茨海默病獨立影響的SNP以及SNP-SNP對,建立改進的的wGRS模型;把每個SNP及SNP-SNP對都當作變量S,根據得到的每個SNP和SNP-SNP對的權重值β,於是改進的wGRS模型表示為各變量與自己的權重乘積之和,即其中n為SNP及SNP-SNP對的數量,βi表示第i個變量的權重值,Si表示第i個變量;對阿爾茨海默病獨立影響的SNP及SNP-SNP對的OR值取自然對數得到相對應的權重βi;把阿爾茨海默病獨立影響的SNP及SNP-SNP對全部納入wGRS模型,則得到阿爾茨海默病發病風險的模型為logit P(D=1|G)=α+wGRS,其中D=1表示一個人患病,G表示一個人的SNP基因數據,P(D=1|G)為一個人根據自己SNP基因數據計算出可能患阿爾茨海默病的概率,α為logistic回歸的常量項;其中n為SNP及SNP-SNP對的數量,βi表示第i個變量的權重值,Si表示第i個變量;

(6)阿爾茨海默病風險預測;

對一個人進行阿爾茨海默病風險預測,只需測定該人的基因型數據,利用步驟(5)中的阿爾茨海默病發病風險的模型就可以計算出該人患阿爾茨海默病的風險大小。

本發明從從如下網頁:(http://journals.plos.org/plosone/article/asset?unique&id=info:doi/10.1371/journal.pone.0144898.s002)所提供的文獻下載中國人群229阿爾茨海默病個體和318正常個體的55個阿爾茨海默病SNP的基因型數據,剔除一個不滿足的哈迪-溫伯格平衡的SNP。對所有的基因型數據按照高風險等位基因的個數進行0,1,2轉換,通過單因素logistic回歸分析可以得到與阿爾茨海默病顯著相關的SNP。由於基因型數據中沒有年齡、性別等信息,所以直接引用原作者校正年齡、性別等信息後13個與阿爾茨海默病顯著相關的SNP。詳細信息如表1所示:

表1 與AD疾病顯著相關的13個SNP

利用LMR方法找出與阿爾茨海默病顯著相關的SNP對,結果表明rs6656401-rs3865444、rs28834970-rs6656401、rs28834970-rs3865444與AD顯著相關(p<0.05)。

對13個顯著相關的SNP、3對SNP進行多因素logistic回歸,得到獨立影響阿爾茨海默病的SNP和SNP對(p<0.05)及對應的OR值和95%的置信區間(未校正年齡、性別等信息),對OR值取自然對數可以得到相應的權重β。表2是獨立影響AD的SNP和SNP對。

表2 獨立影響AD的SNP和SNP對

於是,利用獨立影響阿爾茨海默病的SNP和SNP對計算改進的wGRS,wGRS=V1*(-0.456)+V2*0.339+V3*(-0.464)+V4*0.374+V5*(-0.754)+V6*0.367+V7*0.667+V8*(-0.308)+V9*(-0.398)+V10*1.664則阿爾茨海默病疾病的模型為logit P(D=1|G)=0.772+wGRS。

為了檢驗該模型的預測正確率,我們利用改進的wGRS對原始樣本(229阿爾茨海默病個體和318正常對照個體)進行預測分析,預測結果如表3:

表3 改進的wGRS對原始樣本預測情況表(分類點為0.5)

相應的ROC曲線如圖2所示。

ROC曲線的面積為0.721,95%CI為(0.679-0.764)。

如果不考慮SNP之間的相互作用對疾病的影響,直接採用13個顯著的SNP,建立wGRS對原始樣本進行預測,得到如表4的結果分析:

表4 wGRS對原始樣本預測情況表(分類點為0.5)

因此,將阿爾茨海默病顯著相關的SNP和SNP對作為影響疾病的因素,通過多因素logistic回歸得到獨立影響阿爾茨海默病的SNP、SNP對及對應的OR值。採用改進的wGRS對阿爾茨海默病風險預測的正確率為68.7%。只用阿爾茨海默病顯著相關的SNP而不考慮SNP之間的相互作用對阿爾茨海默病風險預測的正確率為66.4%。本發明提出改進的wGRS方法充分考慮到SNP之間的相互作用對阿爾茨海默病發病的影響,能夠將阿爾茨海默病發病風險預測正確率提高2.3%。如果在進行多因素logistic回歸得到獨立影響阿爾茨海默病的SNP和SNP對時對年齡、性別等信息進行校正,相信改進的wGRS對阿爾茨海默病風險預測的正確率將會更高。

綜上所述,本發明實施例提供的一種改進的阿爾茨海默病發病風險預測方法,該方法基於現有的wGRS提出了改進的wGRS方法,計算wGRS時不但考慮了單個SNP的作用,同時也考慮SNP之間的相互作用。該改進的wGRS方法能夠對阿爾茨海默病發病風險預測的正確性進一步提高。因此本方法考慮到SNP之間的相互作用對阿爾茨海默病的重要影響,並將SNP之間的相互作用應用到阿爾茨海默病發病風險預測中,進一步提高了阿爾茨海默病發病風險預測的正確率。

以上公開的僅為本發明的幾個具體實施例,但是,本發明實施例並非局限於此,任何本領域的技術人員能思之的變化都應落入本發明的保護範圍。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀