一種腦膜炎的治療費用預測方法和裝置與流程
2024-04-12 16:39:05
1.本發明涉及醫療數據分析技術領域,特別是涉及一種腦膜炎的治療費用預測方法和裝置。
背景技術:
2.風險評估建模方法作為慢性病健康管理風險評估的技術手段應受到重視;健康管理的概念首先在美國提出,經過二十多年的發展目前已成為了一個新興產業和逐步興起的學科。健康管理是對個人和人群的各種健康危險和健康保護因素進行全面管理的過程,調動個人、集體、社會的積極性,有效地利用有限的物理資源,控制疾病促進健康,達到最大的健康效果。目前健康風險評估包括:患病預測和疾病治療費用預測等,現有的疾病治療費用預測模型主要運用的是線性模型,但是線性模型相對欠擬合,因此會導致預測準確度較低。
技術實現要素:
3.本發明所要解決的技術問題是提供一種腦膜炎的治療費用預測方法和裝置,能夠使得預測模型不會出現過擬合和欠擬合的情況,從而提高預測準確度。
4.本發明解決其技術問題所採用的技術方案是:提供一種腦膜炎的治療費用預測方法,包括以下步驟:
5.(1)收集多個患者信息,並從所述患者信息中選取出多個變量,並將所述多個患者信息分為訓練集和測試集;
6.(2)判斷在訓練集中每個變量對於腦膜炎治療費用是否有顯著性差異,若所述變量對於所述腦膜炎治療費用有顯著性差異,則保留所述變量;
7.(3)基於保留的變量按照排列組合的方式建立多個多項式模型,並採用訓練集進行訓練;
8.(4)判斷最高項數的變量對所述腦膜炎治療費是否有統計意義,若所述最高項數的變量對所述腦膜炎治療費有統計意義,則保留所述最高項數的變量對應的多項式模型;
9.(5)採用測試集對保留的多項式模型進行驗證,選取準確率和召回率平均值最高的一個多項式模型作為最終模型;
10.(6)採用所述最終模型進行腦膜炎的治療費用預測。
11.所述多個變量包括:年齡、性別、高血壓藥品上的總花費、高血脂藥品上的總花費、腦血管疾病上的總會、是否肥胖、以及最近一年的就診次數。
12.所述步驟(2)中通過anova檢驗判斷每個變量對於所述腦膜炎治療費用是否有顯著性差異。
13.所述步驟(4)中通過aic判斷最高項數的變量對所述腦膜炎治療費是否有統計意義。
14.所述步驟(5)中在採用測試集對保留的多項式模型進行驗證時,將測試集中的腦膜炎治療費用設置成原值數80%置信區間,若所述多項式模型的預測值在該範圍內,則屬
於預測準確。
15.本發明解決其技術問題所採用的技術方案是:還提供一種腦膜炎的治療費用預測裝置,包括:
16.收集模塊,用於收集多個患者信息,並從所述患者信息中選取出多個變量,並將所述多個患者信息分為訓練集和測試集;
17.第一判斷模塊,用於判斷在訓練集中每個變量對於腦膜炎治療費用是否有顯著性差異,若所述變量對於所述腦膜炎治療費用有顯著性差異,則保留所述變量;
18.模型構建模塊,用於基於保留的變量按照排列組合的方式建立多個多項式模型,並採用訓練集進行訓練;
19.第二判斷模塊,用於判斷最高項數的變量對所述腦膜炎治療費是否有統計意義,若所述最高項數的變量對所述腦膜炎治療費有統計意義,則保留所述最高項數的變量對應的多項式模型;
20.模型選取模塊,用於採用測試集對保留的多項式模型進行驗證,選取準確率和召回率平均值最高的一個多項式模型作為最終模型;
21.預測模塊,用於採用所述最終模型進行腦膜炎的治療費用預測。
22.所述多個變量包括:年齡、性別、高血壓藥品上的總花費、高血脂藥品上的總花費、腦血管疾病上的總會、是否肥胖、以及最近一年的就診次數。
23.所述第一判斷模塊通過anova檢驗判斷每個變量對於所述腦膜炎治療費用是否有顯著性差異。
24.所述第二判斷模塊通過aic判斷最高項數的變量對所述腦膜炎治療費是否有統計意義。
25.所述模型選取模塊在採用測試集對保留的多項式模型進行驗證時,將測試集中的腦膜炎治療費用設置成原值數80%置信區間,若所述多項式模型的預測值在該範圍內,則屬於預測準確。
26.有益效果
27.由於採用了上述的技術方案,本發明與現有技術相比,具有以下的優點和積極效果:本發明通過差異判斷篩選出合適的變量,以防止在後期多項式模型處理時出現過擬合,再通過篩選出的變量構建多個多項式模型,並根據最高項數對應變量的統計意義篩選模型,從而保證預測模型不會出現欠擬合的情況發生,最後通過測試集找出一個最佳模型作為最終模型,通過上述方式構建的模型能夠提高預測準確度。
附圖說明
28.圖1是本發明第一實施方式的流程圖。
具體實施方式
29.下面結合具體實施例,進一步闡述本發明。應理解,這些實施例僅用於說明本發明而不用於限制本發明的範圍。此外應理解,在閱讀了本發明講授的內容之後,本領域技術人員可以對本發明作各種改動或修改,這些等價形式同樣落於本技術所附權利要求書所限定的範圍。
30.本發明的第一實施方式涉及一種腦膜炎的治療費用預測方法,如圖1所示,包括以下步驟:
31.步驟1,收集多個患者信息,並從所述患者信息中選取出多個變量,並將所述多個患者信息按照8:2的比例分為訓練集和測試集。本實施方式中共選取7個變量,分別為:x1(年齡)、x2(性別)、x3(患者在高血壓藥品上總花費)、x4(患者在高血脂藥品上總花費)、x5(患者在腦血管疾病上花費)、x6(是否肥胖)、以及x7(過去一年中患者的就診次數)。
32.步驟2,判斷在訓練集中每個變量對於所述腦膜炎治療費用是否有顯著性差異,若所述變量對於所述腦膜炎治療費用有顯著性差異,則保留所述變量。具體地說,將每一個變量與腦膜炎治療費用做anova檢驗,查看變量對於腦膜炎治療費用是否有顯著性差異,例如當anova檢驗值超過閾值時則表示有顯著性差異,若該變量對於腦膜炎治療費用有顯著性差異,則保留該變量,若無則取出。這樣可以篩選出合適的變量,以防止在後期多項式模型處理時出現過擬合。基於上述7個變量,本實施方式通過anova檢驗,篩選出x1(年齡)、x2(性別)、x3(患者在高血壓藥品上總花費)、x5(患者在腦血管疾病上花費)、以及x7(過去一年中患者的就診次數)這五個變量對於腦膜炎治療費用有顯著性差異,所以保留這五個變量。
33.步驟3,基於保留的變量按照排列組合的方式建立多個多項式模型,並採用訓練集進行訓練。具體地說,通過上述保留的5個變量建立五次多項式,即y=a+b1x1+b2x
22
+b3x
33
+b5x
54
+b7x
75
,其中,y表示預測的腦膜炎治療費用,a,b1,b2,b3,b5,b7為調整係數,每個變量後的冪和變量本身沒有關係,由變量的位置決定。由於共保留了5個變量,按照排列組合其共有120種排列方式,因此可以得到120個多項式模型。
34.步驟4,判斷最高項數的變量對所述腦膜炎治療費是否有統計意義,若所述最高項數的變量對所述腦膜炎治療費有統計意義,則保留所述最高項數的變量對應的多項式模型。本實施方式通過aic來判斷最高項數的變量對所述腦膜炎治療費是否有統計意義,例如,當aic值超過設定的閾值時則表示有統計意義,若最高項數的變量對所述腦膜炎治療費有統計意義,則保留該最高項數的變量對應的多項式模型,否則去除,這樣篩選出的多項式模型不會出現欠擬合的情況發生。
35.步驟5,採用測試集對保留的多項式模型進行驗證,在驗證時將測試集中的腦膜炎治療費用設置成原值數80%置信區間,若所述多項式模型的預測值在該範圍內,則屬於預測準確。最後選取準確率和召回率平均值最高的一個多項式模型作為最終模型。
36.步驟6,獲取一個新的患者信息,並採用所述最終模型對該患者的腦膜炎的治療費用進行預測。
37.本發明的第二實施方式涉及一種腦膜炎的治療費用預測裝置,包括:收集模塊,用於收集多個患者信息,並從所述患者信息中選取出多個變量,並將所述多個患者信息分為訓練集和測試集;第一判斷模塊,用於判斷在訓練集中每個變量對於所述腦膜炎治療費用是否有顯著性差異,若所述變量對於所述腦膜炎治療費用有顯著性差異,則保留所述變量;模型構建模塊,用於基於保留的變量按照排列組合的方式建立多個多項式模型,並採用訓練集進行訓練;第二判斷模塊,用於判斷最高項數的變量對所述腦膜炎治療費是否有統計意義,若所述最高項數的變量對所述腦膜炎治療費有統計意義,則保留所述最高項數的變量對應的多項式模型;模型選取模塊,用於採用測試集對保留的多項式模型進行驗證,選取準確率和召回率平均值最高的一個多項式模型作為最終模型;預測模塊,用於採用所述最
終模型進行腦膜炎的治療費用預測。其中,所述多個變量包括:年齡、性別、高血壓藥品上的總花費、高血脂藥品上的總花費、腦血管疾病上的總會、是否肥胖、以及最近一年的就診次數。
38.本實施方式中的第一判斷模塊通過anova檢驗判斷每個變量對於所述腦膜炎治療費用是否有顯著性差異。第二判斷模塊通過aic判斷最高項數的變量對所述腦膜炎治療費是否有統計意義。模型選取模塊在採用測試集對保留的多項式模型進行驗證時,將測試集中的腦膜炎治療費用設置成原值數80%置信區間,若所述多項式模型的預測值在該範圍內,則屬於預測準確。
39.不難發現,本發明通過顯著性差異判斷篩選出合適的變量,以防止在後期多項式模型處理時出現過擬合,再通過篩選出的變量構建多個多項式模型,並根據最高項數對應變量的統計意義篩選模型,從而保證預測模型不會出現欠擬合的情況發生,最後通過測試集找出一個最佳模型作為最終模型,通過上述方式構建的模型能夠提高預測準確度。