基於魯棒回歸建模預測烤片煙氣苯並芘的方法
2023-05-13 04:10:21 2
基於魯棒回歸建模預測烤片煙氣苯並芘的方法
【專利摘要】本發明提供一種基於魯棒回歸建模預測烤片煙氣苯並芘的方法,通過已有的烤片理化數據和煙氣B[a]P數據建立從理化指標項到煙氣B[a]P的模型,對於未知烤片煙氣B[a]P樣本,可以利用其理化成分數據直接預測烤片煙氣B[a]P值。本發明省去了由傳統化學方式進行卷制、燃燒、捕捉煙氣、檢測等步驟;同時,採用魯棒回歸模型,可以有效地避免因理化數據或煙氣數據中奇異值樣本導致的弊端,很大程度上保證模型的健壯性,這點正是魯棒回歸建模優於普通線性回歸建模的優點。實踐證明,該模型能夠有效地預測烤片的煙氣B[a]P值,極大地提高檢測效率,降低檢測成本。
【專利說明】基於魯棒回歸建模預測烤片煙氣苯並芘的方法
【技術領域】
[0001] 本發明涉及一種基於魯棒回歸建模預測烤片煙氣苯並芘的方法,屬於特定計算模 型【技術領域】。
【背景技術】
[0002] 菸草煙氣是一種極為複雜的混合物,它是在捲菸抽吸過程中由菸草燃燒、裂解和 蒸餾而產生的。捲菸製品對於人體的危害性是通過燃吸過程而產生的。煙氣中的有害成 分主要是在燃燒過程中形成,而煙氣的化學特性是隨菸葉原料內在化學成分的變化而變化 的。因此,捲菸菸葉原料的化學特性決定了捲菸煙氣的化學特性和安全性。苯並芘(以下簡 稱:B [a]P)是一類具有明顯致癌作用的有機化合物,傳統的烤片煙氣B [a]P數據的獲得方 式是檢測烤片燃燒後的煙氣中的化學成分指標。通過這種方式獲得的煙氣數據,需要將烤 片卷製成捲菸燃燒後的煙氣進行化學檢測,檢測過程費時費力且檢測成本極高。
[0003] 在線性回歸建模中,模型是建立在一定假設條件基礎上的,例如被觀測樣本誤差 為標準正態分布。如果誤差的分布是非對稱或者傾向於離群點,那麼進行線性回歸建模的 假設是不成立的,參數的估計、置信區間以及其他計算的統計量都是不可靠的。這種情況 下,用魯棒回歸進行模型的建立是非常有效的。魯棒回歸建模包含了一種健壯的擬合方法, 與最小二乘法相比,對於數據中小部分的變異沒有那麼敏感,提高了模型的可信度。
[0004] 魯棒回歸通過為每個數據點賦予一個權值進行建模。加權是自動的並且是重複 的,這個過程叫做自動重加權最小二乘法。在第一階段,每個樣本點被賦予相同的權重,然 後利用普通的最小二乘法計算得到模型係數。在隨後的迭代中,每個樣本的點都將重新計 算,那些遠離模型預測值的樣本點將被賦予較低的權重。之後利用經過加權的最小二乘法 計算模型係數。迭代過程將一直進行下去,一直到模型係數在一個設定的範圍波動。
[0005] 因此以魯棒回歸建立一種預測模型由烤片理化數據直接獲取煙氣B[a]P數據的 方法勢在必行。
【發明內容】
[0006] 為解決現有技術檢測烤片煙氣B[a]P數據的過程費時、費力、成本極高等問題,本 發明提出一種基於魯棒回歸建模預測烤片煙氣苯並芘的方法。
[0007] 本發明通過已有的烤片理化數據和煙氣B[a]P數據建立從理化指標項到煙氣 B [a]P的魯棒回歸預測模型,對於未知烤片煙氣B [a]P樣本,利用其理化成分數據套用模型 直接預測烤片煙氣B[a]P值。具體經過下列各步驟: (1) 將已知烤片的理化數據與煙氣B [a] P數據對應列出,建立數據樣本集; (2) 分別計算步驟(1)所得數據樣本集中各理化數據的列向量Xl?xn和煙氣B [a] P數 據的列向量y,通過下列公式分別計算各理化數據與煙氣B [a]P的線性相關係數r,線性相 關係數r的絕對值大於0.3所對應的該項理化數據即為對煙氣B[a]P有重要影響的特徵指 標項,作為建模用的輸入變量:
【權利要求】
1. 一種基於魯棒回歸建模預測烤片煙氣苯並芘的方法,其特徵在於經過下列各步驟: (1) 將已知烤片的理化數據與煙氣B [a] P數據對應列出,建立數據樣本集; (2) 分別計算步驟(1)所得數據樣本集中各理化數據的列向量Xl?xn和煙氣B [a] P數 據的列向量y,通過下列公式分別計算各理化數據與煙氣B [a]P的線性相關係數r,線性相 關係數r的絕對值大於0.3所對應的該項理化數據即為對煙氣B[a]P有重要影響的特徵指 標項,作為建模用的輸入變量:
式中^為某一理化數據的列向量,為煙氣B[a]P數據的列向量; (3) 根據不同產地、品種、檔次,均勻挑選245個烤片作為訓練樣本,運用魯棒回歸線性 建模算法,建立煙氣B [a] P預測模型,其表達式為下式: F = + Ι? 二+ ? l· w + ft (2) 式中:Y為煙氣B[a]P的模型預測值,X為理化數據向量,b為常數項,A為回歸係數向 量; (4) 依據步驟(2)選擇的特徵指標項,將待測烤片的對應理化數據作為輸入變量套用至 步驟(3)的預測模型中,即能測算得到待測烤片的煙氣B[a]P的模型預測值Y。
2. 根據權利要求1所述的基於魯棒回歸建模預測烤片煙氣苯並芘的方法,其特徵在 於:所述步驟(1)的理化數據包括總糖、還原糖、菸鹼、總揮發鹼、總氮、菸鹼氮、蛋白質、施 木克值、氮鹼比、氯、鉀、糖鹼比和氨態鹼。
3. 根據權利要求1所述的基於魯棒回歸建模預測烤片煙氣苯並芘的方法,其特徵在 於:所述步驟(3)運用魯棒回歸線性建模算法的步驟如下: (a) 進行局部權重回歸擬合:每一次擬合過程只考慮所有擬合點數的一部分,每一個 被擬合點的取值都由與之鄰近的局部擬合範圍的散步點所決定,在每一個擬合點處都給予 不同的權重係數$,其權重係數在擬合點處為1,局部擬合範圍內擬合點的兩邊各點的權 重係數依次以一定的規則遞減至零,超出擬合範圍的數據點處的權重均為0,其代數表達式 為:
式中:1^為每個擬合點的權重係數,&為實測值,為計算值; (b) 按下式計算調整殘差:
式中:Q為普通最小二乘法的殘差,~為殘差調整槓桿值,用於降低影響擬合值較大點 處的權重,T為轉置; 標準調整殘差由下式給出:
式中:K為調整參數,取4. 685 ;s為魯棒性偏差;MAD是殘差的中值絕對偏差; (c) 按下式計算在局部擬合範圍內每一點的魯棒性權重:
(d) 對於式(2),將常數項b納入到回歸係數向量中,則式(2)簡化為:
依據權重最小二乘法求解使得下式取最小值的回歸係數向量A,並計算在X(l處的^ 值:
式中:J為權重最小二乘法求解的目標函數。
4. 根據權利要求1所述的基於魯棒回歸建模預測烤片煙氣苯並芘的方法,其特徵在 於:所述步驟(3)的預測模型通過下列各步驟對擬合性能和推廣性能進行評價: 根據不同產地、品種、檔次,均勻挑選45個與步驟(3)不同的烤片理化數據作為測試樣 本,套用至步驟(3)的預測模型中進行性能測試,預測結果需同時滿足如下兩個條件,即判 定模型性能達到預測要求: A、 測試樣本與訓練樣本的預測平均誤差相當,即為下式所示:
式中:errtMin為預測模型對訓練樣本的平均誤差,en^st為預測模型對測試樣本的平 均誤差; B、 測試樣本的預測值與實際值呈顯著的線性相關關係,即為下式所示:
式中為測試樣本的預測值,y為測試樣本的實測值。
5. 根據權利要求3所述的基於魯棒回歸建模預測烤片煙氣苯並芘的方法,其特徵在 於:所述步驟(d)的魯棒性權重若其擬合誤差未達到下列擬合誤差要求時,從步驟(b)開始 迭代計算,直至誤差達到要求或達到限定迭代次數為止:
【文檔編號】G06F19/00GK104102851SQ201410386226
【公開日】2014年10月15日 申請日期:2014年8月7日 優先權日:2014年8月7日
【發明者】白曉莉, 彭國崗, 段如敏, 吳麗君, 周桂圓, 王保興, 盧偉, 劉挺 申請人:雲南中煙工業有限責任公司