一種近紅外光譜數據預處理方法與流程
2023-05-02 11:57:36

本發明公開了屬於近紅外光譜分析技術領域,尤其涉及一種近紅外光譜數據預處理的新方法,主要用於建立近紅外定量和定性模型時對近紅外光譜數據的預處理。
背景技術:
近紅外光譜技術具有分析速度快、樣本製作簡單的特點,目前,近紅外光譜技術在菸草、中藥、食品領域得以實際應用,隨著近紅外光譜技術應用範圍不斷拓展,大量相對準確的近紅外定量模型需要建立,一個預測精度高、穩定性好的模型受近紅外光譜數據的影響較大。近紅外光譜數據除含有樣品自身的化學信息外,還包含其他無關信息和噪聲,如樣品背景和雜散光等。因此,在建立近紅外定量模型時,旨在消除光譜數據無關信息和噪聲的預處理方法變得十分關鍵和必要。多元散射校正(msc)方法主要是用來消除固定顆粒大小不均勻、表面散射對近紅外漫反射的影響。傳統的多元散射校正方法是針對全波段光譜數據進行多元散射校正,該方法的缺點是,全波段光譜數據進行多元散射校正時得到的結果受局部波長點對應的吸光度值影響較大。
技術實現要素:
本發明的目的是尋找一種光譜數據預處理的新方法,傳統的多元散射校正方法是針對全波段光譜數據進行散射校正,該方法的缺點是全波段光譜數據進行多元散射校正時得到的結果受局部波長點對應的吸光度值影響較大。本發明是為了解決傳統多元散射校正的缺點,而提出一種新的光譜數據預處理方法來對光譜數據進行預處理。
為了實現上述的目的,本發明採用了以下的技術方案:
一種近紅外光譜數據預處理方法,該方法包括以下的步驟:
1)採集樣本的近紅外光譜數據;
2)採用經典方法檢測樣本的化學值數據;
3)每個樣本的近紅外光譜數據為x(1×m),m為連續波長變量數;
4)將連續波長變量(m)分成k個子區間;
5)計算樣品光譜數據每個子區間的平均光譜
6)對一條光譜x(1×m)的子區間光譜xi與對應的子區間平均光譜進行線性回歸,用最小二乘法求取b0和b;
7)計算一條光譜子區間的多元散射校正光譜xi,msc=(xi-b0)/b;
8)得到一條光譜經過多元散射校正預處理後的光譜xmsc=[x1,msc,x2,msc,…,xk,msc];
9)最後將得到的近紅外光譜預處理後的數據和化學值對應建立近紅外定量模型並對該模型進行評價。
作為進一步改進,所述步驟4)將波長變量(m)分成k個子區間,具體方法是:設置每個子區間寬度為w,那麼k=m/w,當m/w的結果是小數時,k的取值是m/w的整數加1。因此,xi(1×w),當m/w的結果是小數時,那麼
作為進一步改進,所述步驟5)計算樣品光譜數據每個子區間的平均光譜具體方法是:將所有樣本光譜都分成k個子區間,然後分別計算每個子區間的平均光譜
作為進一步改進,所述步驟8)得到一條光譜經過多元散射校正預處理後的光譜xmsc=[x1,msc,x2,msc,…,xk,msc],具體方法是:將每個子區間依次組合成全波段的多元散射校正數據,xmsc(1×m)=[x1,msc,x2,msc,…,xk,msc]。
本發明採用的是分段使用多元散射校正來對近紅外光譜數據進行預處理,消除了局部波長點吸光度值對全波段光譜數據的影響,採用該方法可以很好的消除固定顆粒大小不均勻、表面散射對近紅外漫反射的影響,提高近紅外光譜數據的信噪比。對於近紅外光譜數據預處理建立預測精度高的模型具有重要的意義,有助於近紅外光譜分析技術的推廣和應用。
附圖說明
圖1是原始近紅外光譜圖。
圖2是化學值分布圖。
圖3是經分段多元散射校正處理之後光譜圖。
圖4是導數預處理光譜圖。
圖5是導數預處理後建立的近紅外模型真實值和預測值對比圖。
圖6是分段多元散射校正後建立的近紅外模型真實值和預測值對比圖。
圖7外部驗證對比圖。
具體實施方式
下面採用附圖和實施例對本發明作進一步說明。
本實例採用菸草在線近紅外光譜作為測試對象,對一種新的近紅外光譜數據預處理方法進行詳細的說明。
1)採集樣本的近紅外光譜數據,具體過程:在線近紅外光譜儀安裝在原煙鋪葉生產皮帶上,生產過程中原煙經過在線近紅外探頭,在線近紅外光譜儀採集原煙近紅外光譜數據。在線近紅外光譜儀設置每5秒鐘生成一條光譜數據,5秒內抓取1個樣本並標號,放入自封袋,共取樣358個樣本,光譜數據見圖1。
2)採用經典方法檢測樣本的化學值數據,具體過程:將樣本菸葉去梗、剪碎放入烘箱中,烘箱溫度設置為40℃,烘乾3小時,將從烘箱中取出的菸葉放入乾燥器中進行冷卻到常溫,之後將菸葉樣本用粉碎機進行粉碎,過40目的篩子,最後利用流動分析儀檢測菸葉的菸鹼含量,菸鹼值見圖2。
3)生成的一條光譜數據為x(1×256),256為連續波長點數。
4)將256個連續波長點對應的吸光度值的子區間寬度設置為50,那麼k=6。
5)對原始近紅外光譜數據進行分段多元散射校正處理,處理後的圖見圖3。
6)對原始近紅外光譜數據進行導數預處理,導數參數選擇1階導,平滑點選擇13,擬合方程的次數選擇1次,處理後的結果見圖4。
7)將兩種預處理後的近紅外光譜數據與化學值分別建立兩個模型,建模方法為pls(偏最小二乘法),波長選擇方法為cars(自適應競爭重加權採樣法),選擇前面的光譜258條作為建模集,後面100條光譜作為驗證集,pls的參數選擇成分數為12。其中,r是相關係數,se是標準誤差,rsd是相對標準差。
8)外部驗證對比表: