新四季網

一種新型光譜多元分析分類與識別方法及其用途與流程

2023-05-01 02:55:36 1


本發明涉及光譜分析領域,可用於石化、菸草、醫藥、環境、食品檢測等領域。本發明針對SIMCA方法因歐氏距離導致分類不夠精確的問題,採用了馬氏距離來代替歐式距離進行預測,是一種改進的SIMCA方法。



背景技術:

分子光譜(紅外、近紅外和拉曼)從分子水平上反映了物質組成與結構信息,紫外,LIBS、X螢光等波譜則從電子或原子水平上反映物質組成和結構的信息。隨著光譜儀器技術的發展,這些光譜的獲取也越來越容易,不僅速度快,且大多無損,因此,光譜已經成為分析技術的理想信息載體。複雜物質光譜是其組分光譜的疊加,共存組分信息幹擾使得分析難度增加,多元分析方法則是用來提取其有用信息的有力工具。將光譜和多元分析方法結合起來,稱之為現代光譜分析技術,可以實現複雜體系的定性和定量分析,具有快速、無損和高通量的等優點,已廣泛應用於石化、菸草、醫藥、環境、食品檢測等領域,對工業生產過程質量和成本控制以及流通領域質量監督等具有不可或缺的重要作用。

現代光譜分析方法包括定性和定量。其中,光譜定性分析也稱判別分析,主要用於兩個方面。一是用於判別樣品的種類,等級,來源及真偽等,二是判別待分析樣品是否落在定量分析模型範圍之內,即用於確定多元定量分析模型的適用範圍,對於保障光譜多元定量分析結果的準確性具有關鍵作用。

目前光譜多元分析中常用的分類方法主要包括:線性學習機(Linear Learning Machine)、K-最近鄰法(K-Nearest Neighbors Discrimination Method,KNN)、主成分分析(Principal Component Analysis,PCA)、馬氏距離(Mahalanobis Distance,MD)法、判別分析法(Discrimination Analysis,DA)、SIMCA方法、聚類分析、支持向量機等。在實際分析中普遍認為SIMCA方法是應用最廣和最成熟的方法,被MATLAB軟體列入工具箱,在科學研究中也是使用頻率最高的。

SIMCA方法是有監督的分類方法,分別對各類樣品光譜進行主成分分析,建立各類樣本的主成分光譜空間,分別採用主成分得分和光譜殘差信息及F檢驗構造兩個統計量T2和Q(殘差),作為樣本分類的新屬性,然後,使用這兩個屬性計算樣本到各類樣品主成分光譜空間的歐氏距離,通過比較待測樣品到各類樣品主成分光譜空間的歐氏距離和設定閾值,實現樣本的有效分類與識別。大量光譜應用結果表明,SIMCA方法分類可以獲得很好的效果。但是,對於區分成分相近又存在著微小差異的樣本,SIMCA方法分類的效果也不理想。在光譜主成分分析分類中常用馬氏距離,以馬氏距離描述的分布在幾何學上呈橢圓狀。相比歐式距離,用馬氏距離描述實際樣本空間分布將更貼近於實際。為此,本發明提出一種改進的SIMCA新方法,採用馬氏距離來代替歐氏距離進行預測,改善SIMCA方法的分類精度。



技術實現要素:

針對SIMCA方法難以區分成分相近又存在著微小差異的樣本的問題,本發明提供了一種改進的SIMCA方法。其關鍵點在於:在SIMCA建立好模型之後,採用馬氏距離來代替歐氏距離進行預測。

本發明所述一種新型光譜多元分析分類與識別方法,包括以下步驟:

(1)樣本製備與光譜採集:收集待檢測材料,根據材料特性,將待檢測材料加工處理製成樣本,使得光譜儀能採集到樣本的光譜數據;

(2)樣本光譜數據採集與處理:用光譜儀器對步驟(1)中製得的樣本進行光譜測量,可獲得由步驟(1)製得的樣本的光譜數據組成的樣本光譜數據集Sm,,並利用SG平滑方法消除樣本光譜數據集Sm中光譜數據的高頻噪音,然後用一階求導方法消除樣本光譜數據集Sm中光譜數據的基線漂移,接著對樣本光譜數據集Sm中光譜數據進行均值中心化處理;

(3)建立多元校正模型:將經過步驟(2)處理後的樣本光譜數據集Sm分為校正集Smc和驗證集Smv,校正集Smc由具有的樣本光譜數據組成且佔樣本光譜數據集Sm的光譜數據的80%;分別對校正集Smc中的每類樣本建立主成分模型,並根據Hotelling T2檢驗計算T2的臨界值根據建模樣本集的二次分布結果近似出殘差閾值Q;其中,建模樣本集的二次分布結果為校正集Smc的高斯分布結果;

(4)預測:根據主成分模型的最佳主成分數A計算驗證集Smc中樣本的T2和殘差Si的值,通過臨界值和Q計算驗證集Smv中的樣本到主成分模型的馬氏距離,並根據最小的馬氏距離值判別待測樣本的類別;

(5)評價:以步驟(3)中所得到的驗證集Smv對不同方法預測的結果進行評價,以主成分模型的預測準確率和錯誤樣本個數為指標,評價方法的優劣,其中,預測準確率的計算公式如下:

下面對本發明進行進一步的說明:

上述方法中,在步驟(3)中,分別對校正集Smc中的每類樣本建立主成分模型,並根

據Hotelling T2檢驗計算T2的臨界值根據建模樣本集的二次分布結果近似出殘差的

閾值Q,具體步驟如下:

(3.1)對於每一個校正集Smc,將校正集Smc中樣本光譜數據按類別分開並進行編號,然後分別對每類樣本光譜數據建立PCA模型;以其中的一類光譜數據X為例,建立PCA模型:

其中為樣本均值,T為得分矩陣,P為載荷矩陣;

(3.2)用交叉驗證計算預測誤差平方加和PRESS,根據PRESS隨主成分數變化曲線確定步驟(3.1)中所建PCA模型的最佳主成分數A;

(3.3)根據步驟(3.2)中確定的最佳主成分數A建立主成分模型其中X為樣本均值,T為得分矩陣,P為載荷矩陣,E為殘差矩陣;

(3.4)根據Hotelling T2檢驗,利用步驟(3.2)中確定的最佳主成分數A,計算T2的臨

界值

(3.5)根據建模樣本集的二次分布結果,利用協方差矩陣,近似出殘差閾值Q。

上述方法中,步驟(4)具體包括如下步驟:

(4.1)根據步驟(3.2)中確定的最佳主成分數A,計算驗證集Smc中樣本的Ti2和殘差Si的值;

(4.2)根據步驟(3.1)中T2的臨界值和殘差閾值Q,對驗證集Smv中的樣本i進行特徵提取,於是樣本i可表示為

(4.3)計算樣本i到步驟(3.1)中所建PCA模型的中心(O={0,0})的馬氏距離;

(4.4)如果樣本i在哪一類PCA模型下得到的馬氏距離值最小,就將此樣本判為哪一類。

上述方法中,步驟(4.3)中,樣本i到步驟(3.1)中所建PCA模型的中心(O={0,0})的馬氏距離Dij的計算公式如下:

上述方法中,利用得分向量計算驗證集Smv中樣本i的Ti2,Ti2計算公式如下:

然後用F檢驗計算T2的臨界值

公式(4)中自由度分別為A和(n-A),n為建模的樣本數,A為確定的最佳主成分數。

上述方法中,PCA模型的殘差閾值Q,可以用建模樣本集的二次分布結果來近似確定,殘差閾值Q計算公式如下:

其中,zα為置信上限為100(1-α)%時的單位偏差,α的置信區間為0.04~0.06;

其中,m為樣本屬性的維度,λj是協方差矩陣第j個特徵值;

此時,可將和作為樣本的屬性,於是可將樣本表示為Z={xi|i=1,2……m},其中

上述方法適用於對固體、液體、氣體狀態的多組分樣品的識別。在對固體狀態的多組分樣品識別時,製備樣本時,需要將固體樣本攤開使得厚度均勻;而在對液體狀態的多組分樣品識別時,製備樣本時,需要將液體樣本充分靜置使得密度均勻;在對氣體狀態的多組分樣品識別時,製備樣本時,可將氣體狀態的多組分樣品直接充入已預先抽真空的氣體池製備成待監測樣本。

本發明具有如下有益效果:

本發明提出了一種新的光譜多元分析分類與識別方法,針對SIMCA方法區分成分相近又存在著微小差異的樣本時精度不夠的問題,分析了是因為SICMA採用了歐氏距離來預測樣本的類別。而大多的情況下,樣本分布空間具有一定的方向性和不規則性,通常不符合歐氏距離的分布。馬氏距離引進(或除以)了協方差,考慮了數據屬性的相關性,排除變量之間的幹擾,在一定程度上凸顯了表達能力強的屬性。因此,本發明採用了馬氏距離代替歐氏距離來預測樣本的類別,改善SICMA方法的分類精度。

本發明可適用於固體、液體、氣體狀態的多組分樣品,例如石油類產品(如汽油,柴油等)、農產品(如糧食、茶、棉、麻、菸葉、果蔬等)、食品(如飼料、肉類、酒等)、醫藥等樣品的識別。具有應用範圍廣,精度高的特點。

附圖說明

圖1是使用馬氏距離和歐氏距離計算的樣品分布範圍。

圖2是實例1中採集的原始光譜圖。

圖3是實例1中各個類的PRESS圖和相應的T2和Q分布圖。

圖4是實例2中採集的原始光譜圖。

圖5是實例2中各個類的PRESS圖和相應的T2和Q分布圖。

具體實施方式

下面結合附圖對本發明作進一步描述。本發明實例用來解釋本發明,而不是對本發明進行限制,在本發明的精神和權利要求的保護範圍內,對本發明做出的任何修改和改變,都落入本發明的保護範圍。

實施例1

本實施案例分別為貉子,狐狸和兔子的皮毛,共76組樣本,由北京市毛麻絲織品質量監督檢驗站提供。採用HF-P12型紡織品成分分析儀(西派特(北京)科技有限公司產品)採集樣品的漫反射近紅外光譜,光譜範圍為900-1700nm,解析度為3.1nm,積分時間100ms。以聚四氟參考板採集參比信號。將皮毛樣本平鋪在分析儀採樣平臺上,樣本用金屬砝碼壓平壓實,對每個樣品採集3張漫反射近紅外光譜譜圖,取其平均光譜為樣本光譜。圖1為皮毛樣本的原始光譜圖。

本實例實施的主要步驟如下:

1.對光譜數據採用SG平滑方法消除數據中高頻噪音,用一階求導方法消除基線漂移,然後對此光譜數據進行均值中心化處理。

2.對皮毛樣本數據集隨機劃分為校正集Smc和驗證集Smv,其中,校正集Smc和驗證集Smv分別佔總樣本數的80%和20%。

3.對校正集Smc中的每類樣本建立主成分模型,用交叉驗證計算預測誤差平方加和PRESS,根據PRESS隨主成分數變化曲線確定模型的最佳主成分數A。並根據Hotelling T2檢驗計算T2臨界值根據建模樣本集的二次分布結果近似出殘差閾值Q。圖2為樣本各個類的PRESS圖和相應的T2和殘差分布圖。參考圖2,3類模型的主因子數分別確定為8,4和8。

4.根據主成分模型的最佳主成分數A計算驗證集Smv中樣本的T2和殘差Si的值,利用T2的臨界值和殘差閾值Q,對驗證集Smv中的樣本i進行特徵提取,於是樣本i可表示為

5.分別計算每一類PCA模型下樣品到模型中心(O={0,0})的歐氏距離。根據最小的Di值,判別待測樣本的類別。

6.分別計算每一類PCA模型下樣品到模型中心(O={0,0})的馬氏距離。根據最小的Di值,判別待測樣本的類別。

7.根據預測結果的準確率,評價馬氏距離和歐氏距離的分類效果。

表1為馬氏距離和馬氏距離對皮毛樣本的分類結果對比,由表中結果可知,用馬氏距離預測驗證集Smv類別的準確率明顯大於歐氏距離的。表明馬氏距離具有更強的分類與識別能力。

表1皮毛樣本分類結果對比

實施例2

食用油樣本為從北京市場上採購的橄欖油和芝麻油,模擬食用油摻假。取5ml橄欖油,分別加入不同體積的芝麻油,將樣本用振蕩器搖晃均勻,放置穩定一段時間,製備橄欖油/芝麻油比例為1%~8%的調和油,共104個樣本。將1%~4%比例範圍的調和油劃為第一類,5%~8%比例範圍的調和油劃為第二類。採用帶有ATR晶體的Agilent5500型紅外光譜儀測量樣本的紅外光譜。光譜範圍為650-4000cm-1,解析度為4cm-1,掃描次數為32。以空氣為參比,用滴管吸入少量樣本滴在ATR晶體表面上,每個樣品採集3張紅外譜圖,取其平均光譜作為樣本光譜。然後使用酒精溶劑清洗ATR晶體至無樣本汙染後,再採集下一個樣本的光譜。圖3為食用油的原始光譜圖。

本實例實施的主要步驟如下:

1.對光譜數據採用SG平滑方法消除數據中高頻噪音,用一階求導方法消除基線漂移,然後對此光譜數據進行均值中心化處理。

2.對於2類食用油樣本數據集,在3%~6%比例範圍內隨機選出20組樣本作為驗證集Smv,其餘樣本作為校正集Smc。校正集Smc佔總樣本數的80%。

3.對校正集Smc中的每類樣本建立主成分模型,用交叉驗證計算預測誤差平方加和(PRESS),根據PRESS隨主成分數變化曲線確定模型的最佳主成分數A。並根據Hotelling T2檢驗計算T2臨界值根據建模樣本集的二次分布結果近似出殘差閾值Q。圖4為樣本各個類的PRESS圖和相應的T2和殘差分布圖。參考圖4,2類模型的主因子數分別確定為14和13。

4.根據主成分模型的最佳主成分數A計算驗證集Smv中樣本的T2和殘差Si的值,利用T2的臨界值和殘差閾值Q,對驗證集Smv中的樣本i進行特徵提取,於是樣本i可表示為

5.分別計算每一類PCA模型下樣品到模型中心(O={0,0})的歐氏距離。根據最小的Di值,判別待測樣本的類別。

6.分別計算每一類PCA模型下樣品到模型中心(O={0,0})的馬氏距離。根據最小的Di值,判別待測樣本的類別。

7.根據預測結果的準確率,評價馬氏距離和歐氏距離的分類效果。

表2為馬氏距離和馬氏距離對食用油樣本的分類結果對比,從圖4可以看出,2類的樣本基本分開,部分不同類樣本還是很接近的。說明不同類的調和油之間差別較小,分類有較大難度。由表2的分類結果可知,馬氏距離和歐氏距離都不能將樣本全部識別出來。但是,與歐氏距離相比,的分類結果明顯改善。同樣的樣本模型,歐氏距離的分類準確率為60%,而馬氏距離的準確率上升到了70%,因此馬氏距離的分類與識別能力更優。

表2食用油分類結果的對比

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀