一種從太赫茲混合光譜中提取高維特徵用於物質鑑別的方法與流程
2024-04-16 10:21:05
:
1.本發明屬於太赫茲光譜和成像技術領域,具體涉及一種從太赫茲混合光譜中提取高維特徵用於物質鑑別的方法。
背景技術:
2.太赫茲波是一種波長介於紅外線和微波之間的電磁波,由於處於光子學到電子學的過渡區域,其具有很多獨特的屬性,如指紋光譜性、低能性、特殊穿透性等。作為特殊穿透性的例子,太赫茲波與可見光和紅外相比,其對介電材料的穿透力更強,因此已被應用於許多物質的無損檢測。同時,由於許多生物分子的旋轉能級和一些振動模式位於太赫茲波段,太赫茲光譜儀產生的脈衝波對分子結構變化和分子之間的結合很敏感,因此可以用太赫茲實現一種無標記的檢測方法,可用於蛋白質、dna和炸藥等物質的檢測。在頻域上,臺式太赫茲光譜儀產生的有效波段範圍在0.1到4太赫茲之間,使用異步光學採樣的頻帶上限可以達到6太赫茲。這種頻譜性能可滿足絕大多數化合物的檢測需求,從而為太赫茲時域光譜掃描提供了大量的應用場景。然而,由於水和極性溶劑對太赫茲輻射的強吸收、動力學方面的限制,以及太赫茲脈衝的10微米至毫米波長造成的顯著散射,許多分子特徵難以提取,這在很大程度上限制了太赫茲時域光譜作為一種有效傳感技術的前景。其次,應用太赫茲光譜的另一個挑戰是許多分子種類在有效頻帶內會產生不可區分的吸收光譜甚至是無法特徵化的吸收光譜,這進一步限制了基於太赫茲光譜的識別技術的應用。
技術實現要素:
3.以往的研究主要集中在從單一數據中提取特徵,如吸收譜或時域譜,這種方法沒有充分整合脈衝太赫茲波的振幅和相位信息,從而限制了預測的準確性。迄今為止,沒有任何與太赫茲光譜分類相關的研究採用了振幅和相位的綜合特徵。
4.為了解決上述問題,本發明旨在提供一種從太赫茲混合光譜中提取高維特徵用於物質鑑別的方法。並且,本發明對實驗結果進行分析以證明吸收率和折射率的組合可以揭示高維光譜信息。在分析過程中這些高維光譜信息被抽象為特徵圖,並傳遞給配備有有效信道注意(eca)機制的卷積神經網絡(cnn),用於校準數據信道之間的相互依賴性。
5.為了實現上述目的,本發明涉及的一種從太赫茲混合光譜中提取高維特徵用於物質鑑別的方法,具體包括以下步驟:
6.步驟1:將樣品研磨,製成固體樣品片;
7.步驟2:將固體樣品片固定在光路中,採用透射式太赫茲時域系統採集每一個固體樣品片的太赫茲時域光譜信號,同時對無樣品光路進行採集得到參考時域光譜信號數據,將採集得到的同一個樣品的多組太赫茲時域光譜信號進行平均並使用小波收縮去噪方法處理來進一步減弱殘餘噪聲;
8.步驟3:利用時域譜e(t)的傅立葉變換(公式一)可以提取出樣品所攜帶的頻譜信息;此外,樣品攜帶的振幅和相位變化信息可以從傳遞函數(公式二)中獲得;
[0009][0010][0011]
式中,表示時域譜e(t)的傅立葉變換,ω是角頻率,和φ(ω)分別是頻域頻譜的幅度和相位,t(ω)是傳遞函數,是樣品的頻域頻譜,是參考信號的頻域頻譜,δφ(ω)是在樣品中傳播引起的相位變化,ρ(ω)表示樣品和參考信號的幅值比;
[0012]
步驟4:使用傳遞函數以及假設消光率遠小於太赫茲波段的折射率,可以用菲涅耳定律推導出樣品的吸收率和折射率,見公式三和公式四;
[0013][0014][0015]
式中,n(ω)表示折射率,α(ω)表示吸收率,d是樣品厚度,c是真空中的光速。
[0016]
步驟5:將樣品的吸收率和折射率疊加到n
×
2矩陣形成吸收率-折射率混合光譜(太赫茲混合光譜),分成訓練數據集、驗證數據集和測試數據集,訓練集用於模型訓練,驗證集用於修正模型參數,測試集用於模型的泛化性能的檢測,得到訓練好的卷積神經網絡模型;將帶測量物質的吸收率-折射率混合光譜輸入到卷積神經網絡模型,能夠鑑別該物質的種類。
[0017]
卷積神經網絡包括輸入塊、eca網絡和分類塊。輸入塊包括輸入層、第一卷積層和重塑層。eca網絡包括第二卷積層、第三卷積層、第四卷積層和eca模塊,分類塊包括第一全連連接層、第二全連接層和輸出層,輸入塊將吸收率-折射率混合光譜傳遞到的第一卷積層,第一卷積層和重塑層將吸收率-折射率混合光譜重塑為特徵圖,再次輸入到eca網絡,eca網絡中的第二卷積層和第三卷積層使用2d濾波器來捕獲第一卷積層產生的濾波信號之間的關係,進而分別輸出32個通道,eca網絡中的第四卷積層使用1
×
1內核將通道數增加到64,從而為eca模塊提取更多信道信息。
[0018]
eca模塊由一個全局池化層、一個一維卷積層和一個使用sigmoid函數將非線性特徵呈現給通道權重的激活層,對層conv4的輸出和注意係數執行通道相乘,在分類塊中,用兩個大小為256和128的全連接層來減少從eca網絡傳遞的超參數數量,之後使用基於softmax激活函數的密集層來輸出每個類別的概率,用於分類,在每個卷積層後應用批量歸一化以標準化每個小批量的層輸出,最後使用一個池化層以降低輸出維度。
[0019]
具體地,一種從太赫茲混合光譜中提取高維特徵用於物質鑑別的方法,所述物質包括但不限於胺基酸、中藥材、毒品、炸藥殘留物或牙齒骨骼等物質。
[0020]
本發明與現有技術相比具有以下有益效果:本發明從太赫茲光譜的吸收率和折射率組合成混合光譜中提取特徵值,相比之以往集中於從單一的吸收率或折射率中提取特徵的研究方法,可以幫助後續卷積層應用多個通道以進行更準確的預測來充分提取高維特徵,在使用採用eca模塊的卷積神經網絡進行識別後,可以充分提高分類結果,在複雜場景下依然可以取得良好的效果。
附圖說明:
[0021]
圖1為實施例1中太赫茲時域光譜系統的實驗裝置示意圖。
[0022]
圖2為實施例1中涉及的eca模塊的結構圖。中間的兩層描繪了內核大小為3的通道數據的一維卷積。
[0023]
圖3為實施例1中涉及的卷積神經網絡的結構示意圖。
[0024]
圖4是pca應用於β-丙氨酸、d-丙氨酸、d-穀氨酸和l-穀氨酸的吸收率(a)、折射率(b)和吸收率-折射率(c)的二維混合光譜的聚類分析結果圖。
[0025]
圖4(d)是吸收率-折射率混合光譜的結構示意圖。
[0026]
圖5為由吸收率(a)、折射率(b)和吸收率-折射率二維混合光譜(c)生成的d-穀氨酸的特徵圖。
具體實施方式:
[0027]
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例,基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
[0028]
實施例1:
[0029]
如圖1所示,本實施例採用的透射式太赫茲時域系統包括一個超快飛秒雷射器、一個光延線、光電導天線(pca)發射器和接收器、一個鎖相放大器和一臺用於控制設備和處理信號的計算機。飛秒雷射的中心波長為1560nm,脈衝寬度約為100fs,重複頻率為100mhz,工作功率為80mw。該雷射器利用摻雜光纖作為增益介質,產生的功率均勻分布到兩個通道,分別用於太赫茲輻射的產生和採樣。模塊間採用單模光纖傳輸雷射。實驗設備示意圖如圖1所示。在測量環境方面,用氮氣吹掃測量室以將空氣溼度降低到10%,同時,用氮氣使室溫從25℃降低至17℃以保障實驗的進行。
[0030]
本實施例涉及的一種從太赫茲混合光譜中提取高維特徵用於物質鑑別的方法,具備包括以下步驟:
[0031]
步驟1:將樣品用研杵和研缽研磨,並用180目篩子過濾以排除大於80μm的顆粒,從而減弱散射效應,然後樣品與聚乙烯以1:1(ω/ω)的比例混合,並在30mpa下加壓約5分鐘,製成固體樣品片。片劑厚約1.2毫米,直徑約10毫米。本實施例中實驗樣品為20種胺基酸(購自上海阿拉丁生物試劑有限公司),每種胺基酸製成5個固體樣品片。
[0032]
步驟2:將固體樣品片固定在光路中,採用透射式太赫茲時域系統對每一個固體樣品片進行持續40秒的連續採集測量,累積約2400個太赫茲時域光譜信號,同時對無樣品光路進行10s的連續採集,得到的參考時域光譜信號數據,為了減少延遲線振動產生的白噪聲,將採集得到的同一個樣品的多組太赫茲時域光譜信號進行平均,然後使用小波收縮去噪方法處理來進一步減弱殘餘噪聲。
[0033]
步驟3:利用時域譜e(t)的傅立葉變換(公式一)可以提取出樣品所攜帶的頻譜信息;此外,樣品攜帶的振幅和相位變化信息可以從傳遞函數(公式二)中獲得。
[0034]
[0035][0036]
公式一中,表示時域譜e(t)的傅立葉變換,ω是角頻率,和φ(ω)分別是頻域頻譜的幅度和相位。
[0037]
公式二中t(ω)是傳遞函數,是樣品的頻域頻譜,是參考信號的頻域頻譜,δφ(ω)是在樣品中傳播引起的相位變化,ρ(ω)表示樣品和參考信號的幅值比。
[0038]
步驟4:使用傳遞函數以及假設消光率遠小於太赫茲波段的折射率,可以用菲涅耳定律推導出樣品的吸收率和折射率,見公式三和公式四。
[0039][0040][0041]
式中,n(ω)表示折射率,α(ω)表示吸收率,d是樣品厚度,c是真空中的光速。
[0042]
此外,本發明使用主成分分析法(pca)對吸收率-折射率混合光譜進行聚類分析,以驗證將吸收率和折射率的組合形成的數據具有統計意義上的相關性,亦即吸收率-折射率組合光譜的合理性。圖4是pca應用於β-丙氨酸、d-丙氨酸、d-穀氨酸和l-穀氨酸的吸收率(a)、折射率(b)和吸收率-折射率(c)的二維混合光譜的聚類分析結果圖。對於吸收率和折射率提取第一主部(pc1)和第二主部(pc1)分別作為橫縱坐標,對於吸收率-折射率混合光譜提取第一主部的第一行和第二主部的第二行分別作為橫縱坐標。如圖4(a)-(b)所示,吸收率和折射率的前兩個主成分不能分開不同的類別。相反,在將吸收率和折射率疊加到2d矢量並提取第一個主成分後,屬於不同胺基酸的點形成簇,見圖4(c)。圖4(d)解釋了吸收率-折射率混合光譜是由吸收率和折射率疊加到n
×
2矩陣形成的。n是一維譜的樣品容量,本實施例中為240。
[0043]
步驟5:將樣品的吸收率和折射率疊加到n
×
2矩陣形成吸收率-折射率混合光譜,分成訓練數據集、驗證數據集和測試數據集,訓練集用於模型訓練,驗證集用於修正模型參數,測試集用於模型的泛化性能的檢測,得到訓練好的卷積神經網絡模型;
[0044]
具體為:製作訓練數據,將每個固體樣品片的2400信號100個為一組平均為單個記錄;這樣,每個固體樣品片大約有24條記錄,每個胺基酸大約有120條記錄。對於測試數據,將每個固體樣品片的2400信號分別以20個和10個為一組進行平均,形成比訓練數據噪聲更大的兩個數據集(average20,average10),用於測試模型的魯棒性。再將訓練數據打亂,其中20%的數據被分配用於驗證。
[0045]
所述卷積神經網絡結構圖如圖3所示:卷積神經網絡包括輸入塊、eca網絡和分類塊。輸入塊包括輸入層、第一卷積層和重塑層。eca網絡包括第二卷積層、第三卷積層、第四卷積層和eca模塊。分類塊包括第一全連連接層、第二全連接層和輸出層。輸入塊將吸收率-折射率混合光譜傳遞到具有32個濾波器(conv1)的第一卷積層,第一卷積層和重塑層將吸收率-折射率混合光譜重塑為特徵圖(圖5(c)所示),再次輸入到eca網絡,eca網絡中的第二卷積層conv2和第三卷積層conv3使用2d濾波器來捕獲第一卷積層conv1產生的濾波信號之間的關係,進而分別輸出32個通道。eca網絡中的第四卷積層conv4使用1
×
1內核將通道數
增加到64,從而為eca模塊提取更多信道信息。如圖2所示,eca模塊由一個全局池化層(將維度降低到1
×1×
64)、一個一維卷積層(實現跨通道交互)和一個使用sigmoid函數將非線性特徵呈現給通道權重的激活層。對層conv4的輸出和注意係數執行通道相乘,以便基本上處理通道之間的相互依賴關係(注意係數,強制相鄰通道之間互連的係數)。在分類塊中,用兩個大小為256和128的全連接層來減少從eca網絡傳遞的超參數數量,之後使用基於softmax激活函數的密集層來輸出每個類別的概率,用於分類。在每個卷積層後應用批量歸一化以標準化每個小批量的層輸出。最後使用一個池化層以降低輸出維度。
[0046]
為了證明吸收率-折射率混合光譜的效果,將吸收率構成的n
×
1矩陣、折射率構成的n
×
1矩陣分別作為訓練數據,並且該模型已按上述方式進行訓練。輸入塊產生的特徵圖如圖5所示,其中圖像的縱軸對應每個通道的數據大小,圖像的橫軸對應通道數。相比之下,圖5(c)中使用混合光譜生成的特徵圖包含表示通道之間連接的模式,而圖5(a)、圖5(b)僅使用吸收率和折射率生成的特徵圖則沒有明顯圖案。
[0047]
經過吸收率折射率組合以及帶eca模塊的神經網絡識別之後,二十種胺基酸分類的精確率分別是:99.5、100、98.6、100、99.4、99.7、99.7、100、99.6、90.3、99.1、99.5、99.8、99.7、99.9、100、100、99.8、99.6、99.7,分類準確率為99.2。易於見得,本發明所提出得方法具有極高的有效性。
[0048]
本發明的創新點在於:提出了一種從太赫茲混合光譜中提取高維特徵的方法,將太赫茲光譜的吸收率和折射率將結合得到混合信號。設計採用eca方法的卷積神經網絡對太赫茲混合光譜進行分類識別。在準確率和精確率等指標上,均超過現有主流識別方式。