新四季網

一種基於K‑means與深度學習的圖像分類算法的製作方法

2023-06-18 01:57:51 1


本發明屬於信息技術領域,具體的來說,是指一種基於K-means與深度學習的圖像分類算法,適用於網際網路中海量高維數據圖像的分類,還用於網絡圖像檢索、視頻檢索、遙感圖像分類、交互式遊戲、智慧機器人等領域的圖像數據分類。



背景技術:

在海量圖像數據處理技術領域,深度學習是一種較為常見的算法。深度學習作為一種算法於2006年被Hinton提出,並得到了廣泛的認可與應用,其本質是通過建立具有多個隱層的人工神經網絡模型和大規模的訓練數據,來學習有用且抽象的特徵,最終的結果是提升圖像分類的準確性。因此,深度學習能很好地解決海量圖像數據處理問題。Hinton提出DBN網絡,並證實了(1)深層網絡結構較淺層網絡結構具有更好的特徵學習能力;(2)通過逐層訓練的方式使得深層網絡結構能得到很好地訓練。此後,有較多的深度學習模型相繼被提出,這些模型也印證了Hinton的觀點。

傳統神經網絡的訓練方法主要是採用反向傳播算法(BP)的方式,採用隨機初始化的方法,通過迭代的方式計算當前網絡的輸出,然後根據當前預測標籤和實際標籤之間的差去不斷調整前面各層之間的參數,直到整個模型收斂。傳統的BP算法作為一種有監督學習算法,存在著梯度彌散問題、訓練樣本不足以及局部最優等問題,與此同時,由於網際網路中海量無標籤圖像呈爆發式增長,傳統的BP算法已不能滿足日前海量無標籤圖像分類的需求。



技術實現要素:

本發明的目的是針對傳統神經網絡的訓練方法存在著梯度彌散問題、訓練樣本不足以及局部最優的問題,提出一種基於K-means與深度學習的圖像分類算法。

為實現上述目的,本發明所設計的一種基於K-means與深度學習的圖像分類算法,包括如下步驟:

1)將無標籤圖像作為輸入圖像,並隨機抽取圖像塊構成大小相同的無標籤圖像集;

2)採用K-means算法提取一次最佳聚類中心;

3)構建特徵映射函數,提取無標籤圖像集的圖像特徵;

4)進行池化操作與歸一化處理;

5)採用K-means算法提取二次最佳聚類中心,並採用卷積操作,提取最終圖像特徵,對最終圖像特徵進行標準化處理;

6)通過分揀器對經過標準化處理的最終圖像特徵進行分類。

優選地,所述步驟2)的具體步驟包括:

21)設定k個初始的聚類中心{μ1,μ2,μ3…μk},k為自然數,建立初始化的準則函數

其中,μj為每一個樣本x(i)對應的聚類中心,j=1~k,i為自然數,且i>j;x(i)表示n個無標籤圖像集中的樣本,n為自然數,表示無標籤圖像集中樣本的個數。

22)依次求取每一個樣本x(i)到所有初始的聚類中心{μ1,μ2,μ3…μk}的距離的最小值,記為該樣本的類別標籤c(i),將該樣本x(i)歸為c(i)類,再根據所述類別標籤c(i)更新計算聚類中心,得到過程聚類中心μj′,j=1~k;

c(i)=argmin||x(i)-μj′||

23)將所有所述過程聚類中心μj′帶入準則函數計算,判斷準則函數是否收斂,否則返回步驟22),是則將至步驟24);

24)將過程聚類中心μj′確定為一次最佳聚類中心{μ′1,μ′2,μ′3…μ′k},將每一個樣本x(i)歸類至距離最近的聚類中心,記為xj(i),每一個樣本x(i)到距離最近的聚類中心的類別標籤記為cj(i)。

優選地,所述步驟3)的具體步驟為:定義樣本x(i)的特徵映射函數,提取特徵向量y(i),其中h(z)表示每一類中所有樣本到聚類中心的距離的平均值,Zj(i)表示每一類中的每一個樣本x(i)到對應的聚類中心的距離;

y(i)=fk(x)=max{0,h(z)-Zj(i)}

Zj(i)=||x(i)-μj||2

優選地,所述步驟4)中歸一化處理的公式為:

y(i)是樣本圖像塊的特徵向量,var和mean表示方差和均值,σ是去噪常量,是歸一化處理後的圖像塊的特徵向量。

優選地,所述步驟5)的具體過程包括:

51)設定p個初始的聚類中心{μ1,μ2,μ3…μp},p為自然數,重複步驟2),得到二次最佳聚類中心{μ1′,μ2′,μ3′…μ′p};

52)採用卷積操作,提取最終圖像特徵卷積公式為:

其中為最終圖像特徵,μl為二次最佳聚類中心,l=1~p;

53)對最終圖像特徵進行歸一化處理,歸一化處理的公式同步驟4)。

優選地,所述步驟1)與步驟2)之間還包括對無標籤圖像集進行歸一化和白化處理的預處理步驟。

優選地,所述白化處理的具體過程包括:

A)計算協方差矩陣∑

其中,表示歸一化處理後的表示無標籤圖像集中的樣本,n為表示無標籤圖像集中樣本的個數;

B)令協方差矩陣∑的特徵向量U為U=[u1,u2…un],UTU=I,特徵向量u1,u2…un構成一個基向量,用來映射數據,表示旋轉後的圖像,輸入歸一化處理後的無標籤圖像集中的樣本以特徵向量U為基向量表示為

C)設協方差矩陣∑的特徵值為λ2,…,λn,則PCA白化後的圖像為

其中ε表示為平滑圖像塊的常量。

本發明的優點包括:

(1)採用無監督學習算法K-means作為深層網絡結構的訓練方法,避免了對各種參數的訓練,只需訓練字典(即聚類中心),使得訓練過程簡單,時間效率高,具有簡單、高效、訓練參數少等優點,對於海量高維圖像的分類具有很好的效果。

(2)對輸入圖像進行預處理,達到改善圖像分類效果,提高分類精度的效果。

(3)採取歸一化操作,增強圖像對比度以減少光線的影響。

(4)由於圖像數據間存在一定的相關性,本發明採取PCA白化處理消除圖像間的冗餘性。

(5)採取均值池化處理降低特徵向量的維數和整合圖像特徵,待池化圖像特徵後,為了平衡特徵的各個分量的影響,對已池化的圖像特徵進行歸一化處理,以改善後續Softmax分類器對圖像特徵的分類效果。

附圖說明

圖1為本發明一種基於K-means與深度學習的圖像分類算法的流程圖;

圖2為K-means算法流程圖;

圖3為卷積提取特徵示意圖;

圖4a為三種模型對MNIST數據集分類的分類準確率與迭代次數的關係圖;

圖4b為三種模型對Cifar-10數據集分類的分類準確率與迭代次數的關係圖;

圖4c為三種模型對The four-vehicle數據集分類的分類準確率與迭代次數的關係圖。

具體實施方式

以下結合附圖和具體實施例對本發明作進一步的詳細描述。

如圖1和圖2所示,本發明一種基於K-means與深度學習的圖像分類算法,包括如下步驟:

1)將無標籤圖像作為輸入圖像,並隨機抽取圖像塊構成大小相同的無標籤圖像集。本實施例中設置無標籤圖像集的樣本數量為100,000個,對應的樣本的大小為12*12*3的圖像塊。

對無標籤圖像集進行預處理,包括歸一化處理和白化處理。

歸一化處理的過程為:

其中,x為輸入的無標籤圖像集的樣本,表示歸一化處理後的表示無標籤圖像集中的樣本,var和mean分別表示方差和均值,σ為去噪常量,避免分母為0和對圖像去噪。

白化處理的過程為:

A)計算協方差矩陣∑

其中,表示歸一化處理後的表示無標籤圖像集中的樣本,n為表示無標籤圖像集中樣本的個數,此例中n=100,000。

B)令協方差矩陣∑的特徵向量U為U=[u1,u2…un],UTU=I,特徵向量u1,u2…un構成一個基向量,用來映射數據,表示旋轉後的圖像,輸入歸一化處理後的無標籤圖像集中的樣本以特徵向量U為基向量表示為

C)設協方差矩陣∑的特徵值為λ2,…,λn,則PCA白化後的圖像為

其中ε表示為平滑圖像塊的常量。

2)採用K-means算法提取一次最佳聚類中心。

將預處理後的無標籤圖像集作為K-means聚類數據,通過K-means聚類算法訓練網絡得到聚類中心,也就是字典。K-means聚類算法作為一種無監督學習算法,避免了對各種參數的訓練,只需訓練字典,使得訓練過程簡單,時間效率高。

令預處理後的無標籤圖像集為{x(1),x(2),x(3),…,x(n)},x(i)∈Rn(其中n表示圖像集中樣本的個數,i=1~n,此例中n=100,000,x(i)表示n個樣本中的某一個樣本,Rn表示n維向量),通過K-means聚類算法對無標籤圖像集進行聚類。

21)設定k個初始的聚類中心{μ1,μ2,μ3…μk},k為自然數,此例中取k=1600,建立初始化的準則函數

其中,μj為每一個樣本x(i)對應的聚類中心,j=1~k,i、j為自然數,且i>j;x(i)表示n個無標籤圖像集中的樣本。

22)依次求取每一個樣本x(i)到所有初始的聚類中心{μ1,μ2,μ3…μk}的距離的最小值,記為該樣本的類別標籤c(i),將該樣本x(i)歸為c(i)類,再根據所述類別標籤c(i)更新計算聚類中心,得到過程聚類中心μj′,j=1~k。

c(i)=argmin||x(i)-μj′||

23)將所有過程聚類中心μj′帶入準則函數計算,判斷準則函數是否收斂,否則返回步驟22),是則將至步驟24)。

24)將過程聚類中心μj′確定為一次最佳聚類中心{μ′1,μ′2,μ′3…μ′k},將每一個樣本x(i)歸類至距離最近的聚類中心,記為xj(i),每一個樣本x(i)到距離最近的聚類中心的類別標籤記為cj(i)。

3)構建特徵映射函數,提取無標籤圖像集的圖像特徵。

定義每一個樣本x(i)的特徵映射函數,提取特徵向量y(i),其中h(z)表示每一類中所有樣本到聚類中心的距離的平均值,Zj(i)表示每一類中的所有樣本到對應的聚類中心的距離;

y(i)=fk(x)=max{0,h(z)-Zj(i)}

Zj(i)=||x(i)-μj||2

當特徵映射函數輸出值為0時,表示該特徵到聚類中心的距離大於「平均值」。對每一幅輸入64*64大小的圖像,設定的步長s=1,選取感受野大小(即在64*64大小的圖像塊中選取的區域大小)為12*12的樣本塊作為特徵映射函數的輸入,將樣本塊映射為k維的特徵表達,對於每一幅圖像能夠得到一個大小為(64-12+1)*(64-12+1)個k維的特徵。這樣保證輸出大多數特徵值為0,使其具有稀疏性,這種稀疏表示被廣泛的運用於計算機視覺中。

4)進行池化操作與歸一化處理。

在此之後,我們通過池化處理降低特徵向量的維數。

因為通過特徵映射函數得到的圖像特徵向量維數過高,不利於Softmax分類器對圖像特徵進行分類和容易出現過擬合,所以我們對提取的圖像特徵採取均值池化處理降低特徵向量的維數和整合圖像特徵。待池化圖像特徵後,為了平衡特徵的各個分量的影響,以改善後續Softmax分類器對圖像特徵的分類效果,我們對已池化的圖像特徵進行歸一化處理。

歸一化處理的公式為:

是標準化處理後的圖像塊的特徵向量,y(i)是樣本圖像塊的特徵向量,var和mean表示方差和均值,σ是去噪常量。

5)採用K-means算法提取二次最佳聚類中心,並採用卷積操作,提取最終圖像特徵,對最終圖像特徵進行標準化處理。通過訓練得到得到a*a大小的圖像塊特徵,我們將其作為卷積核與輸入圖像進行卷積操作,提取圖像特徵,如圖2所示。

51)設定p個初始的聚類中心{μ1,μ2,μ3…μp},p為自然數,此例中取p=2000,重複步驟21)~23),將步驟21)~23)中的k替換為p,得到二次最佳聚類中心{μ1′,μ2′,μ3′…μ′p};

52)採用卷積操作,將輸入的圖像塊的最終圖像特徵與提取的聚類中心做卷積,提取最終圖像特徵卷積公式為:

其中為最終圖像特徵,μl為二次最佳聚類中心,l=1~p;

53)對最終圖像特徵進行歸一化處理,以再次平衡特徵的各個分量的影響,歸一化處理的公式同步驟4)。

6)通過Softmax分揀器對經過歸一化處理的最終圖像特徵進行分類。

實驗數據:

本發明提出的一種基於K-means與深度學習的圖像分類算法(下表中表示為KDL),與經典的SAE、Stacked SAE算法相比較。實驗結果如表1~表3所示。

從表1可看出,在對MNIST數據集分類中,本文提出的KDL模型分類準確率在迭代300次時達到最大值97.52%,較稀疏自編碼器模型(SAE)和堆棧自編碼器(Stacked SAE)分別高出4.52%和16.8%。由圖4a可知,KDL模型對MNIST數據集分類準確率隨著迭代次數增加始終遠高於SAE模型和Stacked SAE模型。因為SAE模型採用單層網絡結構不能有效、準確的表示圖像特徵,所以本文採用K-means多層網絡結構具有更好的表達圖像特徵的能力。實驗數據表明KDL模型整體分類性能優於SAE模型,也符合我們預期分析的實驗結果。與Stacked SAE模型相比,KDL模型相比Stacked SAE模型在訓練過程和分類過程中具有簡單、高效、訓練參數少等優點,所以其分類性能優於Stacked SAE模型。實驗數據同樣證實,KDL模型在分類識別準確率上遠高於Stacked SAE模型。

表1.三種模型在MNIST數據集上分類準確率

從表2可看出,在對Cifar-10數據集分類中,當迭代次數為100時,KDL模型分類準確率為61.34%,較稀疏自編碼器模型(SAE)和堆棧自編碼器(Stacked SAE)分別高出1.65%和31.02%。又從圖4b中可知,隨著迭代次數增加,三種模型分類準確率處於緩慢增長狀態。此時,KDL模型識別率低於SAE模型不到1%,而高出Stacked SAE模型22.2%。由於實驗結果不可避免存在誤差以及對不同數據集分類時採用相同實驗參數,可能導致實驗結果存在一定偏差。整體實驗數據表明,KDL模型在對Cifar-10數據集的分類準確率高於另兩種模型的分類準確率。

表2.三種模型在Cifar-10數據集上分類準確率

從表3可看出,在對The four-vehicle數據集分類中,KDL模型分類識別準確率在迭代100次時達到最大值80.87%,較稀疏自編碼器模型(SAE)和堆棧自編碼器(Stacked SAE)分別高出2.32%和16.9%。從圖4c中可知,隨著迭代次數增加,KDL模型分類識別準確率始終高於SAE模型和Stacked SAE模型。SAE模型分類準確率隨著迭代次數增加處於先增長後下降狀態,在迭代次數為400時達到最大值79.47%。Stacked SAE模型分類準確率隨著迭代次數增加也處於先增長後下降狀態,在迭代次數為200時達到最大值67.31%。綜合上述分析可得,KDL模型分類識別性能優於SAE模型和Stacked SAE模型。

表3.三種模型在The four-vehicle數據集上分類準確率

通過三種模型在三個數據集上分類準確率可得,本文提出的基於K-means與深度學習的KDL圖像分類模型,不僅在分類識別準確率上優於SAE模型和Stacked SAE模型,而且還具有K-means聚類算法簡單、高效、學習參數少的優點以及深度學習所具有的擅長處理大規模圖像的能力。

除上述實例外,本發明還可以有其它實現形式,凡採用等同替換或等效變換形成的方案,均落在本專利要求的保護範圍內。

本說明書中未作詳細描述的內容屬於本領域專業技術人員公知的現有技術。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀