新四季網

一種基於概率潛語義分析模型的面向對象影像聚類方法

2023-09-18 15:46:05 2

專利名稱:一種基於概率潛語義分析模型的面向對象影像聚類方法
技術領域:
本發明涉及圖像分析領域,尤其是涉及一種遙感影像處理的方法。
背景技術:
潛語義分析模型(Latent Semantic Analysis, LSA)是一種自然語言分析技術,由 Deerwester等人於年1990提出。該模型認為通過分析文檔與詞的共生矩陣,可較好地提取文檔對應的語義信息。在實際文檔識別與檢索應用中,文檔與詞之間的語義信息一般通過概率主題來表示,在此基礎上從而形成一系列的概率主題模型。一般而言,概率主題模型均擁有一個共同的理論前提,即每個文檔均是由多個主題依據不同的比例混合構成的,但是不同的概率主題模型對於文檔或主題的先驗分布擁有不同的統計分布假設,從而適用於不同的分析目標。由於概率主題模型可較好的分析文檔、主題以及詞之間的統計相關關係,該類模型在計算機視覺、模式識別等領域均有較好的應用,在自然圖像識別、檢索、場景分析中有著較成功的應用案例。與此同時,在高解析度遙感影像的分類研究中,影像、像元以及像元的歸屬類別之間的關係,與概率主題模型求解的問題極為相似,存在一定天然的關聯關係, 可嘗試將該模型應用於遙感影像分類研究。目前使用較多的概率主題模型為概率潛語義分析(PLSA)模型與潛Dirichlet分析(LDA)模型,在不同的實際應用過程中也發展出了一系列的擴展模型。自然語言處理往往需要分析隱含於詞背後的涵義,普通的詞頻分析方法不能取得較好的結果,而潛語義分析模型(LSA)通過利用奇異值分解將高維的詞-文檔共生矩陣映射至低維的語義空間,從而體現出深層次語義關係。Hofmarm在LSA模型的基礎上,構建了概率潛語義分析模型(PLSA),擁有更堅實的數學基礎及易於利用的數據生成模型,可為信息提供更好的語義分析。PLSA模型分析的對象為文檔與詞彙的共生矩陣。若假設該矩陣由有M個文檔,N個詞的詞彙表構成,則共生矩陣集可被視為一個MXN的矩陣。該共生矩陣中的任何一個文檔可視為文檔集D = W1, d2,…,dM}中的一個數據,任何一個詞均可視為詞彙集W= Iw1, w2,···,%}中的一個數據。共生矩陣中每一個文檔與每一個詞的語義關係需要通過一個主題來聯繫起來,這個主題可被視為潛變量集Z= Iz1, z2,···, zj中的一個數據。PLSA模型是通過文檔與詞的共生矩陣來分析文檔集、詞彙集與潛變量集之間的關聯關係,從而獲取文檔與詞的語義信息。在PLSA模型中,文檔、潛變量及詞的概率生成模型通常可定義為·文檔Cli歸屬於文檔集D的概率為P (Cli);·文檔Cli中潛變量Zk的條件概率為P (zk/dj ;·文檔Cli中潛變量Zk對應詞Wj的條件概率為P (wj/zk);將概率生成模型中的條件概率可轉換一定的聯合概率模型,具體公式如式(1)與 (2)所示。P(C^Wj)=P(Cli)P(WjAli)(1)
權利要求
1.一種高分辨遙感影像的聚類分析方法,其特徵在於該方法包括如下步驟1)影像文檔的生成;2)影像最佳聚類個數的確定;3)利用影像文檔結合PLSA模型獲取每文檔中視覺詞對應主題類型的條件概率分布;4)結合視覺詞的多個鄰域文檔計算原始影像中每個像元對應於每個聚類類型的條件概率分布,最終選擇使最大的聚類類型作為像元的聚類類型。
2.如權利要求1所述的高分辨遙感影像的聚類分析方法,其特徵在於該方法中步驟1)為影像文檔以是hXh的子影像塊來表示的,而影像文檔集是通過將原始影像劃分為具備一定重疊程度的子影像塊來實現生成的。
3.如權利要求1所述的高分辨遙感影像的聚類分析方法,其特徵在於該方法中步驟1)為影像文檔集依據影像文檔生成過程中重疊程度的不同而劃分為影像訓練文檔集與影像推斷文檔集,其中不重疊的影像文檔構影像訓練文檔集,而重疊的影像文檔構成影像推斷文檔集。
4.如權利要求2或3所述的高分辨遙感影像的聚類分析方法,其特徵在於該方法中步驟1)為只有訓練文檔被用來估計視覺詞與主題之間的條件概率分布P(w|z);當P(w|z)被估計出來後,訓練文檔中視覺詞與主題之間的條件概率分布具備典型性,影像推斷文檔集中的視覺詞與主題的條件概率分布符合相同的分布;然後在固定視覺詞與主題的條件概率分布P(w|z)的基礎上,通過影像推斷文檔集的EM算法迭代推斷出每個文檔中每個視覺詞對應主題的條件概率分布P (z I d,w),從而能夠獲取原始影像中每個像元在其鄰域文檔中對應主題的條件概率分布。
5.如權利要求1所述的高分辨遙感影像的聚類分析方法,其特徵在於該方法中步驟2)為聚類中心個數的選擇是通過MDL準則來實現的;MDL準則假設影像的特徵符合高斯混合分布的特徵,並利用最小描述長度的條件約束來獲取最佳聚類中心個數。
6.如權利要求1所述的高分辨遙感影像的聚類分析方法,其特徵在於該方法中步驟3)為當影像的聚類中心個數確定之後,通過利用PLSA模型來估計推斷文檔集中每個視覺詞對應主題的條件概率的分布;該條件概率的估計流程整體上可以劃分為兩部分為PLSA 模型訓練與PLSA模型推斷;影像文檔集在整體上被劃分為兩種類型,分別為訓練文檔集與推斷文檔集,而這兩種文檔集將被有效地應用於條件概率估計流程的兩個階段;在PLSA模型的訓練階段,利用訓練文檔集構建詞與文檔的詞頻共生矩陣,然後結合PLSA模型的訓練可以獲得訓練文檔集中視覺詞對應主題的條件概率P (w I ζ)。
7.如權利要求1所述的高分辨遙感影像的聚類分析方法,其特徵在於該方法中步驟4)為通過上述NSPLSA方法的基本流程,原始影像中每個像元在其鄰域文檔中的主題概率分布信息均可得到;每個像元都被多個鄰域文檔覆蓋,而利用Wj表示原始影像中的像元j時,需要通過計算條件概率分布^(Zkj, )來最終該判定該像元最終的聚類類別歸屬。
8.如權利要求7所述的高分辨遙感影像的聚類分析方法,其特徵在於該方法中步驟4) 為包括四個步驟1)、確定原始影像中每個像元對應的覆蓋該像元的所有鄰域文檔;具體而言,是通過給定的視覺詞q的坐標Ov yq)來尋找該像元對應的鄰域文檔集Dq,其中Dq中每個文檔在空間位置上均覆蓋視覺詞q ;2)、利用視覺詞q的坐標Ovyq)與鄰域文檔集Dq中鄰域文檔Cli的文檔中心坐標 (~,八)來計算視覺詞在其鄰域文檔中的概率權重PWi I Ci,q),具體計算公式為
9.如權利要求1所述的高分辨遙感影像的聚類分析方法,其特徵在於該方法包括步驟1)影像文檔以是hXh的子影像塊來表示的,而影像文檔集是通過將原始影像劃分為具備一定重疊程度的子影像塊來實現生成的;影像文檔集依據影像文檔生成過程中重疊程度的不同而劃分為影像訓練文檔集與影像推斷文檔集,其中不重疊的影像文檔構影像訓練文檔集,而重疊的影像文檔構成影像推斷文檔集;只有訓練文檔被用來估計視覺詞與主題之間的條件概率分布P(Wlz);當P(w|z)被估計出來後,訓練文檔中視覺詞與主題之間的條件概率分布具備典型性,影像推斷文檔集中的視覺詞與主題的條件概率分布符合相同的分布;然後在固定視覺詞與主題的條件概率分布P (W Iz)的基礎上,通過影像推斷文檔集獲取每個文檔中每個視覺詞對應主題的概率分布P (z I d,w),從而能夠獲取原始影像中每個像元在其鄰域文檔中對應主題的概率分布;步驟2)聚類中心個數的選擇是通過MDL準則來實現的;MDL準則假設影像的特徵符合高斯混合分布的特徵,並利用最小描述長度的條件約束來獲取最佳聚類中心個數;步驟3)當影像的聚類中心個數確定之後,通過利用PLSA模型來估計推斷文檔集中每個視覺詞對應主題的條件概率的分布;該條件概率的估計流程整體劃分為兩部分為PLSA 模型訓練與PLSA模型推斷;影像文檔集在整體上被劃分為兩種類型,分別為訓練文檔集與推斷文檔集,而這兩種文檔集將被有效地應用於條件概率估計流程的兩個階段;在PLSA模型的訓練階段,利用訓練文檔集構建詞與文檔的詞頻共生矩陣,然後結合PLSA模型的訓練可以獲得訓練文檔集中視覺詞對應主題的條件概率P (w I ζ);步驟4)為原始影像中每個像元在其鄰域文檔中的主題概率分布信息均可得到;每個像元都被多個鄰域文檔覆蓋,而利用Wj表示原始影像中的像元j時,通過計算條件概率分布乂…仏&?)來最終該判定該像元最終的聚類類別歸屬;包括四個步驟確定原始影像中每個像元對應的覆蓋該像元的所有鄰域文檔;具體而言,是通過給定的視覺詞q的坐標Ov yq)來尋找該像元對應的鄰域文檔集Dq,其中Dq中每個文檔在空間位置上均覆蓋視覺詞q ;利用視覺詞q的坐標O^ytl)與鄰域文檔集Dq中鄰域文檔Cli的坐標信息(、,來計算視覺詞在其鄰域文檔中的概率權重PWi I Ci,q),具體計算公式為
全文摘要
本發明涉及一種基於概率潛語義分析(PLSA)模型的面向對象影像聚類方法。通過將影像分割為不同尺寸的矩形影像塊並引入計算機視覺的圖像分析方法,從而將影像像素視為視覺詞、影像塊視為影像文檔、像元歸屬的主題視為聚類中心。依據影像塊的重疊程度將影像文檔劃分為訓練文檔集與推斷文檔集,然後利用訓練文檔訓練PLSA模型可獲取影像聚類的最佳聚類中心與訓練文檔中視覺詞與主題的先驗概率。將推斷文檔中的視覺詞的先驗概率視為與訓練文檔中的先驗概率一致,利用PLSA模型的EM算法循環迭代推斷出文檔集中每個文檔中視覺詞的主題類型,從而確定出每個視覺詞在其鄰域文檔中的主題類型。分析視覺詞與領域文檔的距離並進行一定的高斯距離權重分配,選擇權重最大的主題視為聚類類型,從而將空間信息引入聚類算法,最終形成面向對象的影像聚類結果。本發明方法可以得到一般單純使用像元信息進行聚類所無法實現的效果,從而可以滿足不同高解析度遙感影像分析與應用的需求。
文檔編號G06K9/62GK102314610SQ201010220330
公開日2012年1月11日 申請日期2010年7月7日 優先權日2010年7月7日
發明者唐宏, 易文斌, 陳雲浩 申請人:北京師範大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀