一種基於視頻集合層級主題結構的檢索結果聚類方法
2023-05-27 13:31:11
專利名稱:一種基於視頻集合層級主題結構的檢索結果聚類方法
技術領域:
本發明屬於視頻搜索技術領域,涉及一種基於視頻集合層級主題結構的檢索結果聚類方法。
背景技術:
隨著社會媒體(social media)的流行,網際網路上的視頻數量呈爆炸式增長,用戶在享受豐富資源的同時也面臨信息過載的困擾,如何將用戶查詢時所返回的成百上千的檢索結果進行有效組織,幫助用戶快速定位感興趣的視頻,已成為學術界和工業界共同關心的課題。比較常見的視頻搜尋引擎採用基於列表的瀏覽方式返回檢索結果,使得用戶只能順序查找,冗長的列表式顯示降低了用戶體驗,且不利於定位和查找感興趣的目標視頻;另外,該方式在某種程度上忽視了檢索結果的多樣性。基於對搜索結果進行聚類的瀏覽方式可以從多個方面描述檢索結果,從而改善這一不足。目前針對檢索結果進行聚類的方法多專注於解決檢索詞的歧義性問題,通過對結果進行聚類來區分檢索詞的多個含義,比如「蘋果」(apple),產生的聚類包括「蘋果水果」(apple fruit)、「蘋果電腦」(apple computer)、「蘋果智慧型手機」(apple smartphone) 等對「蘋果」apple的不同解釋。而還有很多情況,用戶的檢索詞意義是明確的,並不存在歧義性問題,比如「北京奧運會」 (Beijing Olympics)、「美國總統大選」 (US president election)、「9/11襲擊」(9-llattack),用戶想了解的是關於這一搜索詞的詳細內容。針對這類情況,如果能挖掘出檢索結果所包含的多個方面(facet),為用戶提供一個基於聚類-層級的瀏覽方式,則可以幫助用戶概要了解搜索結果所涉及的主題/方面,從而有助於用戶逐步細化檢索目標,準確定位感興趣的視頻。在基於不同模態信息融合的視頻聚類方法中,不同模態(文本信息題目、標註、 描述;視覺信息顏色、邊緣、紋理)被連成長向量,轉換為一般的聚類問題,採用傳統的標準割(Normalized Cut)或者信念傳播(Affinity Propagation)作為聚類方法。該方法有如下兩個問題首先,在子主題聚類時沒有將與搜索詞關聯的父主題單獨考慮,容易將子主題與父主題相混;其次,對於視覺信息的利用不合理,文本和視覺信息應該分別進行建模。
發明內容
(一)要解決的技術問題本發明的目的是提供能挖掘出檢索結果所包含的多個方面,為用戶提供一個基於聚類-層級的瀏覽方式,則可以幫助用戶概要了解搜索結果所涉及的主題/方面,從而有助於用戶逐步細化檢索目標,準確定位感興趣的視頻,為此提出一種基於視頻集合層級主題結構的檢索結果聚類方法。( 二 )技術方案為實現上述目的,本發明提供基於視頻集合層級主題結構的檢索結果聚類方法包括步驟如下
步驟Sl 通過擴充相關的上位詞、同義詞以及語義關聯詞,對輸入的搜索句子進行查詢拓展,得到一個種子詞集;步驟S2 根據輸入的搜索句子進行檢索,返回一個視頻集合,再對視頻集合進行重複檢測,得到每對視頻的重複關係;步驟S3 對得到的視頻集合的內容進行層級主題建模,通過層級主題模型挖掘視頻集合中潛在的層級主題關係;利用搜索句子與父主題的對應關係,將得到的種子詞集作為監督信息,利用關聯監督層級主題模型對得到的視頻集合內容進行建模;並將視頻進行重複檢測的每對視頻的重複關係作為約束,通過關聯監督層級主題模型進行建模,實現基於關聯監督層級主題模型的主題樹發現和視頻聚類。優選實施例,所述查詢拓展包含基於詞網(WordNet)的查詢拓展,以及基於關聯規則的查詢拓展,將與搜索句子相關的詞彙擴充到主題樹的父主題中。優選實施例,所述基於詞網(WordNet)的查詢拓展是將詞網(WordNet)概念樹中的上位詞和同義詞作為擴充詞,填加入種子詞集。優選實施例,所述基於關聯規則的查詢拓展為彌補詞網(WordNet)領域詞彙的狹義性,進一步將視頻集合的文本元數據中具有最大置信度和支持度的詞彙作為擴充詞,填加入種子詞集。優選實施例,所述重複檢測是根據視頻邊緣和紋理的局部特徵索引對抽樣得到的代表某個視頻片段的關鍵幀進行匹配;利用時空一致性信息濾除匹配噪聲,並歸一化得到視頻層的匹配分數。本發明的有益效果本發明採用了基於詞網(WordNet)概念樹和關聯規則的查詢拓展方法,以及視頻重複檢測方法,最終提出一種基於關聯監督層級主題模型的主題樹發現和視頻聚類方法。該發明解決了視頻檢索結果的層級瀏覽問題,其中使用查詢拓展的結果做為模型的監督信息,可以大大提高主題抽取的質量,從而更準確的提供檢索結果的類別標籤;使用視頻重複檢測作為對約束可以增強檢索結果的多樣性。
圖1是本發明面向視頻搜索結果的層級主題挖掘及聚類瀏覽的流程圖;圖2是本發明中詞網(WordNet)概念關係圖;圖3a至圖3c是本發明中主題模型的圖表示;圖4是本發明的方法在「9/11恐怖襲擊」主題下與其他技術的對比結果。
具體實施例方式為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,並參照附圖,對本發明進一步詳細說明。如圖1示出本發明面向視頻搜索結果的層級主題挖掘及聚類瀏覽的流程圖,本發明實現一種基於視頻集合層級主題結構的檢索結果聚類方法,並對每個聚類自動生成類別標籤。相比現有的聚類顯示方法,一方面通過挖掘潛在的層級主題結構,可以有效地歸納出搜索關鍵詞主題/事件的子方面主題(faceted subtopic);另一方面,通過主題-詞分布的形式,可以更好地描述和刻畫類標籤。本發明的結構圖如圖1顯示,其包含三個組成部分1)搜索詞的查詢拓展(query expansion), 2)視頻集合的重複檢測(duplicate detection),3)基於關聯監督層級主題模型(Relational Supervised hLDA)的主題樹發現和視頻聚類。1查詢拓展方法的輸入是搜索句子,視頻分享網站會返回一個視頻集合,包括視頻以及文本元數據(標題、描述、標註等)。對於搜索詞,首先進行查詢拓展,利用詞網(WordNet)上的概念關係以及視頻集合的關聯規則挖掘,得到種子詞集,種子詞集會作為監督信息加入到後續的層級主題建模中。1. 1基於詞網(WordNet)概念關係的查詢拓展如圖2示出詞網(WordNet)概念關係圖,其中詞網(WordNet)上對於每個詞條, 有三個維度的概念關係上位詞、同義詞和下位詞,例如圖2所示,「攻擊」的詞性有兩種,分為動詞和名詞。針對名詞詞性,上位詞是比「攻擊」含義更廣的詞語,例如包括「操作」、「方法」、「事件」;同義詞是意思相近的詞語,例如包含「突擊」、「攻擊」、「進攻」;下位詞是詞義更特殊的詞語,可以理解為某一種特殊的攻擊,例如包括「轟炸」、「地面襲擊」、「自殺性襲擊」、 「反攻」。針對動詞詞性,類似的,上位詞包含「戰鬥」、「打仗」、「鬥爭」;同義詞包括「襲擊」、 「進攻」、「攻擊」;方式詞可以理解為下位詞的一種,例如包括「水下攻擊」、「空襲」、「反擊」。 主題模型建模過程對詞庫中沒有的噪聲詞不敏感,因此對於搜索句子中的每個搜索詞,過濾掉下位詞,將詞網(WordNet)上的上位詞(hypernym)和同義詞(synonym)擴充到種子詞集裡。1. 2基於關聯規則的查詢拓展考慮到詞網(WordNet)對於領域詞彙的狹義性,我們同時考慮搜索詞在視頻集合裡的關聯挖掘。與搜索詞具有較大置信度(confidence)和支持度(support)的詞也擴充到種子詞集裡。這裡我們選定為每個搜索詞挑選前10個具有最大置信度和支持度的詞進行拓展。通過以上兩步得到的種子詞集記為S。2重複檢測為同時在層級建模過程中考慮視頻集合的文本元數據和視覺信息,視覺信息以關聯約束的形式加入到主題建模中,即如果兩個視頻被檢測是重複(duplicate)的,則其一定屬於同一子主題,進而歸到同一聚類中。視頻d與視頻d』的重複檢測結果由一個二進位變量yd,d,表示,若d與d』重複,則yd,d, = 1 ;否則yd,d, = O。我們採用最近提出的一種基於關鍵幀匹配的重複檢測算法。抽樣的關鍵幀首先根據局部特徵索引進行匹配,時空一致性信息用來濾除匹配噪聲,並歸一化得到視頻層的匹配分數。這一方法對視頻的平移等變換不敏感,且具有低存儲、運行時間短的優點。3基於關聯監督層級主題模型的主題樹發現和視頻聚類我們發現一個搜索句子返回的視頻集合共享某個與搜索句子相關的主題,這表明視頻集合有一種潛在的層級主體結構,父主題即是與搜索句子相關的主題,每個子主題描述父主題的一個方面(facet)。如果我們能發現這種結構,將每個視頻映射到一個子主題上,一個子主題即對應於一個視頻聚類,通過這種方法就可以實現對結果的聚類顯示。圖3a至圖3c示出本發明中主題模型的圖表示圖3a提出了傳統的層級主題模型(Hierarchical Latent Dirichlet Allocation,hLDA)可以用來挖掘數據集合中的層級主題結構,圖3a中所有標記在本發明中的含義及標記含義之間的關係將在3. 1節中詳細說明。在層級主題模型的基礎上,搜索句子經過查詢拓展得到的種子詞集作為監督信息引導主題的發現過程,圖北提出了本發明監督層級主題模型(ShLDA),圖北中所有標記在本發明中的含義及標記含義之間的關係將在3. 2節中說明。更進一步,為了結合文本元數據和視覺信息,視覺重複檢測的結果被作為對約束(pair-wise constraint),圖3c又提出了本發明的一種能夠結合多模態的關聯監督層級主題模型(RSiLDA),圖3c中所有標記在本發明中的含義及標記含義之間的關係將在3. 3節中說明。3. 1層級主題模型層級主題模型假設所有的主題按樹結構組織,每個樹節點對應一個主題,每個文檔被分配到由根節點到葉節點的一條路徑上。層級主題模型的優點在於樹結構和主題內容可以同時從文檔集合中學習得到,只需設定很少的參數。在視頻聚類的背景下,一個搜索句子返回的視頻集合對應於文檔集合,每個視頻的文本元數據對應一個文檔。在層級主題模型的假設下,文檔集合中的每個文檔生成式過程如下 由中國餐館過程(nested Chinese Restaurant Process, nCRP)抽樣選擇一條路徑cd,該抽樣服從參數為Y的中國餐館過程,記為(^ 110^(^),其中γ是中國餐館過程控制樹結構的參數。抽樣主題分布向量ed GEM(m,π ),其中GEM( ·)表示木棍分割分布 (Stick-Breaking constructions),參數m,π決定了文檔-主題分布的趨勢,m是均值,決定主題數的密度,η是方差,控制收斂速度。對一個文檔Wd中的每個詞Wdn e Wd:■首先根據上一步抽樣得到的9d,抽樣& 所在的層(視頻d代表第d個文檔,η 代表第η個詞),即根據多項式分布、,η Discrete ( θ d)進行抽樣;其中zd,n表示抽樣wd, 所在主題層數,Discrete ( ·)表示多項式分布。■然後抽樣』 ~ Discrete(fiCd I ^J ,其中凡是控制主題_詞多項式分布的變量, 需要從建模過程求得。其中,T表示了由中國餐館過程生成的樹結構,c是文檔抽樣得到的路徑,ζ代表給定路徑上的層分布,超參數η控制主題-詞分布的平滑/稀疏性,θ、β分別是得到的文檔-主題分布和主題-詞分布,M代表文檔數量,N表示文檔中的詞數量。3. 2監督層級主題模型為了利用搜索句子與父主題的關係引導主題樹的發現過程,查詢拓展得到的種子詞集S被作為監督信息加入到層級主題模型中,我們提出了監督層級主題模型。在監督層級主題模型的假設下,文檔集合中的每個文檔生成式過程如下 由中國餐館過程抽樣選擇一條路徑Cd nCRP ( γ )。 抽樣主題分布向量0d GEM(m,π)。 對每個詞 wd, ne Wd■選擇詞所在的層、,n Discrete ( θ d);■抽樣
權利要求
1.一種基於視頻集合層級主題結構的檢索結果聚類方法,其特徵在於,該方法包括步驟如下步驟Sl 通過擴充相關的上位詞、同義詞以及語義關聯詞,對輸入的搜索句子進行查詢拓展,得到一個種子詞集;步驟S2 根據輸入的搜索句子進行檢索,返回一個視頻集合,再對視頻集合進行重複檢測,得到每對視頻的重複關係;步驟S3 對得到的視頻集合的內容進行層級主題建模,通過層級主題模型挖掘視頻集合中潛在的層級主題關係;利用搜索句子與父主題的對應關係,將得到的種子詞集作為監督信息,利用關聯監督層級主題模型對得到的視頻集合內容進行建模;並將視頻進行重複檢測的每對視頻的重複關係作為約束,通過關聯監督層級主題模型進行建模,實現基於關聯監督層級主題模型的主題樹發現和視頻聚類。
2.根據權利要求1所述的基於視頻集合層級主題結構的檢索結果聚類方法,其特徵在於,所述查詢拓展包含基於詞網的查詢拓展,以及基於關聯規則的查詢拓展,將與搜索句子相關的詞彙擴充到主題樹的父主題中。
3.根據權利要求2所述的基於視頻集合層級主題結構的檢索結果聚類方法,其特徵在於,所述基於詞網的查詢拓展是將詞網概念樹中的上位詞和同義詞作為擴充詞,填加入種子詞集。
4.根據權利要求2所述的基於視頻集合層級主題結構的檢索結果聚類方法,其特徵在於,所述基於關聯規則的查詢拓展為彌補詞網領域詞彙的狹義性,進一步將視頻集合的文本元數據中具有最大置信度和支持度的詞彙作為擴充詞,填加入種子詞集。
5.根據權利要求1所述的基於視頻集合層級主題結構的檢索結果聚類方法,其特徵在於,所述重複檢測是根據視頻邊緣和紋理的局部特徵索引對抽樣得到的代表某個視頻片段的關鍵幀進行匹配;利用時空一致性信息濾除匹配噪聲,並歸一化得到視頻層的匹配分數。
全文摘要
本發明是一種基於視頻集合層級主題結構的檢索結果聚類方法,是通過擴充相關的上位詞、同義詞以及語義關聯詞,對輸入的搜索句子進行查詢拓展,得到一個種子詞集;根據輸入的搜索句子進行檢索,返回一個視頻集合,再對視頻集合進行重複檢測,得到每對視頻的重複關係;對得到的視頻集合的內容進行層級主題建模,通過層級主題模型挖掘視頻集合中潛在的層級主題關係;利用搜索句子與父主題的對應關係,將得到的種子詞集作為監督信息,利用關聯監督層級主題模型對得到的視頻集合內容進行建模;並將視頻進行重複檢測的每對視頻的重複關係作為約束,通過關聯監督層級主題模型進行建模,實現基於關聯監督層級主題模型的主題樹發現和視頻聚類。
文檔編號G06F17/30GK102332031SQ20111031656
公開日2012年1月25日 申請日期2011年10月18日 優先權日2011年10月18日
發明者徐常勝, 桑基韜 申請人:中國科學院自動化研究所