新四季網

一種個性化及協同化融合的網上多媒體檢索與查詢方法

2023-07-19 00:29:26 2

專利名稱:一種個性化及協同化融合的網上多媒體檢索與查詢方法
技術領域:
本發明涉及一種基於用戶側檔的網上多媒體的檢索方法,尤其涉及一種基於多模態信息融合分析和交互檢索的跨媒體檢索方法。

背景技術:
目前Internet的信息量以每1.6年翻一倍的速度急劇增長。隨著20世紀90年代多媒體技術的迅速發展,以及新的有效的多媒體編碼技術的不斷出現,大量的視頻、音頻和圖像等多媒體信息成為了網絡中不可或缺的重要資源。面對著日益增多的多媒體信息,使得對這些信息資源的存儲、管理和利用變得非常困難。對於普通用戶而言,他們需要面對的就是如何從浩瀚的信息海洋中準確快速地檢索出自身所需的信息;而對於檢索系統而言,就必須能夠準確理解用戶的意圖,並按照用戶的意圖檢索出用戶最感興趣的信息。
傳統的數據類型主要是整型、實型、布爾型和字符型,因此其資料庫技術可以採用基於關鍵字的檢索方法。而在多媒體數據處理中,除了上述數據類型外,還包括圖形、圖像、聲音、視頻流等數據類型。因此,在基於關鍵字的檢索系統中,網絡開發人員必須事先對多媒體對象進行標註以利於用戶的檢索。但是這種模式明顯存在著弊端(1)、由於網絡上多媒體信息的數量不斷增多,數據量巨大,標註過程本身工作量浩繁,手工標註日益變得不切實際;(2)、標註本身存在著很大的主觀性,針對同一個多媒體對象,不同的標註者完全可能有不同的理解,並標註不同的關鍵字,因此標註的關鍵字並不能完全準確、客觀地反映多媒體對象所涵蓋的語義,自然也不利於網絡用戶的檢索了;(3)、無法體現檢索的信息在視覺或聽覺上的相似程度。
在這種情況下,基於內容的多媒體檢索技術應運而生,並成為計算機視覺和信息檢索領域的研究熱點。上世紀90年代初期人們提出了基於內容的圖像檢索技術,從圖像提取底層的視覺特徵,如顏色、紋理、形狀等底層特徵作為圖像的索引。這種技術思路後來也被運用到視頻檢索和音頻檢索中。基於內容的多媒體檢索方法早期有以QBIC、VideoQ等為代表的原型系統,當時由於缺乏高層語義的支持,在準確率和效率上不能滿足用戶要求;之後例子學習、融合分析和流形學習等方法被用來實現多媒體語義理解,以填補多媒體信息底層特徵和高層語義之間的鴻溝;接著為了克服訓練樣本的不足,又引入了相關反饋機制等。以上各種技術的應用,在一定程度上縮小了語義鴻溝,提高了網絡多媒體檢索的性能。
然而,現有的多媒體檢索系統依然存在很多問題(1)、傳統的基於內容的多媒體檢索系統通常通過提取色彩、形狀、紋理等底層特徵進行相似度比較,並根據相似度來建立與高層語義之間的聯繫和映射。然而單純地對提取的多媒體底層特徵進行相似度比較,在很多情況下並沒有任何實質意義。例如當用戶搜索「雞肉」或「家禽肉類」等菜譜圖片時,搜尋引擎根據底層特徵的相似度比較幾乎無法準確區分出雞肉、鴨肉和鵝肉甚至豬肉等的不同,更別說是烤鴨和烤鵝照片區別了,因它們之間顏色等底層特徵的相似度很高。因此,利用這種方法進行檢索的準確性較低;(2)、傳統的多媒體檢索系統不能很好地理解用戶的真實意圖,因此也無法準確地根據用戶意圖對檢索結果進行優化和排序,即優先提供用戶最感興趣的內容;如上述肉類的菜譜圖片檢索過程中,某些種族用戶有風俗忌諱(如伊斯蘭穆斯林不吃豬肉、猛禽等),要適當對結果進行過濾;某些人喜歡吃燒雞,不喜歡吃烤雞、烤鴨、醬鴨,則儘量將他所感興趣的燒雞菜譜圖片靠前排序。(3)、傳統的多媒體檢索系統往往只能檢索包含單一模態的多媒體資料庫,或雖能檢索多模態媒體數據,但不能支持跨媒體的檢索,即根據一種模態的多媒體對象檢索其它模態的多媒體對象;

發明內容
為了克服已有的主流網絡多媒體檢索方法存在的基於內容的多媒體查詢精確度上不去、基於相似度的檢索往往結果對個性化用戶沒有意義、多媒體底層特徵與高層語義之間存在鴻溝、檢索準確率低下、不能準確理解用戶意圖並按照用戶意圖對檢索結果進行優化和排序、不支持跨模態媒體檢索等不足,本發明提供了一種個性化及協同化融合的網上多媒體檢索與查詢的方法,通過合理建立多媒體信息底層特徵與高層語義之間的聯繫和映射,結合個性化的用戶側檔與公共側檔,能夠準確地理解用戶的真實意圖,並按照用戶意圖進行跨模態的多媒體網絡檢索,並對檢索結果進行優化與排序,實現了用戶檢索的個性化,並提高了多媒體網絡檢索的精確度。
本發明解決其技術問題所採用的技術方案是 一種個性化及協同化融合的網上多媒體檢索與查詢方法,該方法包括以下步驟 (1)、對多媒體信息進行語義的自動標註利用多媒體信息資料庫的各種已有的高層語義,所述各種已有的高層語義包括文本語義標註、多媒體信息間的超連結說明、主題詞、圖像的主體名及其視覺特徵描述詞、Web頁面內的多媒體信息間的關聯描述,通過統計學習模型從中自動選取最能表達多媒體內容的若干關鍵字作為媒體信息的語義,並結合多媒體信息的底層特徵相似度檢索,進行關鍵字傳播和多媒體語義的自動信息標註; (2)、建立用戶側檔,其中包含用戶的信息及個人喜好,按照用戶的喜好程度,對檢索結果進行優化排序,剔除用戶不感興趣的內容; 用戶側檔的基本結構定義如下 UP= UInfo= 其中UPL表示用戶感興趣的關鍵短語的相關信息,P是指向用戶所屬群組的公共側檔的指針;UInfo表示用戶信息,UID表示用戶唯一標識符,UN表示用戶名,UD表示用戶其它描述信息; 在用戶使用過程中,按照用戶搜索的結果進行聚類分析,確定用戶最感興趣的關鍵短語; (3)、在每次檢索結束後,用戶對系統當前查詢結果的滿意程度進行反饋,系統接收用戶的相關反饋意見,然後根據用戶的反饋意見進行查詢調整,動態調整用戶側檔中各關鍵短語的權重,在下一次檢索時能夠按照新的關鍵短語的優先度對檢索結果進行排序; (4)、用戶選擇屬於某一群組,系統為該群組建立公共側檔來描述群組的共同行為和群組成員的普遍愛好;當一個用戶新加入一個群組,從這個群組的公共側檔中繼承屬性;同樣,群組側檔又能夠從範圍更大的社區側檔中繼承屬性; 公共側檔的基本結構定義為 CP= CInfo= 其中WL表示該公共側檔中用戶的共同偏好,Suc表示該公共側檔的繼承關係;CInfo表示該公共側檔的信息,GID表示本公共側檔唯一標識符,NAME表示公共側檔的名稱,DE表示該公共側檔其它的描述信息; 公共側檔的建立過程在系統建立時,根據已有的經驗知識,為不同的群組事先指定共同偏好;同時,公共側檔根據內部各成員的檢索偏好及相關反饋的情況,動態調整預先制定的共同愛好;在公共側檔進行更新時,通過限制每個用戶對特定關鍵字的投票次數,並結合公共側檔的用戶副本在線更新模式; (5)、系統對多模態信息融合分析進行多媒體語義的理解,建立不同模態媒體對象之間的語義鏈,用戶實現跨模態的多媒體信息查詢,即用戶提交任意模態的檢索例子去檢索任意模態的媒體對象或者多媒體文檔。
作為優選的一種方案所述的步驟(1)中,具體步驟如下 (1.1)提取各種已經存在的語義信息,包括文本描述、多媒體信息之間的超媒體連結說明,以及同一WEB頁面內的圖片、音頻、視頻、文本之間,以及同一站點內的多媒體信息之間的都存在的上下文關聯,並對關鍵字內容做出注釋和說明; (1.2)用一個四元組MMEAN=來描述每一個多媒體對象的語義,其中SID代表該媒體對象所屬的分類,ID代表它在該分類中的唯一編號,Keywords={w1,w2,…,wi}代表按照步驟(1.1)得到的若干關鍵字; (1.3)採用「關鍵字傳播」的手段,通過相似性檢索來得到語義;具體步驟如下 (1.3.1)對各模態的多媒體對象提取底層特徵並進行量化; (1.3.2)將無語義描述的多媒體對象與現有已經具有描述的同模態多媒體對象底層特徵進行比較,將最相似的多媒體對象的語義描述作為自己的語義描述的一部分;並參考最相似的多媒體對象所在的多媒體文檔中其他模態多媒體對象的語義描述,取所有這些描述中出現頻率最高的若干關鍵字作為該多媒體對象的語義。
作為優選的另一種方案所述的步驟(2)中,用戶側檔的建立以及通過學習進行更新,具體方法描述如下 (2.1)對搜索結果進行聚類,動態地得到一些搜索結果的關鍵短語;將提取出來的關鍵短語加入用戶側檔,用來描述個人喜好的信息; (2.2)用下述形式來描述各關鍵短語及它在用戶側檔中的關鍵性 UPL=<,…,> (4) 其中UWi表示用戶檢索時使用的短語,UPWi表示該短語所屬類的標籤,UWEi表示該短語的權重,權重越大則說明用戶對該短語所代表的內容的興趣越大;假設用戶共進行了m次查詢,且在某次查詢時點擊了結果中的n個多媒體對象,則權重UWEi的計算方法如下 上式中,Cik表示第i個短語在用戶點擊的第k個頁面中出現的次數,

表示第i個短語在這n個頁面中出現的總次數,而表示所有短語出現總次數的最大值;按照權重UWEi對用戶檢索時使用的關鍵短語進行排序,UWEi越大,則該關鍵短語可以理解為用戶對相關內容的喜好程度更高; 個性化的多媒體檢索即指檢索系統按照用戶輸入的檢索條件得出檢索結果,對搜索結果按照關鍵詞的權重高低進行排序,優先顯示權重更高的檢索內容; (2.3)在用戶信息UInfo的UD中進行約束並賦給它一個足夠小的負數權重,使得檢索系統不會再顯示相關的內容; (2.4)用戶側檔中關於關鍵短語的信息在下述情況需要進行更新一是用戶提交檢索關鍵字進行檢索,如果原先沒有此關鍵字,則此時系統就將得到的關鍵字添加到用戶側檔中,同時計算其相應的權重,如有,則只需重新計算權值;二是用戶對檢索結果做出評價時,系統需要根據用戶的反饋調整各關鍵短語的權重。
作為優選的在另一種方案所述的步驟(3)中,用戶相關反饋模型,具體描述如下 (3.1)用戶在提交一個媒體查詢(如圖片查詢)請求後,返回的結果中,採用用戶反饋機制,自動進行查詢調整,反饋模型的定義如下 其中α、β、γ是適當的常數,Q是原檢索點,Q′是經反饋修正後的檢索點,DR、DN分別代表相關和不相關的媒體對象集,NR、NN分別代表DR、DN中所含媒體對象個數; (3.2)用戶相關反饋機制設置為系統以層次結構方式呈現給用戶一個查詢結果列表,用戶可以對每個查詢結果進行評價,評價分為正相關和負相關;現假設對檢索結果Di進行評價,又設Di的關鍵短語集為(W1,W2,…,Wi) (3.2.1)當評價為正相關時,對於某一關鍵短語Wi,如果用戶側檔中沒有Wi,則將其加入用戶側檔中,其權值按用戶側檔中介紹的權值計算法進行計算。若用戶側檔中有Wi時,則UWEi更新公式如下 UWEi(now)表示按上述用戶側檔中權值計算公式算出的當次查詢的Wi的權值; (3.2.2)當評價為負相關時,如果用戶側檔中沒有關鍵短語Wi,則將其加入用戶側檔中,權值計算如下 UWEi=-tkUWEi(now) (8) 當用戶側檔中有關鍵短語Wi時,則UWEi更新公式如下 其中n為一個常值; (3.3)加入反饋機制後,調整側檔作用機制的過程敘述如下 用戶對某查詢結果的某一檢索結果作出評價後,對於該結果的關鍵短語集(W1,W2,…,Wi)中的任一關鍵短語Wi,重新計算其權值,並更新用戶側檔庫;下一次的查詢結果中有這個關鍵短語時,如果權值為正,則對查詢結果按照權值由大到小排序;如果它的權值為負,則將所有負權值的關鍵短語按權值的絕對值排序由小到大排序,將絕對值大的關鍵短語剔除出結果集或將其排到後面。
進一步,所述的步驟(4)中,公共側檔的建立、協同化以及安全保護,具體描述如下 (4.1)多層側檔模式即用戶側檔→群組側檔→社區側檔的三層側檔模式,將群組側檔以及社區側檔統稱為公共側檔,不同層次之間的側檔具有繼承與被繼承的關係,用Suc來表示;個人用戶在首次使用多媒體檢索系統時,按照自己的實際情況加入某個或某些群組中,由於群組側檔具有一些預先設定的公共喜好的關鍵短語,所以個人用戶就繼承這些關鍵短語作為初始化的預設默認個人喜好信息;同時,由於群組側檔也一樣從範圍更大的社區側檔中繼承相應的關鍵短語,所以個人用戶實際上也繼承社區側檔的部分屬性;對側檔中所含的關鍵短語的數量設置一個限制值,如超過這個限制值,則刪去權重最小的關鍵短語,提高搜尋引擎的響應速度; (4.2)公共側檔中同樣存在各種關鍵短語,描述如下 WL=<,…,>(10) 其中Wi表示詞語或短語,WEi表示這個詞語或短語的權重;WEi的計算方法如下所示 count(WEu(k)(Wi)>F)k=1n表示統計詞Wi在各用戶側檔中權值大於閥值F的次數; (4.3)由個人側檔中的UPL=三元組中相同類UPW的所有關鍵短語UW的權值UWE相加後取平均值,再設一個閾值t,使所有平均值大於t的UPW進入公共側檔; (4.4)公共側檔的安全策略有兩種 (4.4.1)對公共側檔媒體資料的描述符中,限制每位用戶就特定關鍵字的投票次數,並對用戶投票設有時間限定,超過時間限定後,用戶針對同一關鍵短語和多媒體對象更改其投票; (4.4.2)、每位用戶都存儲有公共側檔的副本,原先公共側檔的升級轉變為對副本的「在線(On-line)」更新,從而形成新版公共側檔,本地僅記錄變化部分;在特定的時間段,系統會自動運行一個「脫機(Ofi-line)」處理進程將所有本地公共側檔融合到一個中心公共側檔,每個本地版本都會被手動或自動程序檢查後決定是否放入公共側檔,生成一個新的公共側檔,並且所有的本地版本都可與它保持一致。
更進一步,所述的步驟(5)中,基於多模態信息融合分析的跨媒體檢索,包含以下步驟 (5.1)提取出各種模態媒體對象的底層特徵,計算同種模態媒體所有對象間兩兩的距離,並將所有距離進行高斯歸一化; (5.2)通過非線性方法對不同多媒體文檔內的聲音、視頻、圖像、文本等對象所攜帶的信息進行融合分析,求得步驟(5.1)中得到的各個距離的最大值max dis和最小值min dis,定義多媒體文檔之間的距離Dis如下 Dis=λ×min dis+(α+ln(β×(max dis-min dis)+1))+A(12) 其中α、β、λ和A是根據資料庫大小和數據分布情況可調節的常數; (5.3)建立多媒體文檔關聯圖,每個多媒體文檔是該圖上的一個頂點,任意兩點間有一條邊,邊的權重即為步驟(5.2)中計算的距離,表示兩個多媒體文檔的相似關係; (5.4)重構多媒體文檔關聯圖,首先設置一個閾值,將權重大於閾值的邊的權全部設為無窮大;然後對所有的邊,用兩點間最短路徑作為該邊的新權重; (5.5)採用多向度量法將多媒體文檔關聯圖投影到多媒體語義空間,所有多媒體文檔都在該空間有唯一的坐標,所有多媒體文檔內的媒體對象也都被該坐標所指向; (5.6)用戶檢索時,首先找到該媒體對象在多媒體語義空間的坐標,再計算與其他所有媒體對象的距離,並返回距離最近的目標模態的媒體對象。
本發明的有益效果主要表現在1、實現多媒體對象語義的自動標註;2、引入用戶側檔及相關反饋機制,使得系統能夠準確理解用戶的真實意圖,對檢索結果進行排序和優化,實現了檢索的個性化,提高了檢索的準確性;3、建立多層公共側檔,層次間有繼承和共享機制,求同存異,支持海量存儲,根據成員情況協同化的更新,更準確描述成員的共同喜好;4、實現了跨模態的多媒體對象檢索。

具體實施例方式 下面對本發明作進一步描述。
一種個性化及協同化融合的網上多媒體檢索與查詢方法,該方法包括以下步驟 (1)、對多媒體信息進行語義的自動標註利用多媒體信息資料庫的各種已有的高層語義,所述各種已有的高層語義包括文本語義標註、多媒體信息間的超連結說明、主題詞、圖像的主體名及其視覺特徵描述詞、Web頁面內的多媒體信息間的關聯描述,通過統計學習模型從中自動選取最能表達多媒體內容的若干關鍵字作為媒體信息的語義,並結合多媒體信息的底層特徵相似度檢索,進行關鍵字傳播和多媒體語義的自動信息標註。
(2)、建立用戶側檔,其中包含用戶的信息及個人喜好,實現網絡多媒體搜索的個性化,能夠按照用戶的喜好程度,對檢索結果進行優化排序,剔除用戶不感興趣的內容。
用戶側檔的基本結構可以定義如下 UP= UInfo= 其中UPL表示用戶感興趣的關鍵短語的相關信息,P是指向用戶所屬群組的公共側檔的指針;UInfo表示用戶信息,UID表示用戶唯一標識符,UN表示用戶名,UD表示用戶其它描述信息。
用戶側檔的建立是在用戶使用過程中,按照用戶搜索的結果進行聚類分析,確定用戶最感興趣的若干關鍵短語。
(3)建立的用戶側檔並不是一成不變的,在每次檢索結束後,用戶都可以對系統當前查詢結果的滿意程度進行反饋,系統接收用戶的相關反饋意見,然後根據用戶的反饋意見進行查詢調整。這就要求系統能夠進行自動學習,動態調整用戶側檔中各關鍵短語的權重,在下一次檢索時能夠按照新的關鍵短語的優先度對檢索結果進行排序。
(4)、本發明還建立了多層側檔模式,例如用戶側檔→群組側檔→社區側檔的三層側檔模式。這樣用戶就可以根據自身的實際情況,選擇屬於某一群組,系統為該群組建立公共側檔來描述群組的共同行為和群組成員的普遍愛好。當一個用戶新加入一個群組,他就能夠從這個群組的公共側檔中繼承了一些屬性。同樣,群組側檔又能夠從範圍更大的社區側檔中繼承一些屬性。
公共側檔的基本結構定義為 CP= CInfo= 其中WL表示該公共側檔中用戶的共同偏好,Suc表示該公共側檔的繼承關係;CInfo表示該公共側檔的信息,GID表示本公共側檔唯一標識符,NAME表示公共側檔的名稱,DE表示該公共側檔其它的描述信息。
公共側檔的建立可以是在系統建立時,根據已有的經驗知識,為不同的群組事先指定一些共同偏好,以縮小檢索的範圍,提高多媒體檢索的速度。同時,公共側檔提供了與用戶側檔一樣的學習功能,並提供用戶協同檢索功能,能夠根據內部各成員的檢索偏好及相關反饋的情況,動態調整預先制定的共同愛好,使得公共側檔能夠更加準確地描述成員的共同喜好。在公共側檔進行更新時,通過限制每個用戶對特定關鍵字的投票次數,並結合公共側檔的用戶副本在線更新模式,保證公共側檔的安全性。
由於網絡用戶數量龐大,因此無論是用戶側檔還是公共側檔,容量都不宜太大,伺服器必須支持海量存儲,並運用合理的數據結構來組織這些海量的側檔信息;同時採用有效的機制來減少側檔中所含的關鍵短語的數量,提高搜尋引擎的響應速度。
(5)、基於多模態信息融合分析的跨媒體檢索,系統對多模態信息融合分析進行多媒體語義的理解,建立不同模態媒體對象之間的語義鏈,使得用戶可以實現跨模態的多媒體信息查詢,即用戶可以提交任意模態的檢索例子去檢索任意模態的媒體對象或者多媒體文檔。
由於網絡媒體信息的豐富性以及用戶需求的多樣性,因此在網絡檢索中實現個性化,準確把握用戶的真實意圖是非常有意義的一項工作。不同用戶在進行檢索時,即使使用的是同一個關鍵字,但是他所要檢索的內容卻未必是一樣的。例如當用戶在搜索框中鍵入一個查詢關鍵字「dog」或「狗」,則相關的檢索結果可能包括下列這些圖片(a)狗的照片;(b)玩具狗;(c)卡通狗;(d)油畫中的狗。儘管檢索結果都存在與關鍵詞對應的「狗」,但它們無論是在視覺上還是在語義上都有很大的不同。從用戶層面上來說,不同檢索者也很可能會喜愛不同的狗,比如兒童可能喜歡玩具狗或者卡通狗,而藝術家者很可能最喜歡油畫中的狗。再比如檢索「Apple」或「蘋果」,結果中可能出現真正的水果類蘋果,也可能出現蘋果品牌的電腦,對於一個農民用戶來講,可能他真正想找的是蘋果而不是電腦,而對於電腦科技工作者來說,他檢索的目標可能就是蘋果電腦。因此個性化是因人而異的,搜尋引擎每次可能檢索到大量不同的結果,而其中只有很小一部分才會真正滿足用戶喜好。理解用戶的準確意圖,儘可能得滿足用戶的喜好,是網絡個性化檢索的重要目標之一。
要實現個性化的多媒體檢索,每個用戶就必須通過一定的機制來說明自己的喜好和檢索意圖。為了有效表達用戶的真實意圖,實現檢索的個性化,本發明提出了多層側檔模型,來實現求同存異,具體分為用戶側檔→群組側檔→社區側檔的三層,其中群組側檔和社區側檔我們統稱為公共側檔。通過各層側檔描述用戶意圖的步驟如下 Step1.當一個新用戶加入要進行多媒體檢索時,為了實現個性化的檢索,系統要求用戶進行註冊並填寫部分相關的信息。用戶註冊時需要應有唯一的用戶名、簡要的個人信息以及個人興趣等; Step2.用戶完成註冊後,可以按照個人的實際情況,加入一個或若干個群組中,比如作為IT行業人員加入相關的群組中。這樣一來,用戶就不是一個單獨的用戶了,他屬於一個群組,同時也繼承了群組的屬性,即群組已有的共同愛好此時也加入到個人用戶的興趣信息中; Step3.在三層側檔模式中,我們定義「社區」是一個覆蓋範圍更大的概念,例如一個用戶,他主修的專業是計算機軟體,此時他就可以選擇加入「計算機軟體」這一個群組中,並繼承其中的屬性;與此同時,「計算機軟體」這一個群組又從屬於「IT」這個更大的社區,並從社區側檔中繼承了屬性(群組和社區的初始公共愛好等信息是設計者按照已有知識事先設定的)。因此,對於該用戶來說,他能夠繼承「計算機軟體」群組以及「IT」社區兩個公共側檔中的部分公共和默認預設屬性。
建立三層側檔模式之後,各層側檔中的信息並非一成不變的,而是隨著用戶的檢索操作動態調整的。為了實現這一功能,我們引入了用戶相關反饋機制。當用戶輸入一個關鍵字進行檢索後,他可以對檢索的結果按照是否符合自己的意圖來進行相關性的評判,檢索系統就是按照用戶的反饋來動態調整用戶側檔中的信息記錄。具體步驟如下 Step1.當用戶選擇了所屬的群組之後,他繼承了群組及社區的部分屬性作為初始默認的個人愛好。為了控制側檔的大小,我們可以對個人喜好信息的數量進行一定的限制,只取出現頻率最高的若干個關鍵短語作為用戶的喜好信息。用戶的喜好信息被描述為「關鍵短語+權重」的模式,若一個關鍵短語的權重越大,則說明用戶對這方面的內容興趣越大,且檢索結果中也是按照權重大小來進行排序; Step2.當用戶檢索完成後,對於檢索結果進行相關性反饋。每一項檢索結果都提供給用戶「正相關」(符合)或者「負相關」(不符合)兩個反饋選項,用戶可以根據自己的實際情況通過來選擇。對於正相關的檢索結果,其相應的關鍵短語的權重會相應增加,而負相關的則對應權重減小。這樣就實現了用戶側檔中用戶喜好信息的動態調整,也使得用戶每次檢索的結果都會改變,並越來越接近他的真實意願; Step3.僅僅動態調整用戶信息是不夠的,還必須能夠協同調整公共側檔中的相應信息,而公共側檔中信息的更新則是完全隨著該群組(社區)內成員用戶側檔的改變而改變的。基本思路是綜合內部所有成員的側檔信息,選取其中平均權重最大的若干個關鍵短語作為該公共側檔的公共喜好信息。由於公共側檔的初始化信息是設計者個人設定的,因此並不能十分準確地表達成員的共同喜好,只有按這樣的模式久而久之地進行調整,公共側檔才能夠儘可能準確地表達成員的共同意願。
對於檢索系統而言,由於各層側檔中的信息都是高層語義描述的關鍵短語,因此首先必須為所有的媒體信息標註上準確的語義信息。傳統的基於內容的檢索中,人們經常產用的是基於底層特徵相似度比較的語義標註方法。然而基於相似度比較在很多場合是沒有意義的。例如,當用戶檢索的真實意圖是他所喜愛的「烤雞肉」,但是傳統的方法下,烤雞、烤鴨、烤鵝等等的圖片從底層特徵方面來看,相似度是非常高的,是不足以區分不同的多媒體對象。
由於絕大多數的多媒體對象都是在網頁或其它多媒體文檔內,而不會是單獨的,因此對於一個等待標註語義信息的多媒體對象,我們的方法是充分利用已有的語義信息以及上下文的聯繫。以網絡上常見的網頁為例,一個網頁中存在的圖片本身或許並沒有任何的語義描述。但是由於它在一個信息豐富的網頁中,因此我們完全可以從網頁的地址、連結以及文本描述中取得很多的語義描述。舉一個簡單的例子來描述提取語義信息的思路假如在瀏覽一個電影網站頁面時,我們不能確認一張圖片的詳細內容,此時可以利用網頁中存在的大量文本信息進行分析,從其中選取部分關鍵字進行統計,最終將出現頻率最高的若干關鍵字,如「Tom Hanks」(湯姆·漢克斯)、「movie star」、「Hollywood」、「Oscar」等作為圖片的語義信息。同樣,我們還能從該演員的信息中得到他主演影片「You』ve Got Mail」(《電子情書》)的信息,通過相關連結,我們自然而然能夠得到女主角「Meg Ryan」(梅格·瑞恩)的相關信息,並可以由此引出了「Tom Hanks」與「Meg Ryan」合作的許多「Movie」的信息。這個簡單的例子說明,現有的多媒體文檔中存在的上下文信息為我們的多媒體對象語義標註提供了豐富的源泉。
對於部分單獨存在的多媒體對象,由於不存在上下文等文本信息可以提取,因此我們通過底層特徵相似性比較,採取關鍵字傳播手段,從現有的媒體庫中找到與它最為相似的若干個文件,並在它們的語義描述中取出出現概率最高的若干項作為這個多媒體對象的語義描述。
在目前傳統的網絡檢索中,用戶通常的方法是在搜尋引擎中輸入關鍵字進行檢索,例如,我們可以以「浙江師範大學」作為關鍵字進行檢索多媒體信息,能查詢到的信息包含浙江師範大學文本簡介、圖片、相關新聞報導、視頻剪影、校歌歌曲、廣播等多種媒體信息。而本發明所要實現的跨模態的多媒體檢索則要跳出單純用關鍵字查詢的局限,同樣在上一例子中,我們可以通過一張新聞圖片或者一段視頻來檢索浙江師範大學的相關內容。其檢索過程如下 Step1.當用戶提交了校歌歌曲音頻作為檢索例子時,系統首先找到該音頻文件所屬的多媒體文檔,並且定位出該文檔在整個多媒體語義空間中的坐標; Step2.根據資料庫內已有的所有多媒體文檔到該音頻所屬多媒體文檔的空間距離(權值)從小到大進行排序; Step3.按照距離由近及遠查找每個多媒體文檔中是否存在所需要的「浙江師範大學」的圖像資料,若有,則返回給用戶,如果沒有,則繼續向下一個文檔進行查找,直到檢索到的圖像結果數量達到用戶的要求。
本發明實現了多媒體對象語義的自動標註,引入了用戶側檔→群組側檔→社區側檔的多層側檔模式及相關反饋機制,求同存異,提出了跨模態的多媒體對象檢索方法,使得系統能夠準確理解用戶的真實意圖,對檢索結果進行排序和優化,實現了個性化、協同化、跨模態的多媒體對象信息檢索,有效提高了檢索的準確性。
權利要求
1、一種個性化及協同化融合的網上多媒體檢索與查詢方法,其特徵在於該方法包括以下步驟
(1)、對多媒體信息進行語義的自動標註利用多媒體信息資料庫的各種已有的高層語義,所述各種已有的高層語義包括文本語義標註、多媒體信息間的超連結說明、主題詞、圖像的主體名及其視覺特徵描述詞、Web頁面內的多媒體信息間的關聯描述,通過統計學習模型從中自動選取最能表達多媒體內容的若干關鍵字作為媒體信息的語義,並結合多媒體信息的底層特徵相似度檢索,進行關鍵字傳播和多媒體語義的自動信息標註;
(2)、建立用戶側檔,其中包含用戶的信息及個人喜好,按照用戶的喜好程度,對檢索結果進行優化排序,剔除用戶不感興趣的內容;
用戶側檔的基本結構定義如下
UP=
UInfo=
其中UPL表示用戶感興趣的關鍵短語的相關信息,P是指向用戶所屬群組的公共側檔的指針;UInfo表示用戶信息,UID表示用戶唯一標識符,UN表示用戶名,UD表示用戶其它描述信息;
在用戶使用過程中,按照用戶搜索的結果進行聚類分析,確定用戶最感興趣的關鍵短語;
(3)在每次檢索結束後,用戶對系統當前查詢結果的滿意程度進行反饋,系統接收用戶的相關反饋意見,然後根據用戶的反饋意見進行查詢調整,動態調整用戶側檔中各關鍵短語的權重,在下一次檢索時能夠按照新的關鍵短語的優先度對檢索結果進行排序;
(4)、用戶選擇屬於某一群組,系統為該群組建立公共側檔來描述群組的共同行為和群組成員的普遍愛好;當一個用戶新加入一個群組,從這個群組的公共側檔中繼承屬性;同樣,群組側檔又能夠從範圍更大的社區側檔中繼承屬性;
公共側檔的基本結構定義為
CP=
CInfo=
其中WL表示該公共側檔中用戶的共同偏好,Suc表示該公共側檔的繼承關係;CInfo表示該公共側檔的信息,GID表示本公共側檔唯一標識符,NAME表示公共側檔的名稱,DE表示該公共側檔其它的描述信息;
公共側檔的建立過程在系統建立時,根據已有的經驗知識,為不同的群組事先指定共同偏好;同時,公共側檔根據內部各成員的檢索偏好及相關反饋的情況,動態調整預先制定的共同愛好;在公共側檔進行更新時,通過限制每個用戶對特定關鍵字的投票次數,並結合公共側檔的用戶副本在線更新模式;
(5)、系統對多模態信息融合分析進行多媒體語義的理解,建立不同模態媒體對象之間的語義鏈,用戶實現跨模態的多媒體信息查詢,即用戶提交任意模態的檢索例子去檢索任意模態的媒體對象或者多媒體文檔。
2、如權利要求1所述的一種個性化及協同化融合的網上多媒體檢索與查詢方法,其特徵在於所述的步驟(1)中,具體步驟如下
(1.1)提取多媒體資料庫中的語義信息,包括文本描述、多媒體信息之間的超媒體連結說明,以及同一WEB頁面內的圖片、音頻、視頻、文本之間,以及同一站點內的多媒體信息之間的都存在上下文關聯,並對關鍵字內容做出注釋和說明;
(1.2)用一個四元組MMEAN=來描述每一個多媒體對象的語義,其中SID代表該媒體對象所屬的分類,ID代表它在該分類中的唯一編號,Keywords={w1,w2,…,wi}代表按照步驟(1.1)得到的若干關鍵字;
(1.3)採用「關鍵字傳播」的手段,通過相似性檢索來得到語義;具體步驟如下
(1.3.1)對各模態的多媒體對象提取底層特徵並進行量化;
(1.3.2)將無語義描述的多媒體對象與現有已經具有描述的同模態多媒體對象底層特徵進行比較,將最相似的多媒體對象的語義描述作為自己的語義描述的一部分;並參考最相似的多媒體對象所在的多媒體文檔中其他模態多媒體對象的語義描述,取所有這些描述中出現頻率最高的若干關鍵字作為該多媒體對象的語義。
3、如權利要求1或2所述的一種個性化及協同化融合的網上多媒體檢索與查詢方法,其特徵在於所述的步驟(2)中,用戶側檔的建立以及通過學習進行更新,具體方法描述如下
(2.1)對搜索結果進行聚類,動態地得到一些搜索結果的關鍵短語;將提取出來的關鍵短語加入用戶側檔,用來描述個人喜好的信息;
(2.2)用下述形式來描述各關鍵短語及它在用戶側檔中的關鍵性
UPL=<,…,>(4)
其中UWi表示用戶檢索時使用的短語,UPWi表示該短語所屬類的標籤,UWEi表示該短語的權重,權重越大則說明用戶對該短語所代表的內容的興趣越大;假設用戶共進行了m次查詢,且在某次查詢時點擊了結果中的n個多媒體對象,則權重UWEi的計算方法如下
上式中,Cik表示第i個短語在用戶點擊的第k個頁面中出現的次數,
表示第i個短語在這n個頁面中出現的總次數,而表示所有短語出現總次數的最大值;按照權重UWEi對用戶檢索時使用的關鍵短語進行排序,UWEi越大,則該關鍵短語可以理解為用戶對相關內容的喜好程度更高;
個性化的多媒體檢索即指檢索系統按照用戶輸入的檢索條件得出檢索結果,對搜索結果按照關鍵詞的權重高低進行排序,優先顯示權重更高的檢索內容;
(2.3)在用戶信息UInfo的UD中進行約束並賦給它一個足夠小的負數權重,使得檢索系統不會再顯示相關的內容;
(2.4)用戶側檔中關於關鍵短語的信息在下述情況需要進行更新一是用戶提交檢索關鍵字進行檢索,如果原先沒有此關鍵字,則此時系統就將得到的關鍵字添加到用戶側檔中,同時計算其相應的權重,如有,則只需重新計算權值;二是用戶對檢索結果做出評價時,系統需要根據用戶的反饋調整各關鍵短語的權重。
4、如權利要求3所述的一種個性化及協同化融合的網上多媒體檢索與查詢方法,其特徵在於所述的步驟(3)中,用戶相關反饋模型,具體描述如下
(3.1)用戶在提交一個查詢後,返回的結果中,採用用戶反饋機制,自動進行查詢調整,反饋模型的定義如下
其中α、β、γ是適當的常數,Q是原檢索點,Q′是經反饋修正後的檢索點,DR、DN分別代表相關和不相關的媒體對象集,NR、NN分別代表DR、DN中所含媒體對象個數;
(3.2)用戶相關反饋機制設置為系統以層次結構方式呈現給用戶一個查詢結果列表,用戶可以對每個查詢結果進行評價,評價分為正相關和負相關;現假設對檢索結果Di進行評價,又設Di的關鍵短語集為(W1,W2,…,Wi)
(3.2.1)當評價為正相關時,對於某一關鍵短語Wi,如果用戶側檔中沒有Wi,則將其加入用戶側檔中,其權值按用戶側檔中介紹的權值計算法進行計算。若用戶側檔中有Wi時,則UWEi更新公式如下
UWEi(now)表示按上述用戶側檔中權值計算公式算出的當次查詢的Wi的權值;
(3.2.2)當評價為負相關時,如果用戶側檔中沒有關鍵短語Wi,則將其加入用戶側檔中,權值計算如下
UWEi=-tkUWEi(now) (8)
當用戶側檔中有關鍵短語Wi時,則UWEi更新公式如下
其中n為一個常值;
(3.3)加入反饋機制後,調整側檔作用機制的過程敘述如下
用戶對某查詢結果的某一檢索結果做出評價後,對於該結果的關鍵短語集(W1,W2,…,Wi)中的任一關鍵短語Wi,重新計算其權值,並更新用戶側檔庫;下一次的查詢結果中有這個關鍵短語時,如果權值為正,則對查詢結果按照權值由大到小排序;如果它的權值為負,則將所有負權值的關鍵短語按權值的絕對值排序由小到大排序,將絕對值大的關鍵短語剔除出結果集或將其排到後面。
5、如權利要求4述的一種個性化及協同化融合的網上多媒體檢索與查詢方法,其特徵在於所述的步驟(4)中,公共側檔的建立、協同化以及安全保護,具體描述如下
(4.1)多層側檔模式即用戶側檔→群組側檔→社區側檔的三層側檔模式,將群組側檔以及社區側檔統稱為公共側檔,不同層次之間的側檔具有繼承與被繼承的關係,用Suc來表示;個人用戶在首次使用多媒體檢索系統時,按照自己的實際情況加入某個或某些群組中,由於群組側檔具有一些預先設定的公共喜好的關鍵短語,所以個人用戶就繼承這些關鍵短語作為初始化的個人喜好信息;同時,由於群組側檔也一樣從範圍更大的社區側檔中繼承相應的關鍵短語,所以個人用戶實際上也繼承社區側檔的部分屬性;對側檔中所含的關鍵短語的數量設置一個限制值,如超過這個限制值,則刪去權重最小的關鍵短語;
(4.2)公共側檔中同樣存在各種關鍵短語,描述如下
WL=<,…,> (10)
其中Wi表示詞語或短語,WEi表示這個詞語或短語的權重;WEi的計算方法如下所示
count(WEu(k)(Wi)>F)k=1n表示統計詞Wi在各用戶側檔中權值大於閥值F的次數;
(4.3)由個人側檔中的UPL=三元組中相同類UPW的所有關鍵短語UW的權值UWE相加後取平均值,再設一個閾值t,使所有平均值大於t的UPW進入公共側檔;
(4.4)公共側檔的安全策略有兩種
(4.4.1)對公共側檔媒體資料的描述符中,限制每位用戶就特定關鍵字的投票次數,並對用戶投票設有時間限定,超過時間限定後,用戶針對同一關鍵短語和多媒體對象更改其投票;
(4.4.2)、每位用戶都存儲有公共側檔的副本,原先公共側檔的升級轉變為對副本更新,從而形成新版公共側檔,本地僅記錄變化部分;在特定的時間段,系統會自動運行一個處理進程將所有本地公共側檔融合到一個中心公共側檔,每個本地版本都會被手動或自動程序檢查後決定是否放入公共側檔,生成一個新的公共側檔,並且所有的本地版本都與它保持一致。
6、如權利要求5所述的一種個性化及協同化融合的網上多媒體檢索與查詢方法,其特徵在於所述的步驟(5)中,基於多模態信息融合分析的跨媒體檢索,包含以下步驟
(5.1)提取出各種模態媒體對象的底層特徵,計算同種模態媒體所有對象間兩兩的距離,並將所有距離進行高斯歸一化;
(5.2)通過非線性方法對不同多媒體文檔內的聲音、視頻、圖像、文本等對象所攜帶的信息進行融合分析,求得步驟(5.1)中得到的各個距離的最大值maxdis和最小值mindis,定義多媒體文檔之間的距離Dis如下
Dis=λ×min dis+(α+ln(β×(max dis-min dis)+1))+A(12)
其中α、β、λ和A是根據資料庫大小和數據分布情況可調節的常數;
(5.3)建立多媒體文檔關聯圖,每個多媒體文檔是該圖上的一個頂點,任意兩點間有一條邊,邊的權重即為步驟(5.2)中計算的距離,表示兩個多媒體文檔的相似關係;
(5.4)重構多媒體文檔關聯圖,首先設置一個閾值,將權重大於閾值的邊的權全部設為無窮大;然後對所有的邊,用兩點間最短路徑作為該邊的新權重;
(5.5)採用多向度量法將多媒體文檔關聯圖投影到多媒體語義空間,所有多媒體文檔都在該空間有唯一的坐標,所有多媒體文檔內的媒體對象也都被該坐標所指向;
(5.6)用戶檢索時,首先找到該媒體對象在多媒體語義空間的坐標,再計算與其他所有媒體對象的距離,並返回距離最近的目標模態的媒體對象。
全文摘要
一種個性化及協同化融合的網上多媒體檢索與查詢方法,包括以下步驟(1)利用已有的語義信息,進行媒體對象語義的自動標註;(2)建立包含用戶信息及個人喜好的用戶側檔,檢索系統按照用戶意圖對檢索結果進行排序和優化;(3)根據用戶相關反饋,動態調整用戶側檔中各關鍵短語的權重,更準確體現用戶意圖;(4)建立用戶側檔→群組側檔→社區側檔的多層側檔模式,層次間具有繼承與共享機制,求同存異,支持海量存儲;(5)對多模態信息融合分析進行多媒體語義理解,實現跨模態的多媒體對象檢索。本發明能準確把握用戶的意圖,實現高精度、個性化、跨模態的多媒體檢索。
文檔編號G06F17/30GK101334796SQ20081013799
公開日2008年12月31日 申請日期2008年7月18日 優先權日2008年2月29日
發明者朱信忠, 趙建民, 青 李, 徐慧英 申請人:浙江師範大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀