多指標綜合權重音、視頻專輯排序系統的製作方法
2023-07-25 06:19:06 2
專利名稱:多指標綜合權重音、視頻專輯排序系統的製作方法
技術領域:
本發明屬於音、視頻專輯數據處理領域,特別涉及一種音、視頻專輯排序系統。
背景技術:
隨著網際網路的發展,視頻的影響力正在逐步增強,網際網路上的視頻數量也與日倶
增。為了便於查找和觀看,一些視頻網站提供了將多個相關視頻製作成一個音、視頻專輯的
形式的方法,用戶只要找到這個音、視頻專輯,就可以觀看該音、視頻專輯中的全部視頻,而
不需要分別另外查找。但是隨著音、視頻專輯數量的增加,音、視頻專輯名稱和標籤重複的
現象不可避免,因此當某個用戶需要查找某個音、視頻專輯時,結果中往往出現大量的同名
音、視頻專輯,讓用戶無從選擇。在傳統的視頻搜尋引擎中,對音、視頻專輯的排序僅僅根據
文本的相似性進行,將那些描述文本(如音、視頻專輯標題,標籤等)與查詢文本相似的音、
視頻專輯排在前面返回給用戶。
這樣的排序結果具有以下不足 1、一些用戶為了提高自己製作音、視頻專輯的搜索排名,可能會填充一些與該音、 視頻專輯無關的熱門搜索詞彙,影響音、視頻專輯搜索的準確性和客觀性;
2、影響用戶搜索體驗,降低對網站的滿意度和忠誠度;
3、增加用戶點擊或搜索次數,加重伺服器負擔。 鑑於此, 一些音、視頻專輯網站採用了一些其他排序方式,如按照播放次數排序, 音、視頻專輯的播放次數越多,排名越靠前。或者按照上傳時間、音、視頻專輯時長等要素進 行排序。這些排序方式從本質上來說,都只採用了一個衡量指標,而忽略了音、視頻專輯的 其他豐富特性,導致最後搜索排序的結果不能滿足用戶的真正需求。 因此,目前的排序技術在音、視頻專輯搜索的表現形式中過於單一,不能準確反映 音、視頻專輯的質量和受歡迎程度,難以滿足用戶的真正搜索需求。
發明內容
為了解決以上問題,本發明提供一種多指標綜合權重音、視頻專輯排序系統,通過 分析音、視頻專輯的多重內在指標和用戶的反饋信息,構建了一套衡量音、視頻專輯質量優 劣的指標體系,利用該指標體系對每個音、視頻專輯計算其得分,計算結果作為搜尋引擎排 序依據。 為實現上述目的,本發明採用如下技術方案
—種多指標綜合權重音、視頻專輯排序系統,包括
音、視頻專輯資料庫,用於保存音、視頻專輯原始信息; 音、視頻專輯分析處理模塊,與所述音、視頻專輯資料庫相連接,用於對所述音、視 頻專輯資料庫中的音、視頻專輯原始信息進行分析和處理; 主觀權重確定模塊,用於設定排序指標j並給出排序指標j的主觀權重; 客觀權重計算模塊,與所述音、視頻專輯分析處理模塊和主觀權重確定模塊相連接,根據所述音、視頻專輯分析處理模塊提供的數據,計算所述主觀權重確定模塊所確定的 排序指標j的客觀權重; 優化決策模塊,與所述客觀權重計算模塊相連接,用於計算每個排序指標j的綜 合權重Wj,其中,5^iWj = l,Wj > o,F(vv) = i:SUi:S^Ui[(w廠aj)Zi(i)]2 + (1 - n)[(w廠bi)Zi(j)]2} 模型F(w)表示各指標排序得分的權重誤差平方和,F(w)越小,反映出權重Wj越準 確,更能刻畫各指標之間的關係,aj、bj, j = 1、2、…、m分別為指標j的主觀和客觀權重;0 < P < 1為偏好係數; 指標排序得分計算模塊,與所述音、視頻專輯分析處理模塊相連接,用於計算每個 音、視頻專輯i對於指標j的排序得分Zi (j); 綜合得分計算模塊,與所述優化決策模塊和所述指標排序得分計算模塊相連接, 用於計算該音、視頻專輯的加權得分值fi,其公式為
fi = S^iWj *Zi(j),i = 1、2、…、n。 本發明能真實客觀反映音、視頻專輯的內在特性,真正優秀和受用戶歡迎的音、視 頻專輯將排名靠前,旨在解決現有音、視頻專輯搜尋引擎在排序技術上的不足,使最後排序 得分更客觀公正。其綜合考慮了音、視頻專輯多項特徵以及用戶對音、視頻專輯的反饋,能 夠對音、視頻專輯進行智能化的靈活排序,以最佳方式將搜索到的音、視頻專輯結果返回給 用戶。 為了使本發明的目的、技術方法和優點更清晰明白,下面結合附圖,對本發明進一 步進行詳細解釋和說明。
圖1為本發明多指標綜合權重音、視頻專輯排序系統結構示意圖。
具體實施例方式
如圖1所示,一種多指標綜合權重音、視頻專輯排序系統,其包括 音、視頻專輯資料庫,用於保存音、視頻專輯原始信息,該音、視頻專輯原始信息可
包括音、視頻專輯的播放次數、標題、評論數、更新時間、上傳人、原創貢獻率、訂閱數、瀏覽
數等; 音、視頻專輯分析處理模塊,與所述音、視頻專輯資料庫相連接,用於對所述音、視
頻專輯資料庫中的音、視頻專輯原始信息進行分析和處理,例如將音、視頻專輯內容轉化成
其它處理模塊中需要的格式,同時還可對稀疏數據和噪音數據進行處理; 主觀權重確定模塊,用來確定多個排序指標j,並對這些排序指標j給出主觀權
重。該主觀權重可通過隨機調查用戶需求,並徵求音、視頻專輯業內專家意見,確定多個排
序指標j,並給出這些排序指標j主觀權重。在本實施例中主要採用了文本匹配程度、日均
播放次數、最後更新時間、原創貢獻率、訂閱數、評論數、均衡度等指標作為排序的排序指標
j。其中文本匹配程度這一指標由搜尋引擎負責度量,在搜索時與本系統計算的排序得分進
行整合。可以理解,上述的幾個排序指標j只是用來解釋本說明,而不是構成本發明對排序
5指標j選擇範圍的限制。 客觀權重計算模塊,與所述音、視頻專輯分析處理模塊和主觀權重確定模塊相連 接,根據所述音、視頻專輯分析處理模塊提供的數據,計算所述主觀權重確定模塊所確定的 排序指標j的客觀權重。其中所述客觀權重可通過熵值法計算得到。熵(entropy)是系統 狀態不確定性(混沌態)的度量,可被用來度量排序指標j包含信息量的大小。熵越大,說 明該排序指標j包含的信息越多,該指標對於音、視頻專輯的排序效果就越大,即指標傳輸 的決策信息也就越大,它的權重係數值也就越大。熵值法的優點在於該方法最大程度地利 用了評價方案的目標值或屬性值來計算各指標的權重係數,因而是較為客觀的權重係數賦 權方法。 熵值法計算公式如下 設各指標的客觀權重為bj, j = 1、2、…、m,則
m bf(l-hj)/》l-hk)
k=l其中,hj = (Inn)-^^pj(i)lnpj(i)為每個指標j的熵;Pj(i) = Zj(i)/SIUZj(i)用
來刻畫所有音、視頻專輯對於指標j的分布;Zj(i)為每個指標的標準化(規範化)得分;且
當Pj(i) = 0時,規定Pj(i)l即j(i) = O(i = 1、2、 ...、n;j = l、2、…、m)。 優化決策模塊,與所述客觀權重計算模塊相連接,用於計算每個排序指標j的綜
合權重Wj。根據客觀權重和主觀權重,建立數學模型,並計算其最優解,該最優解就是每個
排序指標j的綜合權重Wj。如果僅僅根據主觀權重進行音、視頻專輯排序,不能真實準確反
映指標的重要程度,往往造成排序結果的不準確。因此為了兼顧主觀權重的偏好,又充分利
用客觀權重帶來的客觀信息,建立如下優化決策模型 設各項指標的綜合權重為Wj,其中,S卩i Wj = 1, Wj > 0,f(w) = i:^E^i(H[(w廠ai)Zi(j)]2 + (1 — n)[(w廠bj)Zi(j)f)( * ) 模型F(w)表示各指標排序得分的權重誤差平方和,F(w)越小,反映出權重Wj越準 確,更能刻畫各指標之間的關係。其中aj、 bj, j = 1、2、…、m分別為指標j的主觀和客觀 權重。0< ii < 1為偏好係數,反映分析者對主觀權重和客觀權重的偏好程度,這裡取P =0. 5。 通過證明知,當綜合權重Wi = iiai+(l-ii)bi, i = 1、2、…、m時,模型F(w)得到
唯一最優解,即取得最小值。 指標排序得分計算模塊,與所述音、視頻專輯分析處理模塊相連接,用來計算每個 音、視頻專輯i對於指標j的排序得分Zi(j)。本發明中採用的排序指標j有日平均播放次 數、更新時間、原創貢獻率、被訂閱數、被評論數、均衡度,其指標j分別記為1、2、3、4、5、6。 下面就排序得分Zi(j)的具體計算方法加以說明。
日平均播放次數得分Zi (1): — NORM(NP(i))
z"l) = MAX(NORM(NP(i)))i=1,2,3, . 其中,NP (i)為第i個音、視頻專輯的日均播放數;MAX({x})(下同)用來計算集合 {x}的最大值;
6
(x,
100x> 100'
NORM(x) = (loo + LOG2(x - 99)
為數學變換函數,對數據量過大的進行處理;L0G2(x)是以2為底的對數變換。更新時間得分Zi(2):
z"2)=
0.7 +0.6 +
days(i)
0.5 +0.4 +
days(i)—21
days(i)-8l
如果0 S days(i) S 3如果4 ^ days(i) < 31
如果31 S days(i) < 91
如果91 S days(i) < 366
如果366 S days(i).
days(i)-356 其中days(i)為該專輯最後更新時間離現在的天數。該函數是單調遞減的分段函數,用來刻畫隨著最後更新天數的增加,音、視頻專輯重要性逐漸降低這一現象。
專輯原創貢獻率得分Zi (3):、 NORM(NR(i))
Zi(3) = MAX(NORM(NR(i)))i=1,2,3".. 其中,NR(i)表示第i個音、視頻專輯中的原創視頻數目,TOTAL—NR(i)為專輯中的
視頻總數;專輯中的原創節目越多,該專輯排序越靠前,該指標的設計原則是鼓勵用戶更多
的製作原創專輯。 被訂閱數得分Zi(4):
_ NORM(NS(i))L0052」Zii^j — MAX(N0RM(NS(i)))i=1,2,3,... 其中,NS (i)表示第i個音、視頻專輯被訂閱的次數,其被訂閱次數越多,說明越受
歡迎,其排名應該越靠前。 被評論次數得分Zi (5):
麗M(NC(i))L0055」Z"5J — MAX(N0RM(NC(i)))i=i23 其中,NC(i)表示第i個音、視頻專輯被評論次數,其被評論次數越多,說明該專輯
越熱門,其排名應該越靠前。
均衡度得分Zi (6): 影響專輯均衡度的因素有播放次數NP(i)、評論數NC(i)、訂閱數NS(i)、瀏覽數NV(i),專輯的均衡度得分指的是各個音、視頻專輯被播放、評論、訂閱和被瀏覽次數之間的均衡程度的度量,這四個數字越均衡,說明越能激發用戶參與互動的積極性,排序得分越高;反之應該在得分上受到懲罰。該度量指標的引入能夠避免用戶刻意的在某一項上的作弊行為對節目公正性的影響。均衡度得分Zi(6)採用變異係數法來計算,分成以下幾步進行 步驟(1):預處理(無量綱化處理) 通過統計採樣計算各個指標的權重,然後初始化NP (i) , NC (i) , NS (i) , NV (i)。本發明中使用的方法是抽樣1000個音、視頻專輯,分別計算其播放、評論、訂閱、瀏覽的平均數,並以此作為這四個指標的權重,然後針對每個音、視頻專輯,用原始的播放、評論、訂閱、瀏覽數分別除以各指標的權重即得到初始化值NP(i) , NC(i) , NS(i) , NV(i)。
步驟(2):計算平均數
NP(i) + NC(i) + NS(i) + NV(i)
X(i) = 4
步驟(3):計算均方差
_ /(NP(i)-X(i))2+(NC(i)-X(i))2 + (NS(i)—X(i))2 + (NV(i)-X(i))2
的)=、, 4
步驟(4):計算變異係數V(i)
V(i)=,v J x(i)
步驟(5):相對法規範化處理,計算均衡度得分
Z 「6)=最大變異係數-當前變異係數— MAX(V(i))-V(i)"J 一最大變異係數-最小變異係數MAX(V(i))-MIN(V(i)) 綜合得分計算步驟,利用所述指標排序得分計算步驟計算的每個音、視頻專輯對
單個排序指標j的得分值和綜合權重Wj,計算該音、視頻專輯的加權得分值fi,其公式為 fi = SJ^iWj *Zj(j),i = 1、2、…、n。 應當說明的是,本發明中的模塊即可以內置於搜尋引擎中,也可以獨立於搜尋引擎外,供搜尋引擎調用排序結果,本發明中所使用的客觀權重計算方法及均衡度算法,並不局限於所提及的幾種,根據需要可以另行更換和調整。另外本發明中使用的綜合權重方法也不局限於以上提及的情形。以上所述的算法僅為本發明的較佳實施方法而已,並不用於限制本發明,凡在本發明精神和原則範圍之類所做的任何修改、等同替換和改進等,均應包含在本發明的保護之內。
權利要求
一種多指標綜合權重音、視頻專輯排序系統,其特徵在於包括音、視頻專輯資料庫,用於保存音、視頻專輯原始信息;音、視頻專輯分析處理模塊,與所述音、視頻專輯資料庫相連接,用於對所述音、視頻專輯資料庫中的音、視頻專輯原始信息進行分析和處理;主觀權重確定模塊,用於設定排序指標j並給出排序指標j的主觀權重;客觀權重計算模塊,與所述音、視頻專輯分析處理模塊和主觀權重確定模塊相連接,根據所述音、視頻專輯分析處理模塊提供的數據,計算所述主觀權重確定模塊所確定的排序指標j的客觀權重;優化決策模塊,與所述客觀權重計算模塊和主觀權重確定模塊相連接,用於計算每個排序指標j的綜合權重wj,其中,wj≥0, F ( w )= i=1 n j=1 m{ [ ( wj - aj ) z i ( j )] 2+ ( 1 - ) [ ( wj - bj ) z i ( j )] 2} 模型F(w)表示各指標排序得分的權重誤差平方和,F(w)越小,反映出權重wj越準確,更能刻畫各指標之間的關係,aj、bj,j=1、2、…、m分別為指標j的主觀和客觀權重;0<μ<1為偏好係數;指標排序得分計算模塊,與所述音、視頻專輯分析處理模塊相連接,用於計算每個音、視頻專輯i對於指標j的排序得分zi(j);綜合得分計算模塊,與所述優化決策模塊和所述指標排序得分計算模塊相連接,用於計算該音、視頻專輯的加權得分值fi,其公式為 f i= j=1 m w j* z i ( j ), i=1、2、...、n。F200810202200XC0000011.tif
2. 根據權利要求1所述的多指標綜合權重音、視頻專輯排序系統,其特徵在於所述y = 0.5,綜合權重Wi = iiai+(l-ii)bi, i = 1、2、…、m。
3. 根據權利要求1或2所述的多指標綜合權重音、視頻專輯排序系統,其特徵在於所述客觀權重計算模塊為熵值法計算的模塊,熵值法計算公式如下設各排序指標j的客觀權重為b,., j = 1、2、…、m,則其中,hj = (lnn)-ii;iUPj(i)lnpj(i)為每個指標j的熵;Pj(i) = Zj(i)/5]lUzj(i)用來刻畫所有音、視頻專輯對於指標j的分布;Zj(i)為每個指標的標準化(規範化)得分;且當 Pj(i) = 0時,規定Pi(i)l即j(i) = 0, i = 1、2、 ...、n;j = l、2、…、m。
4.根據權利要求3所述的多指標綜合權重音、視頻專輯排序系統,其特徵在於 所述指標排序得分計算模塊為計算排序指標j :日平均播放次數、專輯更新時間、原創 貢獻率、被訂閱數、被評論數、均衡度中的多個或全部排序指標,具體計算為 日平均播放次數得分Zi(l): formula see original document page 2其中,NP (i)為第i個音、視頻專輯的日均播放數;MAX({x})(下同)用來計算集合{x 的最大值;formula see original document page 3為數學變換函數,對數據量過大的進行處理;L0G2(x)是以2為底的對數變換; 更新時間得分Zi(2):formula see original document page 3如果0 S days(i) ^ 3 如果4 S days(i) < 31如果31 S days(i) < 91如果91 S days(i) < 366如果366 S days(i).days(i)-3S6其中days(i)為該專輯最後更新時間離現在的天數。 專輯原創貢獻率得分Zi(3):— NORM(NR(i)) Zi(3) = MAX(NORM(NR(i)))i=1,2,3,...其中,NR(i)表示第i個音、視頻專輯中的原創視頻數目,TOTAl^NR(i)為專輯中的視頻總數。被訂閱數得分Zi(4):— NORM(NS(i)) Zi(4) = MAX(NORM(NS(i)))i=1,2,3,...其中,NS(i)表示第i個音、視頻專輯被訂閱的次數。 被評論次數得分Zi(5):_ NORM(NC(i))=MAX(NORM(NC(i)))i=1,2,3, 其中,NC(i)表示第i個音、視頻專輯被評論次數。 均衡度得分Zi(6):專輯的均衡度得分指的是各個音、視頻專輯被播放、評論、訂閱和被瀏覽次數之間的均 衡程度的度量。
全文摘要
多指標綜合權重音、視頻專輯排序系統,包括音、視頻專輯資料庫,音、視頻專輯分析處理模塊,主觀權重確定模塊,客觀權重計算模塊,根據所述音、視頻專輯分析處理模塊提供的數據,計算所述主觀權重確定模塊所確定的排序指標的客觀權重;優化決策模塊,用於計算每個排序指標的綜合權重,指標排序得分計算模塊,用於計算每個音、視頻專輯對於指標的排序得分;綜合得分計算模塊,用於計算該音、視頻專輯的加權得分值,本發明綜合考慮了音、視頻專輯多項特徵以及用戶對音、視頻專輯的反饋,能夠對音、視頻專輯進行智能化的靈活排序,以最佳方式將搜索到的音、視頻專輯結果返回給用戶。
文檔編號G06F17/30GK101739417SQ200810202200
公開日2010年6月16日 申請日期2008年11月4日 優先權日2008年11月4日
發明者楊傑, 譚明 申請人:未序網絡科技(上海)有限公司