新四季網

一種基於關注度分析的音視頻文件摘要方法

2023-07-13 05:43:31

專利名稱:一種基於關注度分析的音視頻文件摘要方法
技術領域:
本發明涉及音視頻分析領域,更進一步涉及基於內容的音視頻摘要分 析領域,特別是一種基於關注度分析的音頻文件摘要方法和基於此方法的 音視頻文件摘要方法。
背景技術:
音視頻數據作為一種動態、直觀、形象的數字媒體承載了大量豐富的 語義信息,越來越多地出現在各類信息服務和應用場合,如何自動而高效 地從大量音視頻數據中挖掘出有效內容信息,建立音視頻摘要和提取其中 的精彩片段已成為當前基於內容的音視頻分析領域一個前沿問題。
音視頻數據是以非結構化形式存儲的。通過建立音視頻摘要、提取其 中精彩片段一方面可以方便用戶對音視頻資料庫內容進行基於語義的快 速檢索、瀏覽,有利於多媒體數字圖書館的建設。另一方面隨著個人數字 行動裝置(手機、掌上電腦、商務通等)中多媒體技術的大量應用,也可 以滿足不斷增加的人們對隨時隨地瀏覽音視頻數據的要求。而且,無線傳 輸設備帶寬的限制,要求能夠用有限的帶寬成本來獲得最有價值即最精彩 的信息以節省下載花費,音視頻摘要技術滿足了這種移動用戶定製需求。
當前基於內容的音視頻分析主要分為兩類 一類是針對視頻中客觀事 實的理解,所分析的對象是具有客觀屬性的,不以人的情緒變化或個體間 的差異而發生改變;另一類是對音視頻文件中傳達的情感信息進行理解, 是基於人們對音視頻的主觀感知來進行分析的。本發明關注後者。音視頻 中的一些片段通常會比其他部分內容更多地吸引觀眾的注意力,引起觀眾 共鳴,影響其情緒變化,這些片段具有較高的情感關注度(attention)。情 感關注度分析,也可稱為注意力分析,就是要從音視頻文件中自動獲得這 些具有較高關注度的片段,以幫助生成音視頻摘要,便於音視頻傳輸和個 性化定製。
在現有技術中,雖然已有一些對音視頻文件中音頻關注度進行分析的 工作,但他們在對聽覺模態關注度方面的研究還很不夠。目前在音頻關注度分才斤方面專交為典型的工作是文章A generic framework of user attention model and its application in video summarization. Yu fei Ma, Xian sheng Hua, Lu lie, Hong jiang Zhang, IEEE transaction on multimedia, 2 0 0 5中提到的方法,i亥 方法較為簡單,其主要內容如下
首先,採用使用單一分類器結合音頻底層特徵進行訓練與測試將視頻 文件中的音頻進行分類;
然後,根據所述音頻分類結果,對視頻中的典型聲音類型建立關注度 分析模型,得到各聲音類型的關注度曲線;
從底層特徵角度出發對音頻中影響用戶關注度的主要因素 一 一音量元 素與音量變化元素進行自底向上(bottom-up)建模
《=d
&《〃她《; & =五—/她^。r
其中f 。和^分別為歸 一化的音頻平均能量與歸 一化的音頻平均能量峰
值;£_和£—分別為音頻平均能量與平均能量峰值;Mu&,和m^—分別 為二者的最大值。
使用中層情感特徵M,£A與對音頻中影響用戶關注度的語音與音 樂因素進行自頂向下(top-down)建模
印eec/ —八fw ,
其中風p"與隊掛分別為音頻中影響用戶關注度的中層情感特徵語音和
音樂因素的模型。A;w, AC , AC,分別為在一個滑動窗口 w範圍內聲音的 語音、音樂和總共的亞節數(subsegment )。
最後,根據上述聲音類型的關注度曲線確定摘要。
使用線性加權融合的方式融合上述各模型獲得最終的用戶關注模型,進 而確定摘要
M = A x《+^ XU V^腿,c 。
在該模型形成的音視頻文件關注度時序變化曲線上通過設定閾值選擇 超過閾值的峰值片斷作為音視頻文件的精彩摘要片斷。
這種分析方法音頻分類效果差,從而使後續的聲音類型的關注度曲線
5精度低;且僅適用於特定類型音視頻文件中的音頻關注度分析,未對音頻 中其他影響用戶關注度的因素進行分析,適用範圍較窄。

發明內容
本發明的目的是克服現有的基於關注度分析的摘要方法音頻分類效 果差,且適用範圍窄的缺陷,從而提供一種音頻分類效果好,適用於各種 類型音視頻的內容分析的音視頻摘要生成方法。
為實現上述目的,根據本發明的一個方面,提供了一種基於關注度分
析的音頻文件摘要方法,包括下列步驟
1) 基於二叉層次型的分類樹算法按照音頻文件中的典型聲音類型進 行音頻分類,其中所述二叉層次型的分類樹算法在每一分類層選用不同特 徵和分類器;
2) 根據音頻分類結果,對典型聲音類型建立關注度分析模型,得到典 型聲音類型的關注度曲線;
3) 根據典型聲音類型的關注度曲線確定摘要。 根據本發明的另一方面,上述步驟l)包括下列步驟
11) 分割音頻文件成為音頻例子;
12) 基於所述二叉層次型的分類樹算法,按照典型聲音類型對所述音 頻例子進行分類。
根據本發明的又一方面,該音頻例子的相鄰音頻例子間取50%的重疊。
根據本發明的又一方面,上述步驟2)中對典型聲音類型建立關注度 分析模型根據下列因素能量、音調和平均過零率。
根據本發明的又一方面,上述步驟2)還包括步驟將關注度分析模 型計算的結果歸一化至區間[O, l]。
根據本發明的又一方面,上述歸一化採用高斯歸一化標準。
根據本發明的又一方面,上述步驟3)採用順序決策融合方法融合關 注度分析曲線,進而確定摘要。
根據本發明的又一方面,上述典型聲音類型包括精彩同步聲音和精彩 異步聲音。
根據本發明的又一方面,上述步驟3)包括下列步驟 使用精彩異步聲音曲線粗略定位精彩片段右邊界;利用語音邊界檢測精確定位所述精彩片斷的邊界。
根據本發明的再一方面,在步驟1)之前還包括對音頻文件進行預加 重處理的步驟。
根據本發明的再一方面,還提供了 一種基於關注度分析的音視頻文件
摘要方法,包括下列步驟
a) 基於二叉層次型的分類樹算法按照音頻文件中的典型聲音類型進 行音頻分類,其中二叉層次型的分類樹算法在每一分類層選用不同特徵和 分類器;
b) 根據音頻分類結果,對典型聲音類型建立關注度分析模型,得到典 型聲音類型的關注度曲線;
c) 對視頻文件的時間關注度和空間關注度進行建模,得到視覺精彩度 曲線;
d) 根據典型聲音類型的關注度曲線和視覺精彩度曲線確定摘要。 本發明採用基於二叉層次型結構與多分類器選擇的音頻分類樹算法,
對音頻的分類效果好。選取符合人類主觀情感規律的特徵進行建模,通過 對音視頻文件中影響觀眾注意力的主要因素進行分析,獲得音視頻情感關 注度變化情況,進而生成摘要,具有框架擴展性強,可廣泛適用於體育、 影視、新聞、訪談等各類音視頻文件的優點。綜合模型中的精彩異步因素, 採用非線性融合方法,使本方法具有魯棒性和預測能力。


下面結合附圖對本發明的具體實施方式
作進一步詳細的說明,其中
圖1是基於情感關注度分析的音頻摘要算法流程圖。
圖2是基於二叉層次型結構與多分類器選擇決策的音頻分類算法示意圖。
圖3是基於情感關注度分析的音視頻摘要算法流程圖。
圖4是順序決策融合算法示意圖。
圖5是一段視頻文件的情感關注度曲線示意圖。
圖6是精彩候選片斷邊界確定方法示意圖。
具體實施例方式
本發明對於音視頻文件從人類主觀情感認知角度出發進行分析,選取最為有效的特徵進行建模,提出符合人類主觀感知規律的建模方法。
圖1是根據本發明一個實施例的算法流程圖。該方法具體步驟如下
首先,選擇該音頻文件中典型聲音類型,特別是能夠表達情感的聲音 類型,採用基於二叉層次型的分類樹算法按照典型聲音類型進行分類,將 音頻文件按照時序變化根據不同的典型聲音類型進行標定。
每類音頻文件都會有其代表性的典型聲音類型,通常這些典型聲音類 型中包含了更為豐富的語義信息,更能引起觀眾的注意力。例如在訪談中, 語音、靜音、觀眾的笑聲、掌聲為其中的典型聲音類型, 一段精彩片斷之 後一般會緊跟觀眾的笑聲或鼓掌聲;在影視文件的音頻中,語音、靜音、 音樂等聲音為典型聲音類型;在體育節目的音頻中,觀眾歡呼聲、解說員 解說聲、比賽相關聲音等為典型聲音類型,進球得分的精彩片斷之後一般 會跟隨觀眾的歡呼聲或者解說員的激烈解說聲,進球時總會伴有擊球聲。 一般伴隨精彩片段同時出現的較為突出的聲音類型稱為精彩同步聲音,例 如上述的擊球聲;另外,有些聲音類型會緊隨精彩片段之後出現,稱之為 精彩異步聲音,例如上述精彩片段發生之後的笑聲和歡呼聲。精彩同步聲 音模型是指對應於精彩同步聲音類型的模型,精彩異步聲音模型是指對應 於精彩異步聲音類型的模型。
以體育比賽中的音頻文件處理為例對該步驟進行說明。為了減少尖銳
噪聲影響,提升高頻信號,對原始音頻數據作預加重(re-emphasize )處理。
設x(")為原始信號,yO)為處理後信號,貝'J:
K") = -0.97*x("-1) 公式(1 )
將處理後的音頻文件分割為定長的音頻例子(audio samples ),相鄰音 頻例子間取50%的重疊,將這些帶有重疊的音頻例子作為分類等後續處理 的基本單元。
對音頻分類,現有技術的音頻分類算法基本上不使用分層結構,僅使 用單一分類器(支持向量機SVM、隱馬爾科夫模型HMM、 Adaboost分類 器等),分類特徵固定,或簡單使用融合多個分類器的單層結構採用投票 判別決策的方法進行音頻分類,分類效果較差。本發明提供了一種基於二 叉層次型的分類樹算法進行音頻例子分類的方法。分類後,整個音頻文件按 照時序被分成了各個聲音類型的片段,該分類結果作為對各個代表性聲音 類型建模的依據,還可以作為後續確定精彩候選片斷邊界的根據。該方法 具體描述如下在音頻分類的訓練與測試時,分層次進行。每一層次可以分別選擇對 該層的兩類聲音類型分類效果最優的底層音頻特徵,並可以使用不同的分 類器進行分類,如圖2所示。
關於底層音頻特徵選擇,在第一層使用能量(Energy)與過零率(Zero Cross Rate)兩個特徵來區分靜音與非靜音。在第二層使用MFCC(12維), Pitch,靜音比例,低頻能量比率、高過零率比率來區分語音與非語音。其 中,MFCC是Mel標度頻率域提取的到譜係數,它描述了人耳對頻率感知 的非線性特徵,常用於語音識別與說話人識別。音調(Pitch)是語音中的 音調特徵,是判別語音與非語音的重要特徵之一。靜音比例是音頻例子特 ;f正,定義如下
formula see original document page 9
即 一段音頻例子中靜音採樣點個數佔整個音頻例子採樣點數的百分比。由 於語音較其他類型聲音會有較多的停頓之處,所以靜音比例是區分語音與 其他類型聲音的良好特徵。低頻能量比率為頻域音頻例子特徵,在非靜音 音頻中,語音比其他類型聲音含有更多靜音,因此語音信號中頻域能量低 於某個閾值的比例要高於其他類型,所以該特徵也是區分語音與非語音的
一個顯著特徵。低頻能量比率定義為
Z^i (3^二 一Z[sgn(a^(£72)-£0)) + l] 7>式(3 )
高過零率比率定義為
ZC朋她=—y [sgn(ZC7 (") — 1. 5avgZC7 ) +1]
2AfS 公式(4)
以上兩式中,W為一個音頻例子中的幀數,五(")為第n幀的頻域能量,
表示求平均運算,sgn表示返回括號內函數的整數。在第三層,使用短時
平均能量、過零率、帶寬來判別歡呼聲與非歡呼聲。在歡呼聲中過零率的
變化率要低於其他類型音頻,所以該音頻例子特徵為區分歡呼聲的良好特
徵之一。第四層使用子帶能量、帶寬、過零率、頻率中心特徵來分類擊球
聲與其他類型聲音。以上僅是以體育比賽中的音頻數據處理示例,音頻分
類特徵的選擇可針對不同音頻數據根據上述思想進行擴展與更新。
由於採樣、樣本分布及特徵提取方法的不同,不同的分類器會單獨表
現出對某個單獨特徵或某個單獨分類問題的偏好,所以綜合各個分類器的優點將分類器進行組合與選擇來進行決策判別可以提高分類的堆石用度/遲 到比使用單一分類器更好的性能。在本發明中選用在音頻分類中使用較多 並具有較好分類效果的多種不同分類器作為候選分類器,如支持向量機
SVM、隱馬爾科夫模型(HMM)、高斯混合模型(GMM)等。設使用的 分類器集合為屍=^,《,......,^},第i層的訓練樣本集合為x,^A:,;^,......,;u,
第i層的音頻類別為4^4p^。對第i層上分類器巧的選擇方法是
formula see original document page 10
max表示對括號內分式取最大值,arg表示取令括號內分式取最大值的參 數J的值。所以公式(5)的含義是對該層的兩類聲音類型分類效果最優 的分類器選擇使括號內函數取得最大值的分類器。在測試時使用該分類器 對未知數據進行分類可降低運算複雜度、提高運算效率。
在對代表性聲音類型進行準確分類的基礎上,本發明對音頻文件中的 代表性聲音類型建立關注度分析模型,得到各聲音類型的關注度曲線。
音頻中影響用戶關注度的主要因素有能量(五"wgv,)、音調 和平均過零率(^),其中能量的大小可以衡量各類聲音的強弱程度,音 調的高低可以衡量語音的尖銳程度,平均過零率可以衡量音樂的緩急程 度。以上是優選因素,當然也可以綜合其它因素,例如帶寬、線性預測系 數、子帶能量等特徵。如網球比賽的音頻中典型聲音類型包括語音、鼓掌 聲、笑聲、音樂和擊球聲等,本發明採用上述因素對這些典型聲音類型關 注度模型表示如下
formula see original document page 10M'。"=C,') xl00% ^臓0匿欲)(弱〃 x 100%
formula see original document page 11
公式(10) formula see original document page 11公式(11 )
formula see original document page 11公式(12)
其中風^, ^,,碼。 , Mw,是分別對語音、鼓掌聲、笑聲、音
樂和擊球聲的關注度模型。n, p, q, r, k分別是每個音頻例子中採樣點 數目。
把上述各聲音類型關注度模型計算的結果歸一化至區間[O, l]內,例 如通過高斯歸一化標準進行此操作。對於一段確定的音頻文件的各個聲 音類型,連接每個音頻例子上的相應關注度值,在時序上獲得多條關注度 變化曲線語音關注度曲線C^,笑聲關注度曲線C,^,掌聲關注度曲線 C,,音樂關注度曲線C^、和擊球聲關注度曲線Q,。這些曲線從不同方面 反映了觀眾傾聽該文件時的關注度變化情況。
融合所有聲音類型的關注度曲線確定最終的音頻文件時序精彩程度 變化情況,以精彩關注度時序曲線表示。對各個不同的聲音類型關注度模 型,可以採用公知技術的方法,不考慮精彩異步聲音模型的特殊性從而採 用線性加權融合方式進行融合。本發明還提供了一種優選的順序決策融合 方法,該方法採用更為符合人類主觀感知特點的非線性融合方法,具有更 強的魯棒性與預測能力。採用順序決策融合算法獲得的音頻例子的精彩關 注度如下式所示
乾-(、.氣e+A歸I畫+H^CeH"G(") 公式(13 )
其中、e,義自,4,分別為每個精彩同步聲音模型的權重,滿足均大於0且
l+U4, = i。 p, q分別為精彩異步聲音片段(掌聲和笑聲)的持續時
間(以秒為單位)。G(")為高斯平滑窗,n是平滑參數,優選的n取60。由 音頻文件精彩關注度形成的曲線即是該文件的精彩關注度時序曲線。
如公知技術的方法,可以直接使用閾值法在音頻文件的精彩關注度時 序曲線上選取超出閾值的片斷作為精彩候選片斷(閾值/可根據具體需要 設定)。該方法尤其適用於不存在精彩異步影響因素的音頻文件,例如恐 怖片、紀錄片等。若音頻文件中存在精彩異步影響因素,例如情景喜劇、訪談節目等, 還可以採用如下所述優選方案。以上述體育比賽為例, 一般在精彩片段發 生後會馬上出現一段歡呼聲。
首先,使用精彩異步聲音曲線和C,粗略定位發生在觀眾掌聲或 歡呼聲之前的精彩片段位置。在對整段音頻文件進行準確分類的基礎上, 以精彩異步聲音如笑聲等發生的左邊界作為精彩候選片斷的右邊界,從該 處開始向前查看,若其之前的語音片斷長度^e大於預先設定的閾值 則將該語音片斷的開始點設為精彩候選片斷的左邊界,否則繼續向前查找 前一段語音片斷的開始點直到該片斷長度大於或等於Ar為止。
再利用語音邊界檢測(靜音檢測)來精確定位這些精彩片斷的左右邊 界。因為在語音片斷中一句完整的意思表達完之後會有一小段停頓,所以 需要找出這些語音中的停頓點以避免在最初確定邊界時破壞視頻的完整 性。左右邊界之間的那段視頻片斷就是最終的摘要,如圖3所示。
上述是音頻摘要方法,不僅可以對單純的音頻文件進行處理,也可以 對音視頻文件中的聽覺模態進行處理。同時對於後者,在該方法的基礎上 增加視頻關注度的分析,從而綜合聽覺與視覺兩方面的因素對各類音視頻
文件進行更完善地摘要處理,音視頻相結合的關注度分析算法流程如圖4所示。
其中視頻關注度分析方法具體步驟如下
視頻文件中的圖像特徵如顏色、紋理、形狀等可以從一幀圖像中計算 獲得,稱為"視頻幀內特徵"。與其對應的,需從至少兩幀圖像中獲得的 圖像特徵稱為"視頻幀間特徵"。由於視頻文件中的精彩片段通常會持續 多幀,單一視頻幀的個別情況通常對整段視頻影響不大。所以本發明從運 算效率角度出發採用與精彩片段密切相關的4見頻幀間特徵"來對視覺關 注度建立評價標準。
視覺模態不僅包含空間信息也包含時間信息,這些信息都會對用戶注 意力產生影響。本發明在視覺模態分別對空間信息與時間信息進行關注度 表示。通常平均運動向量(motion vector)可以較好地表徵視頻幀間的運動情 況,當一秒鐘內的平均運動向量較大時該視頻場景往往具有較大的運動變 化強度,更易於吸引觀眾的注意力。儘管有些時候運動向量並沒有真實地 反映視頻中的運動信息,但利用這一特徵可以在絕大多數情況下降低運算 複雜度並得到正確結果。本發明把視覺空間信息關注度M_表示為formula see original document page 13
其中MJ^表示從解碼過程中獲得的第i幀的運動向量,k為視頻幀速(例
如25幀/秒)。
在時間維度,鏡頭轉換率(shot change rate)通常被用於描述攝像機運 動。當鏡頭切換較為頻繁時,通常是視頻內容緊張激烈的時刻,觀眾的注 意力也更容易被吸引。視覺時間信息關注度M^表示為
formula see original document page 13
其中pw和分別是第*幀左右兩側最近鄰的鏡頭邊界幀號;參數5 為常數,由w("-p("確定,用於保證M^的值分布於0%到100%之間。
類似地,各視覺精彩度評價公式的取值範圍也可以使用高斯歸一化標 準限定在區間[O, l]內,對於一段確定的視頻文件,可以使用上述公式(14) 和(15)在時序上獲得兩條視覺精彩度曲線視覺空間關注度曲線C一視 覺時間關注度曲線Q。綜合語音關注度曲線C,、笑聲關注度曲線C,^、 掌聲關注度曲線C,、音樂關注度曲線。 ,和擊球聲關注度曲線^,,基於 順序決策融合算法將多條曲線進行融合得到最終的音視頻文件關注度時 序變化曲線,如圖5所示。 一段音視頻文件的情感關注度曲線如圖6所示。
與音頻摘要類似,音視頻摘要的順序決策融合算法表述如下使用精 彩同步模型m^,《m, m,一m_, i^,等結合精彩異步模型m^, m,。a來
確定最終的視頻文件時序精彩程度變化情況。採用該順序決策融合算法所 獲得的視頻文件精彩程度評價標準如下式所示formula see original document page 13
其中V, l, l,義,,4分別為每個精彩同步聲音模型的權重,滿足 均大於0且V+4j^+UK p, q分別為精彩異步聲音模型掌
聲模型、笑聲模型的持續時間(以秒為單位)。G(")為高斯平滑窗,n是平
滑參數(如n可取60)。
本發明適用於各類型音頻及音視頻文件摘要的提取,其中不同類型文
件僅需在關注度建模時作細微的調整,整體方法不變。該方法具有計算復
雜度較低、得到的摘要片段符合人類主觀感知規律的優點,在實驗中使用
本方法生成的音頻和音視頻文件摘要取得了良好的效果。應該注意到並理解,在不脫離後附的權利要求所要求的本發明/々精神 和範圍的情況下,能夠對上述詳細描述的本發明做出各種修改和改進。因 此,要求保護的技術方案的範圍不受所給出的任何特定示範教導的限制。
權利要求
1.一種基於關注度分析的音頻文件摘要方法,包括下列步驟1)基於二叉層次型的分類樹算法按照音頻文件中的典型聲音類型進行音頻分類,其中所述二叉層次型的分類樹算法在每一分類層選用不同特徵和分類器;2)根據所述音頻分類結果,對所述典型聲音類型建立關注度分析模型,得到所述典型聲音類型的關注度曲線;3)根據所述典型聲音類型的關注度曲線確定摘要。
2. 根據權利要求1所述的方法,其特徵在於,所述步驟1 )包括下列 步驟11) 分割音頻文件成為音頻例子;12) 基於所述二叉層次型的分類樹算法,按照所述典型聲音類型對所 述音頻例子進行分類。
3. 根據權利要求2所述的方法,其特徵在於,所述音頻例子的相鄰音 頻例子間取5 0%的重疊。
4. 根據權利要求2所述的方法,其特徵在於,在步驟12)中,在所 述每一分類層採用對該層兩類典型聲音類型分類效果最優的音頻特徵。
5. 根據權利要求2所述的方法,其特徵在於,在步驟12)中,在所 述每一分類層根據分類器能夠正確分類的概率選擇分類器。
6. 根據權利要求1所述的方法,其特徵在於,在所述步驟2)中對所 述典型聲音類型建立關注度分析模型根據下列因素能量、音調和平均過 零率。
7. 根據權利要求1所述的方法,其特徵在於,在所述步驟2)還包括 步驟將所述關注度分析模型計算的結果歸一化至區間[O, l]。
8. 根據權利要求7所述的方法,其特徵在於,所述歸一化採用高斯歸 一化標準。
9. 根據權利要求1所述的方法,其特徵在於,所述步驟3)採用順序 決策融合方法融合所述關注度分析曲線,進而確定摘要。
10. 根據權利要求1所述的方法,其特徵在於,所迷典型聲音類型包 括精彩同步聲音和精彩異步聲音。
11. 根據權利要求1所述的方法,其特徵在於,所述步驟3)包括下列步驟使用精彩異步聲音曲線粗略定位精彩片段右邊界; 利用語音邊界檢測精確定位所述精彩片斷的邊界。
12. 根據權利要求1所述的方法,其特徵在於,在所述步驟1)之前 還包括對所述音頻文件進行預加重處理的步驟。
13. —種基於關注度分析的音視頻文件摘要方法,包括下列步驟a) 基於二叉層次型的分類樹算法按照音頻文件中的典型聲音類型進 行音頻分類,其中所述二叉層次型的分類樹算法在每一分類層選用不同特 徵和分類器;b) 根據所述音頻分類結果,對所述典型聲音類型建立關注度分析模 型,得到所述典型聲音類型的關注度曲線;c) 對視頻文件的時間關注度和空間關注度進行建模,得到視覺精彩度 曲線;d) 根據所述典型聲音類型的關注度曲線和所述視覺精彩度曲線確定 摘要。
全文摘要
本發明提供一種基於關注度分析的音頻文件摘要方法和基於此方法的音視頻文件摘要方法。該音頻文件摘要方法包括下列步驟1)基於二叉層次型的分類樹算法按照音頻文件中的典型聲音類型進行音頻分類,其中二叉層次型的分類樹算法在每一分類層選用不同特徵和分類器;2)根據音頻分類結果,對典型聲音類型建立關注度分析模型,得到典型聲音類型的關注度曲線;3)根據典型聲音類型的關注度曲線確定摘要。該方法結合音視頻文件的視覺模態分析可以更好的完成音視頻文件摘要方法。本發明對音視頻的分類效果好。選取符合人類主觀情感規律的特徵進行建模,具有框架擴展性強,可廣泛適用於體育、影視、新聞、訪談等各類音視頻文件的優點。
文檔編號G10L15/00GK101539925SQ20081010234
公開日2009年9月23日 申請日期2008年3月20日 優先權日2008年3月20日
發明者蔣樹強, 鄭軼佳, 黃慶明 申請人:中國科學院計算技術研究所

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀