新四季網

一種三級音頻索引的創建方法及音頻檢索方法

2023-11-08 12:25:32

專利名稱:一種三級音頻索引的創建方法及音頻檢索方法
技術領域:
本發明涉及一種三級音頻索引的創建方法及基於三級音頻索引的音頻檢索方法, 屬於多媒體領域。
背景技術:
隨著計算機技術、網絡技術及多媒體技術的迅猛發展,音頻信息的數據量急劇增 多。如何能夠自動、準確、快速地尋找到感興趣的內容,實現基於音頻內容的信息檢索,就成 為一個既迫切又具有挑戰性的研究課題。音頻信息檢索技術在音頻信息搜尋引擎、實時檢 索網上電視和音/視頻點播節目中的多媒體信息內容、音頻信息統計與分類等方面有著廣 闊的應用前景。音頻樣例檢索是指從檢索源數據中查找和目標音頻數據相同的音頻片段。 由於噪音不可避免,所謂相同,也只能是聽覺效果上的相同而不是物理信號的相同。為了在海量數據下,實現快速音頻樣例檢索,需要構建有效的音頻索引。然而音頻 索引一直是索引研究領域中的難點,存在著如下困難(1)音頻數據的特徵維數高,存在著 「維數的詛咒」,即,索引的複雜度隨維數的增加呈指數增長,這一直是索引研究領域中的難 點;(2)音頻數據非離散可分,不存在自然的分割點;(3)音頻數據具有時序性,需要存在一 定時長的連續數據才有意義。此外,音頻信息檢索的種類不同,檢索中對音頻信息的著眼點 和採用的檢索方法也有很大差異。目前的技術沒有建立對所有音頻檢索類別都通用的索引 機制,無法滿足大規模資料庫和網絡環境下的音頻樣例檢索要求。即,針對大規模資料庫和 網絡環境下的音頻樣例檢索缺少快速、有效的索引機制,因此,在具體應用背景下,針對不 同的檢索應用,研究合適的檢索和索引算法將既有理論意義又有現實意義。

發明內容
本發明目的是為了解決現有技術針對大規模資料庫和網絡環境下的音頻樣例檢 索缺少快速、有效的索引機制的問題,提供了一種三級音頻索引的創建方法及音頻檢索方法。本發明三級音頻索引的創建方法包括以下步驟
步驟一、對資料庫中每個音頻特徵文件中的維特徵向量進行降維處理,生成一維的 量化值,作為第一級索引;
步驟二、將第一級索引數據按單元長度截成一系列片段,片段內的第一級索引值構成 片段向量,計算每個片段向量的模先,作為索引鍵值,以三元組形式描述片段向量,將所有 片段三元組按鍵值排序則構成第二級索引;
三元組包括索引鍵值先、源文件id和片段向量在源文件中的位置i, 步驟三、計算步驟二所述的每個片段的類別分,然後根據類別分將所有片段向量分組, 作為第三級索引,即,類別索引。基於上述三級音頻索引的檢索方法,包括以下步驟
步驟1、對查詢音頻的特徵向量序列進行降維獲取其第一級索引值,將第一級索引數據按單元長度截成一系列片段向量,計算出查詢音頻的每個片段向量的模& #和類別分 H .
11 quer,
步驟2、在第三級索引中,將類別分為Δ . H胃+ Δ]:範圍內的第二級索引作為
進一步搜索的集合Φ,S中Δ力範圍閾值;
步驟3、在集合φ中,將第二級索引鍵值Ii滿足條件^9y< -θ的片段
向量保留,並利用第二級索引確定所保留片段向量對應的第一級索引值#力檢索閾值;
步驟4、在第一級索引中,將步驟3確定的片段向量的第一級索引值與步驟1獲取的查 詢音頻的第一級索引值進行片段相似度匹配計算,將相似度高的音頻片段檢出。本發明的優點基於三級索引的音頻檢索方法具有索引尺寸小,內存開銷低、檢索 速度快等特點,是適合網絡音頻處理要求的高效檢索方法。採用一種自相似加權累積距離法將音頻特徵向量量化,作為第一級索引,反應了 音頻數據自身的變化情況,實現了對音頻特徵的降維量化處理,解決了「維數詛咒」的問題。在一級索引的基礎上,通過設置分析窗將窗內的多個一級索引值構成一個多維向 量,即片段向量,將片段向量的模作為降維後的值並排序可作為第二級索引,既保存了音頻 的時序信息,又解決了音頻信息的非離散問題。


圖1是本發明創建三級索引方法中的第一級和第二級索引生成示意圖,圖2是本發 明創建的三級音頻索引結構示意圖,圖3是計算查詢音頻一級索引值和二級索引值的示意 圖。
具體實施例方式具體實施方式
一下面結合圖1說明三級音頻索引創建方法的具體實施方式
,包 括以下步驟
步驟一、對資料庫中每個音頻特徵文件中的/7維特徵向量進行降維處理,生成一維的 量化值,作為第一級索引,即,幀級索引; 第一級索引的創建方法為
採用自相似加權距離法對音頻特徵向量序列的每個特徵向量進行降維量化處理,對於 η維的幀特徵向量無,對應的一維量化值ft值為
p = J] c -J(Uj),滿足條件 Τ] cJ =1 ,
浮J — fefe·
其中-J為幀序號,為計算範圍,且及—>0 , Ci為加權係數,d^li-j)表示兩 個特徵向量間的距離。
自相似累積距離反應了音頻數據自身的變化情況,對於兩段內容相似的音頻數 據,其量化值(自相似累積距離數值)序列也必然存在較高的相似性。基於否定性判定的思 想,若兩個音頻段的量化值序列比較差距較大,則可確認二者彼此不相似。因此,可將一個 音頻文件生成的自相似累積距離量化值作為索引,形成第一級索引——幀級索引。
步驟二、將第一級索引數據按單元長度截成一系列片段,片段內的第一級索引值 構成片段向量,計算每個片段向量的模先,作為索引鍵值,以三元組形式描述片段向量,將 所有片段三元組按鍵值排序則構成第二級索引,即,片段級索引;
三元組包括索引鍵值先、源文件id和片段向量在源文件中的位置i, 在音頻樣例檢索中,通常截取一定長度的音頻數據作為查詢音頻,即樣例音頻。在檢索 時,可將不同長度的查詢音頻截成相同長度的若干片段,然後以片段為單位進行檢索。而一段音頻數據的第一級索引值,即量化數值序列又可看成一個向量,S卩,片段向 量。兩段音頻數據一級索引相似,即兩個片段向量相似。音頻片段間的相似性問題即轉變 為片段向量間的相似問題。根據幾何關係,兩個向量模之差的絕對值不大於兩個向量的歐 氏距離,因此可以通過比較兩個向量模的差異,即可快速去除不符合查詢要求的向量,加快 檢索速度。將片段向量的模作為鍵值,使用三元組(索引鍵值先,源文件id,片段向量在源 文件中的位置i)描述片段向量,並按先數值排序,從而構成第二級索引——片段級索引。 索引創建過程如圖1所示。計算每個片段向量的模先的方法為
將步驟一所述的一維的第一級索引按單元長度為m幀、窗移為1的分析窗截成一系 列片段向量,則從第i幀開始截取的長為m幀的音頻片段的一級索引值構成的片段向量為
,凡,片段向量的模冬按如下公式計算
Jzρ2.,
其中,m為自然數。步驟三、計算步驟二所述的每個片段的類別分,然後根據類別分將所有片段向量 分組,作為第三級索引,即,類別索引。在樣例檢索中,檢出結果和查詢音頻應屬於相同的音頻類別。充分利用類別信息 可縮小檢索範圍,類別不同的音頻數據不可能相似,不做檢索操作,從而可有效提高檢索速度。但是考慮到一些音頻數據的類別屬性模糊,如多種類別聲響的混合等,其次,網絡 環境下,數據質量差異較大可能存在噪聲。因此,明確的類別判斷容易造成分類錯誤,從而 導致檢索的查全率下降。因此,分類器要具有較好的魯棒性。由於含音樂的音頻數據類型在音頻數據中佔較高比例,因此系統採用基於和諧度 (Harmony)的音樂類音頻模糊分類器。類別索引的創建方法為
步驟a、計算步驟二所述的片段向量的類別分, 1 按公式= ;Σ Ij -計算出每個片段向量的和諧度作為類別分,
其中,為第i+j幀信號的和諧度,獲取方法參照%, ~為第i幀信號的和諧度,計算 公式如下formula see original document page 7
上述公式中,巧€[眾1,, jr 為採樣信號頻譜,Im是採樣信號頻譜x 零均值化後的值,f是傅立葉變換階數,JT1、為是和諧度的考察頻率範圍,J/i、^則是對 應的頻譜分量下標,7二_1/2 .
步驟b、根據類別分將所有片段向量分組,
使用哈希函數將類別分散列到具有不同鍵值的鍊表中,構成第三級索引,同時將每個 鍊表中的片段向量,按步驟二組織成一個按向量模排序的片段級索引,結合第一級索引便 構成三級索引結構。
具體實施方式
二 下面結合圖1至圖3說明基於實施方式一所述三級音頻索引的 音頻檢索方法,包括以下步驟
步驟1、對查詢音頻的特徵向量序列進行降維獲取其第一級索引值,將第一級索引數據 按單元長度截成一系列無交疊的片段向量,計算出查詢音頻的每個片段向量的模和類formula see original document page 7
設查詢音頻的片段向量為.formula see original document page 7』對碎的向Μ:投為 一
formula see original document page 7
查詢音頻片段向量的類別分為 formula see original document page 7步驟2、在第三級索引中,將類別分為[ffg,.-Δ. if範圍內的第二級索引作 為進一步搜索的集合Φ S中A力範圍閾值;
步驟3、在集合φ中,將第二級索引鍵值Ii滿足條件< k-巧^θ的片段 向量保留,並利用第二級索引確定所保留片段向量對應的第一級索引值#力檢索閾值; 若集合·中片段向量艿1J豆的歐氏距離滿足如下條件,,則可認為二者相似其中$力檢索閾值。根據向量間的幾何關係,兩個向量模之差的絕對值不大於兩個向量的歐式距離
formula see original document page 8由於『野=丨_、t,
即沒玄欠一沒,
因此,根據上式的簡單判斷,就可將待查數據集合φ中一些不符合查詢要求的片段向 量排除,進而縮小檢索範圍,加快檢索速度。步驟4、在第一級索引中,將步驟3確定的片段向量的第一級索引值與步驟1獲取 的查詢音頻的第一級索引值進行片段相似度匹配計算,將相似度高的音頻片段檢出
(1)若找到相似片段,根據需要可直接到對應的特徵向量文件中讀取對應片段的特徵 向量數據,也在特徵向量級別上進行檢出確認;
(2)若確認該片段檢出,則在特徵向量文件中直接檢索後繼片段;
(3)根據查詢音頻各片段的檢出情況,判別查詢音頻在資料庫中的出現情況。為了提高檢索速度,可將索引文件,包括第一級、第二級和第三級索引文件載入內 存。由於僅僅在需要確認檢出的時候才用到特徵向量文件,因此特徵向量文件的訪問次數 少,且數據量大,可存於硬碟,在需要時讀文件即可。
權利要求
一種三級音頻索引的創建方法,其特徵在於,該方法包括以下步驟步驟一、對資料庫中每個音頻特徵文件中的n維特徵向量進行降維處理,生成一維的量化值,作為第一級索引;步驟二、將第一級索引數據按單元長度截成一系列片段,片段內的第一級索引值構成片段向量,計算每個片段向量的模ki,作為索引鍵值,以三元組形式描述片段向量,將所有片段三元組按鍵值排序則構成第二級索引;三元組包括索引鍵值ki、源文件id和片段向量在源文件中的位置i,步驟三、計算步驟二所述的每個片段的類別分,然後根據類別分將所有片段分組,作為第三級索引,即,類別索引。
2.根據權利要求1所述的一種三級音頻索引的創建方法,其特徵在於,步驟一所述的 第一級索引的創建方法為採用自相似加權距離法對音頻特徵向量序列的每個特徵向量進行降維量化處理,對於n維的幀特徵向量無,對應的一維量化值豹值為其中d為幀序號,為計算範圍,且>0 , 為加權係數,表示兩個特徵向量間的距離。
3.根據權利要求1所述的一種三級音頻索引的創建方法,其特徵在於,步驟二中索引鍵值年的獲取方法為將步驟一所述的一維的第一級索引按單元長度為m幀、窗移為1的分析窗截成一系列 片段,片段內的第一級索引值構成片段向量,則從第i幀開始截取的長為m幀的音頻片段的一級索引值構成的片段向量為屍必只,凡^—….,IVffl_4),片段向量的模電按如下公式計算formula see original document page 2其中,m為自然數。
4.根據權利要求1所述的一種三級音頻索引的創建方法,其特徵在於,步驟三所述的 第三級索引的創建方法為步驟a、計算步驟二所述的片段向量的類別分, 1按公式現=.計算出每個片段向量的和諧度作為類別分,其中,『J為第i+j幀信號的和諧度,獲取方法參照h,h為第i幀信號的和諧度,計算 公式如下上述公式中,formula see original document page 3為採樣信號頻譜,Mi)是採樣信號頻譜X 零均值化後的值,f是傅立葉變換階數、為是和諧度的考察頻率範圍,J/l、//2則是對 應的頻譜分量下標,7二_1/2 .步驟b、根據類別分將所有片段向量分組,使用哈希函數將類別分散列到具有不同鍵值的鍊表中,構成第三級索引,同時將每個 鍊表中的片段向量,按步驟二組織成一個按向量模排序的片段級索引,結合第一級索引便 構成三級索引結構。
5.基於權利要求1至4所述的一種三級音頻索引的創建方法而實施的三級音頻索引的 音頻檢索方法,其特徵在於,該方法包括以下步驟步驟1、對查詢音頻的特徵向量序列進行降維獲取其第一級索引值,將第一級索引數據 按單元長度截成一系列無交疊的片段向量,計算出查詢音頻的每個片段向量的模和類 w風■;步驟2、在第三級索引中,將類別分為formula see original document page 3範圍內的第二級索引作為進一步搜索的集合⑩,其中A為範圍閾值;步驟3、在集合毋中,將第二級索引鍵值與滿足條件沒S勾個0的片段向量保留,並利用第二級索引確定所保留片段向量對應的第一級索引值,#為檢索閾值;步驟4、在第一級索引中,將步驟3確定的片段向量的第一級索引值與步驟1獲取的查 詢音頻的第一級索引值進行片段相似度匹配計算,將相似度高的音頻片段檢出。
全文摘要
一種三級音頻索引的創建方法及音頻檢索方法,屬於多媒體領域,為了解決現有技術針對大規模資料庫和網絡環境下的音頻樣例檢索缺少快速、有效的索引機制的問題。本發明創建一種三級索引結構對n維的音頻特徵向量降維,生成第一級索引;將第一級索引按單元長度截成一系列片段,計算其向量模,排序後作為第二級索引;計算片段的類別分,分組後作為第三級索引。基於三級索引的檢索方法為首先,計算出查詢音頻的一級索引值、片段向量模和類別分,然後依次利用第三級和第二級索引縮小查詢範圍,最後利用第一級索引計算查詢音頻與索引音頻片段的相似度,將滿足檢出閾值的數據作為結果返回。
文檔編號G11B27/10GK101833986SQ201010177959
公開日2010年9月15日 申請日期2010年5月20日 優先權日2010年5月20日
發明者丁麗, 唐健琪, 姜濤, 張慧, 狄少嘉, 王勇, 鄭貴濱, 鄭鐵然, 韓紀慶 申請人:哈爾濱工業大學;國家計算機網絡與信息安全管理中心

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀