用於計算第一特徵矢量和第二特徵矢量之間相似性度量的方法和設備的製作方法
2023-04-28 13:23:56 1
專利名稱:用於計算第一特徵矢量和第二特徵矢量之間相似性度量的方法和設備的製作方法
用於計算第一特徵矢量和第二特徵矢量之間 相似性度量的方法和設備
本發明涉及計算第一音頻和/或視頻信號的第一特徵矢量與第二 音頻和/或視頻信號的第二特徵矢量之間的相似性度量的方法。
本發明進一步涉及用於計算第一音頻和/或視頻信號的第一特徵 矢量與第二音頻和/或視頻信號的第二特徵矢量之間的相似性度量的 電子設備。
本發明還涉及用於使得可編程設備操作時執行計算第一音頻和/ 或視頻信號的第一特徵矢量與第二音頻和/或視頻信號的第二特徵矢 量之間的相似性度量的方法的軟體。
W02004/095315記載了這種方法的一個實施例。用於尋找相似音頻 信號的這種已知方法具有的缺陷在於,由於要麼不是所有相似的音頻 信號都被找到,要麼不是所有確定相似的音頻信號都充分相似,在這 個意義上,所計算的相似性度量不是最優的。
本發明的第一目的是提供開篇段落中所述類型的方法,其提供更 精確的相似性度量計算。
本發明的第二目的是提供開篇段落中所述類型的電子設備,其提 供更精確的相似性度量計算。
依照本發明,所述第一目的的實現在於,該方法包括計算第一特 徵矢量和第二特徵矢量之間的距離的步驟,第一特徵矢量和第二特徵 矢量兩者都包括第二維的特徵值,其中使用了加權因子,該加權因子 賦給第一維的權重大於賦給第二維的權重。實驗已經表明,通過向一 定維(特徵)尤其是那些對於(音樂)分類重要的維賦予更大的權重 可以獲得更為精確的相似性度量計算。
所述音頻和/或視頻信號可以來自任何適當的信源。最一般的情況 是,音頻信號可能來自音頻文件,其可以具有許多格式中的任意一種。 音頻文件格式的例子有非壓縮格式,例如(WAV);無損壓縮格式, 例如Windows媒體音頻(WMA);以及有損壓縮格式,例如MP3(MPEG-1音頻層3)文件、AAC (高級音頻編解碼)等等。同樣地,通過使用任 何合適的技術來數位化音頻信號可以獲得音頻輸入信號,這對於本領 域技術人員來說是已知的。
在本發明方法的一個實施例中,特徵中特定的一個特徵的加權因 子取決於針對信號集合該特定的一個特徵的值的方差(即某個維中所 有類的所有值的總方差)和/或取決於每類信號的該特定的一個特徵的 平均值的方差(即某個維中多個平均值的方差,這些平均值針對每類 來確定)。以此方式,那些對於(音樂)分類重要的維被賦予了更大 的權重。方差可以在多維空間中進行計算。所述信號集合可以是公司 或組織擁有的集合或者個人的集合。如果所述信號集合是公司或組織 擁有的集合,那麼加權因子可以在硬體中或者在軟體中被預先配置, 或者可以是可經由網際網路從所述公司或組織中獲取的。
加權因子可以取決於每類信號的所述特定的一個特徵的平均值的 方差與針對信號集合的該特定的一個特徵的值的方差之比。
加權因子可以取決於所述第一或第二音頻和/或視頻信號的分類 (例如類別、調式和/或藝術家)。該分類可以例如從音頻文件的ID3 標籤中獲取。例如,當用戶選擇搖滾歌曲作為種子歌曲時使用的被加 權的協方差矩陣可以不同於當他選擇一首古典音樂作為種子歌曲時使 用的被加權的協方差矩陣。
依照本發明,所述第二目的的實現在於,所述電子設備包括電子 電路,該電子電路被操作來計算第 一特徵矢量和第二特徵矢量之間的 距離,第一特徵矢量和二特徵矢量兩者都包括第二維的特徵值,其 中使用了加權因子,該加權因子賦給第一維的權重大於賦給第二維的 權重。
本發明的這些和其他方面根據示例和附圖是顯然的,並且將通過 舉例的方式參照附圖進一步加以闡迷,在附圖中
圖1示出了在本發明實施例中使用的三個等式;
圖2示出了兩維特徵空間中特徵值的示例,其中這些特徵值可以 分成兩種類別;
附圖中對應的元素用相同的參考數字來表示。本發明的方法可以用於尋找與目標歌曲或者當前播放的選擇相似 的音樂。例如,如杲聽眾具有大的音樂集合併且正在聆聽他特別喜歡
的一段音樂(track),那麼他可以僅僅按下一個按鍵,該按鍵將啟動 對整個音樂集合的搜索並且返回最相似歌曲的列表然後提示其準備好 用於回放。這樣的功能在某些Philips消費設備中被稱為LikeMusicTM。 這種功能預計會出現在可攜式mp3播放器、汽車收音機和家庭娛樂系 統上,並且可用於大的本地音樂集合、流式音樂與音頻以及廣播音樂 與音頻。此外,用戶可以收聽收音機並且讓按鍵在其私人集合中搜索 相似的歌曲,或者反過來。LikeMusicTM算法工作在從音頻波形自身自 動提取的特徵(信號統計量)上,因此不需要外部的或者帶註解的元 數據。第一個LikeMusicTM算法使用了標準的統計距離度量(馬氏距離) 來計算歌曲之間的距離。
由於可以在多個維中描述音樂相似性,因此通常感興趣的是分離 出相似性的特定維。本發明的方法通過修改所述第一個LikeMusicTM算 法以便加權對於音樂分類重要的那些特徵維而提供了一種用於根據聲 學參數計算沿特定知覺相似性維的相似性距離的有效方式。對於特徵 維的加權可以基於例如類別、藝術家和/或調式分類。
在本發明方法的實施例中,該方法首先從每首歌曲中提取出特徵 (描述性音頻信號統計量)並且產生具有每個音軌名和關聯特徵的列 表。這些特徵可以來自大範圍的統計量。在現代PC上,數百次實時地 提取這些特徵。當正在糹番放歌曲時,該方法可以從該歌曲中實時提取 特徵,或者如果該歌曲來自資料庫,則在資料庫列表中查找該歌曲。 這些方法之間的區別在於,在資料庫中列出的特徵是在該整首歌曲上 進行平均的,而實時提取的特徵僅代表該歌曲的一部分(這些特徵可 以針對指定數量的時間累積,然後在那個時間上平均)。兩種方法各 有優缺點,其取決於被分析的音樂類型(例如,如杲一首歌曲包含各 種風格並且有人只對這些特定風格中的一種感興趣,那麼出於那個目 的,局部的分析比在整首歌曲上平均要好)。然而,在大多數情況下, 歌曲的風格變化並不大並且兩種方法得到相同的結果。
自動地或者通過按壓按鍵執行的推薦過程將或者查找或者計算當 前播放選擇的特徵、計算當前歌曲和資料庫中的每首歌曲之間的距離 度量D並且然後推薦最接近的20首歌曲。用戶可以調節被推薦歌曲的數量,系統可以自動地提示和播放這些被推薦的(相似的)歌曲。距
離度量D是多維特徵空間中特徵矢量之間馬氏距離的帶加權因子的修 改形式,所述加權因子給對於音樂分類重要的維(特徵)賦予更大的 權重。這個特徵空間例如是20維空間。
音軌l和音軌2之間的距離D可以用圖1的等式(1)來計算,其 中^和^分別為音軌1和2的矢量,W為資料庫中所有特徵矢量的淨皮 加權的協方差矩陣。該被加權的協方差矩陣W是個常量,並不從一個 推薦到下 一個推薦發生變化。它可以根據公司或組織擁有的音軌集合 來確定,或者根據用戶個人的音軌集合來確定。W可以用圖1的等式(2) 來計算,其中C為來自(例如訓練)資料庫的所有特徵的協方差矩陣, 並且gw為圖1的等式(3)中所定義的類別加權矢量,其中^為總體 特徵方差矢量(協方差矩陣C的對角,例如包括針對特徵l的類別11 和13的特徵值的方差以及針對特徵2的類別11和13的特徵值的方差, 參見圖2) , ^g為每類別平均特徵值的方差矢量(例如包括針對特徵 1的類別11的平均特徵值15與類別13的平均特徵值17之間的方差以 及針對特徵2的類別11的平均特徵值15與類別13的平均特徵值17 之間的方差,參見圖2)。可以針對除音樂類別之外的音樂藝術家、音 樂調式分類或者個人音樂分類執行同一類型的計算。於是,每種變化 情況將沿相似性的不同維計算距離。
該方法可以在硬體中或者在軟體中執行,例如在專用處理器上或 者在諸如Intel奔騰處理器或AMD Athlon處理器的通用處理器上執4亍。 執行該方法的電子設備可以是可攜式設備或者諸如媒體中心PC/設備 的固定設備。
儘管已經結合優選的實施例描述了本發明,但是可以理解的是, 其在以上概括的原理內的修改對於本領域技術人員來說是顯而易見 的,因此,本發明並不限於這些優選的實施例而是意欲包括這些修改。 本發明體現在每一種新穎特性特徵以及特性特徵的每一種組合之中。 權利要求中的附圖標記並不限制其保護範圍。動詞"包括"及其變體
件)之前的冠詞"一"或,"一個"的使用並沒一有排除多個這樣的元素 (元件)的存在。
對於本領域技術人員顯而易見的是,"裝置"指的是包括執行操作或者被設計來執行指定功能的任何硬體(例如分立或集成電路或者 電子元件)或軟體,不管它是單獨的還是結合了其他功能,不管它是 孤立的還是與其他元件協作。本發明可以藉助於包括若干不同元件的 硬體以及藉助於經過適當編程的計算機來實現。在列舉了若干裝置的 設備權利要求中,這些裝置中的一些可以由同一硬體項來實施。"軟 件,,應當被理解為指的是存儲在諸如軟盤的計算機可讀介質上、可經 由諸如網際網路的網絡下載或者可以任何其他方式銷售的任何軟體產品。
權利要求
1.一種計算第一音頻和/或視頻信號的第一特徵矢量與第二音頻和/或視頻信號的第二特徵矢量之間的相似性度量的方法,該方法包括步驟-計算第一特徵矢量和第二特徵矢量之間的距離,第一特徵矢量和第二特徵矢量兩者都包括第二維的特徵值,其中使用了加權因子,該加權因子賦給第一維的權重大於賦給第二維的權重。
2. 如權利要求l所述的方法,其中特徵中特定的一個特徵的加權 因子取決於針對信號集合的該特定的一個特徵的值的方差和/或取決 於每類信號的該特定的一個特徵的平均值的方差。
3. 如權利要求2所述的方法,其中加權因子取決於每類信號的所述特定的一個特徵的平均值的方差與針對信號集合的該特定的一個特 徵的值的方差之比。
4. 如權利要求l所述的方法,其中加權因子取決於所述第一或第 二音頻和/或視頻信號的分類。
5. —種計算供權利要求1的方法中使用的加權因子的方法,其中特徵中特定的一個特徵的加權因子取決於針對信號集合的該特定的一 個特徵的值的方差和/或取決於每類信號的該特定的一個特徵的平均 值的方差。
6. 如權利要求5所述的方法,其中加權因子取決於每類信號的所述特定的一個特徵的平均值的方差與針對信號集合的該特定的一個特 徵的值的方差之比。
7. 用於使得可編程設備操作時執行權利要求1或權利要求5的方 法的軟體。
8. —種用於計算音頻和/或視頻信號的第一特徵矢量與第二特徵 矢量之間的相似性度量的電子設備,該電子設備包括電子電路,該電 子電路被操作來-計算第一特徵矢量和第二特徵矢量之間的距離,第一特徵矢量 和第二特徵矢量兩者都包括第二維的特徵值,其中使用了加權因子, 該加權因子賦給第一維的權重大於賦給第二維的權重。
全文摘要
本發明計算第一音頻和/或視頻信號的第一特徵矢量與第二音頻和/或視頻信號的第二特徵矢量之間的相似性度量的方法,包括計算第一特徵矢量和第二特徵矢量之間的距離的步驟,第一特徵矢量和第二特徵矢量兩者都包括第二維的特徵值,其中使用了加權因子,該加權因子賦給第一維的權重大於賦給第二維的權重。本發明的電子設備包括電子電路,其被操作來執行本發明的方法。本發明的軟體使得可編程設備操作時執行本發明的方法。
文檔編號G06F17/30GK101292241SQ200680038718
公開日2008年10月22日 申請日期2006年10月16日 優先權日2005年10月17日
發明者D·J·布裡巴特, M·F·麥克金尼 申請人:皇家飛利浦電子股份有限公司