聲音處理裝置、聲音處理方法、程序及集成電路的製作方法

2023-06-04 19:13:21

聲音處理裝置、聲音處理方法、程序及集成電路的製作方法
【專利摘要】本發明提供一種聲音處理裝置，根據AV內容的音頻信號檢測聲音特徵的變化點。為了解決上述問題，該聲音處理裝置具有：特徵計算單元，按照所輸入的音頻信號的預定時間長度的每個單位區間，計算表示所述音頻信號的特徵的區間特徵；邊界計算單元，對於多個所述單位區間中的每個單位區間，計算與包括該單位區間在內的由區間特徵相似的多個所述單位區間構成的相似區間、和其它區間的邊界相關的邊界信息；以及判定單元，計算所述邊界信息所表示的各個邊界的優先度，根據所述優先度判定所述各個邊界是否是場景變化點。
【專利說明】聲音處理裝置、聲音處理方法、程序及集成電路
【技術領域】
[0001]本發明涉及從音頻信號中檢測頻率等特徵的變化點的技術。
【背景技術】
[0002]目前需要這樣的功能:即對於用戶使用數位照相機等拍攝的AV內容，能夠將用戶不需要的場景跳過而只視聽用戶期望的場景。
[0003]因此，使用AV內容中的聲壓或頻率等聲音信息來檢測場景與場景之間的變化點(以後稱為場景變化點)的技術受到關注。
[0004]例如，提出了這樣的方法:按照AV內容的每幀，將聲音信息作為特徵量而定量化，檢測幀間的特徵量的變化超過閾值的幀來作為場景變化點(參照專利文獻I)。
[0005]現有技術文獻
[0006]專利文獻
[0007]專利文獻1:日本特開平5 - 20367號公報發明概要
[0008]發明要解決的問題
[0009]可是，對於用戶拍攝的AV內容而言，內容根據用戶的想法而富於變化，其結果是應該檢測的場景變化點也涉及多個方面。對於這種涉及多個方面的場景變化點，僅使用特定的方法來網羅應該檢測的場景變化點是很困難的，而且存在即使使用上述現有的方法也難以檢測的場景變化點。
[0010]
【發明內容】

[0011]因此，本發明的目的在於，提供一種聲音處理裝置，能夠檢測利用現有的方法難以檢測的場景變化點。
[0012]用於解決問題的手段
[0013]為了達到上述目的，本發明的聲音處理裝置的特徵在於，該聲音處理裝置具有:特徵計算單元，按照所輸入的音頻信號的預定時間長度的每個單位區間，計算表示所述音頻信號的特徵的區間特徵；邊界計算單元，對於多個所述單位區間中的每個單位區間，計算與包括該單位區間在內的由區間特徵相似的多個單位區間構成的相似區間、和其它區間的邊界相關的邊界信息；以及判定單元，計算所述邊界信息所表示的各個邊界的優先度，根據所述優先度判定所述各個邊界是否是場景變化點。
[0014]發明效果
[0015]根據本發明的聲音處理裝置，能夠檢測對多個單位區間中的每個單位區間設定的相似區間的邊界來作為場景變化點。
【專利附圖】

【附圖說明】
[0016]圖1是表示構成AV內容的場景和音頻信號的具體示例的圖。[0017]圖2是表示特徵量向量的計算方法的圖。
[0018]圖3是表示特徵量向量的一例的圖。
[0019]圖4是表不錨定模型的一例的圖。
[0020]圖5是表示兩個第I單位區間中的似然度向量的示例的圖。
[0021]圖6是表示第I單位區間與第2單位區間的關係的圖。
[0022]圖7是表示頻次向量的一例的圖。
[0023]圖8是表示邊界信息計算部計算出的邊界信息的一例的圖。
[0024]圖9是橫軸表示時刻、縱軸表示邊界度的曲線圖。
[0025]圖10是表示具有聲音處理裝置的影像視聽裝置的功能構成例的框圖。
[0026]圖11是表示聲音處理裝置的功能構成例的框圖。
[0027]圖12是表示在計算基準向量時使用的基準區間的一例的圖。
[0028]圖13是使用向量空間的概念來表示基準向量、頻次向量和閾值的圖。
[0029]圖14是表示相似區間的時間軸反方向的區間擴展處理的示意圖。
[0030]圖15是表示索引生成部的功能構成例的框圖。
[0031]圖16是表示錨定模型製作裝置的功能構成例的框圖。
[0032]圖17是表示聲音處理裝置的動作的流程圖。
[0033]圖18是表示區間擴展基準指標計算處理的流程圖。
[0034]圖19是表示邊界信息計算處理的流程圖。
[0035]圖20是表示索引生成處理的流程圖。
[0036]圖21是表示聲音處理裝置的功能構成例的框圖。
[0037]圖22是表示邊界信息計算部計算出的邊界信息的一例的圖。
[0038]圖23是表示索引生成部的功能構成例的框圖。
[0039]圖24是表示索引生成部生成的索引信息的一例的圖。
[0040]圖25是表示影像視聽系統的構成例的框圖。
[0041]圖26是表示影像視聽系統中的客戶端的構成例的框圖。
[0042]圖27是表示影像視聽系統中的伺服器的構成例的框圖。
【具體實施方式】
[0043]〈想到本發明的經過〉
[0044]AV內容根據捕捉場景的粒度，由各種長度的區間構成。例如，假設AV內容是拍攝了聚會的內容，由圖1 (a)所示的場景構成。並且，假設圖1 (b)表現了該場景中的音頻信號。如圖所示，在聚會中存在乾杯的場景10及其後續的聚餐的場景20，聚餐的場景20又由主要在就餐的場景21、和主要在暢談的場景22構成。場景20是從主要在就餐的場景21向主要在暢談的場景22轉變的過渡場景。
[0045]這種過渡場景的聲音信息的變化緩慢，如過去那樣使用幀間的聲音信息的變化量來檢測出場景內的變化點是很困難的。
[0046]另外，還具有如下性質:在這種過渡場景內具有某種程度的長度的區間的兩端，聲音信息的變化量累積，因而能夠檢測出兩端分別屬於過渡場景內的不同場景。本
【發明者】們著眼於該性質而發現:能夠將過渡場景內的變化點作為聲音信息相似的區間(相似區間)與其它區間的邊界、例如場景前半部分的相似區間與場景後半部分的相似區間的邊界而檢測出來。
[0047]在音頻信號中，相似區間能夠通過將成為該區間內的某種基準的位置(基準位置)的聲音信息與其前後的聲音信息進行比較來求出。因此，通過將過渡場景的一點指定為基準位置來求出過渡場景內的相似區間。
[0048]可是，為了求出事前無法知道位於音頻信號內的哪個位置的過渡場景內的相似區間，需要指定音頻信號的隨意位置來作為基準位置。但是，如果將基準位置設定得多，則根據所設定的基準位置的數量而求出的邊界(變化點)的數量增多。
[0049]如果被檢測的變化點的數量相對於用戶期望的場景數量較多，則將導致用戶在視聽到期望的場景之前的動作變複雜。即，用戶需要從數量龐大的變化點中檢索作為所期望的場景的開始的變化點。即，隨著變化點的數量的增加，有可能不能得到使用戶容易視聽所期望的場景這種效果。
[0050]作為解決該問題的一種方法，可以考慮挑選被檢測的變化點來抑制待索引化的變化點的數量的方法。
[0051]本
【發明者】們根據上述的經過想出了本發明。下面，參照附圖詳細說明本發明的實施方式。
[0052]
[0053]〈1-1.> 概要
[0054]下面示出本發明的一個實施方式涉及的聲音處理裝置的概況。
[0055]本實施方式涉及的聲音處理裝置首先對將動態圖像文件中所包含的音頻信號分割成預定時間長度後的單位區間計算特徵量，該特徵量表現各單位區間中的音頻信號的特徵。
[0056]然後，聲音處理裝置對於各單位區間，基於計算出的特徵量的相似性，來計算與該單位區間相似的區間和其它區間的邊界。
[0057]並且，聲音處理裝置按照計算出的每個邊界來計算邊界度，基於邊界度來檢測場景變化點。
[0058]最後，聲音處理裝置將檢測出的場景變化點作為索引信息進行輸出。
[0059]在本實施方式中，邊界度是表不同一時刻的邊界的數量。本實施方式的聲音處理裝置能夠在從屬於用戶期望的同一場景的單位區間中計算出表示同一時刻的邊界這一假設下，優先檢測用戶期望的場景與其它場景的變化點。
[0060]
[0061]在此，對在本實施方式的聲音處理裝置中使用的數據進行說明。
[0062]〈動態圖像文件〉
[0063]動態圖像文件由音頻信號X (t)和多個圖像數據構成。音頻信號X (t)是振幅值的時間序列數據，能夠用如圖2 (a)所示的波形來表現。圖2 (a)是橫軸取時間、縱軸取振幅的音頻信號的波形例。
[0064]
[0065]特徵量向量M是表示音頻信號X (t)的特徵的向量，在本實施方式中，使用按照每個第I單位區間進行分割後的音頻信號的美爾頻率倒譜係數MFCC (Mel - FrequencyCepstrum Coefficients),來表示特徵量向量M。其中，第I單位區間是指音頻信號X (t)在時間軸中的規定長度(例如IOmsec)的區間，是圖2 Ca)中從時刻Tn到Tn+丨的區間。
[0066]按照每個第I單位區間計算出該特徵量向量M。因此，如圖3所示，根據從時刻Osec到時刻Isec之間的音頻信號，生成100個特徵量向量M。另外，圖3是對從時刻Osec到時刻Isec之間的各第I單位區間計算出的特徵量向量M的一例。[0067]
[0068]錨定模型AJr = 1、2、…、K)是使用特徵量向量生成的概率模型，用於表示各種音素(sound pieces)各自的特徵，該特徵量向量是從作為多種音素的聲音數據生成的。即，錨定模型是對應各種音素而生成的。在本實施方式中米用混合正態分布模型(GMM:GaussianMixture Model)，各個錨定模型\利用規定正態分布的參數構成。
[0069]如圖4所示，錨定模型按照多種(在本實施方式中是1024種)音素中的每種音素生成，並利用與多種音素分別對應的特徵量出現概率函數bAr (M)表示。特徵量出現概率函數bAr (M)是各個錨定模型所規定的正態分布的概率密度函數，將特徵量向量M作為自變量而計算出針對音頻信號X (t)的每個音素的似然度L = bAr (M)0
[0070]〈似然度向量〉
[0071]似然度向量F是以根據所述錨定模型而計算出的、針對音頻信號X (t)的多種音素中的每種音素的似然度L為成分的向量。
[0072]圖5是表示兩個第I單位區間中的似然度向量F的圖。圖5 (a)表示例如與從時刻0數起第n個第I單位區間(從時刻(10Xn)msec到時刻(IOX (n + l))msec之間的區間)對應的似然度向量Fn，圖5 (b)表示例如與從時刻0數起第m個第I單位區間(從時刻(IOXm) msec到時刻(IOX (m + I)) msec之間的區間)對應的似然度向量Fm (n〈m)。
[0073]〈頻次向量〉
[0074]頻次向量NF是表示音頻信號的每個第2單位區間的特徵的向量，尤其是表示與音頻信號的第2單位區間相關的各個音素的出現頻次的向量。其中，第2單位區間是指音頻信號X (t)在時間軸中的規定長度(例如Isec)的區間，如圖6所示，相當於多個連續的第I單位區間的長度。
[0075]具體地講，頻次向量NF是指第2單位區間中所包含的似然度向量F的正態化累計似然度、即將第2單位區間中所包含的似然度向量F的各個成分的累計值進行正態化得到的向量。另外，此處所講正態化是指將頻次向量NF的範數設為I。圖7是表示頻次向量NF的一例的不意圖。
[0076]
[0077]邊界信息是按照音頻信號的每個第2單位區間而計算出的、與頻次向量和該第2單位區間相似的相似區間的邊界相關的信息。本實施方式的聲音處理裝置計算相似區間的起始端的時刻和相似區間的終止端的時刻，作為邊界信息。圖8是在本實施方式中計算出的邊界信息的一例。例如，表示從第0個第2單位區間(時刻0~Is之間的區間)起計算出表示起始端時刻為Os、終止端時刻為IOs的邊界信息。
[0078]
[0079]如上所述,邊界度是表示同一時刻的邊界信息的數量。例如,在圖8中，表示起始端時刻或者終止端時刻為Os的邊界信息是從第0個第2單位區間(時刻0~Is之間的區間)、第I個第2單位區間(時刻I?2s之間的區間)以及第2個第2單位區間(時刻2?3s之間的區間)計算出的3個邊界信息，因而時刻Os的邊界度為3。圖9是橫軸表示時刻、縱軸表示計算出的邊界度的曲線的一例。
[0080]<1-3.結構〉
[0081]下面，對具有本實施方式的聲音處理裝置104的影像視聽裝置100的功能構成進行說明。
[0082]<影像視聽裝置100〉
[0083]圖10是表示影像視聽裝置100的功能構成例的框圖。如圖所示，影像視聽裝置100具有輸入裝置101、內容存儲裝置102、聲音提取裝置103、聲音處理裝置104、索引存儲裝置105、輸出裝置106、錨定模型製作裝置107、聲音數據存儲裝置108、和界面裝置109。
[0084]〈輸入裝置101〉
[0085]輸入裝置101利用盤驅動裝置等實現，在安裝記錄介質120後，從記錄介質120讀入動態圖像文件，將所取得的動態圖像文件存儲在內容存儲裝置102中。另外，記錄介質120是具有存儲各種數據的功能的介質，例如是光碟、軟盤、SD卡、快閃記憶體等。
[0086]<內容存儲裝置102〉
[0087]內容存儲裝置102利用例如硬碟裝置等實現，存儲輸入裝置101從記錄介質120取得的動態圖像文件。動態圖像文件在被附加了各個動態圖像文件固有的ID後進行存儲。
[0088]<聲音提取裝置103〉
[0089]聲音提取裝置103從存儲於內容存儲裝置102的動態圖像文件中提取音頻信號，將所提取的音頻信號輸入聲音處理裝置104。另外，聲音提取裝置103通過對被編碼後的音頻信號進行解碼處理，生成如圖2 (a)所示的音頻信號X (t)。另外，聲音提取裝置103利用例如執行程序的處理器等實現。
[0090]<聲音處理裝置104〉
[0091]聲音處理裝置104根據從聲音提取裝置103輸入的音頻信號X(t)，進行場景變化點的檢測，將由檢測出的場景變化點構成的索引信息存儲在索引存儲裝置105中。關於聲音處理裝置104的功能構成的詳細情況將在後面進行說明。
[0092]〈索引存儲裝置105〉
[0093]索引存儲裝置105利用例如硬碟裝置等實現，存儲從聲音處理裝置104輸入的索引信息。索引信息由動態圖像文件的ID和動態圖像文件中的時刻(場景變化點的時刻)構成。
[0094]〈輸出裝置106〉
[0095]輸出裝置106從索引存儲裝置105取得索引信息，將與所取得的索引信息對應的影像數據(存儲於內容存儲裝置102中的動態圖像文件的一部分)輸出給顯示裝置130。輸出裝置106對輸出給顯示裝置130的影像數據附加信息，根據輸入到界面裝置109的用戶操作來進行跳過等再現控制，所述附加的信息例如是對與索引信息對應的時刻附加了標記的進度條等與用戶界面(U1:User Interface)相關的信息。
[0096]另外，聲音提取裝置103利用例如執行程序的處理器等實現。
[0097]<錨定模型製作裝置107〉
[0098]錨定模型製作裝置107根據在聲音數據存儲裝置108中存儲的音頻信號來生成錨定模型Ar，將所生成的錨定模型Ar輸出給聲音處理裝置104。關於錨定模型製作裝置107的功能構成的詳細情況將在後面進行說明。
[0099]另外，錨定模型製作裝置107在生成錨定模型4時使用的音頻信號，是預先從與作為檢測場景變化點的對象的動態圖像文件不同的多個動態圖像文件中提取得到的音頻信號。
[0100]<聲音數據存儲裝置108〉
[0101]聲音數據存儲裝置108利用例如硬碟裝置等實現，預先存儲錨定模型製作裝置107在生成錨定模型時使用的聲音數據。
[0102]〈界面裝置109〉
[0103]界面裝置109具有鍵盤等操作部(未圖示)，其受理來自用戶的輸入操作，並將進度條的操作信息等通知輸出裝置106，將應該製作的錨定模型的個數K通知錨定模型製作裝置 107。
[0104]
[0105]聲音處理裝置104由存儲器(未圖示)和處理器(未圖示)構成，通過由處理器執行被讀入到存儲器中的程序，實現圖11所示的構成。
[0106]圖11是表示聲音處理裝置104的功能構成例的框圖。如圖11所示，聲音處理裝置104具有特徵量向量生成部201、似然度向量生成部202、似然度向量緩衝器203、頻次向量生成部204、頻次向量緩衝器205、區間擴展基準指標計算部206、邊界信息計算部207、索引生成部208和錨定模型存儲部209。下面對各個構成要素進行說明。
[0107]〈特徵量向量生成部201〉
[0108]特徵量向量生成部201根據從聲音提取裝置103輸入的音頻信號X(t)，按照每個第I單位區間生成特徵量向量M。
[0109]下面，說明在根據音頻信號X (t)生成特徵量向量M之前的概要。
[0110]首先，特徵量向量生成部201計算第I單位區間的音頻信號X(t)的功率譜S( co )(參照圖2 (b))。功率譜S (?)是將音頻信號X (t)從時間軸變換為頻率軸並將各個頻率成分進行平方得到的。
[0111]然後，特徵量向量生成部201計算將功率譜S ( CO )的頻率軸變換為美爾頻率軸後的美爾頻率譜S ( Wmei)(參照圖2 (C))。
[0112]最後，特徵量向量生成部201根據美爾頻率譜S ( Cofflel)計算美爾頻率倒譜，將規定數量(在本實施方式中是26個)的成分作為特徵量向量M。
[0113]<錨定模型存儲部209〉
[0114]錨定模型存儲部209利用存儲器的一部分區域構成，存儲由錨定模型製作裝置107製作出的錨定模型Ar。在本實施方式中，錨定模型存儲部209在聲音處理裝置104執行各處理之前預先存儲錨定模型4。
[0115]〈似然度向量生成部202〉
[0116]似然度向量生成部202使用由特徵量向量生成部201生成的特徵量向量M、和在錨定模型存儲部209中存儲的錨定模型計算音頻信號X (t)的針對各個音素的似然度Lp並按照每個第I單位區間生成以各個似然度為成分的似然度向量F。
[0117]〈似然度向量緩衝器203〉[0118]似然度向量緩衝器203利用存儲器的一部分區域構成，存儲由似然度向量生成部202生成的似然度向量F。
[0119]<頻次向量生成部204〉
[0120]頻次向量生成部204根據在似然度向量緩衝器203中存儲的似然度向量F，按照每個第2單位區間生成頻次向量NF。
[0121]〈頻次向量緩衝器205〉
[0122]頻次向量緩衝器205利用存儲器的一部分區域構成，存儲由頻次向量生成部204生成的頻次向量NF。
[0123]〈區間擴展基準指標計算部206〉
[0124]區間擴展基準指標計算部206針對各個第2單位區間，計算作為後述的區間擴展處理的基準指標的基準區間、基準向量S和閾值Rth。
[0125]區間擴展基準指標計算部206將處理對象的第2單位區間附近的多個第2單位區間作為基準區間，從頻次向量緩衝器205取得基準區間的頻次向量，並計算所取得的多個頻次向量的重心來作為基準向量S。圖12表示將處理對象的第2單位區間附近的合計9個區間作為基準區間時，使用基準區間的頻次向量(NFl?NF9)計算基準向量S的示例。
[0126]區間擴展基準指標計算部206還分別計算在生成基準向量S時使用的多個頻次向量NF與基準向量S之間的歐幾裡得距離，並計算與基準向量S之間的歐幾裡得距離為最大的頻次向量NF與基準向量S之間的歐幾裡得距離，作為在判定是否屬於相似區間時使用的閾值Rth。
[0127]圖13是使用向量空間的概念表示基準向量S、各個頻次向量NF和閾值Rth的圖。在圖13中，白圓圈表示在計算基準向量S時使用的頻次向量NF (對應於圖12所示的基準區間內的各個頻次向量NFl?NF9)，呈圓狀的陰影區域的中心的黑圓點表示基準向量S。從基準向量S到各個頻次向量NF的箭頭的長度表示頻次向量NF與基準向量S之間的歐幾裡得距離，其最大距離為閾值Rth。
[0128]〈邊界信息計算部207〉
[0129]返回到圖11，邊界信息計算部207針對第2單位區間計算由頻次向量相似的區間構成的相似區間，並確定相似區間的起始端的時刻和終止端的時刻。邊界信息計算部207將在頻次向量緩衝器205中存儲的頻次向量NF、處理對象的第2單位區間、和由區間擴展基準指標計算部206計算出的基準指標(基準區間、基準向量S和閾值Rth)作為輸入，將所確定的起始端的時刻和終止端的時刻作為邊界信息，輸出給索引生成部208。
[0130]首先，邊界信息計算部207將由區間擴展基準指標計算部206計算出的基準區間設定為相似區間的初始值。如圖14所示，邊界信息計算部207向時間軸反方向進行追溯，將相似區間緊前的第2單位區間作為對象區間，並判定對象區間是否包含在相似區間中。具體地講，邊界信息計算部207計算對象區間中的頻次向量NF與基準向量S之間的歐幾裡得距離，在計算出的歐幾裡得距離為閾值Rth以下的情況下，使對象區間包含在相似區間中。邊界信息計算部207反覆上述處理，並確定所計算出的歐幾裡得距離第一次超過閾值Rth時的相似區間的起始端的時刻。
[0131]在上述處理中一個區間一個區間地將相似區間擴展，因而稱為區間擴展處理。邊界信息計算部207也沿時間軸正方向進行區間擴展處理，並確定相似區間的終止端的時刻。
[0132]邊界信息計算部207在進行區間擴展處理時，判定對象區間是否包含在相似區間中，同時也判定相似區間的長度是否比預先設定的相似區間的長度Ie短。在計算出的歐幾裡得距離未超過閾值Rth、而且相似區間的長度比預先設定的相似區間的長度的上限Ie短的情況下，邊界信息計算部207將對象區間包含在相似區間中。在相似區間的長度為相似區間的長度的上限Ie以上的情況下，邊界信息計算部207計算該時刻的相似區間的邊界信息。另外，相似區間的長度的上限Ie採用預先設定的值。
[0133]邊界信息計算部207按照每個第2單位區間計算邊界信息(參照圖8)。
[0134]〈索引生成部208〉
[0135]索引生成部208根據由邊界信息計算部207計算出的邊界信息來檢測場景變化點，把將檢測出的場景變化點索引化得到的索引信息輸出給索引存儲裝置105。圖15是表示索引生成部208的功能構成例的框圖。如圖15所示，索引生成部208具有投票部301、閾值計算部302和邊界判定部303。下面，對各構成進行說明。
[0136]〈投票部301〉
[0137]投票部301按照由邊界信息計算部207計算出的邊界信息所表示的每個時刻，計算表示同一時刻的邊界信息的數量作為邊界度。投票部301針對從邊界信息計算部207輸入的各個邊界信息，在所輸入的邊界信息所表示的時刻進行投票(將與時刻i對應的邊界度KKi加1)，由此計算邊界度。另外，投票部301在利用一個邊界信息指定的起始端的時刻和終止端的時刻這兩個時刻進行投票。
[0138]〈閾值計算部302〉
[0139]閾值計算部302使用由投票部301計算出的每個時刻的邊界度的平均U和標準偏差O，計算閾值Th。在邊界信息所表示的時刻是Ti (i=l、2、3、…、N)、與其對應的邊界度是KKi (i=l、2、3、…、N)的情況下，利用下面的式(1)、(2)和(3)對平均值y、標準偏差O和閾值Th賦值。
[0140][數學式I]
【權利要求】
1.一種聲音處理裝置，其特徵在於，該聲音處理裝置具有: 特徵計算單元，按照每個單位區間來計算表示所輸入的音頻信號的單位區間的特徵的區間特徵；邊界計算單元，對於多個單位區間中的每個單位區間，計算與包括該單位區間在內的由區間特徵相似的多個單位區間構成的相似區間、和其它區間的邊界相關的邊界信息；以及判定單元，計算所述邊界信息所表示的各個邊界的優先度，根據所述優先度判定所述各個邊界是否是場景變化點。
2.根據權利要求1所述的聲音處理裝置，其特徵在於，所述判定單元計算表示同一邊界的邊界信息的數量，作為所述優先度。
3.根據權利要求1所述的聲音處理裝置，其特徵在於，所述邊界計算單元還計算表示所述相似區間與其它區間之間的音頻信號的特徵的變化程度的變化度，作為所述邊界信息，所述判定單元計算表示同一邊界的邊界信息的所述變化度的累計值，作為所述優先度。
4.根據權利要求1所述的聲音處理裝置，其特徵在於，所述邊界計算單元還計算表示所述相似區間與其它區間之間的音頻信號的特徵的變化程度的變化度，作為所述邊界信息，所述判定單元計算表示同一邊界的邊界信息的所述變化度的最大值，作為所述優先度。
5.根據權利要求4所述的聲音處理裝置，其特徵在於，所述邊界計算單元還使用所述相似區間中包含的所述單位區間的區間特徵，來計算表示該相似區間的聲音環境的聲音環境信息，以作為所述邊界信息，所述聲音處理裝置還具有分類單元，該分類單元使用所述聲音環境信息將所述場景變化點分類，並將分類結果的分類信息賦予所述場景變化點。
6.根據權利要求1所述的聲音處理裝置，其特徵在於，所述聲音處理裝置還具有根據所述優先度來計算閾值的閾值計算單元，所述判定單元檢測超過所述閾值的優先度的邊界的時刻，作為所述場景變化點。
7.根據權利要求1所述的聲音處理裝置，其特徵在於，所述判定單元按照所述優先度從高到低的順序檢測規定數量的所述邊界，作為所述場景變化點。
8.根據權利要求7所述的聲音處理裝置，其特徵在於，所述判定單元根據所述音頻信號的長度來決定所述規定數量。
9.根據權利要求1所述的聲音處理裝置，其特徵在於，所述邊界計算單元計算所述相似區間的起始端的時刻，作為所述邊界信息。
10.根據權利要求1所述的聲音處理裝置，其特徵在於，所述邊界計算單元計算所述相似區間的終止端的時刻，作為所述邊界信息。
11.根據權利要求1所述的聲音處理裝置，其特徵在於，所述邊界計算單元針對所述音頻信號的所有單位區間計算所述邊界信息。
12.根據權利要求1所述的聲音處理裝置，其特徵在於，將所述單位區間設為第2單位區間，所述第2單位區間由多個連續的第I單位區間構成，所述聲音處理裝置還具有: 模型存儲單元，預先存儲表示多種音素的各個音素的特徵的概率模型；以及似然度向量生成單元，使用所述概率模型，按照每個所述第I單位區間生成似然度向量，該似然度向量以相對於所述音頻信號的所述各個音素的似然度為成分，所述區間特徵使用所述第2單位區間中包含的多個第I單位區間的似然度向量而生成，所述區間特徵是表示所述各個音素的出現頻次的頻次向量。
13.根據權利要求12所述的聲音處理裝置，其特徵在於，所述聲音處理裝置還具有特徵量向量生成單元，所述特徵量向量生成單元計算表示音頻信號的所述第I單位區間中的頻率特性的特徵量向量，所述似然度向量生成單元使用所述特徵量向量和所述概率模型來生成所述似然度向量。
14.一種聲音處理裝置，其特徵在於，該聲音處理裝置具有: 特徵計算單元，按照每個單位區間來計算表示所輸入的音頻信號的單位區間的特徵的區間特徵；邊界計算單元，對於多個單位區間中的每個單位區間，計算與包括該單位區間在內的由區間特徵相似的多個單位區間構成的相似區間和其它區間的邊界相關的邊界信息；以及場景構造推定單元，從所述邊界信息所表示的邊界中，檢測由所述音頻信號表示的場景中所包含的第I場景的邊界、和包含在該第I場景中的第2場景的邊界。
15.一種聲音處理方法，其特徵在於，該聲音處理方法包括: 特徵計算步驟，按照每個單位區間來計算表示所輸入的音頻信號的單位區間的特徵的區間特徵；邊界計算步驟，對於多個單位區間中的每個單位區間，計算與包括該單位區間在內的由區間特徵相似的多個單位區間構成的相似區間和其它區間的邊界相關的邊界信息；以及判定步驟，計算所述邊界信息所表示的各個邊界的優先度，根據所述優先度判定所述各個邊界是否是場景變化點。
16.一種程序，被記錄在計算機可讀的非臨時性記錄介質中，執行根據音頻信號來檢測場景變化點的場景變化點檢測處理，其特徵在於，所述場景變化點檢測處理包括: 特徵計算步驟，按照每個單位區間來計算表示所輸入的音頻信號的單位區間的特徵的區間特徵；邊界計算步驟，對於多個單位區間中的每個單位區間，計算與包括該單位區間在內的由區間特徵相似的多個單位區間構成的相似區間和其它區間的邊界相關的邊界信息；以及判定步驟，計算所述邊界信息所表示的各個邊界的優先度，根據所述優先度判定所述各個邊界是否是場景變化點。
17.一種集成電路，其特徵在於，該集成電路具有: 特徵計算部，按照每個單位區間來計算表示所輸入的音頻信號的單位區間的特徵的區間特徵；邊界計算部，對於多個單位區間中的每個單位區間，計算與包括該單位區間在內的由區間特徵相似的多個單位區間構成的相似區間和其它區間的邊界相關的邊界信息；以及判定部，計算所述邊界信息所表示的各個邊界的優先度，根據所述優先度判定所述各個邊界是否是場景變化點。
【文檔編號】G10L25/57GK103534755SQ201380001357
【公開日】2014年1月22日申請日期:2013年3月11日優先權日:2012年4月20日
【發明者】小沼知浩, 上野山努申請人:松下電器產業株式會社

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

聲音處理裝置、聲音處理方法、程序及集成電路的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法