聲音同時處理裝置、方法及程序的製作方法

2023-10-06 05:57:39 3

聲音同時處理裝置、方法及程序的製作方法
【專利摘要】本發明涉及聲音同時處理裝置、方法及程序。將發聲聲音的識別結果分割為適當的處理單位。包括：取得部，取得聲音信號；聲音識別部，生成聲音信號中聲音識別處理結束後變換為字符串的聲音區間對應的字符串即確定字符串和為後續於確定字符串的聲音區間的、處於聲音識別處理途中且未確定作為變換結果的字符串的聲音區間對應的一個以上的候補字符串；檢測部，對分別連接確定字符串和一個以上的候補字符串而成的一個以上的組合字符串，由表示成為自然語言處理中處理單位的開始位置的詞素的位置的分割點分割該組合字符串時，在存在在組合字符串的各個中相同的包括於確定字符串的字符串時，將該字符串檢測為處理單位字符串；輸出部，輸出處理單位字符串。
【專利說明】聲音同時處理裝置、方法及程序

【技術領域】
[0001 ] 本發明的實施方式涉及聲音同時處理裝置、方法及程序。

【背景技術】
[0002]近年，伴隨聲音處理技術的提高，應用接收人的發聲而工作的各種服務例如聲音指令、聲音檢索及聲音對話等的系統。人的發聲即口頭語言中沒有書面語言所包括的標點符號那樣的明確的斷句(劃分)處，為了提供上述服務，必須將接收的發聲分割為適於該服務的單位。作為分割為適於服務的處理單位的方法，存在將包括無聲區間即停頓的發聲分割為處理單位的方法。

【發明內容】

[0003]但是，上述的方法中，由於將因講話者和/或講話方式的差異而變化大的停頓用作發聲的斷句信息，因此有時無法檢測適當的處理單位。例如，將以預先確定的長度的停頓長度斷句的聲音區間中的聲音識別結果的字符串分割為處理單位時，事先應提供的適當的停頓長度因講話者而異，而且，即使是同一講話者也不一定總是採用一定的停頓長度，因此無法檢測出適當的處理單位。
[0004]另外，增大停頓長度的閾值時，直到確定處理單位為止的時間增加，因此，對原始發聲的後續處理的同步性降低。另一方面，減小停頓長度的閾值時，同步性提高，但是，由於通過停頓而斷句的單位增加，因此，檢測到零碎的處理單位，後續處理的精度降低。
[0005]本發明為解決上述問題而提出，目的是提供可以將發聲聲音的識別結果分割為適當的處理單位的聲音同時處理裝置、方法及程序。
[0006]本發明的一實施方式的聲音同時處理裝置包括取得部、聲音識別部、檢測部和輸出部。取得部取得聲音信號。聲音識別部生成:上述聲音信號中的聲音識別處理結束後變換為字符串的聲音區間所對應的字符串即確定字符串，和為後續於該確定字符串的聲音區間的、處於聲音識別的處理途中而未確定作為變換結果的字符串的聲音區間所對應的一個以上的候補字符串。檢測部對於將上述確定字符串和一個以上的上述候補字符串分別連接而成的一個以上的組合字符串，在通過表示成為自然語言處理中的處理單位的開始位置的詞素的位置的分割點分割該組合字符串時，在存在在上述組合字符串的各個中相同的、包括於上述確定字符串的字符串的情況下，將該字符串檢測為處理單位字符串。輸出部輸出上述處理單位字符串。
[0007]根據上述構成的聲音同時處理裝置，可以將發聲聲音的識別結果分割為適當的處理單位。

【專利附圖】

【附圖說明】
[0008]圖1是表示第I實施方式的聲音同時處理裝置的框圖。
[0009]圖2是表示第I實施方式的聲音同時處理裝置的工作的流程圖。
[0010]圖3是表示識別結果存儲部存儲的確定字符串和候補字符串的第I例的示圖。
[0011]圖4是表示組合字符串的分割點的檢測結果的第I例的示圖。
[0012]圖5是表示第I實施方式中的處理單位存儲部存儲的處理單位字符串的示圖。
[0013]圖6是表示識別結果存儲部存儲的確定字符串和候補字符串的第2例的示圖。
[0014]圖7是表示組合字符串的分割點的檢測結果的第2例的示圖。
[0015]圖8是表示第2實施方式的聲音同時處理裝置的框圖。
[0016]圖9是表示第2實施方式的聲音同時處理裝置的工作的流程圖。
[0017]圖10是表示第2實施方式的處理單位存儲部存儲的處理單位信息的第I例的示圖。
[0018]圖11是表示再處理單位字符串的分割點的檢測結果的示圖。
[0019]圖12是表示處理單位存儲部存儲的處理單位信息的第2例的示圖。
[0020]圖13是表示處理單位存儲部存儲的處理單位信息的第3例的示圖。
[0021]圖14是表示再處理單位字符串的分割點的檢測結果的示圖。
[0022]圖15是表示更新後的處理單位信息的一例的示圖。

【具體實施方式】
[0023]以下，參照附圖詳細說明本公開的一實施方式的聲音同時處理裝置、方法及程序。另外，以下的實施方式中，附同一編號的部分進行同樣的工作，將重複的說明省略。
[0024](第I實施方式)
[0025]參照圖1的框圖說明第I實施方式的聲音同時處理裝置。
[0026]本實施方式的聲音同時處理裝置100包括取得部101、聲音識別部102、識別結果存儲部103、檢測部104、處理單位存儲部105及輸出部106。
[0027]取得部101取得講話者發出的聲音作為聲音信號。聲音信號可以例如通過麥克風集音並將其通過模擬及數字變換器(A/D變換器)處理而獲得。另外，也可以將預先在記錄介質等錄音的聲音通過再現器件等讀入記錄介質並再現而取得為聲音信號。
[0028]聲音識別部102從取得部101接收聲音信號,對聲音信號進行聲音識別處理,將聲音信號變換為文本字符串。聲音識別處理例如以採用隱馬爾可夫模型(Hidden MarkovModel:HMM)等的一般方法進行即可，因此這裡省略詳細說明。另外，聲音識別部102生成:聲音識別處理結束後變換為字符串的聲音區間所對應的字符串即確定字符串；為後續於該確定字符串的聲音區間的、處於聲音識別的處理途中並且作為變換結果的字符串未確定的聲音區間所對應的一個以上的候補字符串。
[0029]確定字符串及候補字符串的生成方法生成例如聲音信號中的一定的無聲期間(停頓)作為斷句處即可。即，將比停頓時間性靠前的區間的聲音所對應的確定了一個以上的候補的狀態下的最大似然的字符串設為確定字符串，將比停頓靠後的區間的聲音所對應的一個以上的字符串設為候補字符串即可。以下，將候補字符串的集合稱為候補字符串集口 ο
[0030]另外，確定字符串可以僅僅是相對於確定的聲音區間的最大似然的字符串，也可以以包括與確定的聲音區間對應的其他候補的形式如字符串點陣(lattice)形式生成。同樣，候補字符串集合也可以按每個候補字符串區別生成，也可以以字符串點陣形式輸出。
[0031]另外，作為確定字符串及候補字符串的生成方法的其他例，也可以通過:採用與聲音識別處理中的聲音相當的字符串候補達到預定單詞數的位置來取代停頓、採用字符串候補的生成概率超過一定的閾值的位置來取代停頓，生成確定字符串及候補字符串。
[0032]識別結果存儲部103從聲音識別部102接收確定字符串及一個以上的候補字符串，分別對應地存儲。另外，本實施方式中，確定字符串及候補字符串假定是單詞信息未附屬的明碼電文，但是也可以存儲按單詞斷句的系列來作為聲音識別部102的聲音識別處理結果。
[0033]檢測部104從識別結果存儲部103取得確定字符串及候補字符串集合。檢測部104將確定字符串和候補字符串集合所包括的各個候補字符串連接，獲得一個以上的組合字符串。檢測部104分析各個組合字符串，在可成為後續的自然語言處理的處理單位的開始位置的詞素的位置，檢測一個以上表示將組合字符串分割為部分字符串的位置的分割點。檢測部104在通過分割點分割組合字符串時，在存在在各個組合字符串中相同的、包括於確定字符串的字符串的情況下，將確定字符串所包括的字符串檢測為處理單位字符串。另外，各個組合字符串的集合也稱為組合字符串集合。
[0034]這裡，處理單位是指:表示對於與聲音同時處理裝置100連接的其他器件的工作最佳的字符串，例如，與機器翻譯裝置連接時是同時並行地譯出向機器翻譯裝置輸入的聲音而獲得最佳的翻譯結果那樣的翻譯單位。另外，在對發聲要求高追隨性的同聲翻譯等的聲音對話時，作為除了翻譯結果的品質之外還以相對於發聲的遲延時間為變量而實現最佳口譯精度和口譯時間的單位，同時並行地將聲音作為聲音對話的任務而處理的單位與之相當。
[0035]另外,檢測部104中，例如,可以用帶條件的隨機域(Condit1ning Random Field,條件隨機域)隨機地推定成為處理單位的分割點。機器學習中，也可以採用被賦予理想的處理單位的信息的學習數據(語料庫)來學習分割點，或者，在未被賦予理想的處理單位的信息的數據中，也可以學習使與本實施方式的聲音同時處理裝置連接的裝置理想地工作的概率最大化的分割點。
[0036]機器學習方法除了本實施方式說明的帶條件隨機域之外，也可以採用HMM、支持向量機(Support Vector Machine: SVM)這樣的其他模型來推定分割點，不限於上述的實現方式。另外，除了統計地檢測分割點的方法以外，例如，也可以應用基於詞素系列中的圖形匹配的方法和/或採用語法信息的方法等。
[0037]處理單位存儲部105從檢測部104接收處理單位字符串並存儲。
[0038]輸出部106從識別結果存儲部103接收確定字符串及候補字符串、從處理單位存儲部105接收處理單位字符串，向外部輸出。向外部的輸出可以在每次處理單位字符串生成時輸出，也可以在積累某種程度的處理單位字符串後匯總輸出。另外，也可以包? LCD (Liquid crystal display:液晶顯不器)和 / 或 0LED(organic light emittingd1de:有機發光二極體)顯示器這樣的顯示器件、和/或列印器件、揚聲器等的聲音器件、硬碟驅動器等的存儲介質的存儲器件。
[0039]接著，參照圖2的流程圖說明第I實施方式的聲音同時處理裝置100的工作。
[0040]步驟S201中，聲音識別部102對取得部101取得的聲音進行聲音識別處理，獲得確定字符串和候補字符串集合。
[0041]步驟S202中，檢測部104將確定字符串和候補字符串集合所包括的各個候補字符串連接，生成組合字符串，獲得以組合字符串為要素的組合字符串集合。這裡，生成與候補字符串的數目對應的組合字符串。
[0042]步驟S203中，檢測部104在由分割點分割各個組合字符串時，判定是否存在:使得存在在各個組合字符串中相同的、包括於確定字符串的字符串那樣的分割點。若有使得存在在各個組合字符串中相同的、包括於確定字符串的字符串那樣的分割點，則進入步驟S204，若沒有使得存在在各個組合字符串中相同的、包括於確定字符串的字符串那樣的分割點，則結束處理。
[0043]步驟S204中，處理單位存儲部105將確定字符串所包括的字符串存儲為處理單位字符串。
[0044]步驟S205中，輸出部106參照處理單位存儲部105，向外部輸出未輸出的處理單位字符串。以上，第I實施方式的聲音同時處理裝置100的工作結束。
[0045]接著，參照圖3到圖5說明第I實施方式的聲音同時處理裝置100的工作的具體例。這裡，表示對聲音同時處理裝置100連接從日語翻譯為英語的機器翻譯裝置的例。
[0046]這裡，假定下述狀況:講話者連續地發出「千葉市內T (V)予約(V) tz
妒良P * r > f見ο If X (Y) i b I t /V分，，的內容，聲音同時處理裝置100取得該發聲。記號(V)表示聲音同時處理裝置100識別為無聲區間(停頓)的位置。
[0047]首先，發聲為「千葉市內T (V)」時，聲音識別部102進行聲音識別處理，生成確定字符串和一個以上的候補字符串。參照圖3說明識別結果存儲部103存儲的確定字符串和候補字符串。
[0048]在識別結果存儲部103，確定字符串301和一個以上的候補字符串302對應地存儲。這裡，相對於確定字符串301 「千葉市內C」，分別對應有候補字符串302 「火照3 &」、「 * r 」、「掘ο T ^ & 」、「補填Θ 」。通過連接確定字符串301和各個候補字符串302，可以獲得組合字符串。即，獲得「千葉市內T火照石&」、「千葉市內O * ^ 「千葉市內讀。又^ 3 &」、「千葉市內T補填O」作為組合字符串，這4個組合字符串的集合成為組合字符串集合。
[0049]接著，檢測部104分析各個組合字符串，檢測分割點。分割點的檢測結果參照圖4說明。
[0050]圖4表示採用帶條件隨機域向組合字符串401所包括的詞素賦予表示分割點對處理單位的候補位置的標籤402的例。「B」表示成為處理單位的開始位置的詞素的位置，「I」表示處於處理單位的途中的詞素的位置。
[0051]例如，對於組合字符串401 「千葉市內T火照石Iv 」，可以在標籤402的「B」的分割點的位置分割為部分字符串，因此，可知可以分割為「千葉市內^ 」和「火照石的字符串。同樣，對於組合字符串「千葉市內T > O」，可以在標籤402 「B」的分割點的位置分割為「千葉市內T 」和虧 > 乃」。
[0052]這裡，檢測部104檢測使得存在在各個組合字符串401中相同的、包括於確定字符串的字符串那樣的分割點。圖4的例中，分割點中，可用標籤402 「B」分割，使得存在在各個組合字符串401中相同的、包括於確定字符串的字符串。即，由於存在確定字符串即「千葉市內T 」，因此將「千葉市內T 」檢測為處理單位字符串。
[0053]圖5表示將檢測部104獲得的處理單位字符串存儲在處理單位存儲部105的一例。如圖5所示，存儲處理單位字符串501「千葉市內C」。然後，輸出部106向外部輸出處理單位字符串「千葉市內C」。
[0054]圖6表示:接著繼續發聲，取得部101取得「 * r 予約(V) 」的發聲，通過聲音識別部102的處理獲得確定字符串和候補字符串集合的處理結果。
[0055]這裡，假定下述情況:獲得確定字符串601 「 * r 予約」和與確定字符串601對應的一個以上的候補字符串602。如圖6所示，作為候補字符串602，獲得^ 「退院」、「夕 ^ d > F」。
[0056]圖7表示:接著，檢測部104連接圖6所示的確定字符串和各個候補字符串，生成組合字符串，對各個組合字符串檢測分割點的結果。
[0057]如圖7所示，組合字符串701 「 * f > O予約f L.tz ^ L，，』在開頭的「 * f 以外不存在與標籤702 「B」對應的分割點，因此無法分割為部分字符串。另一方面，組合字符串701 「 * r > Q予約f 退院」，在開頭以外存在與標籤702 「B」對應的分割點，因此可以分割為AG予約& 和「退院」的字符串。另外，關於與候補字符串的開頭的字符串部分相符的標籤702，字符串「夕^ 取得為標籤702 「B」，字符串^ >卜取得為標籤 702 「 I 」。
[0058]該情況下，在全部的組合字符串701中相同並且以分割點分割的結果包括於確定字符串那樣的字符串，即，在各個組合字符串中標籤702在「B」處相同的分割點，並不存在。因此不生成新的處理單位字符串，不向處理單位存儲部105追加。
[0059]採用現有的以發聲中的停頓為線索的方法時，「 * r > co予約& 1.(V) 」的發聲對應的「 * f Θ予約f 」的部分被檢測為處理單位，因此，導致將後續的「 h P & T + ift 二 (二行# 作為其他處理單位被分開進行處理。這表示將分割的字符串作為機器翻譯裝置的處理單位時，作為翻譯結果，導致分離為「I book a hotel」和「I want, but whereshould I go」,無法正確反映原來的發聲所具有的意圖。
[0060]另一方面，第I實施方式的聲音同時處理裝置中，分析發聲的上下文而檢測處理單位，因此，可以抑制無法正確反映原來的發聲具有的意圖的處理單位的輸出。
[0061]S卩，根據第I實施方式，可以將發聲聲音的識別結果分割為適當的處理單位，例如與機器翻譯裝置連接時可以按處理單位字符串進行適當的翻譯，因此，即使在發聲途中也可以追隨並漸進地輸出。
[0062](第2實施方式)
[0063]第2實施方式中，與第I實施方式的不同點在於:根據發聲的狀況，更新處理單位字符串相關的信息。這樣，即使因後續的聲音的識別結果導致適當的處理單位改變時，也可以輸出正確反映原來的發聲具有的意圖的處理單位。
[0064]參照圖8說明第2實施方式的聲音同時處理裝置的框圖。
[0065]第2實施方式的聲音同時處理裝置800包括:取得部101、識別結果存儲部103、檢測部104、輸出部106、聲音識別部801、處理單位存儲部802及更新部803。
[0066]取得部101、識別結果存儲部103、檢測部104及輸出部106，與第I實施方式進行同樣的工作，因此這裡的說明省略。
[0067]聲音識別部801進行與第I實施方式的聲音識別部102同樣的處理，但是，不同點在於:取得聲音發出的時刻相關的時間信息和發出聲音的講話者的講話速度(以下稱為語速)。
[0068]處理單位存儲部802進行與第I實施方式的處理單位存儲部105同樣的處理，但是，不同點在於:將處理單位字符串和檢測處理單位字符串的區間所對應的聲音的時間信息對應地作為處理單位信息而存儲。
[0069]更新部803參照處理單位存儲部802存儲的處理單位信息，在新的處理單位信息向處理單位存儲部802追加了時，判定是否是:時間上先於追加的處理單位信息的、與預先設定的時間內連續發聲的聲音區間對應的處理單位信息。該判定也可以從聲音識別部801接收時間信息及語速的至少任一個，參照接收的信息進行判定。
[0070]而且，更新部803，在存在先於追加的處理單位信息的、與預先設定的時間內連續發聲的聲音區間對應的處理單位信息時，將對應的處理單位信息所包括的處理單位字符串按時間序列順序連接，生成再處理單位字符串。而且，再處理單位字符串的分割點和處理單位存儲部802存儲的處理單位字符串的分割點不同時，將連接的以前的處理單位信息所包括的處理單位字符串和時間信息置換為再處理單位字符串和與再處理單位字符串對應的時間信息。
[0071]確定連續發聲的聲音區間時所採用的閾值，在參照例如時間信息時，也可以根據在先的處理單位信息對應的聲音的結束時刻和後續的處理單位信息對應的聲音的開始時刻的差來設定。另外，也可以根據成為評價對象的連續的處理單位信息的時間長度的和來設定。
[0072]另外，參照語速時，可以根據一個以上的講話者的語速的統計值來確定停頓的長度的閾值，也可以預先取得每個講話者的語速，按每個講話者設定閾值。另外，閾值可以是事先設定的值，也可以根據發聲的狀況而動態地設定。
[0073]接著，參照圖9的流程圖說明第2實施方式的聲音同時處理裝置800的工作。
[0074]步驟S201到步驟S203為止及步驟S205的處理，與第I實施方式的聲音同時處理裝置100的工作同樣，因此說明省略。
[0075]步驟S901中，處理單位存儲部802將處理單位字符串和與處理單位字符串對應的聲音區間的時間信息對應地作為處理單位信息存儲。
[0076]步驟S902中，更新部803判定未輸出的處理單位信息是否存在。未輸出的處理單位信息存在時，進入步驟S903，未輸出的處理單位信息不存在時，進入步驟S205。
[0077]步驟S903中，預先設定的時間內連續發聲的處理單位字符串若為多個，則將多個處理單位字符串按時間序列順序連接，生成再處理單位字符串。
[0078]步驟S904中，更新部803對再處理單位字符串，檢測分割點。分割點的檢測方法採用與檢測部104中的分割點的算出方法同樣的方法即可。
[0079]步驟S905中，更新部803對再處理單位字符串，判定是否檢測到與處理單位存儲部802存儲的處理單位字符串的分割點不同的分割點。檢測到不同分割點時，進入步驟S906，未檢測到不同分割點時，進入步驟S205。
[0080]步驟S906中，更新部803用包括再處理單位字符串的新的處理單位信息更新處理單位存儲部802存儲的處理單位信息，進入步驟S205。以上，第2實施方式的聲音同時處理裝置800的工作結束。
[0081]接著，參照圖10說明第2實施方式的處理單位存儲部802存儲的處理單位信息的一例。
[0082]圖10是表示處理單位信息1000的表，處理單位字符串501和時間信息1001對應地存儲，作為處理單位信息1000。這裡，作為時間信息1001，檢測到處理單位字符串501的區間所對應的聲音的開始時刻1002和結束時刻1003，與處理單位字符串501對應。具體地說，圖10所示處理單位字符串501 「千葉市內T 」和開始時刻1002 「10:03:31.21」、結束時刻 1003 「10:03:32.73」對應。
[0083]接著，參照圖11到圖15說明第2實施方式的聲音同時處理裝置800的工作的具體例。
[0084]首先，假定:圖10所示處理單位信息1000所包括的處理單位字符串「千葉市內未輸出，預先設定的時間內連續的發聲所對應的字符串僅僅為「千葉市內T 」。此時，更新部803的步驟S902的處理中，判定為存在未輸出的處理單位信息，對處理單位字符串「千葉市內檢測分割點。
[0085]對再處理單位字符串檢測分割點的結果如圖11所示。再處理單位字符串1101「千葉市內T 」所對應的標籤1102與對圖5所示的處理單位字符串501檢測的分割點的標籤(圖4的「千葉市內的標籤「B，I，I」)相同，因此更新部803的處理結束。
[0086]圖12表示下述例子:進而，發聲繼續，後續於第I實施方式中發出的聲音，聲音識別部102取得聲音「 tz H f才ff'良P * f f見? (V) 」，檢測部104進行分析，處理單位存儲部802將「良P * f &見? 」存儲為處理單位信息。
[0087]這裡，假定為圖12所示處理單位信息從輸出部106全部輸出了的狀態，S卩，「千葉市內T 」、「 * r ^ 0予約f 亡P I T t作」、「良P* f f見ο (少? 」按順序輸出了的狀態。聲音同時處理裝置800與機器翻譯裝置連接時，假定輸出「In Chiba city」、「I』d liketo make a hotel reservat1n.，，、「Please find a good hotel.」。
[0088]接著，取得部101取得聲音「 ? 6 λ f姑/l.分」，通過聲音識別部102及檢測部104的處理獲得「 ? 6 λ々」，作為新的發聲的處理單位字符串。圖13表示下述例子:其後，將該處理單位字符串對應的聲音區間的開始時刻和結束時刻對應地作為處理單位信息，在處理單位存儲部802存儲。
[0089]圖9所示更新部803的更新處理中，處理單位信息1301 「 ? 6 λ t姑&分」未輸出，因此，處理單位信息1301 h Ii 分」成為處理對象。此時，是否連續發聲的閾值為I秒時，處理單位信息1302 「千葉市內T 」和處理單位信息1303 「 * r 予約L.tzH f才if 」的發聲間的差為0.05秒，處理單位信息1303「 * r 予約作」和處理單位信息1304 「良P* f f見? 」的差為0.17秒，處理單位信息1304 「良P* r ^ ?，，和處理單位信息1301 u i b I ± /V分，，的差為0.31秒，因此，這些處理單位信息對應的發聲確定為在預先設定的時間內連續發聲。從而，這些處理單位字符串按時間序列順序連接而成的組合字符串「千葉市內T f > O予約I L.tz作良P

^作為再處理單位字符串而生成。
[0090]圖14表示:接著，對再處理單位字符串「千葉市內T f > O予約& I tz ^ L V十#良P*亍> f ? O (少? ? 6無f姑&分，，檢測分割點的結果。
[0091]如圖14所示作為分割點的檢測結果，檢測到不同於圖13所示處理單位字符串「良P *亍卟奩見O (少? 」和「毛6無f姑/分」的處理單位字符串「良P *亍卟奩見O (少? I
6無t姑九分」。
[0092]最終更新的處理單位存儲部802的處理單位信息如圖15所示。
[0093]作為處理單位信息，將圖13所示處理單位信息1304 「良P * f f見? 」和處理單位信息1301 ui b l± /V分」，更新為圖15所示處理單位信息1501 「良P * r A奩見ο (少?6無f姑九分，，。另外，處理單位字符串「良P *亍卟奩見ο (少?毛b I ±
^力、」的聲音對應的開始時刻1002和結束時刻1003，被更新為處理單位信息1304 「良^ *亍> f見ο汁?，，的開始時刻「10:03:37.72，，和處理單位信息1301 「 ? 6 λ t姑九分，，的結束時刻「10:03:41.97」。
[0094]另外，沒有更新部803時，不進行處理單位的更新，從而，圖13所示處理單位信息對應的全部的處理單位字符串輸出，因此，形成「In Chiba city」、「I』d like to make ahotel reservat1n，，、「Please find a good hotel，，、「I cannot get it ?，，這一系列翻譯，可能多餘地生成原來的發聲中不存在的「 ? ^ λ々P T +? 」這一含義的翻譯。另一方面，第2實施方式的聲音同時處理裝置中，作為處理單位字符串的機器翻譯，獲得「良P * r A全見分」，因此，這裡，向機器翻譯裝置提供處理單位字符串時，例如，獲得「Could you find a good hotel for me ? 」這一譯文。
[0095]根據以上所示的第2實施方式，即使因後續的發聲的識別結果導致適當的處理單位改變時，也可以輸出正確反映原來的發聲的意圖的處理單位。
[0096]上述的實施方式中所示的處理步驟所示的指示，可以根據軟體即程序而執行。通用的計算機系統通過預先存儲該程序並讀取該程序，也可以獲得與上述聲音同時處理裝置的效果同樣的效果。上述的實施方式記述的指示，作為可使計算機執行的程序，在磁碟(軟盤、硬碟等)、光碟(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD 土 RW、Blu-ray (註冊商標)Disc等)、半導體存儲器或類似其的記錄介質記錄。只要是計算機或插入系統可讀取的記錄介質，則存儲形式可以是任意的方式。計算機若從該記錄介質讀入程序，根據該程序由(PU執行程序所記述的指示，則可以實現與上述實施方式的聲音同時處理裝置同樣的工作。當然，計算機取得或讀入程序時也可以通過網絡取得或讀入。
[0097]另外，也可以根據從記錄介質向計算機和/或插入系統安裝的程序的指示，由計算機上運行的OS(作業系統)和/或資料庫管理軟體、網絡等的MW(中間件)等，執行用於實現本實施方式的各處理的一部分。
[0098]而且，本實施方式中的記錄介質不限於與計算機或者插入系統獨立的介質，也包括下載並存儲或暫時存儲有由LAN和/或網際網路等傳輸的程序的記錄介質。
[0099]另外，記錄介質不限於一個，即使從多個介質執行本實施方式中的處理時，也包括在本實施方式中的記錄介質中，介質的構成可以是任意構成。
[0100]另外，本實施方式中的計算機或插入系統是用於根據記錄介質存儲的程序來執行本實施方式中的各處理的裝置，也可以是包括個人計算機、微計算機等的一個的裝置、多個裝置網絡連接而成的系統等的任意構成。
[0101]另外，本實施方式中的計算機不限於個人計算機，也包括信息處理設備所包括的運算處理裝置、微計算機等，是可通過程序實現本實施方式中的功能的設備、裝置的總稱。
[0102]雖然說明了本發明的幾個實施方式，但是這些實施方式只是例示，而不是限定發明的範圍。這些新實施方式能以其他各種方式實施，在不脫離發明的要旨的範圍，可以進行各種省略、置換、變更。這些實施方式和/或其變形包括於發明的範圍和/或要旨中，也包括於技術方案記載的發明及其均等的範圍中。
【權利要求】
1.一種聲音同時處理裝置，其特徵在於，具備: 取得聲音信號的取得部；聲音識別部，其生成:上述聲音信號中的聲音識別處理結束而變換為字符串的聲音區間所對應的字符串即確定字符串；和為後續於該確定字符串的聲音區間的、處於聲音識別的處理途中而未確定作為變換結果的字符串的聲音區間所對應的一個以上的候補字符串；檢測部，其對於分別連接上述確定字符串和一個以上的上述候補字符串而成的一個以上的組合字符串，在由分割點分割該組合字符串時，在存在在上述組合字符串的各個中相同的、包括於上述確定字符串的字符串的情況下，將該字符串檢測為處理單位字符串，上述分割點表示成為自然語言處理中的處理單位的開始位置的詞素的位置；以及輸出上述處理單位字符串的輸出部。
2.權利要求1所述的聲音同時處理裝置，其特徵在於，還具備更新部，該更新部根據新取得的第1處理單位字符串和之前取得的第2處理單位字符串的關係，在上述分割點的位置變化時，更新上述第2處理單位字符串。
3.權利要求1所述的聲音同時處理裝置，其特徵在於，還具備: 存儲部，其將上述處理單位字符串和發出該處理單位字符串的聲音區間所對應的聲音信號的時間信息對應地存儲為處理單位信息；和更新部，其向上述存儲部追加新的處理單位信息即第1處理單位信息時，在存在先於該第1處理單位信息且在閾值以內的時間連續發聲的聲音區間所對應的第2處理單位信息時，將該第2處理單位信息和上述第1處理單位信息所包括的處理單位字符串按時間序列順序連接，來生成再處理單位字符串，用該再處理單位字符串及該再處理單位字符串所對應的時間信息來更新上述存儲部所存儲的處理單位信息。
4.權利要求3所述的聲音同時處理裝置，其特徵在於，上述聲音識別部取得與發出上述處理單位字符串的時間相關的時間信息，上述更新部參照上述時間信息，判定是否存在上述第2處理單位信息。
5.權利要求3所述的聲音同時處理裝置，其特徵在於，上述聲音識別部取得講話者的講話速度即語速，上述更新部參照上述語速，判定是否存在上述第2處理單位信息。
6.權利要求1到5的任一項所述的聲音同時處理裝置，其特徵在於，上述自然語言處理為機器翻譯時，上述處理單位是適於將上述聲音信號同時並行譯出的翻譯單位。
7.權利要求1到5的任一項所述的聲音同時處理裝置，其特徵在於，上述自然語言處理為聲音對話時，上述處理單位是將上述聲音信號作為聲音對話的任務同時並行輸出的單位。
8.—種聲音同時處理方法，其特徵在於，取得聲音信號，生成:上述聲音信號中的聲音識別處理結束而變換為字符串的聲音區間所對應的字符串即確定字符串；和為後續於該確定字符串的聲音區間的、處於聲音識別的處理途中而未確定作為變換結果的字符串的聲音區間所對應的一個以上的候補字符串；對於分別連接上述確定字符串和一個以上的上述候補字符串而成的一個以上的組合字符串，在由分割點分割該組合字符串時，在存在在上述組合字符串的各個中相同的、包括於上述確定字符串的字符串的情況下，將該字符串檢測為處理單位字符串，上述分割點表示成為自然語言處理中的處理單位的開始位置的詞素的位置；輸出上述處理單位字符串。
9.一種聲音同時處理程序，其特徵在於，用於使計算機作為以下單元發揮功能: 取得聲首彳目號的取得單兀；聲音識別單兀，其生成:上述聲音信號中的聲音識別處理結束而變換為字符串的聲音區間所對應的字符串即確定字符串；和為後續於該確定字符串的聲音區間的、處於聲音識別的處理途中而未確定作為變換結果的字符串的聲音區間所對應的一個以上的候補字符串；檢測單元，其對於分別連接上述確定字符串和一個以上的上述候補字符串而成的一個以上的組合字符串，在由分割點分割該組合字符串時，在存在在上述組合字符串的各個中相同的、包括於上述確定字符串的字符串的情況下，將該字符串檢測為處理單位字符串，上述分割點表示成為自然語言處理中的處理單位的開始位置的詞素的位置；以及輸出上述處理單位字符串的輸出單元。
【文檔編號】G10L15/26GK104464734SQ201410465639
【公開日】2015年3月25日申請日期:2014年9月12日優先權日:2013年9月19日
【發明者】釜谷聰史, 坂本明子申請人:株式會社東芝

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

聲音同時處理裝置、方法及程序的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法