文本生成器和文本生成方法

2023-09-16 10:36:00 2

文本生成器和文本生成方法
【專利摘要】根據一個實施例，文本生成器包括識別器、選擇器和生成單元。識別器被配置為識別所拾取的聲音，並獲取識別單元中識別的字符串和所識別的字符串的可信度。選擇器被配置為基於關於轉錄精確度的參數和關於轉錄所需工作量的參數中的至少一個，選擇至少一個所識別的字符串用於轉錄的句子。生成單元被配置為使用所選的識別字符串生成轉錄的句子。
【專利說明】文本生成器和文本生成方法
[0001] 相關申請的交叉引用
[0002] 本申請基於並要求以下申請的優先權：2013年4月3日提交的日本專利申請 No. 2013-077576 ;其全部內容通過引用併入本文。

【技術領域】
[0003] 本文描述的實施例大體上涉及一種文本生成器，以及一種文本生成方法。

【背景技術】
[0004] 在轉錄（transcription)工作中，例如在收聽記錄的聲音數據的同時，將語音的內容轉錄為句子(文本)。為了減小轉錄工作中的負擔，用於幫助轉錄工作的裝置已經採用語首識別系統。
[0005] 然而，該已知的裝置不能獲得操作者期望的適當的語音識別結果，並且因此不能減小轉錄工作中的負擔。

【發明內容】

[0006] 實施例的目的是提供一種能夠減小轉錄工作中的負擔的文本生成器。
[0007] 根據一實施例，文本生成器包括識別器、選擇器以及生成單元。該識別器被配置為識別所拾取的聲音，並獲取識別單元中識別的字符串和所識別的字符串的可信度。該選擇器被配置為基於關於轉錄精確度的參數和關於轉錄所需工作量的參數中的至少一個，選擇至少一個所識別的字符串用於轉錄的句子。生成單元被配置為使用所選的所識別的字符串生成轉錄的句子。
[0008] 根據上述文本生成器，可減小轉錄工作中的負擔。

【專利附圖】

【附圖說明】
[0009] 圖1是示例性示意圖，示出了根據第一實施例的文本生成器的使用；
[0010] 圖2是示例性示意圖，示出了根據第一實施例的文本生成器的功能結構；
[0011] 圖3是示例性流程圖，示出了根據第一實施例的用於生成文本的基本處理；
[0012] 圖4是示例性示意圖，示出了根據第一實施例的語音識別結果的數據；
[0013] 圖5是第一示例性流程圖，示出了根據第一實施例的用於選擇識別的字符串的處理；
[0014] 圖6是示例性示意圖，示出了根據第一實施例的轉錄精確度的容許值的設定；
[0015] 圖7是第一示例性示意圖，示出了根據第一實施例的所識別的字符串的選擇結果的數據；
[0016] 圖8是第二示例性流程圖，示出了根據第一實施例的用於選擇所識別字符串的處理；
[0017] 圖9是示例性示意圖，示出了根據第一實施例的轉錄工作時間的容許值的設定；
[0018] 圖10是第二示例性示意圖，示出了根據第一實施例的所識別的字符串的選擇結果的數據；
[0019] 圖11是第三示例性流程圖，示出了根據第一實施例的用於選擇所識別字符串的處理；
[0020] 圖12是示例性示意圖，示出了根據第一實施例的轉錄工作成本的容許值的設定；
[0021] 圖13是第三示例性示意圖，示出了根據第一實施例的所識別的字符串的選擇結果的數據；
[0022] 圖14是示例性流程圖，示出了根據第一實施例的用於生成轉錄句子的處理；
[0023] 圖15是示例性示意圖，示出了根據第一實施例的轉錄句子的數據格式；
[0024] 圖16是示例性示意圖，示出了根據第一實施例的轉錄句子的顯示；
[0025] 圖17是示例性流程圖，示出了根據第一實施例的用於設定字符插入位置的處理；
[0026] 圖18是示例性流程圖，示出了根據第一實施例的用於搜索聲音位置的處理；
[0027] 圖19是示例性示意圖，示出了根據第二實施例的文本生成器的功能結構；
[0028] 圖20是示例性流程圖，示出了根據第二實施例的用於生成文本的基本處理；
[0029] 圖21是示例性流程圖，示出了根據第二實施例的用於結合識別結果的處理；
[0030] 圖22是示例性示意圖，示出了根據第三實施例的文本生成器的功能結構；
[0031] 圖23是示例性流程圖，示出了根據第三實施例的用於生成文本的基本處理；
[0032] 圖24是示例性示意圖，示出了根據第三實施例的發聲周期信息的數據；
[0033] 圖25是示例性流程圖，示出了根據第三實施例的用於選擇所識別字符串的處理；
[0034] 圖26是示例性示意圖，示出了根據第三實施例的轉錄精確度的容許值的設定；以及
[0035] 圖27是示例性示意圖，示出了根據第一至第三實施例的文本生成器的功能結構。

【具體實施方式】
[0036] 下面將參照附圖詳細描述文本生成器、文本生成方法以及電腦程式的實施例。 [0037] 第一實施例
[0038] 概述
[0039] 下面描述根據第一實施例的文本生成器的功能(在下文中稱為"文本生成功能")。根據第一實施例的文本生成器基於計算的識別字符串的可信度，選擇所識別的字符串用於轉錄的句子，識別字符串的計算是基於語音識別結果和關於轉錄精確度的參數。可替換地，根據本實施例的文本生成器基於計算的識別字符串的可信度，選擇所識別的字符串用於轉錄的句子，字符串的計算是基於語音識別結果和關於轉錄所需的工作量的參數。作為結果，根據本實施例的文本生成器根據所選擇的識別字符串生成轉錄的句子。因此，根據本實施例的文本生成器使能了使用適當的語音識別結果的轉錄工作。根據本實施例的文本生成器具有如此的文本生成功能。
[0040] 常規裝置的例子忽略了基於聲音數據的語音識別結果。這種裝置基於識別單詞的可信度和重要級別來獲取語音識別結果的優先級，並根據優先級將關於語音識別結果的輸出信息格式化。然而，這種常規裝置只允許操作者通過指定顯示目標範圍來調節輸出。常規裝置根據轉錄精確度或轉錄所需的工作量未充分地輸出操作者期望的適當的語音識別結果，從而增加了轉錄工作中強加於操作者的負擔。如上所述，常規裝置不會減小轉錄工作中強加於操作者的負擔。
[0041] 根據本實施例的文本生成器根據由操作者指定的工作條件(轉錄精確度或轉錄所需的工作量)來調節語音識別結果的輸出。當操作者對調節的輸出執行增加或校正時，本實施例中的文本生成器允許操作者通過使用語音識別結果使輸入字符與聲音同步，來執行轉錄工作。
[0042] 作為結果，根據本實施例的文本生成器使能了在轉錄工作中根據工作條件(例如是轉錄精確度或轉錄所需的工作量）使用適當的語音識別結果，從而能夠容易地將字符添加到語音識別結果或校正語音識別結果的字符。因此，根據該實施例的文本生成器可減小轉錄工作中強加於操作者的負擔。
[0043] 例如，根據本實施例的文本生成器可以提供以下服務。圖1是示意圖，示出了根據該實施例的文本生成器的使用示例。圖1示出一個例子，其中根據該實施例的文本生成器被用於一種服務。該服務識別多個發聲者的語音，將他們的發聲的內容轉錄到發聲者的相應發聲的文本中，並將為各個發聲來源的發聲者的名字添加到相應的文本中。
[0044] 下面描述了根據該實施例的文本生成器的結構和功能的操作。
[0045] 結構
[0046] 圖2為示意圖，示出了根據該實施例的文本生成器的功能結構的示例。如圖2所示，根據該實施例的文本生成器1〇〇包括拾取單元11、識別器12、選擇器13、生成單元14、設定單元15、搜索器16、播放器17、以及識別結果保存單元18。
[0047] 拾取單元11通過從某一輸入單元接收聲音輸入以拾取聲音。識別器12識別由拾取單元11拾取的聲音，至少計算在識別單元中所識別的字符串，以及所識別的字符串的可信度，並且將計算結果存儲在識別結果保存單元18中。例如，該識別單元是詞素。例如，所述識別結果保存單元18是文本生成器100中設置的存儲設備中的特定存儲區域。
[0048] 選擇器13基於關於轉錄工作的工作條件的各種參數和存儲在識別結果保存單元 18中的所識別字符串的可信度來選擇至少一個所識別的字符串用於轉錄的句子。例如，通過經由用戶界面（UI)接收操作者U的操作，來指定關於工作條件的各種參數值。生成單元 14使用由選擇器13選擇的所識別的字符串，生成轉錄的句子。設定單元15設定在轉錄句子中對應於未被選擇器13選擇的識別字符串的用於由操作者U執行的字符輸入的起始位置(在下文中稱為"字符插入位置")。例如，未被選擇的識別字符串是通過經由Π 接收來自操作者U的操作來指定的。
[0049] 當操作者U在由設定單元15設定的字符插入位置處開始字符輸入時，搜索器16 搜索與輸入字符對應的聲音的位置(在下文中稱為"聲音位置")，其。例如，搜索的開始是通過經由Π 接收來自的操作者U的操作而被指示的。播放器17從搜索到的聲音位置播放聲音。
[0050] 下面描述由根據本實施例的文本生成器100執行的用於生成文本的基本處理。
[0051] 處理
[0052] 圖3是流程圖，示出了根據本實施例的用於生成文本的基本處理的示例。如圖3 所示，拾取單元11拾取聲音(步驟S101)。識別器12識別由拾取單元11拾取的聲音，並計算識別單元中所識別的字符串，以及所識別的字符串的可信度(步驟S102)。作為結果，所識別的字符串和所識別的字符串的可信度被存儲在所述識別結果保存單元18中。
[0053] 選擇器13基於關於轉錄工作的工作條件的各種參數(工作條件參數）和存儲在識別結果保存單元18中的所識別字符串的可信度，來選擇至少一個所識別的字符串用於轉錄的句子(步驟S103)。選擇器13基於關於轉錄精確度的參數和識別字符串的可信度的組合或者是關於轉錄所需的工作量的參數和識別字符串的可信度的組合，來選擇識別的字符串用於轉錄的句子。生成單元14使用由選擇器13選擇的識別字符串和不是由選擇器13 選擇的識別字符串生成轉錄句子(步驟S104)。
[0054] 設定單元15根據從操作者U接收的設定，在轉錄句子中對應於不是由選擇器13 選擇的識別字符串的位置處設定用於操作者U的字符插入位置(步驟S105)。搜索器16基於識別結果搜索對應於由設定單元15設定的字符插入位置的聲音位置(步驟S106)。
[0055] 播放器17根據從操作者U接收的指令，從由搜索器16搜索的聲音位置播放聲音 (步驟S107)。此後，文本生成器100從操作者U接收字符輸入(添加或校正）（步驟S108)。
[0056] 從操作者U接收到結束轉錄的指令時（S109的是)，根據本實施例的文本生成器 100結束該處理。與此相反，文本生成器100重複從S106到S108的處理（S109的否)，直到操作者U執行結束轉錄的指令。
[0057] 細節
[0058] 在下面描述該功能單元的細節。
[0059] 各個功能單元的細節
[0060] 拾取單元11
[0061] 拾取單元11拾取聲音作為目標，根據該目標轉錄字符。
[0062] 識別器12
[0063] 識別器12識別由拾取單元11拾取的聲音，並至少獲得識別單元中所識別的字符串以及所識別的字符串的可信度作為識別結果。
[0064] 圖4是示意圖，示出了根據實施例的語音識別結果D1的數據的示例。圖4示出了當識別器 12 識別發聲"konnichiwa，ABC kaisha no taro desu"（英語，"Hello，this is Taro from ABC Company")時獲得的示例性結果。識別器12獲得語音識別結果Dl，其包括例如識別ID、識別的字符串，以及識別字符串的可信度。識別器12將獲得的語音識別結果 D1存儲在識別結果保存單元18中。
[0065] 選擇器13
[0066] 選擇器13基於關於轉錄精確度的參數和識別字符串的可信度的組合或者是關於轉錄所需的工作量的參數和識別字符串的可信度的組合來選擇至少一個識別的字符串用於轉錄的句子。
[0067] 下面描述轉錄精確度和轉錄所需的工作量。轉錄精確度為表示在轉錄的字符串和當語音被正確地轉錄為字符時的字符串（正確答案字符串）之間的一致程度的值。該值越大，轉錄的字符串和正確答案字符串之間的一致程度越高，表示轉錄是正確的。轉錄所需的工作量是將語音轉錄為字符所需的工作量，並且對應於轉錄工作花費的時間或所需的成本。
[0068] 下面描述由選擇器13執行的用於選擇所識別字符串的處理。圖5是流程圖，示出了根據實施例的用於選擇所識別字符串的處理的第一示例。圖5示出了當選擇器13使用轉錄精確度的容許值作為關於轉錄精確度的參數時的處理的示例。
[0069] 如圖5所示，選擇器13首先從操作者U接收轉錄精確度的容許值P的設定(步驟 S201)。
[0070] 圖6是示意圖，示出了根據本實施例的轉錄精確度的容許值P的設定的示例。如圖6所示，操作者U通過滑塊UI (滑動條）設定轉錄精確度容許值P，例如該容許值P允許從N個階層（圖6中N=5)中指定出一個可允許的階層。選擇器13在屏幕上以這種方式顯示該UI，並且接收來自操作者U的設定。
[0071] 再參考圖5,隨後選擇器13在由識別器12所獲得的識別結果(該識別結果存儲在識別結果保存單元18中)中設定第一識別字符串作為目標字符串w (步驟S202)，然後根據目標字符串w的可信度，計算目標字符串w的轉錄精確度wp (步驟S203)。例如，當從1到 N的正整數被用作各自的轉錄精確度時，選擇器13使用以下表達式（1)計算目標字符串w 的轉錄精確度wp。
[0072] wp=NX (w的可信度/可信度最大值）（1)
[0073] 然後，選擇器13比較計算的目標字符串w的轉錄精確度wp和轉錄精確度的容許值P，並確定轉錄精確度wp是否等於或大於容許值P (步驟S204)。如果確定wp等於或大於允許值P (S204的是)，則選擇器13選擇目標字符串w (步驟S205)。如果確定轉錄精確度wp小於容許值P (S204的否)，則選擇器13不選擇目標字符串w。
[0074] 然後，選擇器13確定由識別器12獲取的識別結果中是否存在下一個識別的字符串（步驟S206)。如果確定下一個識別的字符串存在（S206的是)，選擇器13設定下一個識別字符串作為目標字符串w (步驟S207)，並且隨後重複從S203到S206的處理。如果確定不存在下一個識別的字符串（S206的否)，選擇器13結束該處理。
[0075] 圖7是示意圖，示出了根據本實施例的識別的字符串選擇結果D2的數據的第一示例。圖7示出了選擇結果，其中所識別的字符串是基於通過表達式（1)計算的轉錄精確度 wp來選擇的，其中N=5,容許值P=4,最大可信度=100。選擇器13獲取識別的字符串選擇結果D2,其例如包括識別ID、所識別的字符串、所識別字符串的可信度、轉錄準確度wp和選擇結果。選擇器13可以基於轉錄所需的工作量(例如，"工作時間"和"工作成本"）選擇所識別的字符串。
[0076] 圖8是流程圖，示出了根據本實施例的用於選擇所識別字符串的處理的第二示例。圖8示出了當選擇器13使用轉錄所需的工作時間的容許值作為關於轉錄所需工作量的參數時的示例性處理。
[0077] 如圖8所示，選擇器13首先從操作者U接收轉錄所需的工作時間的容許值T的設定(步驟S301)。
[0078] 圖9是示意圖，示出了根據本實施例的轉錄所需的工作時間的容許值T的設定示例。如圖9所示，操作者U通過滑塊Π (滑動條）設定轉錄所需的工作時間的容許值T，該滑塊Π 例如使得可指定從00:00:00到HH:麗:SS的時間。選擇器13以這種方式在屏幕上顯示該Π ，並從操作者U接收設定。對於可以指定的最大時間，例如使用預定值。以下述方式計算的數值可以用作可指定的最大時間。例如，預先確定每個字符的工作時間；每個字符的工作時間乘以由識別器12獲取的識別字符串中的所有字符的數量，以計算乘積；並且可以使用所計算的值。當識別器12輸出各個識別字符串的起始時間和結束時間作為識別結果時，輸出的起始時間被從每個識別字符串的輸出的結束時間中減去，以計算時間（發聲時間）。可以使用所有識別字符串的各自發聲時間的總和。
[0079] 再參考圖8,然後，選擇器13以識別字符串可信度的遞減次序對識別器12獲取的識別結果進行排序(步驟S302)。然後，選擇器13初始化累積工作時間st，其表示轉錄所需工作時間的積累量(步驟S303)。
[0080] 然後，選擇器13將以遞減次序排序的識別結果中的第一識別字符串設定為目標字符串w (步驟S304)，然後計算目標字符串w的轉錄所需的工作時間t (步驟S305)。例如，選擇器13使用目標字符串w的字符數量，通過以下表達式（2)計算目標字符串w的轉錄所需的工作時間t。
[0081] t=a X (目標字符串w的字符數量）（2)
[0082] 例如，使用每個字符的轉錄所需的平均時間作為a。
[0083] 例如，當識別器12輸出各個識別字符串的起始時間和結束時間作為識別結果時，選擇器13可以通過以下表達式（3)計算目標字符串w的轉錄所需的工作時間t。
[0084] t= β X (目標字符串w的結束時間-目標字符串w的起始時間）（3 )
[0085] 例如，（識別單元中）每個詞素的轉錄所需的平均時間被用作β。
[0086] 然後，選擇器13根據目標字符串w的轉錄所需的工作時間t，計算轉錄所需的累積工作時間st (步驟S306)。例如，選擇器13將通過使用表達式（2)或（3)計算的目標字符串w的轉錄所需的工作時間t累加到轉錄所需的累積工作時間st。
[0087] 然後，選擇器13比較計算的轉錄所需的累積工作時間st和轉錄所需的工作時間的容許值T，並確定累積工作時間st是否等於或小於容許值T(步驟S307)。如果確定累積工作時間st等於或小於容許值T(S307的是)，則選擇器13選擇目標字符串w(步驟S308)。如果確定累積工作時間st大於容許值T (S307的否)，則選擇器13不選擇目標字符串w。
[0088] 然後，選擇器13確定由識別器12獲取的識別結果中是否存在下一個識別的字符串（步驟S309)。如果確定存在下一個識別的字符串（S309的是)，選擇器13設定下一識別的字符串作為目標字符串w (步驟S310)，並且重複從S305到S309的處理。如果確定不存在下一個識別的字符串（S309的否)，則選擇器13結束該處理。
[0089] 圖10是示意圖，示出了根據本實施例的識別的字符串選擇結果D2的數據的第二示例。圖10示出了選擇結果，其中所識別的字符串是基於通過使用表達式（3)計算的轉錄所需的工作時間t來選擇的。選擇器13獲取識別的字符串選擇結果D2,其例如包括識別 ID、所識別的字符串、所識別字符串的可信度、轉錄所需的工作時間t、累積工作時間st和選擇結果。
[0090] 圖11是流程圖，示出了根據本實施例的用於選擇所識別字符串的處理的第三示例。圖11示出了當選擇器13使用轉錄所需的工作成本的容許值作為關於轉錄所需工作量的參數時的示例性處理。
[0091] 如圖11所示，選擇器13首先從操作者U接收轉錄所需的工作成本的容許值C的設定（步驟S401)。
[0092] 圖12是示意圖，示出了本實施例的轉錄所需的工作成本的容許值C的設定的示例。如圖12所示，操作者U通過滑塊Π (滑動條)設定轉錄所需的工作成本的容許值C，該滑塊Π 例如使得能夠指定從零到最大值的數值。選擇器13以這種方式在屏幕上顯示Π ，並從操作者U接收設定。對於可以指定的最大數值，例如使用預定值。以下述方式計算的數值可以用作可指定的最大數值。例如，預先確定每個字符的工作時間；每個字符的工作時間乘以由識別器12獲取的識別字符串中的所有字符的數量，以計算乘積；並且可以使用所計算的值。當識別器12輸出各個識別字符串的發聲時間(從起始時間減去結束時間後的時間）作為識別結果時，各個識別字符串的輸出發聲時間的總和乘以每一單元時間的工作成本，以計算乘積，並且可以使用所計算的值。
[0093] 再參考圖11，然後，選擇器13以識別字符串可信度的遞減次序對識別器12獲取的識別結果進行排序(步驟S402)。然後，選擇器13初始化累積工作成本sc，累積工作成本 SC表示轉錄所需工作成本的積累量(步驟S403)。
[0094] 然後，選擇器13將以遞減次序排序的識別結果中的第一識別字符串設定為目標字符串w (步驟S404)，然後計算目標字符串w的轉錄所需的工作成本c (步驟S405)。例如，選擇器13使用目標字符串w的字符數量，通過以下表達式（4)計算目標字符串w的轉錄所需的工作成本c。
[0095] c=YX (目標字符串w的字符數量）（4)
[0096] 例如，每個字符的轉錄所需的平均成本被用作Y。
[0097] 例如，當識別器12輸出各個識別字符串的起始時間和結束時間作為識別結果時，選擇器13可以通過以下表達式（5)計算目標字符串w的轉錄所需的工作成本c。
[0098] c= ζ X (目標字符串w的結束時間-目標字符串w的起始時間）（5 )
[0099] 例如，（識別單元中）每個詞素的轉錄所需的平均成本被用作ζ。
[0100] 然後，選擇器13根據目標字符串w的轉錄所需的工作成本c，計算轉錄所需的累積工作成本sc (步驟S406)。例如，選擇器13將通過使用表達式（4)或（5)計算的目標字符串w的轉錄所需的工作成本c累積地加到轉錄所需的累積工作成本sc。
[0101] 然後，選擇器13比較計算的轉錄所需的累積工作成本sc和轉錄所需的工作成本的容許值C，並確定累積工作成本sc是否等於或小於容許值C(步驟S407)。如果確定累積工作成本sc等於或小於容許值C(S407的是)，則選擇器13選擇目標字符串w(步驟S408)。如果確定累積工作成本sc大於容許值C (S407的否)，則選擇器13不選擇目標字符串w。
[0102] 然後，選擇器13確定由識別器12獲取的識別結果中是否存在下一個識別的字符串（步驟S409)。如果確定存在下一個識別的字符串（S409的是)，選擇器13設定下一識別的字符串作為目標字符串w (步驟S410)，並且重複從S405到S409的處理。如果確定不存在下一個識別的字符串（S409的否)，則選擇器13結束該處理。
[0103] 圖13是示意圖，示出了根據本實施例的識別的字符串選擇結果D2的數據的第三示例。圖13示出了選擇結果，其中所識別的字符串是基於通過使用表達式（5)計算的轉錄所需的工作成本c來選擇的。選擇器13獲取識別的字符串選擇結果D2,其例如包括識別 ID、所識別的字符串、所識別字符串的可信度、轉錄所需的工作成本c、累積工作成本sc和選擇結果。
[0104] 生成單元14
[0105] 生成單元14使用選擇器13選擇的識別字符串和沒有選擇的識別字符串，生成轉錄句子。
[0106] 下面描述了生成單元14執行的生成轉錄句子的處理。圖14是流程圖，示出了根據本實施例的生成轉錄句子的處理的示例。圖15是示意圖，示出了根據本實施例的轉錄句子的數據格式的示例。
[0107] 如圖14所示，生成單元14首先初始化轉錄句子k (步驟S501)。如圖15所示，例如當數據格式是超文本標記語言（HTML)時，轉錄句子k是被生成用作division (DIV)元素。
[0108] 然後，生成單元14將識別器12獲取的識別結果中的第一識別字符串設定為目標字符串w (步驟S502)，然後判斷目標字符串w是否被選擇器13選擇(步驟S503)。如果確定目標字符串w被選擇（S503的是)，生成單元14從目標字符串w生成選擇的元素 s (步驟 S504)，然後再將這些生成的選擇的元素 s添加到轉錄句子k(步驟S505)。例如，如圖15所示，選擇的元素 s被生成作為span元素，該span元素具有目標字符串w的識別ID的ID屬性和表示選擇的元素 s的字符串的類別屬性(例如"選擇的")。如果確定目標字符串w沒有被選擇（S503的否)，則生成單元14從目標字符串w生成未選擇元素 ns (步驟S506)，然後再將生成的未選擇元素 ns添加到轉錄句子k (步驟S507)。例如，如圖15所示，未選擇元素 ns被生成作為span元素，該span元素具有目標字符串w的識別ID的ID屬性和表示未選擇元素 ns的字符串的類別屬性(例如"未選擇的")。
[0109] 然後，生成單元14確定識別器12獲取的識別結果中是否存在下一個識別的字符串（步驟S508)。如果確定存在下一個識別的字符串（S508的是)，生成單元14設定下一個識別的字符串作為目標字符串w (步驟S509)，並且重複從S503到S508的處理。如果確定不存在下一個識別的字符串（S508的否)，生成單元14結束該處理。
[0110] 圖16是示意圖，示出了根據本實施例的轉錄句子k的顯示的示例。如圖16所示，生成單元14可以生成轉錄句子k，該轉錄句子k可以顯示為不同的形式，該不同的形式明確地將選擇的元素 s的字符串與未選擇的元素 ns的字符串區分開。圖16的部分（A)示出了顯示的示例，其中未選擇的元素 ns的字符串是有下劃線的。圖16的部分（B)示出了另一顯示的示例，其中未選擇的元素 ns的字符串中的字符的尺寸小於選擇的元素 s的字符串中的字符的尺寸。圖16的部分（C)還示出了另一顯示的示例，其中未選擇的元素 ns的字符串被加陰影。圖16的部分（D)還示出了另一顯示的示例，其中未選擇的元素 ns的字符串中的字符被替換為特定字符（圖16的部分（D)中的實心圓)。除了這些顯示示例之外，其他顯示示例可通過改變字符的密度、顏色、或字體或背景顏色來獲得。當識別器12在識別單元中以可信度的遞減次序輸出直到第N個候選者的識別字符串時（N是等於或大於1的整數)，可以生成轉錄句子k，在該轉錄句子k中直到第N個候選者的識別的字符串被顯示用於未選擇的字符串，使得它們可被操作者U選擇。
[0111] 設定單元15
[0112] 設定單元15基於由生成單元14生成的轉錄句子k的未選擇元素 ns，設定字符插入位置(用於開始字符輸入的位置)。設定單元15基於檢測的當前字符插入位置以及選擇元素和未選擇元素之間的位置關係，來設定字符插入位置，該選擇元素對應於由選擇器13 選擇的識別字符串，未選擇元素對應於轉錄句子中沒有被選擇器13選擇的識別字符串。
[0113] 下面描述設定單元15執行的設定字符插入位置的處理。圖17是流程圖，示出了根據本實施例的設定字符插入位置的處理的示例。
[0114] 如圖17所示，設定單元15首先從操作者U接收移動到未選擇元素 ns的字符的指令(步驟S601)。例如，當檢測到顯示的轉錄句子中的某一按鍵(例如，"Tab鍵"）被壓下時，設定單元15確定移動被指示，並接收該指示。然後設定單元15檢測轉錄句子中的當前字符插入位置cp (步驟S602)。當前字符插入位置cp是此時轉錄句子中的字符串中的字符插入位置cp。例如，當前字符插入位置cp對應於轉錄句子被顯示所在的屏幕上的光標位置 (例如，"堅線閃爍的位置")。
[0115] 然後，設定單元15確定檢測的當前字符插入位置cp是否在選擇的元素中（步驟 S603)。如果確定當前字符插入位置cp是在選擇的元素中（S603的是)，則設定單元15在最接近於當前字符插入位置cp並且在當前字符插入位置cp後面的位置處檢測未選擇的元素 ns (步驟S604)。如果確定當前字符插入位置cp不在選擇的元素中（S603的否)，則設定單元15在最接近於當前字符插入位置cp並且在當前字符插入位置cp後面的位置處檢測選擇的元素 s (步驟S605)。然後設定單元15在最接近於檢測的選擇的元素 s並且在檢測的選擇元素 s後面的位置處檢測未選擇的元素 ns (步驟S606)。然後，設定單元15將字符插入位置cp移動到檢測的未選擇元素 ns的頭位置nsp (步驟S607)。
[0116] 當在未選擇的元素後面存在其他連續的未選擇的元素時，其中當前字符插入位置 cp被移動至未選擇的元素的頭位置nsp，設定單元15可以彼此不同的形式顯示未選擇的元素 ns的字符串以及其他未選擇的元素的字符串。設定單元15可使用彼此不同的背景顏色來突出未選擇的元素 ns的字符串以及其它未選擇的元素的字符串。
[0117] 搜索器16
[0118] 當操作者U在字符插入位置cp處開始字符輸入時，搜索器16搜索對應於輸入字符的聲音位置。
[0119] 下面描述搜索器16執行的用於搜索聲音位置的處理。圖18是流程圖，示出了根據本實施例的用於搜索聲音位置的處理的示例。
[0120] 如圖18所示，設定單元15首先從操作者U接收搜索對應於當前字符插入位置cp 的聲音位置的指令(步驟S701)。例如，當檢測到顯示的轉錄句子中的輸入鍵被壓下時，搜索器16確定搜索被指示，並接收該指示。
[0121] 然後，搜索器16檢測轉錄句子中的當前字符插入位置cp (步驟S702)。然後，搜索器16確定檢測的當前字符插入位置cp是否在選擇的元素中（步驟S703)。
[0122] 如果確定當前字符插入位置cp在選擇的元素中時（S703的是)，則搜索器16設定選擇的元素 s的起始時間作為聲音位置P (步驟S704)。如果確定當前字符插入位置cp不在選擇的元素中時（S703的否)，搜索器16使用某一語音識別技術(例如，"強制對準方法 forced alignment method")估計聲音位置p (步驟S705)。例如，搜索器16使用語音識別技術，基於轉錄句子k、對應於其中存在字符插入位置cp的未選擇元素 ns的識別字符串的起始時間、以及當前聲音播放位置，來估計聲音位置P。
[0123] 播放器17
[0124] 播放器17從由搜索器16搜索的聲音位置p播放聲音。
[0125] 如上所述，根據本實施例的文本生成器100基於根據語音識別結果和關於由操作者U指定的轉錄工作的工作條件的各種參數(關於轉錄精確度和轉錄所需的工作量的參數中的至少一個）計算的識別字符串的可信度，選擇從聲音識別的識別字符串，並生成轉錄句子。
[0126] 因此，本實施例中構造的文本生成器100根據操作者U指定的工作條件來調節語音識別結果的輸出。當操作者U執行在調節後的輸出上執行增加或校正時，實施例中的文本生成器100提供了允許操作者U通過使用語音識別結果使輸入的字符與聲音同步來執行轉錄工作的環境。
[0127] 作為結果，該實施例中的文本生成器100使能了適當的語音識別結果根據轉錄的工作條件被用於轉錄工作中，從而能夠容易地將字符添加到語音識別結果中，或校正語音識別結果的字符。因此，該實施例中的文本生成器100可減小轉錄工作中強加於操作者U 的負擔。
[0128] 第二實施例
[0129] 概述
[0130] 下面描述了根據第二實施例的文本生成器的功能(文本生成功能)。根據第二實施例的文本生成器與第一實施例不同在於，識別器獲取的識別結果是基於句子或者基於時間來連接的，而且將連接的結果用於轉錄的句子。更具體地，根據第二實施例的文本生成器將如下連接的結果用於轉錄的句子，在該連接的結果中，識別結果是基於句子，根據各個識別的字符串的句子結尾的表達來連接的。可替代地，根據第二實施例的文本生成器將如下的連接的結果用於轉錄的句子，在該連接的結果中，識別結果是基於特定時間，根據各個識別的字符串的起始時間和結束時間來連接的。
[0131] 下面描述了根據該實施例的文本生成器的結構和功能操作。在下面的描述中，描述了與第一個實施例的那些項不同的項，而相同的項被標以相同的附圖標記，並且省略對其重複的描述。
[0132] 結構
[0133] 圖19是示意圖，示出了根據本實施例的文本生成器100的功能結構。如圖19所示，除了第一實施例的結構之外，根據該實施例的文本生成器100還包括：連接單元21和識別連接結果保存單元22。
[0134] 連接單元21基於句子或基於時間來連接由識別器12獲取的識別結果(存儲在識別結果保存單元18中的識別結果)，並將連接的結果存儲在識別連接結果保存單元22中。例如，識別連接結果保存單元22是文本生成器100中設置的存儲裝置中的特定存儲區域。選擇器13和搜索器16使用存儲在識別連接結果保存單元22中的識別連接結果。
[0135] 下面描述了根據本實施例的文本生成器100執行的用於生成文本的基本處理。
[0136] 處理
[0137] 圖20是流程圖，示出了根據本實施例的用於生成文本的基本處理的示例。如圖20 所示，拾取單元11拾取聲音(步驟S801)。識別器12識別由拾取單元11拾取的聲音，並計算識別單元中識別的字符串，以及識別的字符串的可信度(步驟S802)。作為結果，識別的字符串和識別的字符串的可信度被存儲在識別結果保存單元18中。
[0138] 連接單元21基於特定句子或基於特定時間，來連接識別器12的識別結果(步驟 S803)。連接的識別字符串和連接的識別字符串的可信度被存儲在識別連接結果保存單元 22作為識別連接結果。選擇器13基於關於轉錄工作的工作條件的各種參數(工作條件參數）和存儲在識別連接結果保存單元22中的識別連接結果的可信度(連接之後的識別字符串的可信度）來選擇至少一個識別的字符串用於轉錄的句子(步驟S804)。選擇器13基於關於轉錄精確度的參數和識別的字符串的可信度的組合或者關於轉錄所需的工作量的參數和識別的字符串的可信度的組合，來選擇識別的字符串用於轉錄的句子。
[0139] 生成單元14使用由選擇器13選擇的識別字符串和選擇器13未選擇的識別字符串，生成轉錄的句子(步驟S805)。設定單元15根據從操作者U接收的設定，設定轉錄句子中對應於沒有被選擇器13選擇的識別字符串的用於操作者U的字符插入位置(步驟S806)。搜索器16基於識別結果來搜索與設定單元15設定的字符插入位置對應的聲音位置(步驟 S807)。
[0140] 播放器17根據從操作者U接收的指令，從搜索器16搜索的聲音位置播放聲音(步驟S808)。此後，文本生成器100從操作者U接收字符輸入(添加或校正）（步驟S809)。
[0141] 當從操作者U接收到結束轉錄的指令時（S810的是)，根據本實施例的文本生成器 100結束該處理。相反，文本生成器100重複從S807到S809的處理（S810的否)，直到操作者U執行結束轉錄的指令。
[0142] 細節
[0143] 下面主要描述了連接單元21和選擇器13的細節。
[0144] 各個功能單元的細節
[0145] 連接單元21
[0146] 連接單元21基於句子，根據各個識別的字符串的句子結尾表達，來連接識別結果，並獲取識別連接結果。或者，連接單元21基於特定時間，根據各個識別的字符串的起始時間和結束時間，來連接識別結果，並獲取識別連接結果，該識別連接結果包括連接的字符串（連接之後的識別字符串）和連接結果的可信度。
[0147] 下面描述了連接單元21執行的用於連接識別結果的處理。圖21是流程圖，示出了根據該實施例的用於連接識別連接結果的處理的示例。
[0148] 如圖21所示，連接單元21首先初始化由識別器12獲取的識別結果的臨時連接結果cr (存儲在識別結果保存單元18中的識別結果)獲得(步驟S901)。連接單元21設定由識別器12獲取的識別結果的第一識別結果作為目標識別結果r (步驟S902)。然後，連接單元21將目標識別結果r添加到臨時連接結果cr (步驟S903)。
[0149] 然後，連接單元21確定是否需要結束連接(步驟S904)。當基於句子完成連接和基於時間完成連接時，連接單元21不同地執行確定處理。
[0150] A.當基於句子完成連接時的確定處理
[0151] 連接單元21基於目標識別結果r的識別字符串是否是句子結尾的確定結果，來確定是否需要結束連接。如果目標識別結果r的識別字符串是句子結尾（S904的是)，則連接單元21確定連接結束。如果目標識別結果r的識別字符串不是句子結尾（S904的否)，則連接單元21確定不結束該連接。例如，句子結尾的確定是基於表示句子結尾的字符或符號(例如日文的標點符號" ° "、句號"或"問號"？）是否被包括在識別的字符串中來做出的。當這樣的字符或符號未被包括時，則該確定可以基於句子結尾的特定表達(如日文的 "desu"或"masu"）是否被包括在識別的字符串中來做出。
[0152] B.當基於時間完成連接時的確定處理
[0153] 連接單元21基於被獲取作為識別結果的識別字符串的起始時間和結束時間，來確定是否需要結束連接。如果從與目標識別結果r對應的識別字符串的起始時間到與在目標識別結果r被添加之前被添加到臨時連接結果cr的識別結果對應的識別字符串的結束時間經過的時間段等於或大於特定時間，則連接單元21確定連接結束（S904的是)。如果經過的時間段小於特定時間，連接單元21確定不結束該連接（S904的否）。當從與目標識別結果r對應的起始時間到與被添加到臨時連接結果cr的第一識別結果對應的識別字符串的起始時間經過的時間段等於或大於特定時間時，連接單元21可以確定連接結束。
[0154] 如果確定連接結束（S904的是)，連接單元21計算臨時連接結果cr的可信度(步驟S905)。臨時連接結果cr的可信度是基於與添加到臨時連接結果cr的識別結果對應的識別字符串的可信度來計算的。例如，計算與添加到臨時連接結果cr的識別結果對應的識別字符串的可信度的平均值，而且將該計算的值設定為臨時連接結果cr的可信度。如果確定該連接沒有結束（S904的否)，則連接單元21進行到S908處的處理(其將在後面描述)，同時跳過從S905到S907的處理。
[0155] 然後，連接單元21將連接識別的字符串並對應於臨時連接結果cr(連接之後的識別字符串）的字符串和臨時連接結果cr的計算可信度存儲在識別連接結果保存單元22中 (步驟S906)，然後初始化臨時連接結果cr (步驟S907)。
[0156] 然後，連接單元21確定由識別器12獲取的識別結果中是否存在下一個識別結果 (步驟S908)。如果確定存在下一識別結果（S908的是)，連接單元21設定下一識別結果作為目標識別結果r (步驟S909)，然後重複從S903到S908的處理。如果確定不存在識別結果（S908的否)，則連接單元21確定識別結果是否保持在臨時連接結果cr中（步驟S910)。如果確定識別結果保持在臨時連接結果cr中（S910的是)，連接單元21進行到S905處的處理。如果確定識別結果沒有保持在臨時連接結果中（S910的否)，則連接單元21結束該處理。
[0157] 選擇器13
[0158] 選擇器13基於關於轉錄精確度的參數和識別連接結果的可信度(連接之後的識別字符串的可信度）的組合或者是關於轉錄所需的工作量的參數和識別連接結果的可信度的組合，來選擇至少一個識別的字符串用於轉錄的句子。
[0159] 如上所述，根據第二實施例的文本生成器100基於在句子的基礎上或在特定時間的基礎上連接的識別字符串的可信度和由操作者U指定的關於轉錄工作的工作條件的各種參數(關於轉錄精確度和轉錄所需的工作量中的至少一個參數)，來選擇根據聲音識別的識別字符串，並生成轉錄的句子。
[0160] 作為結果，本實施例中的文本生成器100以與第一實施例相同方式，使得字符的添加或校正能夠被容易地做出，並且轉錄工作中強加於操作者U的負擔能夠被減小。
[0161] 第三實施例
[0162] 下面描述了根據第三實施例的文本生成器的功能(文本生成功能)。根據第三實施例的文本生成器與第一和第二實施例不同在於，文本生成器針對每個發聲者或每個發聲周期，基於識別字符串的可信度和關於轉錄工作的工作條件(轉錄精確度或轉錄所需的工作量）的各種參數，來選擇從聲音識別的識別字符串，並生成轉錄句子。
[0163] 下面描述了根據該實施例的文本生成器的結構和功能操作。在下面的描述中，描述了與第一和第二實施例的那些項不同的項，而相同的項被標以相同的附圖標記，並且省略對其重複的描述。
[0164] 結構
[0165] 圖22是示意圖，示出了根據本實施例的文本生成器100的功能結構。如圖22所示，除了第一實施例的結構之外，根據該實施例的文本生成器100還包括：發聲周期信息生成單元31和發聲周期信息保存單元32。
[0166] 關於拾取單兀11拾取的聲音，發聲周期信息生成單兀31生成發聲周期信息，發聲周期信息包括識別相應發聲的發聲ID、發聲開始的時間（以下稱為"發聲起始時間")以及識別發聲的發聲者的發聲者ID，並且發聲周期信息生成單元31將生成的發聲周期信息存儲在發聲周期信息保存單元32中。例如，發聲周期信息保存單元32是文本生成器100中設置的存儲裝置中的特定存儲區域。選擇器13和搜索器16使用存儲在發聲周期信息保存單元32中的發聲周期信息。
[0167] 下面描述了根據本實施例的文本生成器100執行的用於生成文本的基本處理。
[0168] 處理
[0169] 圖23是流程圖，示出了根據本實施例的用於生成文本的基本處理的示例。如圖23 所示，拾取單元11拾取聲音(步驟S1001)。識別器12識別由拾取單元11拾取的聲音，並計算識別單元中識別的字符串，以及識別的字符串的可信度(步驟S1002)。作為結果，識別的字符串和識別的字符串的可信度被存儲在識別結果保存單元18中。
[0170] 關於拾取單兀11拾取的聲音，發聲周期信息生成單兀31生成每個發聲的發聲周期信息(包括發聲ID、發聲起始時間以及發聲者ID)(步驟S1003)。作為結果，發聲周期信息被存儲在發聲周期信息保存單元32中。
[0171] 選擇器13基於存儲在發聲周期信息保存單元32中的發聲周期信息、關於轉錄工作的工作條件的各種參數(工作條件參數)、以及存儲在識別結果保存單元18中的識別字符串的可信度，針對每個發聲者或每一個發聲周期，來選擇至少一個識別的字符串用於轉錄的句子(步驟S1004)。選擇器13基於關於轉錄精確度的參數和識別字符串的可信度的組合或者關於轉錄所需的工作量的參數和識別字符串的可信度的組合，來選擇識別的字符串用於轉錄的句子。生成單元14使用由選擇器13選擇的識別字符串和選擇器13未選擇的識別字符串，生成轉錄句子(步驟S1005)。
[0172] 設定單元15根據從操作者U接收的設定，設定轉錄句子中對應於未被選擇器13 選擇的識別字符串的用於操作者U的字符插入位置(步驟S1006)。搜索器16基於識別結果搜索對應於設定單元15設定的字符插入位置的聲音位置(步驟S1007)。
[0173] 播放器17根據從操作者U接收的指示，從搜索器16搜索的聲音位置播放聲音(步驟S1008)。此後，文本生成器100從操作者U接收字符輸入(添加或校正）（步驟S1009)。
[0174] 當從操作者U接收到結束轉錄的指令時，根據本實施例的文本生成器100結束該處理（S1010的是)。文本生成器100重複從S1007到S1009的處理（S1010的否)，直到操作者U執行結束轉錄的指令。
[0175] 細節
[0176] 下面主要描述了發聲周期信息生成單元31和選擇器13的細節。
[0177] 各個功能單元的細節
[0178] 發聲周期信息生成單元31
[0179] 發聲周期信息生成單元31以下列方式識別發聲者和發聲周期，並生成發聲周期信息。例如，發聲周期信息生成單元31接收當操作者U聽到聲音時識別各個聲音的發聲者和聲音起始時間的識別結果並根據接收的識別結果生成發聲周期信息。發聲周期信息生成單元31可以使用發聲者識別技術基於聲學特徵量來估計發聲者和發聲周期，並根據估計結果生成發聲周期信息。
[0180] 圖24是示意圖，示出了根據本實施例的發聲周期信息D3的數據的示例。圖24示出了當發聲周期信息生成單元31從由拾取單元11拾取的聲音識別(估計)多個發聲者和相應發聲周期時生成的示例性數據。例如，發聲周期信息生成單元31以這種方式生成包括發聲ID、發聲起始時間以及發聲者ID的發聲周期信息D3。發聲周期信息生成單元31將生成的發聲周期信息D3存儲在發聲周期信息保存單元32中。
[0181] 選擇器13
[0182] 選擇器13針對每個發聲者或每一個發聲周期，基於發聲周期信息生成單元31生成的發聲周期信息D3、識別字符串的可信度和關於轉錄工作的工作條件的各種參數，來選擇從聲音識別的識別字符串。更具體地，選擇器13針對每個發聲者或發聲周期，基於關於轉錄精確度的參數和識別字符串的可信度，來選擇至少一個識別的字符串用於轉錄的句子。此外，選擇器13針對每個發聲者或發聲周期，基於關於轉錄所需的工作量的參數和識別字符串的可信度，來選擇至少一個識別的字符串用於轉錄的句子。
[0183] 下面描述了由選擇器13執行的用於選擇識別字符串的處理。圖25為流程圖，其示出了根據本實施例的用於選擇識別字符串的處理的示例。圖25示出了當選擇器13使用轉錄精確度的容許值作為針對每個發聲者的關於轉錄精確度的參數時的示例性處理。
[0184] 如圖25所示，選擇器13首先從操作者U接收針對發聲者i (i=l至M，Μ是發聲者的數量）的轉錄精確度的容許值P (i)的設定(步驟S1101)。
[0185] 圖26是示意圖，示出了根據本實施例的轉錄精確度的允許值P(i)的設定的示例。如圖26所示，操作者U通過相應的滑塊UI(滑動條)，設定針對發聲者的轉錄精確度的容許值P (i )，例如每個滑塊Π 允許從N個階層（圖26中N=5)中指定出一個可允許的階層。選擇器13以這種方式在屏幕上顯示UI，並從操作者U接收設定。
[0186] 再參考圖25,選擇器13隨後設定由識別器12獲取的識別結果(存儲在識別結果保存單元18中的該識別結果）中的第一識別字符串作為目標字符串w (步驟S1102)，然後根據目標字符串w的可信度，計算目標字符串w的轉錄精確度wp (步驟S1103)。例如，選擇器13通過第一實施例中所描述的表達式（1)，計算目標字符串w的轉錄精確度wp。
[0187] 然後，選擇器13基於存儲在發聲周期信息保存單元32中的發聲周期信息D3,識別目標字符串w的發聲者wi (步驟S1104)。例如，選擇器13提取發聲周期n，並且根據發聲周期信息D3中的發聲周期的發聲者ID識別發聲者wi，在該發聲周期η中識別字符串的起始時間存在於發聲周期η的起始時間和下一發聲周期η+1的起始時間之間。
[0188] 然後，選擇器13比較目標字符串w的計算的轉錄精確度wp和識別的發聲者wi的轉錄精確度的容許值P (wi)，並確定轉錄精確度wp是否等於或大於容許值P (wi)(步驟 S1105)。如果確定轉錄精確度wp等於或大於容許值P (wi) (S1105的是)，選擇器13選擇目標字符串w (步驟S1106)。如果確定轉錄精確度wp小於容許值P (wi) (S1105的否)，則選擇器13不選擇目標字符串w。
[0189] 然後，選擇器13確定由識別器12獲取的識別結果中是否存在下一個識別的字符串（步驟S1107)。如果確定存在下一個識別的字符串（S1107的是)，選擇器13設定下一識別的字符串作為目標字符串w (步驟S1108)，並重複從S1103到S1107的處理。如果確定不存在下一個識別的字符串（S1107的否)，選擇器13結束該處理。
[0190] 選擇器13可以與上述方式相同的方式，使用每個發聲者的關於轉錄所需工作量的參數，選擇識別的字符串。可替代地，選擇器13可使用關於每個發聲周期的轉錄精確度的參數或者每個發聲周期的轉錄所需工作量的參數，來選擇識別的字符串。
[0191] 如上所述，根據本實施例的文本生成器100基於識別字符串的可信度和關於操作者U指定的轉錄工作的工作條件的各種參數(轉錄精確度和轉錄所需工作量中的至少一個參數)，針對每個發聲者或每個發聲周期選擇根據聲音識別的識別字符串，並生成轉錄句子。
[0192] 作為結果，本實施例中的文本生成器100以與第一實施例相同的方式使得能夠容易地進行字符的添加或校正，並且減小轉錄工作中的強加於操作者U的負擔。
[0193] 文本生成器
[0194] 圖27為示意圖，示出了根據本實施例的文本生成器100的結構的示例。如圖27 所示，根據本實施例的文本生成器100包括中央處理單元（CPU) 101和主存儲設備102。文本生成器100還包括輔助存儲設備103、通信接口（IF)104、外部IF105、以及驅動設備107。在文本生成器100中，各個設備通過總線B相互連接。因此，根據本實施例的文本生成器 100對應於典型的信息處理裝置。
[0195] CPU101是算術處理單元，其總體控制文本生成器100並實現文本生成器100的相應功能。主存儲設備102是在其特定存儲區域中存儲程序和數據的存儲設備(存儲器)。例如，主存儲設備102是只讀存儲器（ROM)或隨機存取存儲器（RAM)。輔助存儲設備103是具有比主存儲設備102更大容量的存儲區域的存儲設備。例如，輔助存儲設備103是非易失性存儲裝置，例如硬碟驅動器（HDD)或者存儲卡。CPU101從輔助存儲設備103讀出程序和數據至主存儲裝置102中，並執行它們，以便總體控制文本生成器100並實現文本生成器100 的相應功能。
[0196] 通信IF104是一種接口，其連接文本生成器100至數據傳輸線N。因此，通信IF104 使文本生成器100能夠執行與其他外部裝置(其他通信處理裝置）的數據通信，該其他外部裝置通過數據傳輸線N耦合到文本生成器100。外部IF105是使能文本生成器100和外部設備106之間的數據交換的接口。例如，外部設備106是顯示各種類型的信息(例如處理結果）的顯示器(例如，"液晶顯示器")，或者是接收處理輸入的輸入裝置(例如，"數字鍵盤"、 "鍵盤"、或"觸摸面板")。驅動設備107是將數據寫入和讀出存儲介質108的控制器。例如，該存儲介質108是軟盤（FD)、緊緻盤（⑶）、或數字多功能盤（DVD)。
[0197] 例如，本實施例中的文本生成功能是由執行電腦程式的文本生成器100和上述各功能單元產生的協同操作來實現的。在這種情況下，程序作為可安裝或可執行的格式的文件被記錄在執行環境中可由文本生成器100 (計算機）讀取的記錄介質中，並且被提供。例如，在文本生成器100中，程序具有包括上述各個功能單元的單元結構，一旦CPU101從存儲介質108讀出程序並執行程序，各個單元就生成於主存儲裝置102的RAM上。提供程序的方式並不局限於該方式。例如，該程序可以存儲在連接到網際網路的外部裝置，並可通過數據傳輸線N下載。該程序可以預先存儲在主存儲裝置102的ROM上或者輔助存儲裝置103 的HDD上，並被提供。描述了其中文本生成功能通過軟體實施來實現的例子。然而，文本生成功能的實現並不局限於這種方式。文本生成功能的各個功能單元的一部分或全部可以通過硬體實施來實現。
[0198] 在實施例中，文本生成器100包括拾取單元11、識別器12、選擇器13、生成單元 14、設定單元15、搜索器16、播放器17、識別結果保存單元18、連接單元21、識別連接結果保存單元22、發聲周期信息生成單元31、以及發聲周期信息保存單元32中的一部分或全部。然而，文本生成器100的結構不局限於此結構。文本生成器100可以通過通信IF104耦合到具有那些功能單元的一部分功能的外部裝置，並通過與所耦合的外部裝置的數據通信和各個功能單元產生的協同操作，提供文本生成功能。例如，這種結構使得該實施例中的文本生成器100還能夠應用於雲環境。
[0199] 根據上述至少一個實施例中的文本生成器，文本生成器包括識別器、選擇器、以及生成單元。識別器被配置為識別拾取的聲音，並獲取識別單元中識別的字符串以及識別字符串的可信度。選擇器被配置為基於關於轉錄精確度的參數和關於轉錄所需的工作量的參數中的至少一個來選擇至少一個識別的字符串用於轉錄句子。生成單元被配置為使用所選的識別字符串生成轉錄句子。因此，可以減小轉錄工作中的負擔。
[0200] 雖然已經介紹了一些實施例，但是這些實施例只是作為示例來呈現的，而不是用來限制本發明的範圍。實際上，在此描述的新穎實施例可以以各種其它形式實施；此外，在不脫離本發明的精神的情況下可以做出在此所述的實施例的形式中的各種省略、替換和改變。所附的權利要求及其等同方案旨在覆蓋將落入本發明的範圍和精神的如此形式或修改。
【權利要求】
1. 一種文本生成器，包括：識別器，其被配置為識別所拾取的聲音，並獲取識別單元中所識別的字符串和所識別的字符串的可信度；選擇器，其被配置為基於關於轉錄精確度的參數和關於轉錄所需工作量的參數中的至少一個，選擇至少一個所識別的字符串用於轉錄的句子；以及生成單元，其被配置為使用所選的識別字符串生成所述轉錄的句子。
2. 根據權利要求1所述的文本生成器，其中，所述選擇器基於所述關於轉錄精確度的參數與所述所識別的字符串的可信度的組合和所述關於轉錄所需工作量的參數與所述所識別的字符串的可信度的組合中的至少一個組合，來選擇所識別的字符串。
3. 根據權利要求2所述的文本生成器，其中，所述選擇器基於每個所識別的字符串的可信度來計算每個所識別的字符串的轉錄精確度，比較所計算的轉錄精確度和所述轉錄精確度的容許值，並且當所述轉錄精確度等於或大於所述容許值時選擇所述所識別的字符串。
4. 根據權利要求2所述的文本生成器，其中，所述選擇器使用轉錄工作時間作為所述關於轉錄所需工作量的參數，基於所識別的字符串的字符數量來計算每個所識別的字符串的所述轉錄工作時間，比較累積的工作時間和所述轉錄工作時間的容許值，並且當所述累積的工作時間等於或小於所述容許值時選擇所述所識別的字符串，所述累積的工作時間以所識別的字符串的可信度的遞減次序累積地示出了所識別的字符串的所計算的轉錄工作時間。
5. 根據權利要求2所述的文本生成器，其中所述識別器還獲取每個所識別的字符串的起始時間和結束時間，並且所述選擇器使用轉錄工作時間作為所述關於轉錄所需工作量的參數，基於每個所識別的字符串的起始時間和結束時間計算每個所識別的字符串的轉錄工作時間，比較累積的工作時間和轉錄工作時間的容許值，並且當所述累積的工作時間等於或小於所述容許值時選擇所述所識別的字符串，所述累積的工作時間累積地示出了以所識別的字符串的可信度的遞減次序的所識別的字符串的所計算的轉錄工作時間。
6. 根據權利要求2所述的文本生成器，其中，所述選擇器使用轉錄工作成本作為所述關於轉錄所需工作量的參數，基於所識別的字符串的字符數量計算每個所識別的字符串的轉錄工作時間，基於所計算的轉錄工作時間和每一單位時間的工作成本來計算每個所識別的字符串的轉錄工作成本，比較累積的工作成本和所述轉錄工作成本的容許值，並且當所述累積的工作成本等於或小於所述容許值時選擇所述所識別的字符串，所述累積的工作成本累積地示出了以所識別的字符串的可信度的遞減次序的所識別的字符串的所計算的轉錄工作成本。
7. 根據權利要求2所述的文本生成器，其中所述識別器還獲取每個所識別的字符串的起始時間和結束時間，並且所述選擇器使用轉錄工作成本作為所述關於轉錄所需工作量的參數，基於所識別的字符串的起始時間和結束時間來計算每個所識別的字符串的轉錄工作時間，基於所計算的轉錄工作時間和每一單位時間的工作成本來計算每個所識別的字符串的轉錄工作成本，比較累積的工作成本和所述轉錄工作成本的容許值，並且當所述累積的工作成本等於或小於所述容許值時選擇所述所識別的字符串，所述累積的工作成本累積地示出了以所識別的字符串的可信度的遞減次序的所識別的字符串的所計算的轉錄工作成本。
8. 根據權利要求2所述的文本生成器，其中，所述生成單元生成所述轉錄的句子，在所述轉錄的句子中，所述所識別的字符串中沒有被所述選擇器選擇的所識別的字符串的N個候選者（N是等於或大於1的整數）以所識別的字符串的可信度的遞減次序被顯示，使得所述N個候選者能夠被操作者選擇。
9. 根據權利要求1所述的文本生成器，還包括設定單元，所述設定單元被配置為在所述轉錄的句子中的一位置處設定字符插入位置，所述位置對應於沒有被所述選擇器選擇的所識別的字符串，所述字符插入位置對應於操作者開始字符輸入的位置，其中所述設定單元基於所檢測的當前字符插入位置並基於所選擇的元素和未選擇的元素之間的位置關係，來設定字符插入位置，所述所選擇的元素對應於由所述選擇器選擇的所識別的字符串，所述未選擇的元素對應於所述轉錄的句子中沒有被所述選擇器選擇的所識別的字符串。
10. 根據權利要求9所述的文本生成器，其中所述設定單元確定所檢測的當前字符插入位置是否是在所述所選擇的元素中，並且當所述字符插入位置是在所述所選擇的元素中時，所述設定單元在最接近於所述字符插入位置並且在所述字符插入位置後面的位置處檢測所述未選擇的元素，並且將所述字符插入位置移動到所檢測的未選擇的元素的開頭位置。
11. 根據權利要求9所述的文本生成器，其中所述設定單元確定所檢測的當前字符插入位置是否是在所選擇的元素中，並且當所述字符插入位置不在所述所選擇的元素中時，所述設定單元在最接近於所述字符插入位置並且在所述字符插入位置後面的位置處檢測所選擇的元素，在最接近於所檢測的所選擇的元素並且在所檢測的所選擇的元素後面的位置處檢測未選擇的元素，並且將所述字符插入位置移動到所檢測的未選擇的元素的開頭位置。
12. 根據權利要求9所述的文本生成器，還包括：搜索器，其被配置為當操作者開始在由所述設定單元設定的所述字符插入位置輸入字符時，搜索對應於輸入字符的聲音位置；以及播放器，其被配置為從所述搜索器搜索的所述聲音位置播放聲音，其中所述搜索器基於由所述設定單元檢測的所述當前字符插入位置以及所選擇的元素和未選擇的元素之間的位置關係，搜索所述聲音位置，所述所選擇的元素對應於被所述選擇器選擇的所識別的字符串，所述未選擇的元素對應於所述轉錄的句子中沒有被所述選擇器選擇的所識別的字符串。
13. 根據權利要求12所述的文本生成器，其中所述搜索器確定所檢測的當前字符插入位置是否是在所述所選擇的元素中，並且當所述字符插入位置是在所述所選擇的元素中時，所述搜索器設定與所選擇的元素對應的所識別的字符串的起始時間作為聲音位置。
14. 根據權利要求1所述的文本生成器，還包括連接單元，所述連接單元被配置為基於句子或基於特定時間，來連接由所述識別器獲取的所識別的字符串，並且獲取所連接的所識別的字符串和所連接的所識別的字符串的可信度，其中所述選擇器選擇基於句子或基於時間連接的所連接的所識別的字符串。
15. 根據權利要求14所述的文本生成器，其中，所述選擇器基於關於所述轉錄精確度的參數和所連接的所識別的字符串的可信度，或基於關於轉錄所需的工作量的參數和所連接的所識別的字符串的可信度，來選擇基於句子或基於時間連接的所連接的所識別的字符串。
16. 根據權利要求1所述的文本生成器，還包括生成單元，所述生成單元被配置為生成關於所述聲音的發聲周期信息，所述發聲周期信息包括標識每個發聲的信息、每個發聲的發聲起始時間、和標識每個發聲的發聲者的信息，其中所述選擇器針對每個發聲者或每個發聲來選擇所識別的字符串。
17. 根據權利要求16所述的文本生成器，其中，所述選擇器基於關於轉錄精確度的參數和所識別的字符串的可信度，或者基於關於轉錄所需的工作量的參數和所識別的字符串的可信度，針對每個發聲者或每個發聲，來選擇所識別的字符串。
18. -種文本生成方法，包括：識別所拾取的聲音，並獲取識別單元中識別的字符串和所識別的字符串的可信度；基於關於轉錄精確度的參數和關於轉錄所需工作量的參數中的至少一個，來選擇至少一個所識別的字符串用於轉錄的句子；以及使用所選擇的所識別的字符串生成所述轉錄的句子。
【文檔編號】G10L15/26GK104103273SQ201410090288
【公開日】2014年10月15日申請日期:2014年3月12日優先權日:2013年4月3日
【發明者】蘆川平, 西山修, 池田朋男, 上野晃嗣, 中田康太申請人:株式會社東芝

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

文本生成器和文本生成方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法