語音互動系統與方法
2023-05-13 03:57:16 1
專利名稱:語音互動系統與方法
技術領域:
本發明涉及一種語音互動(Speech Interactive)系統與方法。
背景技術:
目前許多的語音互動系統或裝置的特色是使機器能自動理解使用者的意圖而用 以達到某種特定標的,例如通過語音命令方式來操控終端設備,使用語音對話來理解使用 者意圖,並回饋相對應的信息或動作。其要點在響應與使用者的意圖相對應的正確信息為 標的,以符合使用者期望。另一類的語音互動系統或裝置的特色是用來學習語言,其應用主 要是通過學習者所輸入的語音來進行對話和響應或進行發音評量,以達到認知學習標的。 此類的語音互動系統或裝置的實現方式也常是以響應與使用者的意圖相對應的正確信息 為標的來實施,其施行的學習策略大概含有以下幾個要點。(1)以直接教導來傳達信息,並通過練習來達到認知學習標的;⑵輔以可視化信 息,以問題或回饋來達到認知學習標的;(3)以探究式或發現式學習策略,並搭配計算機仿 真信息或以虛擬實境的對象為探索對象來建構知識;(4)以評量問捲來檢視學習成果以及 學習歷程,以激勵學習者的自律學習。基本上多半都是以直接教導或以引導式做法來促進 學習。語音互動的現有文獻有很多,例如中國臺灣專利證書號11247249揭露的交互式 智能型語言教學玩偶,其利用網際網路為基礎的數字內容下載程序以及以虛擬玩偶為人機接 口,提供交互式智能型語言教學與導正。通過交互式玩偶提供語音辨識處理,並利用玩偶內 建或自網絡上下載的標準語音資料庫,實時判斷兒童的發音是否正確以及提供正確對話的 導引。而中國臺灣專利證書號M244956揭露的一種具有雙向對話功能的語音玩具,是將一 麥克風、語音控制裝置、播放器及周邊裝置固設於一玩偶本體內,外界所輸入的語詞可通過 麥克風而被傳輸至語音控制裝置,語音控制裝置判斷此輸入語詞並依據輸入語詞來發出執 行指令,進而控制播放器播報時間數據或輸出語詞,也可以控制周邊裝置投射絢爛光源或 擺動玩偶本體,並且每一輸入語詞皆具有多個相對應的輸出語詞。中國專利公開號CN 1581130A揭露一種具語音辨識的交互式語言學習方法,包 括檢索並播放語音聲音數據;辨識輸入的一個練習者的練習聲音信號,並產生語音辨識 數據;以及比對此兩數據以產生一個近似度值,並根據此近似度值來決定練習者練習此語 音聲音數據的正確性。而中國專利公開號CN 101064070A揭露的交互式智能型語言教學玩 偶系統系利用可網絡連結,可語音辨識的智能型玩偶進行語言教學,以玩偶當系統前臺,以 網絡伺服器為後臺記錄與儲存系統相關的數據,提供一個適合兒童的自動化語言教學輔助 系統。美國專利案5,281,143揭露一種學習玩偶(Learning Doll) 100,如圖1所示,學習 玩偶包含一頭部(Head) 102和一本體(Body) 104。當電源是關閉時,可通過輕吻(Kiss) 106 此玩偶來觸動開關108以開起電源,並且通知微處理器暨語音合成器(Microprocessor And Speech Synthesizer) 110觸動檢測機制已經被觸發了。微處理器暨語音合成器110通過電源放大器/濾波器(Power Amplifier/Filter) 116將聲音傳遞至麥克風114。微處理器暨語 音合成器110通過傾聽放大器(listen Amplifier) 120也會檢測出在麥克風114發出的聲 音。微處理器暨語音合成器110也可以觸動頭部102裡的電子馬達(Electric Motor) 122, 使玩偶的嘴唇配合合成的語音間歇地振動,而更加栩栩如生。依此,玩偶可通過學習者語音 (Human Speech)與交互式接觸(Touch Interaction)的組合,進行語言教學。
發明內容
欲解決的技術問題現有技術文獻中尚未見到以教學相長(Learning By Teaching)為標的來設計語音互動的機制,以激勵學習者持續對該學習內涵做正確的練習, 以使被教導的虛擬或實體對象最後能做出正確的回應,讓學習者通過教導來達到學習目 的,為此,本發明的目的是提供一種語音互動系統與方法。為達成所述目的,根據本發明所揭露的實施範例中,可提供一種語音互動系統與 方法。在一實施範例中,所揭露的是有關於一種語音互動系統,此系統包含一目標信息 接收模塊、一互動模式設定與語音處理模塊、一互動信息更新模塊、一決策模塊、以及一輸 出響應模塊。目標信息接收模塊接收目標信息並設定相對應的目標文句信息。互動模式設 定與語音處理模塊接收使用者語音信號,設定一互動模式與決定語音的目標文句信息,並 輸出目標文句的語音評量結果。互動信息更新模塊在設定的互動模式下,根據此目標文句 信息以及一時間計數,更新一互動信息記錄表。決策模塊根據互動模式設定與語音處理模 塊設定的互動模式和互動信息記錄表的信息來決定目標文句信息的輸出模式。輸出響應模 塊根據決策模塊決定的輸出模式和互動信息記錄表的信息來輸出響應信息。在另一實施範例中,所揭露的是有關於一種語音互動方法,此方法包含準備一互 動信息記錄表來記錄語音互動文句信息接收使用者輸入的語音信號並決定語音的目標文 句信息或同時接收給定的目標文句信息,以提供使用者以不同的互動模式進行語音互動操 作;對目標文句信息進行語音評量並產生一語音評量結果;若同時接收給定的目標文句信 息,則根據所產生的語音評量結果和一時間計數,更新此互動信息記錄表的信息;根據不同 的互動模式和此互動信息記錄表的信息來決定目標文句信息的輸出模式;以及根據決定的 輸出模式和此互動信息記錄表的信息來輸出響應信息。
圖1是一種現有的學習玩偶的一個範例示意圖。圖2是一種語音互動系統的一個範例示意圖,並且與本發明的某些揭露的實施範
例一致。圖3是互動模式設定與語音處理模塊的一個範例示意圖,並且與本發明的某些揭 露的實施範例一致。圖4是一個範例流程圖,說明語音評量的運作,並且與本發明的某些揭露的實施 範例一致。圖5是互動信息記錄表的一個範例示意圖,並且與本發明的某些揭露的實施範例一致。
圖6是一個範例示意圖,說明互動信息更新模塊與一時間計數器之間的運作,並 且與本發明的某些揭露的實施範例一致。圖7是一個範例示意圖,說明決策模塊的細部運作,並且與本發明的某些揭露的 實施範例一致。圖8是一個範例示意圖,說明輸出響應模塊的細部運作,並且與本發明的某些揭 露的實施範例一致。圖9是一個範例流程,說明中間狀態輸出的運作過程,並且與本發明的某些揭露 的實施範例一致。圖10是語音互動系統在教學模式下的一個工作範例,並且與本發明的某些揭露 的實施範例一致。圖11是語音互動系統在交談模式下的一的一個工作範例,並且與本發明的某些 揭露的實施範例一致。圖12是語音互動系統應用於一玩具本體上的一的一個範例示意圖,並且與本發 明的某些揭露的實施範例一致。圖13是一範例示意圖,說明本揭露的語音互動方法的主要步驟,並且與本發明的 某些揭露的實施範例一致。主要元件符號說明
具體實施例方式茲配合下列圖標、實施範例的詳細說明及申請專利範圍,將上述及本發明的其它 特徵與優點詳述於後。本發明以教學相長為標的之一來設計語音互動系統與方法。此教學相長的內涵 是,學習者先了解學習內涵,並通過對該學習內涵的認知來對某一虛擬或實體對象進行教 導,通過該虛擬或實體對象的響應來讓學習者了解該虛擬或實體對象的學習狀態,以激勵 學習者持續對該學習內涵做正確的練習,以使該虛擬或實體對象最後能做出正確的回應, 讓學習者通過教導來達到學習目的。本揭露的實施範例中,創造出一種虛擬或實體系統,讓學習者能通過語音與之互 動;建構了一種可接收虛擬或實體學習標的功能的機制,讓學習者能依照其需求設定學習 標的;建構了一種語音互動機制,讓此虛擬或實體系統能接收並認知學習者對此學習標的 所輸入的語音並作語音評量;為此虛擬或實體系統建構一種遺忘機制,來督促學習者能對 學習標的做持續性的練習;建構了可輸出此虛擬或實體對象對學習標的學習狀態,讓學習 者或其它使用者通過此虛擬或實體對象的輸出響應來了解學習者對學習標的認知情形。依此,圖2是一種語音互動系統的一個範例示意圖,並且與本發明的某些揭露的 實施範例一致。參考圖2,語音互動系統200包含一目標信息接收模塊210、一互動模式設定 與語音處理模塊220、一互動信息更新模塊230、一決策模塊240、以及一輸出響應模塊250。 目標信息接收模塊210接收目標信息210a並設定相對應的目標文句信息210b。互動模式 設定與語音處理模塊220接收使用者語音信號220a,設定一互動模式220b與決定語音的目 標文句信息,並輸出目標文句的語音評量結果220c。互動信息更新模塊230根據來自互動 模式設定與語音處理模塊220的目標文句的語音評量結果220c以及一時間計數230a,更新一互動信息記錄表230b。決策模塊240根據互動模式設定與語音處理模塊220設定的互動 模式220b和互動信息記錄表230b的信息來決定目標文句信息的輸出模式240b。輸出響應 模塊250根據決策模塊240決定的輸出模式240b和互動信息記錄表230b的信息來輸出響 應信息250b。如此,讓學習者或其它使用者通過此響應信息250b來了解學習者對學習標的 認知情形。時間計數230a可通過一時間計數器來產生。互動信息記錄表230b記錄語音互 動文句的信息。根據本發明,語音互動系統200可讓使用者以不同模式進行語音互動操作,也就 是說,互動模式設定與語音處理模塊220設定的互動模式220b可以有不同的內涵,例如其 內涵可為教學模式或交談模式等。而互動操作的標的設定可由使用者所輸入的語音信號或 是同時給定目標信息來進行設定,此互動操作的標的設定可用下列式子來表示。互動標的=f (輸入目標i語音,輸入目標j信息),其中若(i = j)或(j = NULL),則互動標的=目標i,若(i乒j),則互動標的=目標j,若(i= NULL),則互動標的=NULL。以上式子的含意為(a)當僅有使用者語音信號輸入時(即j為NULL的情況),互 動操作的標的(即互動標的)為該語音信號所指述的目標文句(Target Speech)信息(即 互動標的=目標i) ; (b)當有給定目標信息和語音信號輸入時,該語音信號所指述的目標 文句信息必須與給定的目標信息所對應的目標文句信息一致(即i = j的情況),互動操作 的標的始為上述該二者所指述的目標文句信息(互動標的=即目標i) ; (c)當輸入的語音 信號所指述的目標文句信息與給定的目標信息所對應的目標文句信息不一致時(即i興j 的情況),則互動操作的標的為該給定的目標信息所對應的目標文句信息(即互動標的= 目標j) ; (d)當無語音信號輸入時(即i為NULL的情況),則無互動操作的標的(即互動 標的=NULL)。而互動模式設定與語音處理模塊220的互動模式220b的設定則端看是否給定目 標信息210a而定。當給定目標信息210a時,互動模式220b的內涵為教學模式,否則為交 談模式。對應到上述互動操作標的設定,教學模式為上述(b)與(c)的情況,而交談模式為 上述(a)的情況。互動模式220b的內涵為教學模式時,此教學模式的信息是傳送給互動信 息更新模塊230。互動模式220b的內涵為交談模式時,此交談模式的信息是傳送給決策模 塊 240。承上述,圖3是互動模式設定與語音處理模塊220的一個範例示意圖,並且與本 發明的某些揭露的實施範例一致。參考圖3,目標信息接收模塊210於接收目標信息210a 後,取得目標信息210a所設定的目標項目(Target Item)信息210b,並將此目標項目信 息傳送給互動模式設定與語音處理模塊220。例如目標信息接收模塊210接收到目標信 息「Apple」,將目標信息「Apple」傳送給互動模式設定與語音處理模塊220。目標信息和 目標信息接收模塊例如可以使用無線射頻識別(Radio Frequency Identification, RFID) 標籤(Tag)和RFID讀取器(Reader)、或是條形碼(Barcode)和條形碼讀取器(Barcode Reader)、或是對象(Object)和對象圖像辨識(Object-Oriented Image identification)、 或是屏幕選單列舉(Screen Menu List)和選單點選、或是其它可能的技術手段來達成。互動模式設定與語音處理模塊220於接收目標項目信息後,設定目前操作模式為
10教學模式301a,之後依照目標項目信息自互動信息記錄表取得對應的互動文句,並等待使 用者輸入語音信號。當使用者輸入語音信號時,依照該互動文句對該語音信號進行語音評 量310。當使用者未給定目標信息而僅有語音信號輸入互動模式設定與語音處理模塊220 時,設定目前操作模式為交談模式301b後,語音辨識單元320以互動信息記錄表裡所有的 互動文句為辨識標的來辨識出該輸入的語音信號所對應的目標文句,並以該目標文句和該 輸入語音信號進行語音評量310。圖4是一個範例流程圖,說明語音評量的運作,並且與本發明的某些揭露的實施 範例一致。參考圖4,根據從互動信息記錄表取得對應的互動文句410a,以一語句驗證方 法(Utterance Verification) 410驗證輸入的語音信號,並取得一驗證分數410b。根據本 發明,也可使用其它可衡量輸入的語音信號與互動文句410a的關聯性分數作為驗證分數 410b來運作,例如以語音辨識分數作為驗證分數。取得驗證分數之後,將驗證分數410b與 一設定的門檻值做比較,如步驟420所示。當該驗證分數大於該門檻值時,則該輸入的語音 信號為一合格語音,否則為一不合格語音。當輸入的語音信號為一合格語音時,在目前操作模式為教學模式下,其後續的處 理依序包括進行門檻調校、更新目前的互動文句信息、以及進入決策模塊做處理等。門檻 調校的用意是避免過高的門檻值設定可能造成使用者無法使用的問題或是過低的門檻值 設定可能造成使用者任意輸入非該互動文句的評量效果低落問題。門檻值的設定也可以使 用一動態調校方法做門檻值的調校,以使該門檻值能依照使用者的語音特性來進行動態調 整。門檻值的調整例如可以參考前幾次驗證分數做門檻調整,一開始可設定一較低門檻值 (此門檻可事先收集訓練信息取得),之後可取用高於設定門檻值的驗證分數或是參考其 數次驗證分數的線性組合,來進行動態調校。經過門檻調校之後可得到一新的門檻調校值, 可作為下次語句驗證門檻判斷使用並提供給互動信息更新模塊參考使用。當輸入的語音信號為一合格語音時,而在目前操作模式為交談模式下,則直接進 入決策模塊做處理。當輸入的語音信號為不合格語音時,也是直接進入決策模塊做處理。互動信息更新模塊230接收互動模式設定與語音處理模塊220所傳遞的目標文句 信息後,依此更新互動信息記錄表230b。此目標文句信息可包括如輸入語音信號對應於該 目標文句的互動文句、驗證分數以及門檻調校值。在本揭露的實施範例中,於互動信息記錄 表230b裡定義了幾個關於目標詞語的相對應的信息,例如互動文句、累積教導成效、評量 門檻、難度、目標詞語的響應信息等。目標詞語的響應信息可以是多媒體信息如圖像或語音 等。圖5是互動信息記錄表230b的一個範例示意圖,並且與本發明的某些揭露的實施範例 一致。圖5的範例中,一開始尚未使用前的信息為默認值,譬如目標文句「Grape」的 互動文句、累積教導成效、評量門檻、難度、目標詞語的響應信息的默認值分別為Grape、 0.0、-5. 5、10.0、以及Grape的圖像和語音。而每一目標文句的默認值可以是不相同的設 定,譬如目標文句「Apple」與目標文句「This is a pencil 」的難度分為8. 0與30. 0,以強 調不同目標文句的學習難度。由互動模式設定與語音處理模塊所傳來的門檻調校值可以 直接取代目標詞語的相對應的評量門檻的信息,而累積教導成效可以用一個算式範例來得 出累積教導成效
11
=目前教導成效LC+之前的累積教導成效LT,其中,目前教導成效LC是驗證分數與評量門檻的函數,例如是驗證分數與評量門 檻兩者的差值;而之前的累積教導成效LT若大於等於難度的話,則之前的累積教導成效LT
等於難度。例如,互動模式設定與語音處理模塊220傳遞目標文句「Apple」的驗證分數以及 門檻調校值分別為-2. 0與-3. 0,而互動信息記錄表中,此目標文句「Apple」的累積教導成 效LT為2. 5,則利用此算式範例算出累積教導成效=(-2.0-(-3. 0))+2. 5 = 1. 0+2. 5 = 3. 5,也就是說,目標文句「Apple」的累積教導成效為3. 5。換句話說,將使用者所發出來的語音評量分數視為是使用者對互動標的教導成 效,並且是以使用者自己的語音特性所調校出來的評量門檻作為基礎所評出來的分數。因 此,雖然不同使用者因為語音特性的不同,可能會有不同評量門檻,但在教導成效的表現卻 是相似的,並且因為評量門檻會藉使用者過去的發音做動態調整,經過多次的調整之後,評 量門檻會逐漸趨向穩定並符合使用者語音特性,也就迫使使用者必須要念出正確的發音始 能獲得好的教導成效(始能獲得正向的響應信息)。如此,可期許使用者能通過正確的教導 帶來正確的學習效果。另一個關於累積教導成效的算式範例是與擱置時間AT有關。當學習者有一段 時間沒有練習互動文句,將會漸漸遺忘此互動文句,本揭露的實施範例中,建立一種遺忘機 制,來督促學習者能對學習標的做持續性的練習。根據本發明,遺忘信息與累積教導成效之 間的關係可以用下列的算式範例來表達累積教導成效LT+AT =累積教導成效LT-遺忘FT,若0 < LT <難度,則 FT = (1-LT/ 難度)Xw ;若LT 彡難度,或 LT = 0,則 FT = 0 ;若FT 彡 LT,則 FT = LT ;其中,擱置時間AT為距離上次更新學習目標文句的單位時間,w為一權重。而每 到達AT時,更新一次累積教導成效,權重w用來加強或降低因學習怠惰的懲罰。本揭露中,將LT/難度視為是學習者對目標文句的習得程度,故此遺忘的算式 (1-LT/難度)視為是學習者對目標文句尚未習得的程度,也就是說,此遺忘的算式(1-LT/ 難度)的值可經由累積教導成效與難度此兩參數計算而得出,將此值視為是遺忘的因素。 依此,隨著時間增加,更新次數增加,累積教導成效LT也將隨著遞減,直到LT等於0為止。 所以,如圖6的範例所示,在教學模式下,除了從互動模式設定與語音處理模塊220傳遞到 互動信息更新模塊230的信息會對互動信息記錄表,如範例630b做更新之外,也會通過一 時間計數器630在每一個單位時間AT時,對互動信息記錄表引發一次更新。在實做上,單 位時間AT例如可以設定每一小時或每一天更新一次,或是可以在互動信息記錄表裡為每 一目標文句增加一個記錄更新時間欄位,以更仔細的依照更新時間進行目標文句的信息更 新。在教學模式下,互動信息更新模塊230完成對互動信息記錄表230b裡的目標文句 更新互動信息之後,即進入決策模塊240,以根據互動信息記錄表230b的信息來輸出決策 240b,並由輸出響應模塊250來輸出響應信息250b。以下搭配圖7與圖8的範例,分別說明
12決策模塊240與輸出響應模塊250之間的細部運作,並且與本發明的某些揭露的實施範例一致。圖7的範例中,決策模塊240判斷輸入語音是否為一合格語音,如標號710所示。 若非合格語音,則依照不同的互動模式來決定輸出響應為「無目標文句」或是「具目標文句」 的疑惑輸出(Confused Output)。若互動模式為交談模式,則其輸出方式為「無目標文句」 的疑惑輸出,如範例741所示。若互動模式為教學模式,則其輸出方式為「具目標文句」的 疑惑輸出,如範例742所示。兩者的差異在於是否可表現出相對應標的文句的輸出響應,譬 如是否將標的文句的對應圖像(此範例圖像是一粒蘋果)呈現出來。而兩者的相同處在表 達對輸入語音的疑惑反應,以要求使用者重新作輸入的表達。在實作上,兩者的響應可以視需要來做多樣化的設計或是簡化的設計,譬如以多 種輸出的圖像或語音來表達「無目標文句」或是「具目標文句」的疑惑輸出,以豐富響應的 表現型式,或是不論何種操作模式皆用同一種疑惑反應為輸出響應來簡化表現型式。對於 「具目標文句」的疑惑輸出,也可以再加入該目標文句的正確輸出響應(Learned Output), 如範例743所示。此正確輸出響應可以教導學習者對該目標文句的正確表達,也可以讓學 習者了解該目標信息與正確輸出響應之間的對應關係,如此,學習者縱使在無旁人教導下 也能做自我學習。此教導學習者的引發動作是出現在當目標信息和學習者的語音與實際發 音差異甚大時,亦即輸入語音為不合格語音的情形。像無目標信息情況(不易確實掌握學 習者實際意圖)或是合格的語音輸入(學習者已知如何發音無需再提示)就沒有必要也不 會出現此教導學習者的引發動作。對於合格語音部分,決策模塊240取用互動信息記錄表裡該目標文句的互動信息 的累積教導成效和難度來判斷該目標文句是否已被學習完成,如標號720所示。若累積教 導成效為大於等於難度時,表示該目標文句已被學習完成,則輸出該目標文句正確的輸出 響應,如範例743所示;否則表示尚未學習完成,並且由該目標文句的累積教導成效可判定 其目標詞語是否被學習過,如標號730所示。若累積教導成效為0(因過久未練習亦可能 因遺忘而使累積教導成效被遞減為0),此時決策模塊240判定其目標詞語為尚未學過的文 句,可輸出「具目標文句」的疑惑輸出,如範例742所示;或是可用如前所述與「無目標文句」 的同一種疑惑反應為輸出響應來簡化表現型式。因此,通過此輸出響應可讓學習者了解虛擬或實體對象的學習狀態,以激勵學習 者持續對學習內涵做正確的練習,以使此虛擬或實體對象最後能做出正確的回應,讓學習 者通過教導來達到學習目的。而對於其它已學習過但尚未學習完成的輸出響應,則依照該目標文句的學習表現 製作學習過程信息來進行輸出。因此,可讓學習者或其它使用者通過此虛擬或實體對象的 輸出響應來了解學習者對學習標的認知情形,並且通過對該學習內涵的認知來對某一虛擬 或實體對象進行教導。本揭露的實施範例中,將學習表現定義為一種累積教導成效與其學習難度的函 數,也就是說,學習表現與累積教導成效、學習難度此兩參數有關。當目標文句的累積教導 成效等於其學習難度時,表示該日標文句已被學習完成,因此學習表現=1。當累積教導成 效等於0時,表示該目標文句為尚未學過,因此學習表現=0。而當累積教導成效介於學習 完成與尚未學過之間時,為一中間狀態,此中間狀態的學習表現是介於0與1之間的值(0
13<學習表現< 1),可將學習表現定義為LT/難度。中間狀態的輸出可以依照LT/難度的比例輸出與目標文句相對應的圖標或圖像 來做響應,在語音的輸出響應上,也可以比照圖標或圖像的輸出方式,以LT/難度的比例進 行輸出與目標文句相對應的部分語音,如圖8的範例所示。圖8的範例中,以目標文句Apple 為例,其難度為8,第一次輸出時,累積教導成效LT等於2. 5,中間狀態的輸出是以圖像和相 對應的部分語音來做響應,如範例841所示。第二次輸出時,第二次的教導成效等於1,因此 連同原先的累積教導成效2. 5得到累積教導成效LT等於3. 5,其中間狀態的輸出響應,如範 例842所示。第三次輸出時,第三次的教導成效等於4,因此連同原先的累積教導成效3. 5 得到累積教導成效LT等於7. 5,其中間狀態的輸出響應,如範例843所示。第四次輸出時, 第四次的教導成效等於3,因此連同原先的累積教導成效7. 5得到累積教導成效LT為大於 難度,表示目標文句Apple已被學習完成,則輸出目標文句正確的輸出響應,如範例844所示.中間狀態的部分語音輸出可有許多種表現形式,例如直接檢索正確語音數據的 LT/難度的比例的數據作為中間狀態的語音輸出、檢索正確語音的LT/難度的比例的分辨 率作為中間狀態的語音輸出、或是其它檢索正確語音的LT/難度的比例的輸出表現等,都 是可實施的方式。以解析度為例,若原本為每樣本16個位(16-bit/sample),可以降低其取 樣解析度如每樣本的位數為16 X (LT/難度)的解析度來進行中間狀態的輸出。圖9是一個範例流程,說明中間狀態輸出的運作過程,並且與本發明的某些揭露 的實施範例一致。參考圖9,一開始從一正確語音數據,任選其中k個語音單元(Speech Unit)作為修改標的,如步驟910所示。然後去除每一個語音單元的(1-LT/難度)比例的 語音數據,如步驟920所示。每一修改後的語音數據拉長為與原正確語音相同長度,如步驟 930所示。將此拉長後的語音數據做音調的調變,以產生學習之中間狀態的語音輸出,如步 驟940所示。此語音輸出的表現形式是以原始目標文句相對應的正確語音來對學習的中間 狀態做仿真輸出,當系統有內存容量的限制時,可以用此範例流程的運作來製作多種變化 的中間狀態語音數據,以節省儲存學習中間狀態的語音數據的空間。若系統無內存容量限 制,也可以預存用來表達學習的各種可能的中間狀態的數據。承上述,圖10是語音互動系統200在教學模式下的一個工作範例,並且與本發明 的某些揭露的實施範例一致。其中,目標信息210a以Apple為例,使用者語音輸入,互動信 息記錄表的範例630b至少包括蘋果(Apple)、葡萄(Grape)、香蕉(Banana)、鉛筆(Pencil) 等以及決策模塊240的輸出範例等,如前所述,不再重複。如前所述,當使用者未給定目標信息時,此時互動模式設定與語音處理模塊220 將互動模式設定為交談模式。當使用者語音信號輸入至互動模式設定與語音處理模塊220 後,語音辨識單元320以互動信息記錄表裡所有的互動文句為辨識標的,來辨識出該輸入 的語音信號所對應的目標文句。之後,互動模式設定與語音處理模塊220以該目標文句和 該輸入語音信號進行語音評量,以得出一驗證分數,再將該驗證分數與前述設定的門檻值 做比較。當該驗證分數大於該門檻值時,則該輸入的語音信號為一合格語音,否則為一不合 格語音。兩者之後皆進入決策模塊240進行處理,並於輸出響應模塊250做輸出響應。決 策模塊與輸出響應模塊的實施與展現同前述教學模式所示。圖11是語音互動系統200在 交談模式下的一個工作範例,並且與本發明的某些揭露的實施範例一致。
語音互動系統200也可以通過一種互動信息外部更新模塊,來更新互動信息記錄 表。此互動信息外部更新模塊可以讓廠商在新增目標信息時,提供與該新增目標信息相對 應的互動文句信息,來讓使用者操作使用,如此也可以豐富語音互動系統200的內涵。此互 動信息外部更新模塊可置於一計算機系統中,以有線/無線方式聯機至語音互動系統200, 來對語音互動系統200內的互動信息記錄表230b的內容做更新,也可以使用存儲裝置儲存 互動信息記錄表230b,以抽換存儲裝置的方式來更新互動信息記錄表。
另一種互動信息外部更新方式為,當語音互動系統200接收學習者的目標信息 時,同時也讓該目標信息相對應的目標文句信息傳入語音互動系統200內的互動信息記錄 表中做檢核,若互動信息記錄表中無相同的目標文句信息時,則將該目標文句信息加入互 動信息記錄表內,以更新互動信息記錄表的內容。換句話說,目標信息相對應的目標文句信 息是由系統200的外部傳入語音互動系統200內的互動信息記錄表中做檢核,進而更新互 動信息記錄表的內容。圖12是語音互動系統200應用於一玩具本體上的一個範例示意圖,並且與本發明 的某些揭露的實施範例一致。參考圖12,語音互動系統200裡的模塊可內嵌於一玩具1200 的本體(Body) 1210內的一存儲裝置上。玩具本體1210還包括一中央處理單元(CPU) 1210a、 一麥克風1210b、以及一播放器1210c。中央處理單元1210a執行此存儲裝置上語音互動系 統200的部分模塊,例如互動模式設定與語音處理模塊220、互動信息更新模塊230、決策模 塊240。語音互動系統200中的圖像信息部分可選擇不置入於存儲裝置,也可選擇不由中央 處理單元1210a來執行。語音互動系統200的目標信息接收模塊210接收外來的目標信息。麥克風1210b 可接收語音輸入並傳送至互動模式設定與語音處理模塊220。播放器1210c,例如喇叭,可 輸出對應於前述教導成效的語音響應。互動信息記錄表230b可通過一計算機1220或終端設備通過聯機裝置(有線/無 線信息傳輸)來進行更新。其更新內容可由廠商1230提供對應信息,或者,互動信息記錄 表也可以使用一存儲模塊,如存儲卡1240,更換方式來進行更新,該互動信息記錄表的內容 可以由廠商提供對應信息於該存儲模塊內,以方便使用者以手動抽換方式進行更新。也可 以通過內含文句信息的目標信息傳入語音互動系統200內的互動信息記錄表中做檢核,來 做互動信息記錄表內容的更新。根據上述語音互動系統200的實施範例的系統架構與工作範例,圖13進一步說明 本揭露的語音互動方法的主要步驟,並且與本發明的某些揭露的實施範例一致。參考圖13,準備一互動信息記錄表來記錄語音互動文句信息,如步驟1310所示。 接收使用者輸入的語音信號並決定語音的目標文句信息或同時接收給定的目標文句信息, 以提供使用者以不同的互動模式進行語音互動操作,如步驟1320所示。對目標文句信息進 行語音評量並產生一語音評量結果,如步驟1330所示。若同時接收給定的目標文句信息, 則根據所產生的語音評量結果和一時間計數,更新此互動信息記錄表的信息,如步驟1340 所示。根據不同的互動模式、語音評量結果、及此互動信息記錄表的信息,決定目標文句信 息的輸出模式,如步驟1350所示。根據決定的輸出模式和互動信息記錄表的信息來輸出響 應信息,如步驟1360所示。在前述語音互動系統200的教學模式與交談模式的兩種互動模式下,本揭露的語音互動方法的細部運作過程,如前所述,不再重複。綜上所述,本揭露的實施範例所提供的語音互動系統與方法是以教學相長為標的 來設計語音互動機制,以激勵學習者持續對該學習內涵做正確的練習,以使被教導的虛擬 或實體對象最後能做出正確的回應,讓學習者通過教導來達到學習目的。此語音互動系統 也可以通過一種互動信息外部更新模塊,來更新互動信息記錄表。本揭露的實施範例也可 內嵌於玩具上,以吸引使用者增加學習興趣和提高學習效果。但,以上所述的僅為本發明的實施範例,當不能依此限定本發明實施的範圍。即大 凡本發明權利要求所作的均等變化與修飾,皆應仍屬本發明專利涵蓋的範圍。
權利要求
一種語音互動系統,其特徵在於,該系統包含一目標信息接收模塊,接收目標信息並設定相對應的目標文句信息;一互動模式設定與語音處理模塊,接收使用者語音信號,設定一互動模式與決定語音的目標文句信息,並輸出目標文句的語音評量結果;一互動信息更新模塊,根據該目標文句的語音評量結果和一時間計數,更新一互動信息記錄表的信息;一決策模塊,根據設定的該互動模式和該互動信息記錄表的信息來決定目標文句信息的輸出模式;以及一輸出響應模塊,根據該決定的輸出模式和該互動信息記錄表的信息來輸出響應信息。
2.如權利要求1所述的語音互動系統,其特徵在於,當僅有使用者語音信號輸入該互 動模式設定與語音處理模塊時,該互動模式被設定為一交談模式。
3.如權利要求1所述的語音互動系統,其特徵在於,當使用者語音信號輸入該互動模 式設定與語音處理模塊且同時提供該目標項目信息給該互動模式設定與語音處理模塊時, 該互動模式被設定為一教學模式。
4.如權利要求2所述的語音互動系統,其特徵在於,該交談模式傳送給該決策模塊。
5.如權利要求3所述的語音互動系統,其特徵在於,該教學模式傳送給該互動信息更 新模塊。
6.如權利要求5所述的語音互動系統,其特徵在於,當該輸入的使用者語音信號通過 一語句驗證方法,而被判定為一不合格語音時,該教學模式還傳送給該決策模塊。
7.如權利要求1所述的語音互動系統,其特徵在於,該互動信息記錄表記錄該語音互 動文句的信息,該語音互動文句的信息是選自該目標文句的互動文句、累積教導成效、評量 門檻、難度、目標詞語的響應信息的前述任一種組合。
8.如權利要求2所述的語音互動系統,其特徵在於,該互動模式設定與語音處理模塊 還包括一語音辨識單元,來接收使用者語音信號與決定語音的目標文句信息。
9.如權利要求1所述的語音互動系統,其特徵在於,該輸出響應信息至少包括該目標 文句正確的輸出響應、該目標文句疑惑反應的輸出響應、以及介於該目標文句已學習過但 尚未學習完成的中間狀態的輸出回應。
10.如權利要求7所述的語音互動系統,其特徵在於,該系統建立一種遺忘算式,該遺 忘算式與一時間計數器搭配運作。
11.如權利要求1所述的語音互動系統,其特徵在於,該系統還通過一種互動信息外部 更新模塊,來更新該互動信息記錄表。
12.如權利要求11所述的語音互動系統,其特徵在於,該系統以一存儲裝置來儲存該 互動信息記錄表,並以一抽換該存儲裝置的方式來更新該互動信息記錄表。
13.如權利要求1所述的語音互動系統,其特徵在於,該系統內嵌於一玩具本體。
14.如權利要求11所述的語音互動系統,其特徵在於,該互動信息外部更新模塊置於 一計算機系統中,並以一聯機方式聯機至該語音互動系統,來更新該語音互動系統內的該 互動信息記錄表。
15.如權利要求10所述的語音互動系統,其特徵在於,該遺忘算式的值經由累積教導成效與難度兩參數計算而得出。
16.如權利要求13所述的語音互動系統,其特徵在於,該玩具本體還包括一中央處理單元,執行該語音互動系統的部分模塊;一麥克風,接收語音輸入並傳送至該互動模式設定與語音處理模塊;以及一播放器,輸出對應於該累積教導成效的語音響應。
17.一種語音互動方法,其特徵在於,該方法包含準備一互動信息記錄表來記錄語音互動文句信息;接收使用者輸入的語音信號並決定語音的目標文句信息、或同時接收給定的目標文句 信息,以提供使用者以不同的互動模式進行語音互動操作;對該目標文句信息進行語音評量,並產生一語音評量結果;若同時接收給定的目標文句信息,則根據所產生的目標文句的語音評量結果和一時間 計數,更新該互動信息記錄表的信息;根據不同的互動模式、該語音評量結果、及該互動信息記錄表的信息,決定該目標文句 信息的輸出模式;以及根據該決定的輸出模式和該互動信息記錄表的信息,輸出響應信息。
18.如權利要求17所述的語音互動方法,其特徵在於,該不同的互動模式包括教學模 式和交談模式。
19.如權利要求17所述的語音互動方法,其特徵在於,該互動信息記錄表記錄的語音 互動文句的信息是選自該目標文句的互動文句、累積教導成效、評量門檻、難度、目標詞語 的響應信息的前述任一種組合。
20.如權利要求19所述的語音互動方法,其特徵在於,該累積教導成效與一擱置時間 有關,該擱置時間是距離上次更新學習目標文句的單位時間,並且該累積教導成效是通過 一種遺忘的算式來算出,而該遺忘的算式的值經由累積教導成效與難度兩參數計算而得 出ο
21.如權利要求17所述的語音互動方法,其特徵在於,當僅有接收使用者輸入的語音 信號時,提供使用者以一交談模式來進行語音互動操作,並且以該互動信息記錄表裡所有 的互動文句為辨識標的來辨識出該輸入的語音信號所對應的目標文句信息,之後以該目標 文句信息和該輸入的語音信號來進行語音評量以得出一驗證分數。
22.如權利要求21所述的語音互動方法,其特徵在於,該方法參考至少一次的該驗證 分數的組合,動態取得語句驗證的一門檻調校值,並依該門檻調校值來更新該互動信息記 錄表的信息。
23.如權利要求17所述的語音互動方法,其特徵在於,當接收使用者輸入的語音信號 且同時接收給定的目標文句信息時,提供使用者以一教學模式來進行語音互動操作,並對 該目標文句信息進行語音評量,以產生該語音評量結果,並依該語音評量結果來更新該互 動信息記錄表的信息。
24.如權利要求17所述的語音互動方法,其特徵在於,該輸出響應信息至少包括該目 標文句正確的輸出響應、該目標文句疑惑反應的輸出響應、以及介於該目標文句已學習過 但尚未學習完成的中間狀態的輸出回應。
25.如權利要求24所述的語音互動方法,其特徵在於,該中間狀態的輸出回應是依照累積教導成效/難度的比例輸出與該目標文句相對應的圖標或圖像 來做響應,在語音的輸 出響應上,以累積教導成效/難度的比例進行輸出與該目標文句相對應的部分語音。
全文摘要
本發明涉及一種語音互動系統與方法,該系統包含一目標信息接收模塊、一互動模式設定與語音處理模塊、一互動信息更新模塊、一決策模塊、及一輸出響應模塊。目標信息接收模塊接收目標信息並設定相對應的目標文句信息。互動模式設定與語音處理模塊接收使用者語音信號,設定一互動模式與決定語音的目標文句信息,並輸出目標文句的語音評量結果。互動信息更新模塊在設定的互動模式下,根據語音評量結果和一時間計數,更新一互動信息記錄表的信息。決策模塊根據此互動模式和互動信息記錄表的信息來決定目標文句信息的輸出模式。輸出響應模塊根據此決定的輸出模式和互動信息記錄表的信息來輸出響應信息。
文檔編號G09B19/06GK101840640SQ20091012764
公開日2010年9月22日 申請日期2009年3月19日 優先權日2009年3月19日
發明者張森嘉, 張耀元, 塗家章, 簡世傑 申請人:財團法人工業技術研究院