語音留言與傳達的系統與方法

2023-11-06 12:27:57 5

專利名稱：語音留言與傳達的系統與方法
技術領域：
本發明涉及一種語音留目與傳達(leaving and transmitting speech messages) 的系統與方法。
背景技術：
留言與傳達是日常生活中常見的活動，常見的運用方式包含了寫便條紙、電子郵件、電話留言與錄音機等方式，在這類的運用中，留言者與被傳達者通常非同一人。另一類的運用方式如行事曆(Calendar)或電子行事曆(Electronic Calendar)，則以自我提醒為主要的應用，例如留言給自己並傳達給自己。不論上述哪一類的應用，留言內容通常都不是馬上要處理的，也因此接收留言的人(被傳達者)常會因為某些原因遺忘留言所交待的訊息，或者因所處地點的關係，接收留言的人無法適時接收到留言。因此，要提高留言與傳達的功效，在適當的時間通過適當的傳遞管道傳達至接收留言的人會是較佳的解決方案。這種留言與傳達也可應用在主動關懷或居家照護上，譬如，家中年長者需給予吃藥提醒或囑咐學童需按時完成家庭作業等。將這種留言與傳達運用在具備行動能力的家用機器人上，更是目前社會所能夠運用的，若結合機器人的行動能力，可將留言訊息以更適切的方式傳達給家中成員，並且達到主動關懷與照護的目的之一。有許多關於語音留言與傳達的現有技術，例如，美國專利號US6324261的文獻中，揭示了一種留言錄音與播放的硬體架構，是搭配傳感器來運作，沒有進行留言解析或重組等，其操作以硬體按鍵來實施，而非主動播放。美國專利號7327834揭示的一種具有相互通信功能的訊息傳達系統中，其使用的操作方式需要使用者明確定義收件者、日期時間、以及事件訊息與傳遞訊息等項目。美國專利號7394405的文獻中，揭示了一種與地域相關的訊息通知系統「System For Providing Location-Based Notifications」。如圖 1 的範例所示，在裝設有此訊息通知系統的車輛102中，其操作需要使用者輸入標頭信息(header information) 104，來定義通知型態、有效日期(expiration date)、重要性(importance)與語音記錄(speech recording) 106，並搭配一地域檢測裝置(location detection device)如GPS，來決定通知訊息的輸入裝置目前所在的地理位置。當輸入裝置目前所在的地理位置與傳達通知訊息的位置110接近至一閾值(threshold)範圍108內時，則傳達通知訊息。中國專利申請號2006101對四6. 3的文獻中，揭示了一種基於語音識別技術的智能化家居語音記錄及提醒系統。如圖2的範例所示，此系統包含一語音接收模塊210、一系統控制模塊220，以及一語音輸出模塊230三個部份。此系統根據預定義規則，對用戶發出的語音信號進行辨識，分辨是否為控制語音或信息語音，並對語音數據進行個性化處理與傳達用戶，從而實現直接通過語音進行控制，完成自動留言、日記及預約提醒等功能。在操作上給定兩控制語音，即開始留言與結束留言，於兩控制語音所夾的為信息語音。臺灣專利號1242977的文獻中，揭示了一種語音行事曆系統。如圖3的範例所示，語音行事曆系統300包含一網際網路伺服器311、一計算機電話整合伺服器312、以及一語音合成伺服器313，伺服器311、312、313皆連接至一通信網路31，是一種處理網際網路與電信網絡之間訊息傳遞的語音行事曆系統。網際網路伺服器311連接至網際網路32，以處理網際網路用戶34與系統300的通信作業，如電子郵件的收發，此電子郵件包含一行事曆事件，此行事曆事件包含通知訊息與設定時間，其中通知訊息可為文字訊息或預錄的語音文件，而文字訊息是以語音合成技術合成語音文件，並將語音文件播放於電信網絡33的通訊中。計算機電話整合伺服器312連接至電信網絡33，以處理電信網絡用戶35與系統300的電話響應。綜合上述及其它多個現有技術文獻的說明，最常見的留言與傳達是使用者按照事先定義的規則輸入留言與傳達信息，包括收件者、日期時間、事件訊息與傳遞訊息的方式等；其次是利用語音辨識，依預定義的規則輸入語音信息。

發明內容
本發明的實施範例可提供一種語音留言與傳達的系統與方法。在一實施範例中，所揭示的是關於一種語音留言與傳達的系統，此系統包含一命令或訊息咅Ij 析器(command or message parser)、一傳送控制器(transmitting controller) > 一訊息合成器(message composer)、以及至少一訊息傳送裝置(message transmitting device)，命令或訊息剖析器分別連接至傳送控制器與訊息合成器。命令或訊息剖析器從至少一留言者(reminder)的輸入語音，剖析出多項信息(tag information)，至少包括至少一留言者身份(reminder ID)、至少一留言傳達命令 (transmitted command)、以及至少一留 g '訊息語音(speech message)；訊息合成器將此多項信息合成出一傳達訊息語音(transmitted message speech)；傳送控制器根據至少一留言者身份與至少一留言傳達命令，控制一裝置切換組件(device switch)，使傳達訊息語音經由至少一個訊息傳送裝置中的一訊息傳送裝置，而被傳送到至少一接收留言者。在另一實施範例中，所揭示的是關於一種語音留言與傳達的方法，此方法包含從至少一留言者的輸入語音，剖析出多項信息，此多項信息至少包括至少一留言者身份、至少一留言傳達命令、以及至少一留言訊息語音；將此多項信息合成一傳達訊息語音；以及根據此至少一留言語者身份與此至少一留言傳達命令，控制一裝置切換組件，使此傳達訊息語音經由此至少一訊息傳送裝置中的一訊息傳送裝置，而被傳送到至少一接收留言者。現結合下列附圖、實施範例的詳細說明及權利要求，將本發明的上述及其它優點詳述於後。

圖1是一種與地域相關的訊息通知系統的一個範例示意圖。圖2是一種基於語音識別技術的智能化家居語音記錄及提醒系統的一個範例示意圖。圖3是一種語音行事曆系統的一個範例示意圖。圖4是語音留言與傳達的系統的一個範例示意圖，與所揭示的某些實施範例一致。圖5以一個工作範例來說明於留言與傳達兩階段的運作，與所揭示的某些實施範
例一致。
圖6A至圖6D是幾種傳達與回饋的運作範例，與所揭示的某些實施範例一致。圖7是一個範例示意圖，說明命令或訊息剖析器的結構，與所揭示的某些實施範
例一致。圖8A至圖8C是三種實現語音內容擷取器的範例架構示意圖，與所揭示的某些實施範例一致。圖9是混態文字的數據結構的一個範例示意圖，與所揭示的某些實施範例一致。圖10是文字內容分析器的一個範例架構示意圖，與所揭示的某些實施範例一致。圖11是一個範例示意圖，以一混態文字的範例來說明概念序列重組模塊如何重新編輯與分析混態文字的內容，與所揭示的某些實施範例一致。圖12是一個範例示意圖，說明概念序列選擇模塊如何將概念序列進行概念分數的計算，與所揭示的某些實施範例一致。圖13A至圖13C是確認接口的幾種輸出與輸入的範例示意圖，與所揭示的某些實施範例一致。圖14以一個工作範例來說明於傳送控制器的運作，與所揭示的某些實施範例一致。圖15是承圖14的範例，來說明當傳達條件不被滿足時，傳送控制器的運作，與所揭示的某些實施範例一致。圖16是訊息合成器的一個範例示意圖，與所揭示的某些實施範例一致。圖17是一個範例示意圖，說明當傳達條件不被滿足而無法以『留言指定』的方式來完成傳達時，訊息合成器的運作，與所揭示的某些實施範例一致。圖18是多個留言者輸入語音留言後，傳達給單一留言對象時，訊息合成器進行文句合成的一個範例示意圖，與所揭示的某些實施範例一致。圖19是一範例流程圖，說明語音留言與傳達方法，與所揭示的某些實施範例一致。附圖符號說明102 車輛106語音記錄110傳達通知訊息的位置210語音接收模塊230語音輸出模塊300語音行事曆系統312計算機電話整合伺服器31通信網路；34網際網路用戶35電信網絡用戶400留言與傳達系統404輸入語音412留言者身份416留言訊息語音
104標頭信息 108閾值範圍
220系統控制模塊
311網際網路伺服器 313語音合成伺服器 32網際網路 33電信網絡
402留言者
410命令或訊息剖析器 414留言傳達命令 420傳送控制器
430訊息合成器432傳達訊息語音432a留言訊息432b饋回訊息440訊息傳送裝置450裝置切換組件512媽媽514留言語音516多項信息522定時器532麥克風534影像擷取裝置536指紋檢測裝置538射頻識別標籤540爸爸542手機552設備開關710語音內容擷取器712混態文字720文字內容分析器730確認界面812語者識別模塊814語音辨識模塊816信心值量測模塊818語者語音資料庫822進行聲學模型挑選擬4挑選出聲學模型826語者相對應的聲學模型828聲學模型加調整參數830語者相關的語音辨識模塊842搜尋空間834語音辨識詞彙836文法838最大相似度分數846語者相對應的聲學模型848語者相對應的聲學模型加調整參數1010概念序列重組模塊1012概念整合文法1014範例概念序列語料庫1016概念序列1018信心值1020概念序列選擇模塊1022n-gram概念分數1024訊息或垃圾分辨文法1026由語意框組成的最佳概念序列1110混態文字實例1112概念整合文法範例1114範例概念序列語料庫範例1116概念序列與信心值1118概念序列與信心值範例1210概念序列和對應的總分數範例1218最佳概念序列和對應的總分數範例1220概念表格1310語意框1410訊息資料庫1420語音訊息紀錄1430感測裝置1432影像攝影機1434射頻辨別裝置1436定時器裝置1520饋回訊息1540其它傳達裝置1610語言生成器1620語言生成合成模板資料庫1622合成模板資料庫範例1630語音合成器1632語音傳達訊息
1722,1724饋回訊息合成模板1742、1744饋回訊息1720語言生成合成模板資料庫1812、1814、1816三筆留言訊息記錄1842傳達訊息語音範例1910從至少一留言者的輸入語音，剖析出及輸出多項信息，此多項信息至少包括至少一留言者身份、至少一留言傳達命令、以及至少一留言訊息語音1920將此多項信息合成一傳達訊息語音1930根據此至少一留言語者身份與此至少一留言傳達命令，控制一裝置切換組件，使此傳達訊息語音經由此至少一訊息傳送裝置中的一訊息傳送裝置，而被傳送到至少
一接收留言者
具體實施例方式本發明的實施範例中可提供一種語音留言與傳達的系統與方法。在本發明的實施範例中，留言者以連續自然語言對話的方式輸入留言語音至本發明的系統中，本系統自動解析留言語音後，取出多項信息，包括如留言對象、時間、事件訊息等信息，然後依留言者希望傳達的條件，例如指定的時間範圍內與傳達方式等，傳達留言訊息給接收留言的人。圖4是語音留言與傳達的系統的一個範例示意圖，與所揭示的某些實施範例一致。圖4的範例中，留言與傳達系統400包含一命令或訊息剖析器410、一傳送控制器420、一訊息合成器430、以及至少一個訊息傳送裝置440，命令或訊息剖析器430分別連接至傳送控制器420與訊息合成器430。命令或訊息剖析器410從至少一留言者402的輸入語音404，剖析出多項信息，至少包括至少一留言者身份412、至少一留言傳達命令414、以及至少一留言訊息語音416。此多項信息被輸出至訊息合成器430，以合成出一傳達訊息語音432。傳送控制器420根據留言者身份412與留言傳達命令414，控制一裝置切換組件 450，使傳達訊息語音432經由至少一訊息傳送裝置440，例如訊息傳送裝置1_3等中的一訊息傳送裝置，而被傳送至一接收留言者，例如，傳達訊息語音432如果是要被傳達的留言訊息(transmitted message) 432a，則將留言訊息43 傳送給留言對象442 ；如果是一饋回訊息432b，則將饋回訊息(feedback message) 432b饋回給留言者402。命令或訊息剖析器410對至少一留言者402的輸入語音404進行辨識時，可識別出至少一留言者身份412。而對整個語音輸入片段(segment)，命令或訊息剖析器410可根據給定文法與語音可信度量測，而辨識出指令詞彙(command word)片段與具有音標的補白 (phonetic filler)片段；再將補白片段區分出訊息補白(message filler)片段與垃圾補白(gartage filler)片段。從指令詞彙片段中，命令或訊息剖析器410可辨識出各種留言傳達命令414。根據訊息補白片段，命令或訊息剖析器410可從輸入語音404中擷取出至少一留言訊息語音416。留言與傳達系統400的操作可分為兩個階段，即留言與傳達。圖5以一個工作範例來說明此兩階段，與所本發明的某些實施範例一致。在留言階段時，留言者輸入留言語音至系統400中，圖5的範例中，一位媽媽512 輸入留言語音514，留言語音514為『該倒垃圾了，記得在下午六點以前跟爸爸說』，則留言語音514由命令或訊息剖析器410來接收，並從留言語音514剖析出多項信息516，其中，此多項信息516包括有(a)留言者身份(記為Who)，此例為『媽媽』；(b)留言對象身份(記為Whom)，此例為『爸爸』；(c)留言者要留言給留言對象的語音訊息(記為What，以下簡稱語音訊息)，此例為『該倒垃圾了』；(d)何時(記為When)將語音訊息傳達給留言對象，此例為『下午六點以前』；(e)通過何種訊息傳達方式(記為How)將語音訊息傳達給留言對象，此例為『廣播裝置』，是一系統默認值。其中，項目(d)與(e)是可選項(optional)，可選項的信息可由系統自動給予預定值(predefined value) 0對整個語音輸入片段，Who、Whom、 When、以及How是辨識出的指令詞彙片段；而What，即語音訊息，是辨識出的訊息補白片段。當命令或訊息剖析器410將留言信息剖析為多項信息516後，將多項信息516先傳遞給傳送控制器420，此時便完成留言階段的作業。多項信息516被傳遞給傳送控制器 420之前，命令或訊息剖析器410也可以先執行一確認(confirmation)動作，來確保此多項信息的精確性，例如回傳此多項信息並要求一確認響應(acknowledgement)。在傳達階段時，傳送控制器420接收命令或訊息剖析器410傳遞的多項信息516 後，先判斷是否有滿足上述項目(b)、(d)的條件。上述範例中，也就是判斷是否有可以滿足「下午六點以前」將留言內容傳達給「爸爸」的「廣播裝置」。其中，Whom(爸爸)與When(下午六點以前)是傳送控制器420必須先滿足的兩個條件，這兩條件滿足後，再通過How (廣播裝置)來進行留言訊息的傳達。是否已滿足此兩條件的判斷可藉由內部的感測(sensor) 裝置或與外部的感測裝置相連結的控制線路來實現。上述範例中，感測裝置例如是定時器522，可用來判斷是否滿足留言傳達的時間條件「下午六點以前」。而可用來感測是否為留言對象「爸爸」的感測裝置例如是麥克風532、影像擷取裝置534、指紋檢測裝置536、射頻識別標籤538等。麥克風532可感測周遭所接收語音、影像擷取裝置534可擷取周遭影像、使用者可主動按壓指紋檢測裝置536以使系統擷取使用者指紋、使用者主動攜帶可讓系統識別身分的射頻識別標籤538，這些感測數據可用來判斷是否為「爸爸」。因此，傳送控制器420可藉由內部的感測裝置或與外部的感測裝置相連結的控制線路，以得知是否已滿足Whom與When的傳達條件。當傳送控制器420得知已滿足傳達條件時，亦即已檢測到留言對象是「爸爸」，並且留言傳達的時間是在「下午六點以前」，將前述的Who (媽媽)、Whom(爸爸)、What (媽媽的留言語音『該倒垃圾了』)等信息傳送給訊息合成器430，並且根據How(廣播裝置)的條件去控制一裝置切換組件(device switch) 450，例如，開啟一對應的設備開關552，使得訊息合成器430所合成的傳達訊息語音432可經由至少一個訊息傳送裝置440中一對應的訊息傳送裝置，例如手機M2，被傳送給留言對象，即「爸爸」 5400上述範例中，訊息合成器430接收到Who (媽媽)、Whom (爸爸)、What (『該倒垃圾了』)等信息後，可從多種合成模板(template)中選出一種合成模板來進行留言語音的合成。以下是訊息合成器430所合成的傳達訊息語音432的其中一種可能合成的傳達訊息語音『爸爸，以下是媽媽給你的留言該倒垃圾了』。此合成語音通過傳送控制器420開啟的設備開關552，經由一對應的訊息傳送裝置，例如手機M2，進行播送。由於傳送控制器420 已檢測到留言對象(爸爸)，所以該留言對象(爸爸)就可以接收到留言者(媽媽)的留言訊息，此時便完成傳達階段的作業。本發明的留言與傳達除了上述的單一留言者與單一留言對象的運作外，也可以應用在單一或多方傳達與回饋的運作範例上。單一留言者與多留言對象的運作範例如，媽媽輸入以下語音留言給家中所有成員「明天早上六點叫大家起床」，其中的留言對象(Whom) 就是家中所有成員。圖6A至圖6D是幾種傳達與回饋的運作範例，與所揭示的某些實施範例一致。圖6A是一對一的傳達範例，其中，單一留言者輸入語音留言後，傳達給單一留言對象。圖6B是多對一的傳達範例，其中，多個留言者輸入語音留言後，傳達給單一留言對象。圖6C是多對一的傳達範例，其中，單一留言者輸入語音留言後，傳達給多個留言對象。圖6D 是一對一的傳達與回饋範例，其中，單一留言者輸入語音留言後，傳達訊息語音是一饋回訊息，所以直接回饋給該留言者。留言與傳達系統400的各個模塊的結構與運作，詳細說明如下。圖7是一個範例示意圖，說明命令或訊息剖析器的結構，與所揭示的某些實施範例一致。參考圖7的範例，命令或訊息剖析器410包含一語音內容擷取器(speech content extractor) 710、以及一文字內容分析器(text content analyzer) 720。語音內容擷取器 710接收留言者402的輸入語音404，並自此輸入語音404中擷取出留言者身分412、輸入語音對應的詞彙(word)與音標(phonetic transcription)混合的文字信息(mix-type text,以下簡稱」混態文字」)712、以及訊息語音416的信息。混態文字712被傳遞給文字內容分析器720後，文字內容分析器720從混態文字 712中分析出前述的Whom、When、How等留言傳達命令414 (其中的When、How可以是選項)。留言者身分412、訊息語音416、以及分析出的留言傳達命令414可直接傳遞給傳送控制器 420、或是經確認後再傳遞給傳送控制器420，以進行傳達控制處理。此確認動作是隨意的，可確認這些被傳遞信息的精確性，可通過如確認接口(confirmation interface) 730來要求一確認響應。本發明揭示的語音內容擷取器710可以有很多種實現架構，例如圖8A的範例所示，可以一語者識別模塊(Speaker Identification) 812、一語音辨識模塊(Automatic Speech Recognition，ASR) 814、以及一信心值量測模塊(Confidence Measure，CM) 816來實現。其中，語者識別模塊812與語音辨識模塊814分別接收留言者的輸入語音404。語者識別模塊812將輸入語音404與一預先訓練的語者語音資料庫818裡的數據作比對，來找出與輸入語音404最為相近者，以識別出留言者身份412。語音辨識模塊814則對輸入語音 404進行辨識，以產生混態文字712。之後，信心值量測模塊816將此輸入語音與混態文字 712進行驗證，以產生各混態文字相對應的信心值，進而擷取出訊息語音416。圖8B的範例與圖8A的範例不同之處是，語者識別模塊812先對留言者的輸入語音404進行語者識別，識別出的語者除了直接輸出之外，也可用來挑選該語者所對應的聲學模型或是聲學模型加調整參數，例如進行聲學模型挑選822中，從語者相對應的聲學模型(acoustic model)擬6或是聲學模型加調整參數(adaptation parameters) 828，挑選出聲學模型824，以提供給後續的語音辨識模塊814使用，讓語音辨識率提高。圖8C的範例是使用一語者相關的語音辨識模塊(Speaker-d印endent ASR) 830與信心值量測模塊816進行處理。其中，語者相關的語音辨識模塊830在進行語音辨識所使用的搜尋空間(karch Space) 842是通過語音辨識詞彙834、文法836、以及預先訓練的語者對應的聲學模型846或是聲學模型加調整參數848等資料庫所建構而成。然後，在搜尋空間842中尋找出具有最大相似度分數(maximum likelihood score)838的路徑，可循路徑838去得到對應的混態文字712和所對應的留言者，例如媽媽，再通過信心值量測模塊816，將留言語音與混態文字712進行驗證，以產生混態文字712所對應的信心值，進而擷取出訊息語音416。圖9是混態文字的數據結構的一個範例示意圖，與所揭示的某些實施範例一致。圖9的範例中，此混態文字的數據結構可包含8種卷標信息。此8種卷標信息中，_ Date_代表日期，例如周一、一月、一日等。_Time_代表時間，例如一點、十分、十秒等。_ cmd_代表指令(command)，例如講、說、提醒、通知等。_Whom_代表留言對象，例如爸爸、媽媽、哥哥等。_How_代表訊息傳達方式，例如打電話、郵寄、廣播等。_F/S_中，F代表虛詞或功能詞(Function word)，意指不具備意義的詞彙，例如記得、幫我等；而S代表停用詞(Stop word)，分兩類，第一類是網頁搜尋時的常見詞，搜尋引擎會忽略這些詞彙，以提升速度，第二類包涵語氣詞、副詞、介詞、連接詞等不具意義的詞，本發明揭示的範例中指的是第二類的詞彙，例如等會兒、不過、等一下、大概等。_Filler_代表補白，例如基本音節(Basic-syllable)、音標(Phone)、補白語(Filler-word)等。_Y/N 代表確認語 (confirmation word)，例如是、對的、不是、錯等。確認語是命令或訊息剖析器410執行確認動作後的響應。文字內容分析器720是分析來自語音內容擷取器710的混態文字712，其分析過程可以從在線(online)訓練或是離線(offline)訓練，包括根據收集的語料與文法去刪除混態文字中留言與傳達應用非必要的文字訊息，並重新編輯成以語意框(Semantic Frame) 組合而成的概念序列(Concept Sequence) 0如圖10的範例所示，文字內容分析器720可包含一概念序列重組模塊(Concept Sequence Restructure) 1010與一概念序列選擇模塊 (Concept Sequence Selection)1020。概念序列重組模塊1010藉由概念整合文法(Concept Composer Grammar) 1012 與範例概念序列(Example Concept kquence)語料庫1014與訊息或垃圾分辨文法 ("Message或Gartage"Grammar) 1024重新編輯語音內容擷取器710擷取出的混態文字後，產生出所有符合範例概念序列的概念序列1016，並計算出重組後概念序列中所有概念的信心值1018。將該些概念序列1016與所得的信心值1018傳送至概念序列選擇模塊1020。概念序列選擇模塊1020藉由n-gram概念分數1022，挑選出一組由語意框組成的最佳概念序列1(^6。由語意框組成的最佳概念序列10 與其相對應的信心值可傳送給確認接口 730。圖11是一個範例示意圖，以一混態文字的範例來說明概念序列重組模塊1010如何重新編輯與分析混態文字的內容，與所揭示的某些實施範例一致。圖11的範例中，來自語音內容擷取器710的混態文字實例1110的內容*『_Filler_Filler_Sl S2 S3 S4 S5_F/ S_ 記得 _F/S 在 _When_ 下午六點以前 _F/S_ 跟 _Whom_ 爸爸 _Cmd_ 說 _Fi 1 ler_S8 S9 SlO Sll (去倒垃圾)』，概念序列重組模塊1010藉由概念整合文法1012中範例如1112，與範例概念序列語料庫1014中範例如1114，重新編輯並產生多個符合範例概念序列的概念序列與計算出的信心值，例如標號1116所示，其中，符號代表對範例概念序列語料庫中的範例進行η次刪除的動作。例如，混態文字1110藉由概念整合文法範例1112，與範例概念序列語料庫範例1114中的(1. 5)_Filler_When_Whom，重新編輯並進行4次刪除的操作，產生出概念序列，參考箭頭1118所指，亦即『(1. 5Del*5)_Filler_Sl S2 S3 S4 S5_ffhen_ 下午六點以前_1110111_爸爸』。重新編輯範例概念序列語料庫的另一操作為，符號代表進行η次加入的動作。因此，當語音內容擷取器710發生辨識錯誤時，後續仍可藉由概念整合文法1012與範例概念序列語料庫1014的輔助，來取得與沒有辨識錯誤相同的概念序列，而不受部分錯誤辨識詞彙或音標所影響。概念序列重組模塊1010產生出所有符合範例概念序列的概念序列後，計算出這些概念序列相對應的信心值。計算此信心值的範例如下列公式。Scorel (編輯)=Σ log(P(編輯 |(01^印{非屬於_ 土1161~_))+乙 log(P(編輯 |_Filler_ 屬於訊息))+ Σ log(P(編輯於垃圾))，以標號1118所指的概念序列為例，其信心值的計算如下信心值= Σ log(P(刪除 |_F/S_))+ Σ log(P(刪除 |_F/S_))+ Σ log(P(刪除 |_F/ SJ)+Σ log(P(刪除|_指令_))+Σ log(P(刪除於垃圾))= (-0. 756) + (-0. 756) + (-0. 756) + (-0. 309) + (-0. 790) = -3. 367所有概念序列與所得的信心值傳送至概念序列選擇模塊1020後，如上述範例，圖 12說明概念序列選擇模塊如何將這些概念序列進行概念分數的計算，與所揭示的某些實施範例一致。圖12中，概念序列選擇模塊1020例如可藉由n-gram概念分數1022與訊息分辨文法信息輔助，來將這些概念序列進行概念分數的計算，以前述概念序列『_Filler_Sl S2 S3 S4 S5_When_下午六點以前_Whom_爸爸』為例，其n-gram概念分數的計算如下Score2 (n-gram 概念)= log(P(_Filler」null))+log(P(_When」_Filler，null))+log(P(_ffhom_|_ ffhen_, _Filler_, null))= log(0. 78)+log (0. 89)+log (0. 98) = _2. 015，如概念表格1220所示，概念序列『_Filler_Sl S2 S3 S4 S5_When_下午六點以前_1110111_爸爸』中，概念(What)為『Si S2 S3 S4 S5』，其分數為0. 78 ；概念(Whom)為『爸爸』，其分數為0.89 ；概念(When)為『下午六點以前』，其分數為0.98。有了這些概念序列和對應的概念分數，然後每一概念序列的總分數可從信心值與概念分數來算出，此總分數的計算範例如下總分數=￥1\&0儀1(編輯)+界2\&0儀2(11-8『&111概念)，其中wl+w2 = l,wl > =0，w2 >= 0。以概念序歹Ij 1118為例，其總分數例如是0. 5X (-3. 367)+0. 5X (-2. 015) =-2. 736。有了這些概念序列和對應的總分數，如範例1210，概念序列選擇模塊1020可從中挑選出至少一組由語意框組成的最佳概念序列，來傳送給確認接口 730。最佳概念序列例如箭頭1218所指，具有最高總分數為-2. 736。確認接口 730是要確認文字內容分析器720分析所得語意是否有不夠清楚 (semantic not clear)，或是語意是否有衝突(conflict)的處，或是語意是否滿足留言與傳達的需求等。當上述情形為否定時，圖13A至圖13C是確認接口的幾種輸出與輸入的範例示意圖，與所揭示的某些實施範例一致。如圖13A的範例所示，若確認接口 730接收的語意框1310的語意有不夠清楚或是衝突的處，例如信心值介於高標準閾值與低標準閾值之間時，則確認接口 730可要求一響應訊息1310，根據收到的響應訊息1310再補充語意。不夠清楚的語意例如是缺少必要概念的語意，譬如『下午六點以前(When)通知爸爸(Whom)』，此語意缺少必要概念What，也就是語音訊息。衝突的語意例如是出現重複概念的語意，譬如，前一次對話紀錄中，概念When為『下午六點以前』，但目前對話紀錄中，概念When為『下午六點半以前』，此重複概念When出現了不同的內容。補充語意後，例如語意已獲得滿足留言與傳達條件(semantic clear)時，如圖 13B的範例所示，確認接口 730可再執行確認1320，以確認留言內容是否完整且正確。若得到確認肯定的響應，則確認接口 730可記錄留言者身份412、留言傳達命令414、以及留言訊息語音416等留言訊息，並傳送至傳送控制器420。若得到確認否定的響應，則確認接口 730 例如可要求重新輸入留言語音。回顧圖5的範例中，在傳達階段時，傳送控制器420接收命令或訊息剖析器410傳遞的留言與傳達相關信息後，先判斷是否有滿足傳達條件。再通過訊息傳送裝置440來進行留言訊息的傳達。圖14以一個工作範例來說明於傳送控制器420的運作，與所揭示的某些實施範例一致。圖14的範例中，傳送控制器420可將命令或訊息剖析器410傳送的留言與傳達相關信息，記錄到一訊息資料庫1410中。例如，傳送控制器420將收到的留言者身份『媽媽 (Who) J以及留言傳達命令，包括『爸爸(Whom)』、『六點以前(When)』、『廣播(How)』、與『訊號08010530 (What)』，對應的語音訊息紀錄1420存入訊息資料庫1410中。並且藉由感測裝置1430中，例如影像攝影機1432或是射頻辨別裝置1434等，來確認爸爸是否回到家中。當定時器裝置1436確認傳達條件符合When (六點以前)時，將留言者身份『媽媽(Who)』、留言對象『爸爸(Whom)』、與語音訊息『訊號08010530 (SpeechMessage)』，等信息傳送到訊息合成器430，並且根據傳達方式『廣播(How)』的條件，來開啟對應的設備開關。在現實環境中，留言者的輸入語音中的傳達條件不一定可被滿足，例如，爸爸六點以前不在家，此情況下，留言訊息可能無法實時被告知留言對象。因此，如圖15的範例所示，傳送控制器420例如可以利用系統預設(preset)的傳達順序去設定訊息傳送裝置，以避免發生留言訊息沒有被傳達給留言對象的情形。例如，系統預設被使用的訊息傳送裝置的順序為，當定時器裝置1436確認傳達條件符合When (六點以前)時，從影像攝影機1432 或是射頻辨別裝置1434發現爸爸不在家，傳送控制器420饋回語音訊息記錄1420，並將傳達方式『廣播(How)』改為系統預設的『語音簡訊』，且開啟對應的設備開關，使訊息合成器 430所合成的傳達訊息語音，即饋回訊息(feedback message) 1520，通過非廣播的其它傳達裝置(other transmitting device)巧40，並以系統預設的『語音簡訊』方式來傳送，饋回訊息1530例如可回饋給留言者或是傳送給留言對象『爸爸』，以確保不會遺漏傳達訊息語音。也就是說，當傳達條件不被滿足而無法以『留言指定』的方式來完成傳達時，例如無法在設定的時間以『廣播』傳達語音訊息給留言對象『爸爸』時，傳送控制器420可將訊息傳送裝置設定為『系統預設』的傳達方式，並通過其它傳達裝置1540來傳送，以確保不會遺漏傳達訊息語音。訊息合成器接收傳送控制器420傳遞的留言者身份(Who)、留言對象(Whom)、語音訊息(What)的信息1450後，藉由例如語言生成技術將這些相關信息重新整合，產生符合『信、達、雅』的句子，並將產生的句子轉換成傳達訊息語音432，然後交由訊息傳送裝置 440，將傳達訊息語音432傳送給一接收留言者。圖16是訊息合成器的一個範例示意圖，與所揭示的某些實施範例一致。如上述圖4的範例，訊息合成器430的架構與運作說明如下。訊息合成器430至少包括一語言生成器(Language Generator) 1610、以及一語音合成器(Speech Synthesis) 1630。語言生成器 (Language Generator) 1610接收傳送控制器420傳遞的留言者身份『媽媽(Who)』、留言對象『爸爸(Whom)』、與語音訊息『訊號08010530 (Speech Message) J的信息1450，並自一語言生成合成模板(Language Generation Template, LG Template)資料庫 1620，例如合成模板資料庫範例1622，中選出一合成模板進行文句的合成。例如，當傳達條件皆被滿足時，語言生成器1610選擇一合成模板「Whom，Who留了以下的訊息給你，FWhatJJ,以信息1450的例子而言，將生成「爸爸，媽媽留了以下的訊息給你，『What』」的語音信號，再通過語音合成器1630合成為一語音信號。之後，語音合成器1630將此語音信號與語音訊息(What)『訊號08010530』作接續(concatenation)，產生「爸爸，媽媽留了以下的訊息給你，『該去到垃圾了』」的語音傳達訊息(Transmitted Message) 1632，其中，『該去到垃圾了』是訊號08010530的內容範例。語音傳達訊息1632將再通過訊息傳送裝置傳達給留言接收者，例如留言對象『爸爸(Whom)』。當傳達條件不被滿足時，例如無法在設定的時間以『留言指定』的方式來完成傳達時，則如圖17的範例所示，訊息合成器430接收傳送控制器420饋回的語音訊息記錄1420，並自一語言生成合成模板資料庫1720，選出一饋回訊息合成模板1722來進行文句的合成，以合成一饋回訊息1742。若傳送控制器420已將訊息傳送裝置設定為『系統預設』的傳達方式，例如『語音簡訊』，則可自語言生成合成模板資料庫1720，選出另一饋回訊息合成模板1724，以合成一饋回訊息1744。圖18的範例是多個留言者輸入語音留言後，傳達給單一留言對象時，訊息合成器 430進行文句合成的一個範例示意圖，與所揭示的某些實施範例一致。參考圖18，訊息合成器430接收經剖析後的三筆留言訊息記錄1812、1814與1816，其中兩個留言者身份分別是『媽媽』與『弟弟』，留言對象皆為『爸爸』，而『媽媽』有兩筆留言訊息，『弟弟』有一筆留言訊息。訊息合成器430可自一語言生成合成模板資料庫選出一傳達訊息合成模板，並將三筆留言訊息記錄1812、1814與1816，合成一傳達訊息語音，例如標號1842所示，亦即「爸爸，媽媽吩咐你『訊息1-1』，還有『訊息1-2』，另外弟弟說『訊息2』」。如上所述，圖19的範例流程說明了本發明揭示的語音留言與傳達方法，與所揭示的某些實施範例一致。參考圖19，步驟1910中，從至少一留言者的輸入語音，剖析出及輸出多項信息，此多項信息至少包括至少一留言者身份、至少一留言傳達命令、以及至少一留言訊息語音。步驟1920中，將此多項信息合成一傳達訊息語音。步驟1930中，根據此至少一留言語者身份與此至少一留言傳達命令，控制一裝置切換組件，使此傳達訊息語音經由此至少一訊息傳送裝置中的一訊息傳送裝置，而被傳送到至少一接收留言者。在傳送傳達訊息語音之前，可通過一確認接口來執行至少一確認動作，以確認此多項信息或此傳達訊息語音的精確性。步驟1910中，可對整個此輸入語音片段根據給定文法與語音可信度量測，來得到具有高可信度的至少一文字指令片段、以及具有音標的至少一補白片段，也可將此補白片段區分出訊息補白片段與垃圾補白片段。從至少一文字指令片段中可得到此至少一留言傳達指令，根據此訊息補白片段，可從輸入語音中擷取出至少一留言訊息語音。步驟1920中，根據此多項信息，可自一語言生成合成模板資料庫，選出一合成模板來進行文句的合成，以合成傳達訊息語音。語言生成合成模板資料庫可包括如多種傳達訊息合成模板或多種饋回訊息合成模板。步驟1930中，根據留言語者身份與留言傳達指令來控制適當的訊息傳送裝置以傳送此傳達訊息語音。例如，當傳達條件皆被滿足時，可採用『留言指定』的方式來完成傳達此傳達訊息語音；而當傳達條件不被滿足而無法以『留言指定』的方式來完成傳達時，也可將訊息傳送裝置設定為『系統預設』的傳達方式，並通過其它傳達裝置來傳送，以確保不會遺漏傳達訊息語音。綜上所述，本發明揭示的實施範例可提供一種語音留言與傳達的系統與方法。此實施範例中，經由一命令或訊息剖析器，針對留言者的輸入語音進行辨識，取得留言語者身份，而對整個語音輸入片段根據給定文法與語音可信度量測，來得到文字指令片段、以及補白片段，並將此補白片段區分出訊息補白片段與垃圾補白片段；從文字指令片段中得到各種留言傳達指令，根據此訊息補白片段，從輸入語音中擷取出留言訊息語音後，經由一訊息合成器，合成出傳達訊息語音，再根據留言語者身份與留言傳達指令來控制適當的訊息傳送裝置，以傳送此傳達訊息語音。以上所述者僅為本發明揭示的實施範例，而不能依此限定本發明實施的範圍。凡依據本發明的權利要求所作的均等變化與修飾，皆應仍屬本發明專利涵蓋的範圍。
權利要求
1.一種語音留言與傳達的系統，該系統包含一命令或訊息剖析器，從至少一留言者的輸入語音，剖析出及輸出多項信息，該多項信息至少包括至少一留言者身份、至少一留言傳達命令、以及至少一留言訊息語音；一訊息合成器，連接至該命令或訊息剖析器，並將該多項信息合成一傳達訊息語音；至少一訊息傳送裝置；以及一傳送控制器，連接至該命令或訊息剖析器，並根據該至少一留言語者身份與該至少一留言傳達命令，控制一裝置切換組件，使該傳達訊息語音經由該至少一訊息傳送裝置中的一訊息傳送裝置，而被傳送到至少一接收留言者。
2.如權利要求1所述的系統，其中該命令或訊息剖析器從該至少一留言者的輸入語音中識別出該至少一留言者身份，並根據一給定文法與一語音可信度量測，辨識出至少一指令詞彙片段與具有音標的至少一補白片段。
3.如權利要求2所述的系統，其中該至少一補白片段被區分出訊息補白片段與垃圾補白片段。
4.如權利要求3所述的系統，其中該命令或訊息剖析器從該至少一指令詞彙片段中，辨識出該至少一留言傳達命令，根據該訊息補白片段，從該留言者的輸入語音中擷取出該至少一留言訊息語音。
5.如權利要求1所述的系統，其中該至少一留言傳達命令包括留言對象、何時將該至少一留言語音訊息傳達給留言對象、以及通過何種訊息傳送方式將該至少一留言語音訊息傳達給留言對象。
6.如權利要求1所述的系統，該系統是一種單一或多方傳達與回饋兼具的系統。
7.如權利要求1所述的系統，其中該命令或訊息剖析器還包括一語音內容擷取器，接收該至少一留言者的輸入語音，並從該輸入語音中擷取出該留言者身分、混態文字、及該訊息語音的信息，該混態文字為該輸入語音對應的詞彙與音標混合的文字信息；以及一文字內容分析器，從該混態文字中分析出該至少一留言傳達命令。
8.如權利要求1所述的系統，其中該命令或訊息剖析器還包括一確認接口，該確認接口執行一確認動作來確認剖析出的該多項信息的精確性。
9.如權利要求1所述的系統，該訊息合成器自一語言生成合成模板資料庫選用一合成模板來進行文句的合成，以合成該傳達訊息語音。
10.如權利要求1所述的系統，其中，當該至少一留言傳達命令中的一傳達條件不被滿足而無法完成傳達時，該傳送控制器將該至少一訊息傳送裝置設定為一系統預設的傳達方式，並通過至少一訊息傳送裝置中的另一訊息傳送裝置來傳送該傳達訊息語音。
11.如權利要求7所述的系統，其中該文字內容分析器還包括一概念序列重組模塊，重新編輯該混態文字後，產生出多個概念序列；以及一概念序列選擇模塊，算出該多個概念序列中每一概念序列一相對應的總分數，並從中選出至少一組由語意框組成的最佳概念序列；其中，每一概念序列的該相對應的總分數是根據該概念序列相對應的一信心值與一概念分數來算出。
12.如權利要求1所述的系統，其中該訊息合成器還包括一語言生成器，接收該至少一留言者身份、該至少一留言傳達命令、以及該至少一留言訊息語音，並選用一合成模板，來生成一語音信號；以及一語音合成器，將該語音信號與該至少一留言訊息語音合成該傳達訊息語音。
13.如權利要求12所述的系統，其中該合成模板是自一語言生成合成模板資料庫中選出，該語言生成合成模板資料庫包括多種傳達訊息合成模板、或多種饋回訊息合成模板、或前述多種傳達訊息合成模板與多種饋回訊息合成模板。
14.一種語音留言與傳達的方法，該方法包含從至少一留言者的輸入語音，剖析出多項信息，該多項信息至少包括至少一留言者身份、至少一留言傳達命令、以及至少一留言訊息語音；將該多項信息合成一傳達訊息語音；以及根據該至少一留言語者身份與該至少一留言傳達命令，來控制一裝置切換組件，使該傳達訊息語音經由此至少一訊息傳送裝置中的一訊息傳送裝置，而被傳送到至少一接收留曰者。
15.如權利要求14所述的方法，該方法還包括從該至少一留言者的輸入語音識別出該至少一留言者身份；根據一給定文法與一語音可信度量測，辨識出至少一文字指令片段、以及至少一補白片段；以及從該至少一文字指令片段中得到該至少一留言傳達命令，並根據該至少一補白片段，得到該至少一留言訊息語音。
16.如權利要求14所述的方法，其中該傳達訊息語的合成還包括根據該至少一留言者身份、該至少一留言傳達命令、以及該至少一留言訊息語音，並自一語言生成合成模板資料庫中選出一合成模板，來生成一語音信號；以及將該語音信號與該至少一留言訊息語音合成該傳達訊息語音。
17.如權利要求14所述的方法，其中該至少一留言傳達命令中包括至少一傳達條件，當該至少一傳達條件皆被滿足時，採用一種留言指定的方式來完成傳達該傳達訊息語音。
18.如權利要求17所述的方法，其中當該至少一傳達條件中的一傳達條件不被滿足而傳達失敗時，採用一種系統預設的傳達方式，來傳送該傳達訊息語音。
19.如權利要求14所述的方法，其中該多項信息的剖析還包括從該輸入語音中擷取出該留言者身分、混態文字、及該訊息語音的信息，該混態文字為該輸入語音對應的詞彙與音標混合的文字信息；以及分析該混態文字，以取得該至少一留言傳達命令。
20.如權利要求19所述的方法，其中分析該混態文字還包括藉由一概念整合文法、一範例概念序列語料庫、一訊息或垃圾分辨文法，重新編輯該混態文字後，產生出多個概念序列，並算出每一概念序列一相對應的信心值；以及計算出每一概念序列的一概念分數，並根據每一概念序列該相對應的信心值與概念分數，來算出每一概念序列一相對應的總分數，並從中選出至少一組由語意框組成的最佳概念序列。
21.如權利要求14所述的方法，該方法還包括在傳送該傳達訊息語音之前，通過一確認接口來執行至少一確認動作，以確認該多項信息或該傳達訊息語音的精確性。
22.如權利要求20所述的方法，其中每一概念序列的相對應的總分數是該概念分數與該信心值兩者分別加權後的總和。
23.如權利要求17所述的方法，該方法還包括通過至少一感測裝置來判斷該至少一留言傳達命令中的該至少一傳達條件是否被滿足。
24.如權利要求18所述的方法，其中該傳達訊息語音為一饋回訊息。
全文摘要
一種語音留言與傳達的系統與方法。該語音留言與傳達的系統，自動解析至少一留言者的輸入語音後，取出多項信息，然後依留言者希望傳達的條件，傳達留言訊息給至少一接收留言的人。命令或訊息剖析器從留言語音，剖析出此多項信息，至少包括至少一留言者身份、至少一留言傳達命令、以及至少一留言訊息語音。此多項信息被輸出至訊息合成器，以合成出傳達訊息語音。傳送控制器根據此至少一留言者身份與此至少一留言傳達命令，控制一裝置切換組件，使傳達訊息語音經由至少一訊息傳送裝置中的一訊息傳送裝置，而被傳送到至少一接收留言者。
文檔編號H04M1/64GK102088505SQ20091024719
公開日2011年6月8日申請日期2009年12月2日優先權日2009年12月2日
發明者張信常, 簡世傑, 邱中人, 郭志忠申請人:財團法人工業技術研究院

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

語音留言與傳達的系統與方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法