用於多用戶和系統的通信接口設備和方法
2023-10-08 08:34:44
專利名稱:用於多用戶和系統的通信接口設備和方法
技術領域:
本發明涉及一種系統與用戶之間的語音接口。
背景技術:
隨著裝置性能在家庭環境中得到提高並且提供與所述性能相關的多種服務變得普遍,除了現有的按鈕輸入方法之外,已經引入了各種各樣的用戶接口。最近典型的用戶接口是利用語音識別的用戶接口。為了實現這種基於語音識別的用戶接口,從輸入信號檢測用戶的語音部分的語音活動檢測(VAD)能力的改進應該佔有優先地位。
具體地講,對於家庭環境中的語音接口,多個用戶和系統之間的交互被期望,並且從輸入信號檢測的用戶的講話是用於向系統指示特定任務的語音還是與另一用戶通信的講話應該是必要的。因此,VAD能力的改進被強調。然而,現有的VAD假定僅來自單個講話者的輸入,並且通常具有在輸入信號中從噪聲識別講話的目的。因此,對於多個用戶和系統之間的語音接口,現有的VAD技術具有局限性。
發明內容
本發明提供一種用於系統和多個用戶的通信接口設備,包括第一處理單元,被構造為從一個或多個用戶接收語音信息和臉部信息,並基於與各接收的語音信息和臉部信息相應的用戶模型來確定接收的語音信息是否是多個註冊用戶之一的語音信息;第二處理單元,被構造為接收臉部信息,並基於接收的臉部信息來確定用戶的注意力是否在所述系統上;以及第三處理單元,被構造為接收語音信息,分析接收的語音信息,並基於以情境為基礎表示會話流的對話模型來確定接收的語音信息是否對所述系統具有實際意義。在一個總的方面,提供了一種用於系統和多個用戶的通信接口設備,包括第一處理單元,被構造為從一個或多個用戶接收語音信息和臉部信息,並基於與各接收的語音信息和臉部信息相應的用戶模型來確定接收的語音信息是否是多個註冊用戶之一的語音信息;第二處理單元,被構造為接收臉部信息,並基於接收的臉部信息來確定用戶的注意力是否在所述系統上;以及第三處理單元,被構造為接收語音信息,分析接收的語音信息,並基於以情境為基礎表示會話流的對話模型來確定接收的語音信息是否對所述系統具有實際意義。第一處理單元還可被構造為通過將接收的語音信息與用戶模型比較來計算用戶是註冊用戶的第一概率,通過將接收的臉部信息與用戶模型比較來計算用戶是註冊用戶的第二概率,並基於計算的第一概率和第二概率來確定接收的語音信息是否是註冊用戶的語音信息。第二處理單元還可被構造為從臉部信息中提取用戶的眼睛和用戶的臉部的方向的信息,並基於提取的眼睛或臉部的方向的信息來確定注意力是否在所述系統上。第三處理單元還可被構造為當接收的語音信息的含義對應於通信樹時確定接收的語音信息對所述系統具有實際意義。在另一總體方面,提供了一種用於系統和多個用戶的通信接口方法,包括從一個或多個用戶接收多條語音信息和臉部信息,並基於與各接收的語音信息和臉部信息相應的用戶模型來確定接收的語音信息是否是註冊用戶的語音信息;基於接收的臉部信息來確定用戶的注意力是否在所述系統上;以及分析接收的語音信息的含義,並基於以情境為基礎表示會話流的對話模型來確定接收的語音信息是否對所述系統具有實際意義。本發明的另外的特點將在以下描述中被闡明,並且部分從以下描述中將是清楚的,或者可通過實施本發明而被了解。
被包括以提供對本發明的進一步理解並且與本說明書結合併構成本說明書一部分的附圖示出了本發明的實施例,並且與以下描述一起用來解釋本發明的原理。圖I是示出通信接口設備的示例的示圖。圖2是詳細示出通信接口設備的示例的示圖。圖3是示出圖2的第一處理單元的操作過程的示例的流程圖。圖4是示出圖2的第二處理單元的操作過程的示例的流程圖。圖5是示出圖2的第三處理單元的操作過程的示例的流程圖。圖6是示出對話模型的示例的示圖。圖7是不出通彳目接口方法的不例的流程圖。圖8是示出如何使用通信接口設備的示例的示圖。
具體實施例方式提供以下描述以幫助讀者全面理解這裡描述的方法、設備和/或系統。因此,這裡描述的方法、設備和/或系統的各種改變、修改和等同物可被推薦給本領域普通技術人員。描述的一系列處理步驟和/或操作是示例;然而,除了必須以特定順序發生的步驟和/或操作以外,所述步驟和/或操作的順序不限於這裡闡述的順序,而是可按照本領域已知的方式被改變。此外,為了更加清楚和簡要,可省略對公知功能和結構的描述。圖I示出通信接口設備的示例的示圖。參照圖1,通信接口設備101可提供系統102與多個用戶103、104和105之間的用戶接口。例如,通信接口設備101可從用戶103、104和105接收系統控制指令,分析接收的控制指令,並將分析的控制指令發送到系統102。通信接口設備101可以以有線或無線方式連接到系統102,並可被設置在系統102的內部。系統102可以是根據來自用戶103、104和105的指令執行特定任務的裝置。例如,系統102可以是與多個用戶103、104和105交互的電子產品、控制臺遊戲裝置或智慧機器人。通信接口設備101可從多個用戶103、104和105的語音之中檢測預先註冊的用戶的語音。例如,如果假設僅有用戶A 103和用戶B 104被註冊,則當所有多個用戶103、104和105講話時,通信接口設備101可僅檢測預先註冊的用戶A 103和用戶B 104的語音。
此外,通信接口設備101可將檢測的語音中有意義的語音發送到系統102。例如,如果用戶A 103的語音用於向系統102指示特定任務,並且用戶B 104的語音僅用於問候用戶C 105,則通信接口設備101可分析檢測的語音的含義,並根據分析結果將用戶A 103的語音發送到系統102。因此,當多個用戶103、104和105與系統102交互時,可允許系統102僅對註冊用戶的有意義的指令做出反應圖2詳細示出通信接口設備的示例的示圖。參照圖2,通信接口設備200可包括語音信息檢測單元201、臉部信息檢測單元202、第一處理單元203、第二處理單元204、第三處理單元205、用戶模型資料庫(DB) 206以及對話模型DB 207。語音信息檢測單元201接收音頻信號並從接收的音頻信號中檢測語音信息。音頻信號可包括語音信號和非語音信號。通過用戶的講話產生語音信號,通過用戶的手勢或用戶周圍的聲響產生非語音信號。例如,語音信息檢測單元201可從接收的音頻信號中提取特徵信息,諸如平滑功率譜、梅爾倒頻譜係數(MFCC)、感知線性預測係數(PLP)等。臉部信息檢測單元202接收視頻信號並從接收的視頻信號中檢測臉部信息。臉部信息可以是視頻圖像中與人臉相應的圖像的特定區域。例如,臉部信息檢測單元202可使用臉部檢測方案(諸如Ada-boost)從接收的視頻信號中提取與用戶的臉部區域相應的臉部信息。第一處理單元203接收由語音信息檢測單元201檢測的語音信息以及由臉部信息檢測單元202檢測的臉部信息。此外,第一處理單元203確定接收的語音信息是否是註冊用戶的語音信息。可基於存儲在用戶模型DB 206中用戶模型來執行接收的語音信息的確定。用戶模型可以被定義為註冊用戶的語音信息和臉部信息。例如,用戶模型DB 206可以以逐個用戶為基礎來存儲語音信息和臉部信息。第一處理單元203可將接收的語音信息/臉部信息與存儲在用戶模型DB 206中的用戶模型比較,並確定接收的語音信息是否是註冊用戶的語音信息。例如,第一處理單元203可計算接收的語音信息與用戶模型相同的概率以及接收的臉部信息與用戶模型相同的概率,然後使用計算的概率值來確定接收的語音信息是否是註冊用戶的語音信息。當確定接收的語音信息是註冊用戶的語音信息時,第二處理單元204從臉部信息檢測單元接收臉部信息,並基於接收的臉部信息來確定用戶的注意力是否在系統上。這裡,用戶對系統的注意力是指用戶具有向系統指示指令或特定任務的意圖的事件。例如,當比較用戶在注視系統的同時講話的事件與用戶沒有注視系統而講話的事件時,可確定當用戶在注視系統的同時講話時注意力在系統上。可基於包括在接收的臉部信息中的用戶的眼睛和臉部的方向來執行注意力的發生的確定。例如,第二處理單元204可從接收的臉部信息中提取用戶的眼睛和臉部的方向的信息,並基於提取的眼睛和臉部的方向的信息來確定用戶是否面對系統。如果注意力在系統上,則第三處理單元205從語音信息檢測單元201接收語音信息,分析接收的語音信息的含義,並確定分析的含義是否對系統具有實際意義。這裡,對系統具有實際意義的狀態是指用戶的講話沒有脫離一般或固定的會話模式(或話語語境)。例如,如果用戶說「開始清潔」並且因此清潔機器人開始清潔,則在清潔機器人正在清潔的同時,用戶的話語「停止清潔」和「更多地清潔客廳」對應於所述會話模式,而話語「今天天氣很好」和「做點好吃的」則偏離了所述會話模式。
可基於存儲在對話模型DB 207中的對話模型來執行接收的語音信息是否對系統具有實際意義的確定。這裡,對話模型可被定義為上述的會話模式。例如,對話模型可以是由節點和分枝構成的通信樹的形式,其中,節點對應於話語的含義,分枝對應於會話的順序。第三處理單元205在含義水平上分析接收的語音信息,並將分析的信息轉換為文本。然後,第三處理單元205可將轉換的文本與通信樹進行比較,如果轉換的文本對應於特定節點,則第三處理單元205確定接收的語音信息對系統具有實際意義。圖3示出圖2的第一處理單元的操作過程的示例的流程圖。參照圖3,以下將描述確定接收的語音信息是否是註冊用戶的語音信息的方法。在圖3中,第一處理單元203將接收的語音信息與用戶模型比較以計算第一概率(301)。例如,第一概率Pl可以是對應於語音部分的語音特徵信息與離線配置的註冊用戶 的語音特徵模型相同的概率的最大值,並且可由如下等式I來表示i\ = 1\S I θ.)其中,式=argmax/)(『VI 中),{ θ 1,θ 2, ... , θ ρ}...(I)這裡,θ表示註冊用戶的語音特徵模型,ρ表示註冊用戶的數量,S表示接收的語
音信息。然後,通過將接收的臉部信息與用戶模型比較來計算第二概率P2(302)。例如,第二概率P2可以是對應於臉部區域的圖像特徵信息與離線配置的註冊用戶的臉部特徵模型相同的概率的最大值,並且可由如下等式2來表示P2 = Ρ{ V I ip)其中,,Φρ= argmaxP(5 | Φρ), { Ψ I, ψ2, · · · , ψρ}... (2)這裡,ψ表示註冊用戶的臉部特徵模型,ρ表示註冊用戶的數量,V表示接收的臉部信息。然後使用權重來組合第一概率P1和第二概率P2 (303)。P=J(P1-P2)
—(OP1 + (I — a)P9) Pspeech = Pface= I Λ
I OPspeech ^ Pface
…(3)在等式3中,α表示可根據照明度和信噪比而變化的權重。此外,當基於語音特徵模型選擇的註冊用戶被表示為Psp_h,並且基於臉部特徵模型選擇的註冊用戶被表示為Pfare時,如果Pspeedl和Pfa。。彼此相同,則分配歸一化概率值,否則可分配O。然後,將組合值P與閾值比較(304),如果組合值P大於閾值,則確定接收的語音信息是註冊用戶的語音信息(305),否者過程終止。圖4示出圖2的第二處理單元204的操作過程的示例的流程圖。參照圖4,以下將描述確定用戶的注意力是否在系統上的方法。在圖4中,第二處理單元204從臉部信息中提取眼睛的方向的信息(401)。此外,第二處理單元204從臉部信息中提取臉部的方向的信息(402)。其後,第二處理單元204通過施加權重來組合提取的眼睛的方向的信息和臉部的方向的信息(403)。然後,組合值與閾值比較(404),如果組合值大於閾值,則確定用戶的注意力在系統上(405),否則過程終止。以上過程由如下等式4來表示。f (P (Oeye Ψρ), P (Oface Ψρ)) = β P (Oeye Ψρ) + (1-β)Ρ(0」Ψρ)f (P (Oeye I Ψρ),P (Oface I Ψρ))彡 τ orientation其中,O彡 β 彡 1,0 彡 τ orientation ( I…(4)這裡,P(0eye/¥p)表示眼睛的方向的信息的歸一化的概率值,P (Oface/Ψρ)表示臉部的方向的信息的歸一化的概率值,β表示權重。圖5示出圖2的第三處理單元205的操作過程的示例的流程圖。參照圖3,以下將描述確定語音信息是否對系統有意義的方法。在圖5中,第三處理單元205分析接收的語音信息的含義(501)。例如,第三處 理單元205可識別接收的語音信息,並將接收的語音信息轉換為文本。另外,第三處理單元205確定分析的含義是否對應於會話模式(502)。例如,第三處理單元205可確定通過使用如圖6所示的對話模型分析的含義是否對系統有意義。如果確定結果顯示含義對應於會話模型,則語音信息被發送到系統,或者與語音信息相應的控制指令被產生並被發送到系統(503),否則過程終止。圖6示出對話模型的示例的示圖。在圖6中,樹的節點對應於會話的含義,樹的分枝對應於會話的順序。例如,根據會話模式(或語境),指示「你能給我一些喝的嗎? 」的節點Al可具有兩個子節點BI 「是」和Β2 「否」。如果節點Al分叉到節點BI,則下一可用的節點可以是根據飲品的種類的指示「7Κ,請」的節點Cl、指示「牛奶,請」的節點C2、指示「果汁,請」的節點C3等。以上對話模型可以以情境為基礎而存儲在對話模型DB 207中。第三處理單元205接收並分析語音信息,如果分析結果指示語音信息具有「水,請」的含義,則在節點BI處,語音信息被確定為對應於會話模式並且因此對系統有意義。然而,如果當前對話狀態是節點Β2,則指示「水,請」的含義的語音信息被確定為對系統無意義。圖7示出通信接口方法的示例的流程圖。在圖7中,從一個或多個用戶接收多條語音信息和臉部信息,並基於分別與接收的語音信息和臉部信息相應的用戶模型來確定接收的語音信息是否是註冊用戶的語音信息(701)。例如,第一處理單元203(見圖2)可使用圖3中示出的方法和等式I至等式3來選擇性地檢測用戶的用戶信息。如果接收的語音信息是註冊用戶的語音信息,則基於接收的臉部信息確定用戶的注意力是否在系統上(702)。例如,第二處理單元204 (見圖2)可基於圖4中示出的方法和等式4來確定注意力的發生。如果用戶正關注系統,則分析接收的語音信息的含義,並基於以情境為基礎表示會話流的對話模型來確定分析的接收的語音信息的含義是否對系統有意義(703)。例如,第三處理單元205可使用圖5和圖6中示出的方法來執行語義分析以及與會話模式的對應性的確定。圖8示出如何使用通信接口設備的示例的示圖。為了便於解釋,圖8中示出的示例假定存在四個用戶A、B、C和D,其中,用戶Α、Β和C被註冊,用戶A面對通信接口設備801說出「訂購紅色T恤」,用戶B面對通信接口設備801說出「房間很髒,清潔房間」,用戶C注視著用戶B說出「讓我們休息一下」。通信接口設備801忽略沒被註冊的用戶D的話語。此外,因為用戶C沒有關注系統802,所以用戶接口設備801也忽略用戶C的話語。用戶接口設備801分析用戶A和用B的語音信息的含義。如果根據會話流需要對象的訂購,則僅有用戶A的訂購指令被發送到系統802,並且用戶B的話語由於對系統802無意義而被忽略。因此,應注意的是僅當「註冊用戶」 「在關注系統的同時」發出「有意義或重要的話語」時,通信接口設備801才將用戶的控制指令發送到系統802。因此,當多個用戶和系統彼此交互時,可實現更準確和可靠的接口連接。當前實施例可實現為計算機可讀記錄介質中的計算機可讀代碼。構成電腦程式的代碼和代碼段可由本領域的計算機編程技術人員容易地推斷出。計算機可讀記錄介質包括存儲計算機可讀數據的所有類型的記錄介質。計算機可讀記錄介質的示例包括R0M、RAM、CD-ROM、磁帶、軟盤和光學數據存儲器。此外,記錄介質可以以諸如網際網路傳輸的載波的形式被實現。此外,計算機可讀記錄介質可以分布到網絡上的計算機系統,其中,計算機可讀 代碼可以以分布方式被存儲和執行。以上描述了多個示例。然而,將理解的是,可進行各種修改。例如,如果以不同的順序執行描述的技術,和/或如果描述的系統、架構、裝置或電路中的組件以不同的方式組合和/或被其他組件或者其等同物替換或補充,則可實現適當的結果。因此,其他實施方式落入權利要求的範圍內。
權利要求
1.一種用於系統和多個用戶的通信接口設備,包括 第一處理單元,被構造為從一個或多個用戶接收語音信息和臉部信息,並基於與各接收的語音信息和臉部信息相應的用戶模型來確定接收的語音信息是否是多個註冊用戶之一的語音信息; 第二處理單元,被構造為接收臉部信息,並基於接收的臉部信息確定用戶的注意力是否在所述系統上;以及 第三處理單元,被構造為接收語音信息,分析接收的語音信息,並基於以情境為基礎表示會話流的對話模型確定接收的語音信息是否對所述系統具有實際意義。
2.如權利要求I所述的通信接口設備,其中,用戶模型由註冊用戶的多條語音信息和臉部信息來定義。
3.如權利要求I所述的通信接口設備,其中,第一處理單元還被構造為通過將接收的語音信息與用戶模型比較來計算用戶是註冊用戶的第一概率,通過將接收的臉部信息與用戶模型比較來計算用戶是註冊用戶的第二概率,並基於計算的第一概率和第二概率來確定接收的語音信息是否是註冊用戶的語音信息。
4.如權利要求I所述的通信接口設備,其中,第二處理單元還被構造為從臉部信息中提取用戶的眼睛和用戶的臉部的方向的信息,並基於提取的眼睛或臉部的方向的信息來確定注意力是否在所述系統上。
5.如權利要求I所述的通信接口設備,其中,對話模型是由節點和分枝構成的通信樹的形式,其中,節點對應於話語的含義,分枝對應於會話的順序。
6.如權利要求5所述的通信接口設備,其中,第三處理單元還被構造為當接收的語音信息的含義對應於所述通信樹時確定接收的語音信息對所述系統具有實際意義。
7.一種用於系統和多個用戶的通信接口方法,包括 從一個或多個用戶接收多條語音信息和臉部信息,並基於與各接收的語音信息和臉部信息相應的用戶模型來確定接收的語音信息是否是註冊用戶的語音信息; 基於接收的臉部信息確定用戶的注意力是否在所述系統上;以及 分析接收的語音信息的含義,並基於以情境為基礎表示會話流的對話模型確定接收的語音信息是否對所述系統具有實際意義。
8.如權利要求7所述的通信接口方法,其中,確定接收的語音信息是否是註冊用戶的語音信息的步驟包括通過將接收的語音信息與用戶模型比較來計算用戶是註冊用戶的第一概率,通過將接收的臉部信息與用戶模型比較來計算用戶是註冊用戶的第二概率,並基於計算的第一概率和第二概率來確定接收的語音信息是否是註冊的用戶的語音信息。
9.如權利要求7所述的通信接口方法,其中,確定用戶的注意力是否在所述系統上的步驟包括從臉部信息中提取用戶的眼睛和用戶的臉部的方向的信息,並基於提取的眼睛或臉部的方向的信息來確定用戶的注意力是否在所述系統上。
10.如權利要求7所述的通信接口方法,其中,對話模型是由節點和分枝構成的通信樹的形式,其中,節點對應於話語的含義,分枝對應於會話的順序,並且確定接收的語音信息是否具有實際意義的步驟包括將接收的語音信息的含義應用於所述通信樹,並且當接收的語音信息的含義對應於所述通信樹的節點時確定接收的語音信息對所述系統具有實際意義。
全文摘要
提供了一種用於系統和多個用戶的通信接口設備。所述通信接口設備確定語音信息是否是註冊用戶的語音信息,確定是否註冊用戶在關注系統的同時發出話語,確定註冊用戶的語音信息是否對系統有意義,並根據確定結果發送或阻斷用戶的語音信息。因此,僅當註冊用戶在關注系統的同時發出有意義和重要的話語時才允許接口連接。
文檔編號G06F3/16GK102640084SQ201080053726
公開日2012年8月15日 申請日期2010年11月9日 優先權日2009年11月27日
發明者曹貞美, 樸致衍, 金南勳, 金正壽 申請人:三星電子株式會社