智能電視語音應答系統及方法

2023-05-29 19:34:11 2

專利名稱：智能電視語音應答系統及方法
技術領域：
本發明涉及智能電視領域，尤其是ー種智能電視語音應答方法及系統。
背景技術：
隨著電視的智能化以及智能電視的普及，寬帶有線電視網集網際網路、多媒體、通訊等技術於一體，向家庭用戶提供包括數位電視在內的多種交互式服務。智能電視能夠很好地適應當今網絡飛速發展的趨勢，充分有效地利用網絡資源。電視機的智能化伴隨著的是電視按鍵操作的難度和繁瑣度也將越來越大。因此將語音識別技術融入智能電視的作業系統中，實現控制命令的語音操作將使用戶將雙手解放出來，僅靠說話就能輕鬆的完成操作，這將是智能電視領域發展的方向。
語音識別技術是自2000年至今信息技術領域十大重要的科技發展技術之一。它是ー門交叉學科，正逐步成為信息技術中人機接ロ的關鍵技術。語音識別技術發展到今天，特別是中小詞彙量非特定人語音識別系統識別精度已經大於98%。這些技術已經能夠滿足通常應用的要求。由於大規模集成電路技術的發展，這些複雜的語音識別系統也已經完全可以製成專用晶片，大量生產。在西方經濟發達國家，大量的語音識別產品已經進入市場和服務領域。一些用戶交機、電話機、手機已經包含了語音識別撥號功能，還有語音記事本、語音智能玩具等產品也包括語音識別與語音合成功能。人們可以通過電話網絡用語音識別ロ語對話系統查詢有關的機票、旅遊、銀行信息，並且取得很好的結果。調查統計表明多達85%以上的人對語音識別的信息查詢服務系統的性能表示滿意。可以預測在近五到十年內，語音識別系統的應用將更加廣泛。各種各樣的語音識別系統產品將出現在市場上。再如專利號為201010255337. 9的發明專利公開了ー種基於語音命令的視音頻播放方法及系統。涉及媒體播放技術領域，只需按動一啟動鍵，用戶對所述終端設備的操作均可通過語音命令來完成。用戶按下設置在車輛的固定部件上的一鍵式控制裝置的啟動鍵，所述終端設備與VSP伺服器建立語音會話連接，系統進入自動應答狀態。所述VSP伺服器採用非特定人語音識別技術對用戶的語音命令進行解析，並將解析結果發送至所述終端設備，由所述終端設備根據所述解析結果啟動視音頻播放模塊，井根據視音頻播放地址獲取視音頻流。該專利技術方案主要應用於娛樂設備，尤其應用於車載娛樂設備。語音識別技術應用於智能電視領域，現有的語音應答系統和方法中，一種是採用伺服器模式進行語音識別，語音識別模塊在伺服器端，也就是說用戶發出的每條語音控制命令都需要經機頂盒發送給伺服器端進行語音識別，再由伺服器將識別出的操作命令交由機頂盒進行執行，這樣勢必會佔用信號傳輸帶寬，増加操作時間，降低語音操作的靈敏度；另ー種是採用嵌入式語音識別模式，將語言識別軟體及模型寫在智能電視的存儲器裡，識別過程在終端完成，該模式中智能電視的操作命令較固定，需要識別的詞彙量不是很大，不會佔用存儲器大大的空間，所以嵌入式模式與伺服器模式相比識別所需的時間更短，可以使用戶更快速的完成操作。隨著社會的不斷發展，信息量也越來越多。這必然引起人們每天生活在眾多信息中，不可能對什麼都了解的比較清楚，所以信息查詢越來越必要。比如在家裡不希望定點通過電視來收看天氣，希望隨時都能夠查詢，如果使用PC或者手機進行搜索，有些人會認為比較麻煩，還需要輸入。因此希望查詢的過程越簡單越好，那麼智能應答系統是最好的選擇。只需要說出你所想要獲得的信息，智能應答系統就會回復給你所想要的答案。然而語言所能表述的意思具有開放性的特點，同一個命令在不同語境下表達的意思也不同，並且每個用戶的年齡、性別都存在差異，這些因素對同一個命令所想要表達的意思也有較大影響，例如當用戶使用「選擇電影」的命令時，系統出現電影列表以供用戶進ー步選擇，而系統不能準確地預測用戶可能想要觀賞的影片類型，使得電影列表不能優先出現用戶該類型的影片，用戶不得不在繁雜的列表中繼續查找。

發明內容
本發明的目的是克服現有技術中的缺陷，提供一種可以針對用戶語音命令，的智能電視語音應答方法及系統。為解決上述問題，本發明的ー種智能電視語音應答系統，包括用戶身份特徵識別模塊，與語音命令識別模塊相連，用於獲取用戶身份特徵，並將獲取的身份特徵信息發送至語音命令識別模塊；語音命令識別模塊，與智能應答模塊相連，用於接收用戶語音，並對語音進行識另IJ，以及根據用戶身份特徵識別模塊發送的用戶身份信息進行語義識別，得出符合用戶身份特徵的命令，並將該命令發送至智能應答模塊；智能應答模塊，用於接收語音命令識別模塊發送的符合用戶身份特徵的命令，根據該命令進行知識庫的匹配，得出給用戶的應答信息，並將應答信息進行反饋。所述用戶身份特徵識別模塊，包括圖像採集単元，與圖像分析単元相連，用於採集用戶圖像，並將採集到的用戶圖像發送至圖像分析単元；圖像分析単元，與語音命令識別模塊相連，用於接收圖像採集單元發送的用戶圖像，並對用戶圖像進行識別分析，得出用戶身份特徵信息並發送至語音命令識別模塊。所述圖像分析單元,包括基於人臉識別的年齡判斷単元，用於對用戶的人臉圖像進行識別分析，得出用戶的年齡信息。所述圖像分析単元，包括基於人臉識別的性別判斷単元，用於對用戶的人臉圖像進行識別分析，得出用戶的性別信息。所述語音命令識別模塊，包括語音採集単元，與語音分析単元相連，用於採集用戶語音信息，並將採集到的語音信息發送至語音分析単元；語音分析単元，與語義分析単元相連，用於接收語音採集單元發送的語音信息，並對語音信息進行分析得出對應該語音對應的文字信息，以及將該文字信息發送至語義分析單元；語義分析単元，分別與用戶身份特徵識別模塊和智能應答模塊相連，用於接收語音分析單元發送的文字信息以及用戶身份特徵識別模塊發送的用戶身份特徵信息，並調取所述文字信息對應的命令庫中與用戶身份特徵信息相匹配的命令發送至智能應答模塊。所述智能電視語音應答系統還包括TTS模塊，與智能應答模塊相連，用於將智能應答模塊得出給用戶的應答信息由文本格式轉化成為音頻格式進行輸出。ー種智能電視語音應答方法，包括以下步驟I)用戶身份特徵識別獲取用戶身份特徵，並將獲取的身份特徵信息發送至語音命令識別模塊；2)語音命令識別模塊，接收用戶語音，對語音進行識別，井根據用戶身份特徵識別模塊發送的用戶身份信息進行語義識別，得出符合用戶身份特徵的命令，並將該命令發送至智能應答模塊；3)智能應答模塊接收語音命令識別模塊發送的符合用戶身份特徵的命令，根據該命令進行知識庫的匹配，得出給用戶的應答信息，並將應答信息進行反饋。所述步驟I包括11)圖像採集單元採集用戶圖像，並將採集到的用戶圖像發送至圖像分析単元；12)圖像分析単元接收圖像採集單元發送的用戶圖像，並對用戶圖像進行識別分析，得出用戶身份特徵信息並發送至語音命令識別模塊。所述步驟12)包括以下步驟121)圖片預處理，使用戶圖像中的人臉位置、大小和圖像歸一化；122)圖片區域劃分與訓練，將用戶圖像中人臉進行區域劃分，劃分為多個識別區域，每個識別區域輸出不同的灰度值和ニ值化圖像；123)區域臉部特徵值模板匹配，每個所述識別區域分離出不同的模板匹配単元，計算每個模板匹配単元與匹配模板的特徵值，將所述特徵值作為神經網絡算法的輸入層中的輸入神經單元，經過神經網絡處理算法，得出最佳匹配度的圖片結果；124)將所述圖片結果進行臉部加權計算；125)圖片識別結果知識庫反饋。所述步驟2包括21)語音採集單元採集用戶語音信息，並將採集到的語音信息發送至語音分析單元;22)語音分析単元接收語音採集單元發送的語音信息，並對語音信息進行分析得出對應該語音對應的文字信息，以及將該文字信息發送至語義分析単元；23)語義分析単元接收語音分析單元發送的文字信息以及用戶身份特徵識別模塊發送的用戶身份特徵信息，並調取所述文字信息對應的命令庫中與用戶身份特徵信息相匹配的命令發送至智能應答模塊。所述用戶身份特徵包括用戶的年齡和/或性別。採用本發明的智能電視語音應答系統及方法，用戶身份特徵識別模塊可以識別出用戶的基本信息，例如年齡、性別等。這些信息為語音命令識別模塊提供了決策依據，如用戶語言命令「選擇電影」，根據用戶身份特徵識別的結果不同，反饋出的電影也不同如果用戶為兒童，系統反饋的結果將會是迪斯尼電影，如果用戶為青年人，則反饋的結果是愛情片，如果用戶為中年人，則反饋的結果是劇情片，這就使得用戶的選擇程序得到了大大簡化。本發明能夠識別出用戶的身份特徵，同時能夠根據上下文來理解用戶的意思，準確的對用戶的語音輸入給出反饋應答，増加了智能電視語音應答的準確度，為用戶省去了多次選擇的繁瑣步驟，節省了時間，提高了智能電視的使用滿意度，使智能電視的操作更加人性化。

圖1為本發明智能電視語音應答系統結構框圖。圖2為本發明智能電視語音應答系統中人臉識別流程框圖。圖3為人臉主要識別區域劃分示意圖。
具體實施方式
為了使本技術領域的人員更好地理解本發明技術方案，下面結合附圖和實施方式對本發明作進ー步的詳細說明。如圖1所示，本發明的ー種智能電視語音應答系統，包括用戶身份特徵識別模塊、語音命令識別模塊以及智能應答模塊。其中，用戶身份特徵識別模塊，與語音命令識別模塊相連，用於獲取用戶身份特徵，並將獲取的身份特徵信息發送至語音命令識別模塊。該用戶身份特徵識別模塊，包括圖像採集単元和圖像分析単元。所述圖像採集單元，與圖像分析単元相連，用於採集用戶圖像，並將採集到的用戶圖像發送至圖像分析単元；圖像採集単元包括在電視上邊緣的三個攝像頭，三個攝像頭分別位於電視的左上角，右上角和上邊正中間三個位置，通過三個攝像頭可以撲捉使用者頭像的正側位圖像。相對於ー個攝像頭，三個攝像頭能捕捉到更全面的圖像。圖像分析単元，與語音命令識別模塊相連，用於接收圖像採集單元發送的用戶圖像，並對用戶圖像進行識別分析，得出用戶身份特徵信息並發送至語音命令識別模塊。該圖像分析単元包括基於人臉識別的年齡判斷単元、性別判斷単元或表情判斷單元，對用戶的人臉圖像進行識別分析，通過圖像處理算法和模糊匹配算法實現從用戶人臉圖像中得出用戶的基本信息，諸如用戶年齡、性別或表情等信息。如圖2所示，圖像分析單元對用戶人臉圖像進行識別分析主要經過以下幾個階段I)圖片預處理階段；在實際應用中，圖像採集単元因受到外界環境的限制和幹擾，採集到的圖像可能會帶有很多噪聲和幹擾信號，這對於圖像質量要求較高的人臉模式識別問題會產生很大的影響，造成分類能力的下降。因此在對數字圖像提取特徵之前，圖像預處理是非常必要的，使人臉圖像中的人臉位置、大小和圖像歸一化，並克服遮擋、姿態、光照、飾物等因素的影響。2)圖片區域劃分與訓練階段；圖3為人臉主要識別區域劃分示意圖。如圖3所示，在進行面部模板匹配之前，需要對面部進行區域劃分，分區域的記性圖片的模板匹配。面部的區域劃分包括頭髮髮型區，額頭區，眉毛眼睛區，鼻子區，顴骨臉頰區，嘴部區和下巴區。每ー個區域輸出不同的灰度圖和ニ值化的圖像。3)區域臉部特徵值模板匹配階段；臉部特徵的匹配算法是神經網絡方法和模板匹配的結合。在每個識別區域中再次細化，分離出不同的模板匹配単元。同吋，還應該包含出整個面部識別中通用的考核項目，不同的考核項目再分配給不同的權值。目前整個面部識別的考核項目細化如表一所示。對於人臉的區域劃分與模板匹配單元隨著研究的深入與識別技術的發展會有調
整。針對每一個模板匹配項目，採用計算與匹配模版的特徵值的方法。假設有訓練集{I}，其中I為mXn大小的人臉圖像(i=l，2，...N)，首先將每個圖像I的每列相連構成一個大小為d=mXn維的列向量。這樣得到{ (1=1，2，...唚3表示第1幅人臉圖像形成的人臉向量，則匹配模版的特徵值的計算方法為
權利要求
1.一種智能電視語音應答系統，其特徵在於，包括用戶身份特徵識別模塊，與語音命令識別模塊相連，用於獲取用戶身份特徵，並將獲取的身份特徵信息發送至語音命令識別模塊；語音命令識別模塊，與智能應答模塊相連，用於接收用戶語音，並對語音進行識別，以及根據用戶身份特徵識別模塊發送的身份特徵信息進行語義識別，得出符合用戶身份特徵的命令，並將該命令發送至智能應答模塊；智能應答模塊，用於接收語音命令識別模塊發送的符合用戶身份特徵的命令，根據該命令進行知識庫的匹配，得出給用戶的應答信息，並將應答信息進行反饋。
2.如權利要求1所述智能電視語音應答系統，其特徵在於，所述用戶身份特徵識別模塊，包括圖像採集單元，與圖像分析單元相連，用於採集用戶圖像，並將採集到的用戶圖像發送至圖像分析單元；圖像分析單元，與語音命令識別模塊相連，用於接收圖像採集單元發送的用戶圖像，並對用戶圖像進行識別分析，得出用戶身份特徵信息並發送至語音命令識別模塊。
3.如權利要求2所述智能電視語音應答系統，其特徵在於，所述圖像分析單元，包括基於人臉識別的年齡判斷單元，用於對用戶的人臉圖像進行識別分析，得出用戶的年齡信息。
4.如權利要求2所述智能電視語音應答系統，其特徵在於，所述圖像分析單元，包括基於人臉識別的性別判斷單元，用於對用戶的人臉圖像進行識別分析，得出用戶的性別信息。
5.如權利要求1所述智能電視語音應答系統，其特徵在於，所述語音命令識別模塊，包括語音採集單元，與語音分析單元相連，用於採集用戶語音信息，並將採集到的語音信息發送至語音分析單元；語音分析單元，與語義分析單元相連，用於接收語音採集單元發送的語音信息，並對語音信息進行分析得出對應該語音對應的文字信息，以及將該文字信息發送至語義分析單元;語義分析單元，分別與用戶身份特徵識別模塊和智能應答模塊相連，用於接收語音分析單元發送的文字信息以及用戶身份特徵識別模塊發送的身份特徵信息，並調取所述文字信息對應的命令庫中與身份特徵信息相匹配的命令發送至智能應答模塊。
6.如權利要求1至5任一項所述智能電視語音應答系統，其特徵在於，所述智能電視語音應答系統還包括TTS模塊，與智能應答模塊相連，用於將智能應答模塊得出給用戶的應答信息由文本格式轉化成為音頻格式進行輸出。
7.一種智能電視語音應答方法，包括以下步驟1)用戶身份特徵識別獲取用戶身份特徵，並將獲取的身份特徵信息發送至語音命令識別豐旲塊;2)語音命令識別模塊，接收用戶語音，對語音進行識別，並根據用戶身份特徵識別模塊發送的身份特徵信息進行語義識別，得出符合用戶身份特徵的命令，並將該命令發送至智能應答模塊；3)智能應答模塊接收語音命令識別模塊發送的符合用戶身份特徵的命令，根據該命令進行知識庫的匹配，得出給用戶的應答信息，並將應答信息進行反饋。
8.如權利要求7所述智能電視語音應答方法，其特徵在於，所述步驟I包括11)圖像採集單元採集用戶圖像，並將採集到的用戶圖像發送至圖像分析單元；12)圖像分析單元接收圖像採集單元發送的用戶圖像，並對用戶圖像進行識別分析，得出用戶身份特徵信息並發送至語音命令識別模塊。
9.如權利要求8所述智能電視語音應答方法，其特徵在於，所述步驟12)包括以下步驟121)圖片預處理，使用戶圖像中的人臉位置、大小和圖像歸一化；122)圖片區域劃分與訓練，將用戶圖像中人臉進行區域劃分，劃分為多個識別區域，每個識別區域輸出不同的灰度值和二值化圖像；123)區域臉部特徵值模板匹配，每個所述識別區域分離出不同的模板匹配單元，計算每個模板匹配單元與匹配模板的特徵值，將所述特徵值作為神經網絡算法的輸入層中的輸入神經單元，經過神經網絡處理算法，得出最佳匹配度的圖片結果；124)將所述圖片結果進行臉部加權計算，得出圖片識別結果；125)圖片識別結果知識庫反饋。
10.如權利要求7所述智能電視語音應答方法，其特徵在於，所述步驟2包括21)語音採集單元採集用戶語音信息，並將採集到的語音信息發送至語音分析單元；22)語音分析單元接收語音採集單元發送的語音信息，並對語音信息進行分析得出對應該語音對應的文字信息，以及將該文字信息發送至語義分析單元；23)語義分析單元接收語音分析單元發送的文字信息以及用戶身份特徵識別模塊發送的身份特徵信息，並調取所述文字信息對應的命令庫中與身份特徵信息相匹配的命令發送至智能應答模塊。
全文摘要
本發明公開了一種智能電視語音應答系統，包括用戶身份特徵識別模塊，語音命令識別模塊，以及智能應答模塊；還公開了一種智能電視語音應答方法，包括1)獲取用戶身份特徵；2)語音識別，並根據用戶身份特徵得出符合用戶身份特徵的命令；3)根據該命令進行知識庫的匹配，得出給用戶的應答信息，並將應答信息進行反饋。本發明的智能電視語音應答系統及方法，能夠識別出用戶的身份特徵，同時能夠根據上下文來理解用戶的意思，準確的對用戶的語音輸入給出反饋應答，增加了智能電視語音應答的準確度，為用戶省去了多次選擇的繁瑣步驟，節省了時間，提高了智能電視的使用滿意度，使智能電視的操作更加人性化。
文檔編號H04N21/4415GK103024530SQ20121055321
公開日2013年4月3日申請日期2012年12月18日優先權日2012年12月18日
發明者常連城申請人:天津三星電子有限公司, 三星電子株式會社

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

智能電視語音應答系統及方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法