視頻會議系統及其實現方法
2023-07-08 00:17:16
視頻會議系統及其實現方法
【專利摘要】本發明提供一種視頻會議系統及其實現方法,所述方法包括以下步驟:獲取視頻會議中預定的語音信息,對所述語音信息進行分析;根據所述語音信息的分析結果,對語音信息進行篩選,並獲取包含預定詞彙的語音數據;獲取視頻會議中預定的手勢動作情況,對所述手勢動作情況進行分析;根據手勢動作情況的分析結果獲取所述手勢動作的運動軌跡;根據所述語音數據和/或運動軌跡獲取相應的圖像,並將圖像嵌入至視頻會議的視頻流中。本發明的視頻會議系統及其實現方法使得視頻會議中預定的部分內容可通過圖像可視化顯示,從而有效提高了視頻會議的質量。
【專利說明】視頻會議系統及其實現方法
【技術領域】
[0001]本發明涉及視頻會議領域,特別是涉及一種視頻會議系統的實現方法及一種視頻會議系統。
【背景技術】
[0002]視頻會議中最主要的信息傳遞方式是通過與會人員的語音交流來進行,對於攝像頭只是用於展示出人的動作和表情。當發言人需要讓其他與會人員了解到自己所描述的某個具體的物體時,通常會局限於語言和動作的表現能力,不少時候與會人員不明白髮言人描述的物體。因此在視頻會議的時候發言人往往需要通過更多的發言和手勢來幫助與會人員了解描述的物體。
[0003]但是通常由於發言人的動作和發言始終是對物體的間接描述,描述的過程中不可避免會存在一定的差異和信息的丟失,從而導致視頻會議的質量較低。
【發明內容】
[0004]針對上述視頻會議的質量較低的問題,本發明提供一種視頻會議系統及其實現方法。
[0005]一種視頻會議系統的實現方法,包括以下步驟:
[0006]獲取視頻會議中預定的語音信息,對所述語音信息進行分析;
[0007]根據所述語音信息的分析結果對語音信息進行篩選,並獲取包含預定詞彙的語音數據;
[0008]獲取視頻會議中預定的手勢動作情況,對所述手勢動作情況進行分析;
[0009]根據所述手勢動作情況的分析結果獲取所述手勢動作的運動軌跡;
[0010]根據所述語音數據和/或運動軌跡獲取相應的圖像,並將該圖像嵌入到視頻會議的視頻流中。
[0011 ] 一種視頻會議系統,包括:
[0012]語音信息分析模塊,用於獲取視頻會議中預定的語音信息,對所述語音信息進行分析;
[0013]語音數據獲取模塊,根據所述語音信息的分析結果對語音信息進行篩選,並獲取包含預定詞彙的語音數據;
[0014]手勢動作情況分析模塊,用於獲取視頻會議中預定的手勢動作情況,對所述手勢動作情況進行分析;
[0015]運動軌跡獲取模塊,用於根據所述手勢動作情況的分析結果獲取所述手勢動作的運動軌跡;
[0016]圖像嵌入模塊,用於根據所述語音數據和/或運動軌跡獲取相應的圖像,並將該圖像嵌入到視頻會議的視頻流中。
[0017]由以上方案可以看出,本發明的視頻會議系統及其實現方法,通過視頻會議中預定的語音數據和/或手勢運動軌跡獲取相應的圖像,將該圖像嵌入至視頻會議的視頻流中相應的位置,使得視頻會議中預定的部分內容可通過圖像可視化顯示,從而有效提高了視頻會議的質量。
【專利附圖】
【附圖說明】
[0018]圖1為本發明實施例中的一種視頻會議系統的實現方法的流程示意圖;
[0019]圖2為本發明實施例中的步驟S103的流程示意圖;
[0020]圖3為本發明實施例中的步驟S105的流程示意圖;
[0021]圖4為本發明實施例中的一種視頻會議系統結構示意圖;
[0022]圖5為本發明實施例中的一種手勢動作情況分析模塊結構示意圖;
[0023]圖6為本發明實施例中的一種圖像嵌入模塊結構示意圖。
【具體實施方式】
[0024]下面結合附圖以及具體的實施例,對本發明的技術方案作進一步的描述。
[0025]本實施例中以在視頻會議中討論滑鼠造型設計為例。
[0026]如圖1所示,一種視頻會議系統的實現方法,包括以下步驟:
[0027]步驟S101,獲取視頻會議中預定的語音信息,對所述語音信息進行分析。
[0028]獲取視頻會議中發言人在發言時的語音信息,利用語音識別技術將語音信息進行識別,根據識別後的語音信息進行分析。例如,當視頻會議的發言人在討論滑鼠造型設計的時候,提及到某個公司的滑鼠產品,希望能該公司的滑鼠產品作為造型設計,這時候發言人
只要說出:「例如XX公司的滑鼠,該滑鼠的側面是這樣的,......」,則獲取該發言人所將的
內容,並根據發言人所述的內容進行分析,分析結果可包括:xx公司、滑鼠、滑鼠側面、這樣白勺、......0
[0029]步驟S102,根據所述語音信息的分析結果,對語音信息進行篩選,並獲取包含預定詞彙的語音數據。例如對上述的分析結果進行篩選,並獲取包含有XX公司、滑鼠、滑鼠側面等關鍵詞彙的語音數據。
[0030]步驟S103,獲取視頻會議中預定的手勢動作情況,對所述手勢動作情況進行分析。
[0031]作為一個較好的實施例,如圖2所示,步驟S103可以包括以下步驟:
[0032]步驟S1031,獲取視頻會議中發言人在比划過程中的手勢動作情況後,將包括手勢動作情況的視頻流解析成若干幀的圖像;例如,當視頻會議中的發言人在說出:「例如XX公
司的滑鼠,側面是這樣的......」同時,並在特定的時間內通過手勢比劃出下滑鼠形狀、鼠
標側面的形狀等手勢動作情況(例如在說到「XX公司的滑鼠」時比劃處滑鼠的形狀;或者在說到「側面是這樣的」時比劃滑鼠側面的形狀或者側面具有的圖案)。
[0033]步驟S1032,根據視頻的幀率給各幀圖像打上時間標籤;
[0034]步驟S1033,根據所述時間標籤對所述各幀圖像進行分片,對各時間分片的圖像進行分析;
[0035]步驟S1034,根據所述分析結果獲取各時間片內的手勢動作信息,該手勢的動作信息可包括在各時間片內的運動軌跡等信息。
[0036]步驟S104,根據所述手勢動作情況的分析結果獲取所述手勢動作的運動軌跡;可根據分析結果中各時間片內的運動軌跡得到發言人在某段時間內所比劃的圖案。
[0037]步驟S105,根據所述語音數據和/或運動軌跡獲取相應的圖像,並將該圖像視頻會議的視頻流中。該圖案可為發言人在某段時間內比劃時運動軌跡和/或語音數據相對應的圖案,例如所述圖案可為發言人在說到「側面是這樣的」,並同時通過比劃出滑鼠側面的形狀或者側面具有的圖案、與發言人的語音信息匯總包含有「XX公司的滑鼠」關鍵詞的語音數據想對應的圖案。圖案嵌入的位置可以由手勢的位置決定,嵌入的時間則可以根據手勢當前對應的時間標籤確定。
[0038]作為一個較好的實施例,如圖3所示,所述步驟S105可以包括以下步驟:
[0039]步驟S1051,對視頻會議中發言人在發言過程中包括的所述語音數據及運動軌跡進行分析。
[0040]本實施例中分析完成後的分析結果可包括語音數據及運動軌跡所描述的圖案的形狀、類別等信息。此步驟中利用語音和手勢運動軌跡相結合的方式可以進行互補,通過手勢運動軌跡描繪出發言人想要表示的圖像的大致輪廓,然後根據語音信息中的包含關鍵詞彙的語音數據不斷去修正該大致輪廓。因此同時對語音數據及運動軌跡進行分析可進一步提高發言人在發言過程中所描繪的圖像的準確性。
[0041]步驟S1052,根據分析結果判斷資料庫中是否存在與該語音數據及運動軌跡相匹配的圖像。可採用歷史優化分析時系統先去查詢資料庫中的數據,判斷資料庫中是否存在與關鍵詞匹配的語音數據,即資料庫中是否存在與關鍵詞具有一定匹配率圖像。該判斷過程可根據系統的配置來確定。
[0042]步驟S1053,若步驟S1052判斷的結果為否,即資料庫中不存在與該語音數據及運動軌跡相匹配的圖像,則可以根據所述手勢的運動軌跡生成與手勢的運動軌跡匹配的圖像。在說明資料庫中的圖像均勻當前的語音數據及運動軌跡相似率達不到相應的要求,則重新對手勢和語音內容集進行一個分析,生成與手勢的運動軌跡一致的圖像,根據圖像的時間標籤將圖像嵌入之視頻會議的視頻流中,並將新生成的圖像保存至資料庫內。如果任務發言人已經準備開始描述另外一個話題,則將目前的分析語音數據和手勢動作信息保存至資料庫中,再進行下一輪圖像顯示過程。
[0043]作為一個較好的實施例,還可以包括步驟S1054:若步驟S1052判斷的結果為是,即說明資料庫中存在與該語音數據及運動軌跡相匹配的圖像,則說明當前的語音數據及運動軌跡是已經曾經處理過,則可以直接從資料庫中獲取所述圖像,另外還可在發言人比劃的圖像填充上去。根據圖像的時間標籤將圖像視頻流中。
[0044]作為一個較好的實施例,本發明在步驟S103之後、步驟S105之前,還可以包括以下步驟:
[0045]將所述包含預定詞彙的語音數據打上時間標籤;
[0046]根據所述語音數據的時間標籤及各幀圖像的時間標籤將語音數據與手勢動作進行同步。使得由於圖像與聲音同步的,最後將同步過的視頻發送到顯示設備進行顯示,而音頻發送到語音輸出設備進行播放。
[0047]與實施例中的一種視頻會議系統的實現方法相對應,本發明還提供一種視頻會議系統,如圖4所示,包括:
[0048]語音信息分析模塊101,用於獲取視頻會議中預定的語音信息,對所述語音信息進行分析;
[0049]語音數據獲取模塊102,用於根據所述語音信息的分析結果獲取包含預定詞彙的語音數據;
[0050]手勢動作情況分析模塊103,用於獲取視頻會議中預定的手勢動作情況,對所述手勢動作情況進行分析;
[0051]運動軌跡獲取模塊104,用於根據所述手勢動作情況的分析結果獲取所述手勢動作的運動軌跡;
[0052]圖像嵌入模塊105,用於根據所述語音數據和/或運動軌跡獲取相應的圖像,並將該圖像嵌入視頻會議的視頻流中。
[0053]作為一個較好的實施例,如圖5所示,所述手勢動作情況分析模塊103可以包括:
[0054]視頻流解析模塊113,用於獲取視頻會議中預定的手勢動作情況後,將手勢動作情況的視頻流解析成若干幀的圖像;
[0055]圖像標記時間標籤模塊123,用於根據視頻的幀率給各幀圖像打上時間標籤;
[0056]圖像分析模塊133,用於根據所述時間標籤對所述各幀圖像進行分片,對各時間分片的圖像進行分析;
[0057]手勢動作軌跡獲取模塊134,根據所述分析結果獲取各時間片內的手勢動作軌跡。
[0058]作為一個較好的實施例,所述視頻會議系統還可以包括:
[0059]篩選模塊,用於對語音數據獲取模塊中獲取的包含各詞彙的語音數據根進行篩選,獲取包含預定詞彙的語音數據;
[0060]語音數據標記時間標籤模塊,用於將所述包含預定詞彙的語音數據打上時間標籤;
[0061]同步模塊,用於根據所述語音數據的時間標籤及各幀圖像的時間標籤將語音數據與手勢動作進行同步。
[0062]作為一個較好的實施例,如圖6所示,所述圖像嵌入模塊105可以包括:
[0063]語音數據及運動軌跡分析模塊115,用於對所述語音數據及運動軌跡進行分析;
[0064]判斷模塊125,用於根據分析結果判斷資料庫中是否存在與該語音數據及運動軌跡相匹配的圖像;
[0065]圖像生成模塊135,用於在所述判斷模塊的判斷結果為否的情況下,根據所述手勢的運動軌跡生成與手勢的運動軌跡一致的圖像。
[0066]作為一個較好的實施例,所述圖像嵌入模塊還可以包括:
[0067]圖像獲取模塊,用於在所述判斷模塊的判斷結果為是的情況下,從資料庫中獲取所述圖像。
[0068]本實施例中一種視頻會議系統的其它技術特徵與實施例中的一種視頻會議系統的實現方法相同,此處不予贅述。
[0069]需要說明的是,除非上下文另有特定清楚的描述,本發明中的元件和組件,數量既可以單個的形式存在,也可以多個的形式存在,本發明並不對此進行限定。本發明中的步驟雖然用標號進行了排列,但並不用於限定步驟的先後次序,除非明確說明了步驟的次序或者某步驟的執行需要其他步驟作為基礎,否則步驟的相對次序是可以調整的。可以理解,本文中所使用的術語「和/或」涉及且涵蓋相關聯的所列項目中的一者或一者以上的任何和所有可能的組合。
[0070]通過上述實施例的方案可以看出,本發明的視頻會議系統及其實現方法,通過視頻會議中預定的語音數據和/或手勢運動軌跡獲取相應的圖像,將該圖像嵌入至視頻會議的視頻流中相應的位置,使得視頻會議中預定的部分內容可通過圖像可視化顯示,從而有效提高了視頻會議的質量。
[0071]以上所述實施例僅表達了本發明的幾種實施方式,其描述較為具體和詳細,但並不能因此而理解為對本發明專利範圍的限制。應當指出的是,對於本領域的普通技術人員來說,在不脫離本發明構思的前提下,還可以做出若干變形和改進,這些都屬於本發明的保護範圍。因此,本發明專利的保護範圍應以所附權利要求為準。
【權利要求】
1.一種視頻會議系統的實現方法,其特徵在於,包括以下步驟:獲取視頻會議中預定的語音信息,對所述語音信息進行分析;根據所述語音信息的分析結果對語音信息進行篩選,並獲取包含預定詞彙的語音數據;獲取視頻會議中預定的手勢動作情況,對所述手勢動作情況進行分析;根據所述手勢動作情況的分析結果獲取所述手勢動作的運動軌跡;根據所述語音數據和/或運動軌跡獲取相應的圖像,並將該圖像嵌入到視頻會議的視頻流中。
2.根據權利要求1所述的視頻會議系統的實現方法,其特徵在於,所述獲取視頻會議中預定的手勢動作情況、對所述手勢動作情況進行分析的過程包括以下步驟:獲取視頻會議中預定的手勢動作情況後,將手勢動作情況的視頻流解析成若干幀的圖根據視頻的幀率給各幀圖像打上時間標籤;根據所述時間標籤對所述各幀圖像進行分片,對各時間分片的圖像進行分析;根據所述分析結果獲取各時間片內的手勢動作信息。
3.根據權利要求2所述的視頻會議系統的實現方法,其特徵在於,在所述獲取包含預定詞彙的語音數 據的過程之後、根據所述語音數據和/或運動軌跡獲取相應的圖像之前,還包括以下步驟:將所述包含預定詞彙的語音數據打上時間標籤;根據所述語音數據的時間標籤及各幀圖像的時間標籤將語音數據與手勢動作進行同步。
4.根據權利要求1所述的視頻會議系統的實現方法,其特徵在於,根據所述語音數據和/或運動軌跡獲取相應的圖像的過程包括以下步驟:對所述語音數據及運動軌跡進行分析;根據分析結果判斷資料庫中是否存在與該語音數據及運動軌跡相匹配的圖像;若否,則根據所述手勢的運動軌跡生成與手勢的運動軌跡一致的圖像。
5.根據權利要求4所述的視頻會議系統的實現方法,其特徵在於,還包括步驟:當資料庫中存在與所述語音數據以及運動軌跡相匹配的圖像時,則從資料庫中獲取所述圖像。
6.一種視頻會議系統,其特徵在於,包括:語音信息分析模塊,用於獲取視頻會議中預定的語音信息,對所述語音信息進行分析;語音數據獲取模塊,根據所述語音信息的分析結果對語音信息進行篩選,並獲取包含預定詞彙的語音數據;手勢動作情況分析模塊,用於獲取視頻會議中預定的手勢動作情況,對所述手勢動作情況進行分析;運動軌跡獲取模塊,用於根據所述手勢動作情況的分析結果獲取所述手勢動作的運動軌跡;圖像嵌入模塊,用於根據所述語音數據和/或運動軌跡獲取相應的圖像,並將該圖像嵌入到視頻會議的視頻流中。
7.根據權利要求6所述的視頻會議系統,其特徵在於,所述手勢動作情況分析模塊包括:視頻流解析模塊,用於獲取視頻會議中預定的手勢動作情況後,將手勢動作情況的視頻流解析成若干幀的圖像;圖像標記時間標籤模塊,用於根據視頻的幀率給各幀圖像打上時間標籤;圖像分析模塊,用於根據所述時間標籤對所述各幀圖像進行分片,對各時間分片的圖像進行分析;手勢動作信息獲取模塊,根據所述分析結果獲取各時間片內的手勢動作信息。
8.根據權利要求7所述的視頻會議系統,其特徵在於,該視頻會議系統還包括: 語音數據標記時間標籤模塊,用於將所述包含預定詞彙的語音數據打上時間標籤;同步模塊,用於根據所述語音數據的時間標籤及各幀圖像的時間標籤將語音數據與手勢動作進行同步。
9.根據權利要求6所述的視頻會議系統,其特徵在於,所述圖像嵌入模塊包括:語音數據及運動軌跡分析模塊,用於對所述語音數據及運動軌跡進行分析;判斷模塊,用於根據分析結果判斷資料庫中是否存在與該語音數據及運動軌跡相匹配的圖像;圖像生成模塊,用於在所述判斷模塊的判斷結果為否的情況下,根據所述手勢的運動軌跡生成與手勢的運動軌跡一致的圖像。
10.根據權利要求9所述的視頻會議系統,其特徵在於,所述圖像嵌入模塊還包括:圖像獲取模塊,用於在所述判斷模塊的判斷結果為是的情況下,從資料庫中獲取所述圖像。
【文檔編號】H04N7/15GK103607556SQ201310603760
【公開日】2014年2月26日 申請日期:2013年11月25日 優先權日:2013年11月25日
【發明者】方文騰, 譚小剛 申請人:廣東威創視訊科技股份有限公司