Ivvr菜單生成系統及方法
2023-05-10 16:11:01 1
專利名稱:Ivvr菜單生成系統及方法
技術領域:
本發明涉及通信領域,具體而言,涉及一種交互式語音及視頻應答(Interactive Voice and Video Response,簡稱為IVVR)菜單生成系統及方法。
背景技術:
交互式語音及視頻應答(IVVR),作為一種全新的無線語音及視頻應答增值服務, 正在跟隨3G快速發展被廣泛推廣。視頻電話用戶通過撥打指定號碼,獲得所需信息或者參 與互動式服務,並藉助視頻和語音的特色,突出其「互動」型功能。但是,現有IVVR製作方式較為複雜,具體可以參見圖1。圖1為相關技術中IVVR菜單生成方法的流程圖。如圖1所示,該流程主要包括以 下處理(步驟SlOl-步驟SlO7)步驟SlOl 用戶首先使用DIY軟體製作好資源,需要通過網際網路上傳到伺服器 上;步驟S103 :IVVR系統判斷該資源單路的視頻總帶寬是否符合要求(即是否小於 64K),如果是,執行步驟S105,否則,執行步驟S107 ;步驟S105 =IVVR系統判斷用戶上傳的資源是否為QCIF視頻流,如果是,則執行步 驟S107,否則,返回執行步驟SlOl ;步驟S107 執行除上述判斷以外的其他判斷。如果不符合,則需要用戶重新上傳 資源或通過系統轉換資源,返回執行步驟S101,如果是,則上傳成功;因而,從上述現有技術的實現原理來看,現有IVVR生成方法存在以下不足(I)IVVR菜單製作只能在線下製作,因而靈活的低,局限性大。
(2)製作過程複雜,不能自動處理IVVR菜單中的視頻和音頻合成,需要製作者較 高的專業性,花費大量的製作時間和精力。(3)線下製作的資源極有可能不符合IVVR系統要求,需要用戶重新上傳或系統重 新轉換。
發明內容
針對相關技術中IVVR菜單製作在線下製作,靈活的低、局限性大、製作過程複雜、 並可能不符合IVVR系統要求的問題而提出本發明,為此,本發明的主要目的在於提供一種 改進的IVVR菜單生成系統及方法,以解決上述問題至少之一。根據本發明的一個方面,提供了 一種交互式語音及視頻應答菜單生成系統。根據本發明的交互式語音及視頻應答菜單生成系統包括獲取單元,用於獲取用 戶端上傳的文件,其中,文件包括第一文件和第二文件,第一文件包括視頻文件和/或圖 片文件,第二文件包括音頻文件和/或文字文件;視頻處理單元,用於將用戶端上傳的第 一文件轉換為預定格式的視頻流;音頻處理單元,用於將用戶端上傳的第二文件轉換為預 定格式的音頻流;菜單合成單元,用於將視頻流和音頻流生成IVVR菜單。
根據本發明的另一方面,提供了一種交互式語音及視頻應答菜單生成方法,其中, 該方法應用於IWR菜單生成系統。根據本發明的交互式語音及視頻應答菜單生成方法包括IVVR菜單生成系統獲 取來自於用戶端上傳的文件,其中,文件包括第一文件和第二文件,第一文件包括視頻 文件和/或圖片文件,第二文件包括音頻文件和/或文字文件;IVVR菜單生成系統將用戶 端上傳的第一文件轉換為預定格式的視頻流,並將用戶端上傳的第二文件轉換為預定格式 的音頻流;IVVR菜單生成系統將視頻流和音頻流生成IVVR菜單。通過本發明,用戶只需呼入IVVR製作系統,通過上傳視頻、音頻、圖片、文字文件, 可實現自動生成IVVR菜單,解決了相關技術中IVVR菜單製作在線下製作,靈活性低、局限 性大、製作過程複雜、並可能不符合IVVR系統要求的問題,進而可以提高靈活性、降低局限 性、並且方便用戶製作。本發明的其它特徵和優點將在隨後的說明書中闡述,並且,部分地從說明書中變 得顯而易見,或者通過實施本發明而了解。本發明的目的和其他優點可通過在所寫的說明 書、權利要求書、以及附圖中所特別指出的結構來實現和獲得。
此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發 明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在附圖中圖1為相關技術中IVVR菜單生成系統的流程圖;圖2為根據本發明實施例的IVVR菜單生成系統的結構框圖;圖3為根據本發明優選實施例的IVVR菜單生成系統的結構框圖;圖4為根據本發明實施例的IVVR菜單生成方法的流程圖;圖5為根據本發明優選實施例的IVVR菜單生成方法的流程圖。
具體實施例方式功能概述考慮到相關技術中IVVR菜單製作在線下製作,靈活的低、局限性大、製作過程復 雜、並可能不符合IVVR系統要求的問題,本發明實施例提供了一種交互式語音及視頻應答 (IVVR)菜單生成系統,用戶只需呼入IVVR菜單生成系統,通過上傳視頻、音頻、圖片、文字 文件,即可實現自動生成IWR菜單。其中,IWR菜單生成系統包括獲取單元,用於獲取用 戶端上傳的文件,其中,該文件包括第一文件和第二文件,第一文件包括視頻文件和/或 圖片文件,第二文件包括音頻文件和/或文字文件;視頻處理單元,用於將用戶端上傳的 第一文件轉換為預定格式的視頻流;音頻處理單元,用於將用戶端上傳的第二文件轉換為 預定格式的音頻流;菜單合成單元,用於將視頻流和音頻流生成IVVR菜單。需要說明的是,在不衝突的情況下,本申請中的實施例及實施例中的特徵可以相 互組合。下面將參考附圖並結合實施例來詳細說明本發明。系統實施例根據本發明實施例,首先提供了一種IVVR菜單生成系統。圖2為根據本發明實施例的IVVR菜單生成系統的結構框圖。圖3為根據本發明優選實施例的IVVR菜單生成系統的結構框圖。如圖2所示,根據本發明實施例的IVVR菜 單生成系統包括獲取單元1、視頻處理單元2、音頻處理單元3、菜單合成單元4,以下結合 圖3進行描述。獲取單元1,用於獲取用戶端上傳的文件,其中,文件包括第一文件和第二文件, 第一文件包括視頻文件和/或圖片文件,第二文件包括音頻文件和/或文字文件;在具體實施過程中,上述獲取單元1可以通過業務引導的方式,向用戶提供語音 交互界面,引導用戶按一定邏輯流程上傳IVVR菜單生成所需要的文件,並將該文件返回給 視頻處理單元和音頻處理單元。其中,上述獲取單元1還需要在視頻文件和音頻文件中分別加入視頻編號和音頻 編號,並把這些文件分別發送給視頻處理單元和音頻處理單元。視頻處理單元2,與獲取單元1相連接,用於將用戶端上傳的第一文件轉換為預定 格式的視頻流;優選地,視頻處理單元2,用於獲取第一文件中的視頻流,加入時間同步標記,轉換 成預定的媒體格式,並根據視頻編號存儲該視頻流。優選地,如圖3所示,視頻處理單元2包括視頻判斷模塊20、視頻過濾模塊22、視 頻轉換模塊26。視頻判斷模塊20,用於判斷第一文件是否包括視頻文件,如果是,則將該視頻文件 發送至視頻過濾模塊;優選地,若第一文件中包括不可識別的文件,則視頻判斷模塊20將該返回該判斷 結果給業務引導模塊,或者不對該文件作任何處理。視頻過濾模塊22,用於對輸入的視頻文件進行過濾,獲取純視頻流,並發送至視頻 轉換模塊;視頻轉換模塊沈,與視頻過濾模塊22相連接,用於在輸入的視頻流中加入時間同 步標記,轉換成預定的媒體式,並輸出至視頻預存模塊;視頻預存模塊觀,連接至視頻轉換模塊沈,用於獲取輸入的視頻流的視頻編號, 並根據視頻編號存儲該視頻流。優選地,該視頻處理單元還可以包括圖片轉換模塊M ;則視頻判斷模塊20,還用於判斷第一文件是否包括圖片文件,如果是,則將圖片文 件發送至圖片轉換模塊;圖片轉換模塊M,用於將輸入的圖片文件按照預定幀間隔排序組成視頻流,加入 時間同步標記,轉換成預定的媒體格式,並輸出至視頻預存模塊;視頻預存模塊觀,還用於獲取圖片轉換模塊輸入的視頻流的視頻編號,並根據該 視頻編號存儲該視頻流。音頻處理單元3,與獲取單元1相連接,用於將用戶端上傳的第二文件轉換為預定 格式的音頻流;優選地,音頻處理單元3,用於獲取第二文件中的音頻流,加入時間同步標記,轉換 成預定的媒體格式,並根據音頻編號存儲該音頻流。優選地,如圖3所示,音頻處理單元3可以進一步包括音頻判斷模塊30、音頻轉 換模塊32、音頻預存模塊36。
音頻判斷模塊30,用於對第二文件進行識別,對識別出的音頻文件的音頻格式的 有效性進行判斷,將有效音頻格式的音頻文件發送至音頻轉換模塊,將識別出的圖片文件 發送至TTS轉換模塊;音頻轉換模塊32,與音頻判斷模塊30相連接,用於將接收到的音頻文件加入時間 同步標記,轉換成預定格式的音頻流,並發送至音頻預存模塊;優選地,視頻處理單元還可以包括文語轉換(Text To Speech,簡稱為TTQ轉換 模塊;34 ;則音頻判斷模塊30,還用於判斷第二文件是否包括文本文件,如果是,則將文本文 件發送至TTS轉換模塊;TTS轉換模塊34,與音頻判斷模塊30相連接,用於將接收到的文本文件通過文語 轉換TTS引擎轉換為音頻文件,並將該音頻文件加入時間同步標記,轉換成預定格式的音 頻流,並發送至音頻預存模塊;音頻預存模塊36,與TTS轉換模塊34相連接,還用於獲取圖片轉換模塊輸入的音 頻流的視頻編號,並根據該音頻編號存儲該音頻流。菜單生成單元4,分別與視頻處理單元2和音頻處理單元3相連接,用於將視頻流 和音頻流生成IVVR菜單。優選地,菜單生成單元,用於將對應的音頻流和視頻流組成至少一個媒體流組,將 至少一個媒體流組組合成媒體流組集合,將媒體流組集合生成IWR菜單,其中,音頻流、視 頻流、至少一個媒體流組、媒體流組集合均小於預定閾值。上述預定閾值可以是相同或不同的閾值,例如下文中描述的第一閾值、第二閾值、 第三閾值,即可以滿足以下關係第三閾值>第二閾值>第一閾值。具體根據實際情況預先 設定。優選地,如圖3所示,菜單生成單元4可以進一步包括IVVR處理模塊40,用於判斷接收到的音頻流或視頻流的大小是否小於第一閾值, 如果是,則將音頻流或視頻流發送至IVVR合成模塊,否則,將音頻流或視頻流發送至IVVR 壓縮模塊;IVVR合成模塊42,用於將接收到的對應的音頻流和視頻流組成至少一個媒體流 組,分別判斷各個媒體流組的大小是否大於第二閾值,在各個媒體流組的大小都小於第二 閾值的情況下,將至少一個媒體流組組合成媒體流組集合,判斷媒體流組集合是否小於第 三閾值,如果是,則生成IVVR菜單,否則,發送至IVVR壓縮模塊,其中,第三閾值>第二閾值彡第一閾值;IVVR壓縮模塊44,用於根據預定的壓縮指令對接收到的媒體流進行壓縮,並將壓 縮完成的媒體流發送至IVVR處理模塊。在具體實施過程中,IVVR處理模塊主要負責接收穫取單元發送的生成指令並返回 處理結果;通過調用視頻預存模塊的視頻流和音頻預存模塊的音頻流的編號,打包成一組 媒體流;判斷該組媒體流大小,例如,以64k為預定閾值,小於64k的媒體流發送到IVVR合 成模塊,大於64k的媒體流發送到IVVR壓縮模塊。IVVR合成模塊主要負責接收IVVR處理 模塊發送來的媒體流,讀取媒體流和音頻流中的第一幀的時間同步標記,保證該組視頻音 頻的同步開始;IVVR合成模塊通過讀取時間同步標記,通過計算視頻音頻流中的時長,統一調整該媒體流集合中每組幀的時間間隔,把多組媒體流合成媒體流集合,在把該集合的 視頻流格式轉換為QCIF後,返回給IVVR處理模塊;判斷合成的媒體流集合的總大小,超過 規定大小的視頻,發送給IWR壓縮模塊,否則生成IVVR菜單。IVVR壓縮模塊主要收到IVVR 處理模塊的壓縮指令後,對接收的媒體流進行壓縮,壓縮完成的媒體流返回給IVVR處理模 塊。通過上述實施例,提供了一種IVVR菜單生成系統,該系統使用非常方便,用戶可 以通過任何視頻電話在在任何時刻製作I VVR菜單。且IVVR菜單製作簡單,只需要上傳制 作需要的視頻音頻或文本文件即可完成製作。方法實施例根據本發明實施例,還提供了一種IVVR菜單生成方法。圖4為根據本發明實施例的IVVR菜單生成方法的流程圖。其中,該方法應用於上 述IVVR菜單生成系統,如圖4所示,根據本發明實施例的IVVR菜單生成方法包括以下處理 (步驟S401-步驟S405)步驟S401 :IVVR菜單生成系統獲取來自於用戶端上傳的文件,其中,文件包括第 一文件和第二文件,第一文件包括視頻文件和/或圖片文件,第二文件包括音頻文件和/ 或文字文件;其中,用戶可以根據引導菜單提示順序上傳文件,上傳第一文件和第二文件的順 序根據引導界面預定方式而定,先後順序在系統中可以調整。步驟S403 :IVVR菜單生成系統將用戶端上傳的第一文件轉換為預定格式的視頻 流,並將用戶端上傳的第二文件轉換為預定格式的音頻流;優選地,將用戶端上傳的第一文件轉換為預定格式的視頻流包括以下處理(1)判斷第一文件是否包括視頻文件和/或圖片文件;(2)在第一文件包括視頻文件的情況下,對視頻文件進行過濾,獲取純視頻流,加 入時間同步標記,轉換成預定格式的視頻流,和/或,在第一文件包括圖片文件的情況下, 將圖片文件按照預定幀間隔排序組成視頻流,加入時間同步標記,轉換成預定格式的視頻 流;(3)獲取轉換成預定格式的視頻流的視頻編號,並根據視頻編號存儲該視頻流。優選地,將用戶端上傳的第二文件轉換為預定格式的音頻流包括以下處理(1)判斷第二文件是否包括音頻文件和/或文本文件;(2)在第二文件包括音頻文件的情況下,對該音頻文件的音頻格式的有效性進行 判斷,獲取有效音頻格式的音頻文件,加入時間同步標記,轉換成預定格式的音頻流,和/ 或,在第二文件包括文本文件的情況下,將該文本文件通過文語轉換TTS引擎轉換為音頻 文件,並將該音頻文件加入時間同步標記,轉換成預定格式的音頻流;(3)獲取轉換成預定格式的音頻流的音頻編號,並根據音頻編號存儲該音頻流。步驟S405 =IVVR菜單生成系統將視頻流和音頻流生成IVVR菜單。優選地,步驟S405具體可以包括以下處理(1)判斷音頻流或視頻流的大小是否大於第一閾值;(2)如果是,根據預定的壓縮指令對該音頻流或視頻流進行壓縮,否則,將接收到 的對應的音頻流和視頻流組成至少一個媒體流組,分別判斷各個媒體流組的大小是否大於第二閾值;(3)在各個媒體流組的大小都小於第二閾值的情況下,將至少一個媒體流組組合 成媒體流組集合,判斷媒體流組集合是否小於第三閾值,其中,第三閾值>第二閾值>第一 閾值;(4)在媒體流組集合小於第三閾值的情況下,生成IVVR菜單,否則,根據預定的壓 縮指令對媒體流組集合進行壓縮。圖5為根據本發明優選實施例的IVVR菜單生成方法的流程圖。如圖5所示,根據 本發明優選實施例的IVVR菜單生成方法包括以下處理(步驟S501-步驟S527)假設用戶要製作一個IVVR菜單。其中,該菜單由一個視頻文件、一個圖片、一個音 頻和一段文字轉語音的音頻的合成。一個視頻文件名是「a」(格式為3GP,幀速率lOfps,I 幀間隔5秒,時長20秒,大小70k),一個圖片文件名是「b」 (格式為gif,幀速率lfps,時長 5秒,大小12k)。一個音頻文件名是「c」(格式為AMR,時長10秒,大小12k),一段文本內容 是「您好,歡迎使用IVVR菜單製作系統」。該用戶用3G手機撥打IVVR菜單生成系統的接入 碼,進入IVVR系統。以下結合圖2和圖3描述的系統描述該方案。步驟S501 用戶的手機界面接收到獲取單元的引導提示「請上傳視頻文件或圖片 文件」,用戶按具體引導步驟將「a」文件上傳,獲取單元接收到該文件後,將該文件設置編號 為1-1,發送給視頻處理單元;步驟S503 視頻處理單元中的視頻判斷單元在接收「a」後,判斷出該文件是視頻 文件,返回指令給獲取單元。若判斷出該文件是圖像,則跳到步驟S525 ;步驟S505 視頻判斷模塊判斷出該視頻文件格式為3GP,符合系統指定視頻格式, 發送該視頻文件到視頻過濾模塊;步驟S507 視頻過濾模塊將該視頻文件中的音頻內容過濾掉,生成純視頻流,並 發送給視頻轉換模塊;步驟S509 視頻轉換模塊接收到純視頻流,並將該視頻流媒體格式轉換成H263格 式,調整幀速率為8fps,設置第一個幀為2秒,在加入時間同步標記後,發送到視頻預存模 塊。視頻預存模塊將接收到的編號為1-1的視頻流存儲到單元內第一個位置;步驟S511 獲取單元接收到視頻上傳成功的指令,提示用戶上傳音頻或輸入文 字。用戶按引導步驟將「C」文件上傳,獲取單元接收到後,設置該文件編號1-2發送到音頻 處理單元;步驟S513 音頻判斷模塊接收到用戶上傳文件「C」,判斷出該文件為音頻文件,發 送該音頻文件給音頻處理單元中的音頻轉換模塊。若音頻判斷模塊判斷出用戶輸入文本, 發送給TTS轉換模塊,則跳回步驟S527 ;步驟S515 音頻轉換模塊在接收到音頻文件「C」後,判斷出該音頻媒體格式為 AMR,返回接收成功指令給獲取單元;若判斷出該音頻不是AMR格式,則跳回步驟S511 ;步驟S517 音頻轉換模塊把音頻流轉換音頻碼率為系統統一指定碼率,並加入時 間同步標記後,發送到音頻預存模塊。音頻預存模塊將接收到的編號為1的音頻流存儲到 單元內第一個位置;步驟S519 獲取單元接收到音頻上傳成功的指令,提示用戶「音頻上傳成功,按1 上傳下一個視頻或圖像,按#結束」;
步驟S521 獲取單元接收到用戶選擇「1」的指令,重複步驟S501到步驟S513,完 成一個圖像「b」的上傳和一段文本「您好,歡迎使用IVVR菜單製作系統」的輸入,並設置編 號為2-1和2-2 ;步驟S523 獲取單元引導用戶按「#」,確認文件全部上傳完畢,同時發送生成IVVR 菜單命令給菜單合成單元。菜單合成模塊的IWR處理模塊接收到從視頻預存模塊提取編 號為1的視頻流和音頻流,讀取視頻流和音頻流第一幀的時間同步信息,以時間長的視頻 或音頻為改組媒體流的標準時長,打包成第一組媒體流組,並把該媒體流組的時間同步標 記發送給IVVR合成模塊;對該組媒體流大小進行計算,若計算出該組媒體流大於第一閾值 (例如,64k)後,則發送到IVVR壓縮模塊進行壓縮。IVVR壓縮模塊接收到這組媒體流,壓 縮成小於第二閾值(例如,64k)的媒體流後,返回給IVVR處理模塊。IVVR合成模塊在讀 取IVVR處理模塊的多組媒體流的組同步標記後,調整I-幀的時間間隔,合成多組媒體流集 合,並返回該媒體流集合到IVVR處理模塊。IVVR處理模塊計算該媒體流集合的大小,判斷 是否大於第三閾值(例如,64k),大於64k的媒體流集合發送到IVVR壓縮模塊進行壓縮後, 否則,將該媒體流集合發送給IWR合成模塊,IWR合成模塊接收媒體流集合,將其轉換成 四分之一通用中間格式(Quarter Common Intermediate R)rmat,簡稱為QCIF)格式後,合 並成IVVR菜單;步驟S525 視頻轉換模塊接收的為圖片文件,首先把圖片文件按一定幀間隔組成 存視頻流後,跳回步驟S509 ;步驟S527 =TTS轉換模塊接收到用戶輸入文字,通過TTS引擎,將文字轉換成語 音,並將語音轉換成格式AMR音頻流,同時,在音頻流幀中加入時間同步標記後,跳回步驟 S517。發送到音頻預存模塊。通過上述實施例,提供了一種IVVR菜單生成方法,用戶製作方便的效果,生成的 IVVR菜單符合IVVR系統要求,其視頻總帶寬小於預定閾值(例如,64K),視頻流為QCIF,格 式為3GP,系統可以直接讀取使用。綜上所述,通過本發明的上述實施例,提供的IVVR菜單生成方案,用戶可以通過 任何視頻電話在任何時刻製作IVVR菜單,用戶只需要上傳製作需要的視頻音頻或文本文 件即可完成製作。達到了用戶製作方便的效果,提高了語音撥號在家庭和辦公中的普及應用。顯然,本領域的技術人員應該明白,上述的本發明的各模塊或各步驟可以用通用 的計算裝置來實現,它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成 的網絡上,可選地,它們可以用計算裝置可執行的程序代碼來實現,從而,可以將它們存儲 在存儲裝置中由計算裝置來執行,或者將它們分別製作成各個集成電路模塊,或者將它們 中的多個模塊或步驟製作成單個集成電路模塊來實現。這樣,本發明不限制於任何特定的 硬體和軟體結合。以上所述僅為本發明的優選實施例而已,並不用於限制本發明,對於本領域的技 術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修 改、等同替換、改進等,均應包含在本發明的保護範圍之內。
權利要求
1.一種交互式語音及視頻應答IVVR菜單生成系統,其特徵在於,所述系統包括 獲取單元,用於獲取用戶端上傳的文件,其中,所述文件包括第一文件和第二文件,所述第一文件包括視頻文件和/或圖片文件,所述第二文件包括音頻文件和/或文字文 件;視頻處理單元,用於將用戶端上傳的所述第一文件轉換為預定格式的視頻流; 音頻處理單元,用於將用戶端上傳的所述第二文件轉換為預定格式的音頻流; 菜單合成單元,用於將所述視頻流和所述音頻流生成IVVR菜單。
2.根據權利要求1所述的系統,其特徵在於,所述視頻處理單元,用於獲取所述第一文件中的視頻流,加入時間同步標記,轉換成預 定的媒體格式,並根據視頻編號存儲該視頻流。
3.根據權利要求1或2所述的系統,其特徵在於,所述視頻處理單元包括視頻判斷模塊,用於判斷所述第一文件是否包括視頻文件,如果是,則將所述視頻文件 發送至所述視頻過濾模塊;所述視頻過濾模塊,用於對所述視頻文件進行過濾,獲取純視頻流,並發送至視頻轉換 模塊;所述視頻轉換模塊,用於在輸入的視頻流中加入時間同步標記,轉換成預定的媒體格 式,並輸出至視頻預存模塊;所述視頻預存模塊,用於獲取所述視頻轉換模塊輸入的視頻流的視頻編號,並根據該 視頻編號存儲該視頻流。
4.根據權利要求3所述的系統,其特徵在於,所述視頻處理單元還包括圖片轉換模塊;則所述視頻判斷模塊,還用於判斷所述第一文件是否包括圖片文件,如果是,則將所述 圖片文件發送至圖片轉換模塊;所述圖片轉換模塊,用於將輸入的所述圖片文件按照預定幀間隔排序組成視頻流,加 入時間同步標記,轉換成預定的媒體格式,並輸出至所述視頻預存模塊;所述視頻預存模塊,還用於獲取所述圖片轉換模塊輸入的視頻流的視頻編號,並根據 該視頻編號存儲該視頻流。
5.根據權利要求1所述的系統,其特徵在於,所述音頻處理單元,用於獲取所述第二文件中的音頻流,加入時間同步標記,轉換成預 定的媒體格式,並根據音頻編號存儲該音頻流。
6.根據權利要求1或5所述的系統,其特徵在於,所述音頻處理單元包括音頻判斷模塊,用於判斷所述第二文件是否包括音頻文件,如果是,則將所述音頻文件 發送至音頻轉換模塊;所述音頻轉換模塊,用於將所述音頻判斷模塊輸入的音頻文件加入時間同步標記,轉 換成預定格式的音頻流,並發送至音頻預存模塊;所述音頻預存模塊,用於獲取所述音頻轉換模塊輸入的音頻流的音頻編號,並根據所 述音頻編號存儲該音頻流。
7.根據權利要求6所述的系統,其特徵在於,所述音頻處理單元還包括文語TTS轉換 模塊;則所述音頻判斷模塊,還用於判斷所述第二文件是否包括文本文件,如果是,則將所述 文本文件發送至TTS轉換模塊;所述TTS轉換模塊,用於將接收到的文本文件通過文語轉換TTS引擎轉換為音頻文件, 並將該音頻文件加入時間同步標記,轉換成預定格式的音頻流,並發送至所述音頻預存模 塊;所述音頻預存模塊,還用於獲取所述圖片轉換模塊輸入的音頻流的視頻編號,並根據 該音頻編號存儲該音頻流。
8.根據權利要求1所述的系統,其特徵在於,所述菜單生成單元,用於將對應的音頻流和視頻流組成至少一個媒體流組,將所述至 少一個媒體流組組合成媒體流組集合,將所述媒體流組集合生成所述IWR菜單,其中,所 述音頻流、所述視頻流、所述至少一個媒體流組、所述媒體流組集合均小於預定閾值。
9.根據權利要求1或8所述的系統,其特徵在於,所述菜單生成單元包括IVVR處理模塊,用於判斷接收到的音頻流或視頻流的大小是否小於第一閾值,如果是, 則將所述音頻流或視頻流發送至IVVR合成模塊,否則,將所述音頻流或視頻流發送至IVVR 壓縮模塊;所述IVVR合成模塊,用於將接收到的對應的音頻流和視頻流組成至少一個媒體流組, 分別判斷各個媒體流組的大小是否大於第二閾值,在各個媒體流組的大小都小於所述第二 閾值的情況下,調整I-幀的時間間隔,將所述至少一個媒體流組組合成媒體流組集合,判 斷所述媒體流組集合是否小於第三閾值,如果是,則生成所述IVVR菜單,否則,發送至IVVR 壓縮模塊,其中,所述第三閾值 > 所述第二閾值 >所述第一閾值;所述IVVR壓縮模塊,用於根據預定的壓縮指令對接收到的媒體流進行壓縮,並將壓縮 完成的所述媒體流發送至所述IWR處理模塊。
10.一種交互式語音及視頻應答IVVR菜單生成方法,應用於IVVR菜單生成系統,其特 徵在於,所述方法包括所述IVVR菜單生成系統獲取來自於用戶端上傳的文件,其中,所述文件包括第一文 件和第二文件,所述第一文件包括視頻文件和/或圖片文件,所述第二文件包括音頻文 件和/或文字文件;所述IVVR菜單生成系統將用戶端上傳的所述第一文件轉換為預定格式的視頻流,並 將用戶端上傳的所述第二文件轉換為預定格式的音頻流;所述IVVR菜單生成系統將所述視頻流和所述音頻流生成IVVR菜單。
11.根據權利要求10所述的方法,其特徵在於,所述將用戶端上傳的所述第一文件轉 換為預定格式的視頻流,包括判斷所述第一文件是否包括視頻文件和/或圖片文件;在所述第一文件包括視頻文件的情況下,對所述視頻文件進行過濾,獲取純視頻流,加 入時間同步標記,轉換成預定格式的視頻流,和/或,在所述第一文件包括圖片文件的情況 下,將所述圖片文件按照預定幀間隔排序組成視頻流,加入時間同步標記,轉換成預定格式 的視頻流;獲取所述轉換成預定格式的視頻流的視頻編號,並根據所述視頻編號存儲該視頻流。
12.根據權利要求10所述的方法,其特徵在於,將用戶端上傳的所述第二文件轉換為預定格式的音頻流包括判斷所述第二文件是否包括音頻文件和/或文本文件;在所述第二文件包括音頻文件的情況下,對該音頻文件的音頻格式的有效性進行判 斷,獲取有效音頻格式的音頻文件,加入時間同步標記,轉換成預定格式的音頻流,和/或, 在所述第二文件包括文本文件的情況下,將該文本文件通過文語轉換TTS引擎轉換為音頻 文件,並將該音頻文件加入時間同步標記,轉換成預定格式的音頻流;獲取所述轉換成預定格式的音頻流的音頻編號,並根據所述音頻編號存儲該音頻流。
13.根據權利要求10至12中任一項所述的系統,其特徵在於,將所述視頻流和所述音 頻流生成IVVR菜單包括在所述音頻流或所述視頻流的大小小於第一閾值的情況下,將接收到的對應的音頻流 和視頻流組成至少一個媒體流組,分別判斷各個媒體流組的大小是否大於第二閾值;在各個媒體流組的大小都小於所述第二閾值的情況下,調整I-幀的時間間隔,將所述 至少一個媒體流組組合成媒體流組集合,判斷所述媒體流組集合是否小於第三閾值,其中, 所述第三閾值>所述第二閾值>所述第一閾值;在所述媒體流組集合小於所述第三閾值的情況下,生成所述IVVR菜單,否則,根據預 定的壓縮指令對所述媒體流組集合進行壓縮。
全文摘要
本發明公開了一種交互式語音及視頻應答菜單生成系統及方法,上述系統包括獲取單元,用於獲取用戶端上傳的文件,其中,該文件包括第一文件和第二文件,第一文件包括視頻文件和/或圖片文件,第二文件包括音頻文件和/或文字文件;視頻處理單元,用於將用戶端上傳的第一文件轉換為預定格式的視頻流;音頻處理單元,用於將用戶端上傳的第二文件轉換為預定格式的音頻流;菜單合成單元,用於將視頻流和音頻流生成IVVR菜單。根據本發明提供的技術方案,解決了相關技術中IVVR菜單製作在線下製作,靈活性低、局限性大、製作過程複雜、並可能不符合IVVR系統要求的問題,進而可以提高靈活性、降低局限性、並且方便用戶製作。
文檔編號G06F9/44GK102055731SQ200910208719
公開日2011年5月11日 申請日期2009年10月27日 優先權日2009年10月27日
發明者周龍江, 廖芯, 李滿海, 沈玉娜 申請人:中興通訊股份有限公司