電話紀要生成系統、通信終端、媒體伺服器及方法

2023-09-24 05:00:10 5

專利名稱：電話紀要生成系統、通信終端、媒體伺服器及方法
技術領域：
本發明涉及通信領域，尤其涉及一種記錄通信過程中的通話內容的電話紀要生成系統和方法，以及包含該電話紀要生成系統的通信終端及媒體伺服器。
背景技術：
在語音通信系統中，對通信過程信息進行記錄是一項常用功能，通過該記錄功能，可以將通話內容，例如兩方通話和多方會議的內容等保存下來，以供事後查詢、回溯使用。
目前，一些電話終端提供了錄音功能，以記錄通話過程中的語音信息，或者按用戶的要求記錄一些待記錄的語音信息。在現有技術中，另有一些媒體伺服器也支持錄音功能。下面以電話終端為例，說明現有技術中實現錄音功能的錄音系統的具體方案，請同時參照圖1。
在撥打電話過程中，由音頻輸入單元11採集音頻數據傳送給編碼單元12，編碼單元12將音頻信號轉換成特定的格式後通過通信單元13發送出去；而在接聽電話過程中，由通信單元13將接收到的音頻信號傳送給解碼單元14，解碼單元14將所述特定格式的數據轉換成普通格式的音頻數據後，傳送給音頻輸出單元15，音頻輸出單元15即可播放該音頻數據。其中，所述通信單元13是用於完成該電話終端與整個通信系統中其他部件的交互。另外，在該錄音系統中，還包括一個錄音單元16，其用於分別從音頻輸入單元11、解碼單元14獲得音頻實時數據，並保存到存儲器內。
由上述錄音系統，可完成語音數據的錄製、播放和存儲。
對於媒體伺服器的語音錄製方式與上述電話終端類似，媒體伺服器獲取解碼後、編碼前的音頻數據，並保存到存儲器內，在此不再贅述。
上述現有技術中實現錄音的方案雖然能夠錄製語音數據，卻由於存儲的是語音格式的電話紀要，存在不方便對其內容進行檢索和佔用存儲空間大的缺陷。

發明內容
為了解決上述現有技術中所指出的問題，本發明提出一種電話紀要生成系統和方法，以及包含該電話紀要生成系統的通信終端及媒體伺服器。所述電話紀要生成系統和方法在語音通信過程中生成文本格式的電話紀要，以方便後續的檢索、瀏覽，並可佔用較少的存儲空間。
根據本發明的一較佳實施例，提出一種自動電話紀要系統，該系統包括通信單元，用於接收音頻數據；錄音單元，用於對所述通信單元接收的音頻數據進行錄音；該系統還包括紀要生成單元，用於獲取被所述錄音單元錄音的音頻數據，並採用自動語音識別技術將所述音頻數據轉換成文本格式的電話紀要，並將所述文本格式的電話紀要保存在存儲器中；紀要接口單元，用於將所述文本格式的電話紀要發布出去。
根據本發明的另一較佳實施例，提出一種自動電話紀要生成方法，該方法包括接收音頻數據；對接收的所述音頻數據進行錄音；採用自動語音識別技術對所述音頻數據進行語音識別，生成與所述音頻數據相應的文本格式的電話紀要；發布所述文本格式的電話紀要。
本發明的實施例達到的有益效果包括通過將錄製的語音數據自動生成文本格式的電話紀要，方便後續檢索、編輯和存檔，且可佔用較少的存儲空間。

此處所說明的附圖用來提供對本發明的進一步理解，構成本申請的一部分，並不構成對本發明的限定。在附圖中圖1為現有技術中支持錄音功能的電話終端的錄音系統結構示意圖；
圖2A-圖2F為本發明實施例的電話紀要生成系統的結構方框圖；圖3為本發明實施例的電話紀要方法的流程圖；圖4為根據本發明的媒體伺服器實施例的結構示意圖；圖5為根據本發明的終端實施例的結構示意圖。
具體實施例方式
為使本發明實施例的目的、技術方案和優點更加清楚明白，下面結合實施例和附圖，對本發明實施例做進一步詳細說明。在此，本發明的示意性實施例及其說明用於解釋本發明，但並不作為對本發明的限定。
本發明的實施例是，在通話過程中，通過通信終端或媒體伺服器的電話紀要生成系統獲取語音數據，並應用自動語音識別(ASRAutomatic SpeechRecognition)技術將語音數據轉化為文本數據，將文本格式的電話紀要提供給用戶。由於存儲的是文本格式的電話紀要，大大方便了後續的檢索、編輯和存檔。可選地，本發明的實施例還可根據語音數據來源的不同來區分不同的發言人；也可應用聲紋識別(VPRVoiceprint Recognition)技術來識別發言人，以對應不同的發言人生成各自相應的文本數據。
下面結合附圖對本發明實施例的電話紀要生成系統和方法進行說明。
如圖2A所示，本發明實施例的電話紀要生成系統主要包括通信單元21、錄音單元22、紀要生成單元23以及紀要接口單元24，其中通信單元21主要用於完成該電話紀要生成系統的基本通信功能，並將接收到的音頻數據傳送到錄音單元22進行錄音。
在本發明的一較佳實施例中，該電話紀要生成系統包含於通信終端(如電話終端或其他終端設備)，以實現通信終端的電話紀要功能。在以電話終端作為實施例中，電話紀要生成系統的通信單元21即為電話終端的基本通信單元，用於完成電話終端的呼叫控制、媒體交互等功能。
在本發明的另一較佳實施例中，該電話紀要生成系統包含於媒體伺服器，以實現媒體伺服器的電話紀要功能。在該實施例中，電話紀要生成系統的通信單元21即為媒體伺服器基本單元，用於完成編解碼、混音等功能。
錄音單元22主要用於完成雙方通話、多方會議等的電話錄音，並將錄製的音頻數據提供給紀要生成單元23，該錄音單元22可以是上述通信單元21的一部分，且該錄音單元22可採用現有技術實現，在此不再贅述。
紀要生成單元23主要用於從錄音單元獲取音頻數據，並採用自動語音識別(ASRAutomatic Speech Recognition)技術轉換成對應的文本數據，即文本格式的電話紀要，並保存在存儲器中。
紀要接口單元24主要用於將文本格式的電話紀要發布給召集人、紀要人、與會人等。發布形式可採用E-mail發布、Web發布、資料庫查詢、私有協議發布等，本發明並不加以限制。
在本發明的另一較佳實施例中，該電話紀要生成系統還包括一個手動修改紀要單元25，如圖2B所示，其分別與紀要生成單元23與紀要接口單元24相耦合，用於在生成紀要後，允許手工修改紀要，提供人工整理、修正、審核的功能。這裡需要說明的是，該手動修改紀要單元25是可選的，是為增加該電話紀要生成系統的一個附加功能。
在本發明的另一較佳實施例中，該電話紀要生成系統還包括一個區分識別單元26，用於區分識別不同的發言人，以便紀要生成單元23可以對應不同的發言人生成各自對應的文本格式的電話紀要。該區分識別單元26可以包含於上述通信單元21，如圖2C所示，用於根據音頻數據來源不同來區分不同的發言人；或者該區分識別單元26也可以包含於上述紀要生成單元23，如圖2D所示，並應用聲紋識別技術來識別發言人。這裡需要說明的是，在本發明的其他實施例中，也可以不包括區分識別單元26，則紀要生成單元23不再識別發言人，而是直接將所接收的音頻數據生成一個文本格式的電話紀要。
在本發明的另一較佳實施例中，該電話紀要生成系統還可以包括一個設定單元27，如圖2E所示，設定單元27用於給紀要生成單元設定定量的音頻數據，以便該紀要生成單元23在接收到該定量的音頻數據後再進行語音識別，如此更加方便電話紀要的存儲。當然，本發明並不限於上述實施例，該設定單元27也可以作為紀要生成單元23的一部分，完成上述功能，如圖2F所示。
在此需要說明的是，根據本發明上述實施例的電話紀要生成系統，其各單元可以部署在一個物理設備上，也可以部署在多個不同的設備上，本發明並不以此作為限制。
再請參照圖3，本發明實施例的電話紀要生成方法主要包括下列步驟步驟31錄音單元將通信單元傳輸的音頻數據提供給紀要生成單元；步驟32紀要生成單元採用自動語音識別技術對所述音頻數據進行語音識別，生成相應的文本格式的電話紀要；步驟33紀要接口單元將所述文本格式的電話紀要發布出去。
其中，在上述方法的一較佳實施例中，通信單元可以首先根據音頻數據來源不同來區分不同的發言人，再將不同發言人的音頻數據分別傳輸給錄音單元，以便紀要生成單元生成對應不同發言人的文本格式的電話紀要。
或者，在另一較佳實施例中，紀要生成單元也可以在接收到錄音單元的音頻數據後，首先利用聲紋識別技術區分不同的發言人，而後再生成對應不同發言人的文本格式的電話紀要。
另外，在生成文本格式的電話紀要後，上述方法還可以增加手工修改紀要的步驟，以便人工對生成的文本數據進行整理、修正和審核等，以便該會議紀要更為完善。
此外，上述紀要接口單元發布文本格式的電話紀要的方法也多種多樣，例如可以採用E-mail發布、Web發布、資料庫查詢、私有協議發布等等，以便召集人、紀要人、與會人等能夠獲取該電話紀要，本發明對此並不加以限制。
根據上述方法，紀要生成單元進行語音識別的步驟可以為在線識別，也可以為離線識別。
對於在線方法，通話過程中，錄音單元實時地將通信單元傳輸的音頻數據提供給紀要生成單元；紀要生成單元再實時地採用自動語音識別技術進行語音識別，生成相應的文本格式的電話紀要。
對於離線方法，錄音單元實時或非實時地將通信單元傳輸的音頻數據提供給紀要生成單元；紀要生成單元在收集到定量的音頻數據後，進行語音識別，生成相應的文本格式的電話紀要。其中，定量的音頻數據是指一次或多次通話的完整音頻數據，或者較多的音頻數據，如預定時間內傳輸的音頻數據。例如紀要生成單元可以在收集到一次通話的完整音頻數據後進行語音識別；也可以在收集24小時的音頻數據後進行語音識別，這種情況下，紀要生成單元收集的音頻數據就可能包括多次通話；又或者，如果24小時的音頻數據過於龐大，也可以設定為幾個小時，例如僅收集兩小時的音頻數據後即進行語音識別。這些都是本發明的實施例，而本發明並不以此作為限制，該功能可以通過在紀要生成單元中增加一個設定單元來實現。
接下來，分別根據以媒體伺服器為載體的實施例和以通信終端為載體的實施例對本發明的電話紀要生成系統和方法進行詳細說明。
實施例一媒體伺服器為載體在本實施例中，假設要完成一個三方會議的會議紀要，會議結束後與會者通過E-mail的形式收到該會議紀要內容，該內容為此次會議中各與會方發言對應的文本。另外，在本實施例中，會議紀要內容是根據音頻數據來源的不同來區分不同的與會人。
請參照圖4，本實施例的電話紀要生成系統主要包括媒體伺服器基本單元41、錄音單元42、紀要生成單元43以及紀要接口單元44，下面結合各個單元的工作流程進行說明。其中媒體伺服器基本單元41在本實施例中除用於完成編解碼、混音、控制等基本通信功能外，還包括一個區分識別單元(圖未示)，用於根據音頻數據來源的不同，將三個與會方的音頻數據傳輸給錄音單元42進行錄音。
錄音單元42用於接收媒體伺服器基本單元41傳輸的三個來源的音頻數據，對三個與會方分別進行錄音，並將所述音頻數據提供給紀要生成單元43，以便紀要生成單元43對所接收的音頻數據對應的與會方加以區分。
紀要生成單元43用於對來自三個與會方的音頻數據分別應用ASR技術進行語音識別，得到各自的文本信息，再根據發言時間的先後順序，將三份文本信息組合成一份會議紀要，並將最終的會議紀要提供給紀要接口單元44。這裡，進行語音識別的過程可以採用前述的在線方法，也可以採用離線方法，如果採用離線方法，還需增設一個設定單元以完成定量音頻數據設定的工作。
紀要接口單元44用於從紀要生成單元43獲得文本格式的會議紀要的數據後，從與該媒體伺服器互連的通信系統的資料庫查詢到各與會方的E-mail地址，並將會議紀要發送到各與會方的E-mail郵箱。
實踐中，本實施例的媒體伺服器上的電話紀要生成系統的電話紀要功能可以作為一項增值業務提供給用戶。
如此一來，相對於現有技術的電話錄音方式，本發明的該實施例的電話紀要生成系統所提供的記錄更方便後續的檢索、瀏覽，並由於是文本數據而佔用較少的存儲空間。
實施例二通信終端為載體在本實施例中，假設要完成對一次三方會議的錄音功能，會議結束後通過訪問會議終端中的Web伺服器，瀏覽會議紀要，並可以將紀要以文本格式複製到其它文件中。
請參照圖5，本實施例的電話紀要生成系統主要包括終端基本通信單元51、錄音單元52、紀要生成單元53以及紀要接口單元54，下面結合各個單元的工作流程進行說明。其中終端基本通信單元51除用於完成終端設備的呼叫控制、媒體交互等基本通信功能外，還包括一個第一區分識別單元(圖未示)，用於根據音頻數據來源的不同，將不同來源的音頻數據傳輸到錄音單元52進行錄音。
錄音單元52用於對本終端輸入的語音和來自網絡側的語音分別進行錄音，並在將錄製的音頻數據提供給紀要生成單元53。
紀要生成單元53用於將音頻數據轉換為文本數據，在本實施例中，該紀要生成單元53還包括一個第二區分識別單元(VPR)，對於本終端輸入的語音，該紀要生成單元53直接應用ASR技術進行語音識別，轉換成文本；對於來源於網絡側的語音，先由第二區分識別單元應用VPR技術進行聲紋識別，根據發言人的不同，分離出不同的音頻數據，對分離出來的音頻數據再分別應用ASR技術進行語音識別，得到各自的發言文本數據。最後，根據發言時間的先後順序，將本終端數據、網絡側各個發言人發言數據組合起來，得到最終的會議紀要，並保存在存儲器內。
紀要接口單元54用於從紀要生成單元53獲得文本格式的會議紀要，並實現一個Web伺服器，將會議紀要內容放在Web伺服器內，並支持會議紀要內容的複製、保存功能。如此一來，Web客戶端(瀏覽器)訪問伺服器時，選擇相應的頁面後，即可瀏覽到該文本格式的會議紀要，同時也可以下載保存該文本格式的會議紀要，方便了檢索、瀏覽和存儲。
應當理解的是，本申請的保護範圍不受所述實施例限制。例如，通話方數可以是兩方、三方、任意方；紀要發布形式可以是E-mail、傳真、資料庫查詢或其它任意方式。
以上所述的具體實施例，對本發明的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本發明的具體實施例而已，並不用於限定本發明的保護範圍，凡在本發明的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本發明的保護範圍之內。
權利要求
1.一種電話紀要生成系統，其包括通信單元，用於接收音頻數據；錄音單元，用於對所述通信單元接收的音頻數據進行錄音；其特徵在於，該系統還包括紀要生成單元，用於獲取被所述錄音單元錄音的音頻數據，並採用自動語音識別技術將所述音頻數據轉換成文本格式的電話紀要，並將所述文本格式的電話紀要保存在存儲器中；紀要接口單元，用於將所述文本格式的電話紀要發布出去。
2.根據權利要求1所述的系統，其特徵在於，該系統還包括手動修改紀要單元，連接於所述紀要生成單元和所述紀要接口單元之間，用於手工修改由所述紀要生成單元保存的所述文本格式的電話紀要；被手工修改的所述文本格式的電話紀要經由所述紀要接口單元發布出去。
3.根據權利要求1所述的系統，其特徵在於，該系統還包括區分識別單元，用於區分識別不同的發言人，以便紀要生成單元可以對應不同的發言人生成各自對應的文本格式的電話紀要。
4.根據權利要求3所述的系統，其特徵在於，所述區分識別單元包含於所述通信單元，用於根據音頻數據的不同來源來區分不同的發言人。
5.根據權利要求3所述的系統，其特徵在於，所述區分識別單元包含於所述紀要生成單元，用於使用聲紋識別技術來識別發言人。
6.根據權利要求1所述的系統，其特徵在於，該系統還包括設定單元，與所述紀要生成單元相耦合，用於設定定量的音頻數據，以便所述紀要生成單元在接收到該定量的音頻數據後再進行語音識別。
7.根據權利要求1所述的系統，其特徵在於，該系統還包括設定單元，所述設定單元包含於所述紀要生成單元，用於設定定量的音頻數據，以便所述紀要生成單元在接收到該定量的音頻數據後再進行語音識別。
8.根據權利要求1-7任一項所述的系統，其特徵在於，該電話紀要生成系統包含於媒體伺服器或通信終端。
9.一種電話紀要生成方法，其特徵在於，該方法包括下列步驟接收音頻數據；對接收的所述音頻數據進行錄音；採用自動語音識別技術對所述音頻數據進行語音識別，生成與所述音頻數據相應的文本格式的電話紀要；發布所述文本格式的電話紀要。
10.根據權利要求9所述的方法，其特徵在於，所述接收音頻數據的步驟具體包括根據所述音頻數據的不同來源區分不同的發言人，以便根據所述不同的發言人對接收的所述音頻數據分別進行錄音。
11.根據權利要求9所述的方法，其特徵在於，所述採用自動語音識別技術對所述音頻數據進行語音識別，生成與所述音頻數據相應的文本格式的電話紀要的步驟具體包括紀要生成單元接收所述音頻數據；利用聲紋識別技術區分所述音頻數據中不同的發言人；採用自動語音識別技術將所述音頻數據根據不同的發言人分別轉化成相應的文本格式的電話紀要。
12.根據權利要求9所述的方法，其特徵在於，在生成文本格式的電話紀要後，所述方法還包括手工修改紀要的步驟，以便對生成的文本格式的電話紀要進行整理、修正和審核。
13.根據權利要求9所述的方法，其特徵在於，所述語音識別的步驟具體包括實時地對接收到的所述音頻數據進行語音識別，生成相應的文本格式的電話紀要。
14.根據權利要求9所述的方法，其特徵在於，所述語音識別的步驟具體包括收集到定量的所述音頻數據後，進行語音識別，生成相應的文本格式的電話紀要。
15.根據權利要求14所述的方法，其特徵在於，所述定量的音頻數據為一次通話的完整音頻數據，或多次通話的音頻數據，或預定時間內傳輸的音頻數據。
全文摘要
本發明提供一種電話紀要生成系統、通信終端、媒體伺服器及方法，該系統包括通信單元，用於接收音頻數據；錄音單元，用於對所述通信單元接收的音頻數據進行錄音；該系統還包括紀要生成單元，用於獲取被所述錄音單元錄音的音頻數據，並採用自動語音識別技術將所述音頻數據轉換成文本格式的電話紀要，並將所述文本格式的電話紀要保存在存儲器中；紀要接口單元，用於將所述文本格式的電話紀要發布出去。通過本發明，將錄製的語音數據生成文本格式的電話紀要，方便後續檢索、編輯和存檔。
文檔編號H04M3/487GK101068271SQ200710112658
公開日2007年11月7日申請日期2007年6月26日優先權日2007年6月26日
發明者馬樟平, 李久, 劉泳申請人:華為技術有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

電話紀要生成系統、通信終端、媒體伺服器及方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法