新四季網

一種添加標點的方法和系統的製作方法

2023-09-18 01:51:35

一種添加標點的方法和系統的製作方法
【專利摘要】本發明公開了一種添加標點的方法和系統。該方法包括:將待處理語音文件作為整體,根據其中包含的每個詞和每個詞的語義特徵,識別所述待處理語音文件中出現的所有特徵單元N1;基於靜音檢測將所述待處理語音文件分為一個以上的待處理語段,根據每個待處理語段包含的每個詞和每個詞的語義特徵,識別所述待處理語音文件中出現的所有特徵單元N2;利用基於分詞和詞語的語義特徵建立的語言模型,根據所述所有特徵單元N1和N2確定所述待處理語音文件的各種標點狀態的第一綜合權重和第二綜合權重;對所述第一綜合權重和第二綜合權重進行加權得到第三綜合權重,根據所述第三綜合權重為所述待處理語音文件添加標點。應用本發明能提高添加標點準確性。
【專利說明】
【技術領域】
[0001] 本申請涉及信息處理【技術領域】,尤其涉及一種添加標點的方法和系統。 一種添加標點的方法和系統

【背景技術】
[0002] 在通信領域以及網際網路領域,在某些應用場景中需要為一些缺少標點的文件添加 標點,例如,為語音文件添加標點。
[0003] 關於為語音文件添加標點,目前存在著一種基於分字處理以及每個字所處位置來 添加標點的方案。
[0004] 在所述方案中,預先對語料庫中的語句進行分字處理,確定每個字在語句中所處 的位置,即是處於句子的開始、中間還是結束,並確定每個字後面的標點符號情況,例如有 無標點符號等,根據語料庫中每個字所處的位置以及每個字後面的標點符號情況建立語言 模型,在實際添加標點的過程中,將待處理語音文件作為一個整體,根據該待處理語音文件 中出現的每個字,利用基於分字建立的語言模型為所述待處理語音文件添加標點。
[0005] 可見,利用單個字在句子中的位置以及單個字後面是否有標點來建立語言模型, 由於所利用的信息有限,且所利用的信息與標點狀態的關聯性不強,因此所建立的語言模 型並不能提取出語句所蘊含的信息與語句的標點狀態之間的真實關係,並且,將待處理語 音文件簡單地作為一個整體來添加標點,也沒有考慮到待處理語音文件內部的結構特徵, 因此,綜合上述因素,導致目前為語音文件添加標點的準確性仍然較低。


【發明內容】

[0006] 本發明提供了一種添加標點的方法和系統,能夠提高添加標點的準確性。
[0007] -種添加標點的方法,該方法包括:
[0008] 將待處理語音文件作為整體,根據作為整體的所述待處理語音文件中包含的每個 詞和每個詞的語義特徵,識別所述待處理語音文件中出現的所有特徵單元N1 ;
[0009] 基於靜音檢測將所述待處理語音文件分為一個以上的待處理語段,根據每個待處 理語段包含的每個詞和每個詞的語義特徵,識別所述待處理語音文件中出現的所有特徵單 元N2 ;
[0010] 利用基於分詞和詞語的語義特徵建立的語言模型,根據所述所有特徵單元N1確 定所述待處理語音文件的各種標點狀態的第一綜合權重,根據所述所有特徵單元N2確定 所述待處理語音文件的各種標點狀態的第二綜合權重;
[0011] 對所述待處理語音文件的各種標點狀態的第一綜合權重和第二綜合權重進行加 權處理,得到第三綜合權重,根據所述第三綜合權重為所述待處理語音文件添加標點。
[0012] 一種添加標點的系統,該系統包括靜音檢測模塊、識別模塊和標點添加模塊;
[0013] 所述靜音檢測模塊,用於基於靜音檢測將待處理語音文件分為一個以上的待處理 語段;
[0014] 所述識別模塊,用於將待處理語音文件作為整體,根據作為整體的所述待處理語 音文件中包含的每個詞和每個詞的語義特徵,識別所述待處理語音文件中出現的所有特徵 單元N1,根據每個所述待處理語段包含的每個詞和每個詞的語義特徵,識別所述待處理語 音文件中出現的所有特徵單元N2 ;
[0015] 所述標點添加模塊,用於利用基於分詞和詞語的語義特徵建立的語言模型,根據 所述所有特徵單元N1確定所述待處理語音文件的各種標點狀態的第一綜合權重,根據所 述所有特徵單元N2確定所述待處理語音文件的各種標點狀態的第二綜合權重,對所述待 處理語音文件的各種標點狀態的第一綜合權重和第二綜合權重進行加權處理,得到第三綜 合權重,根據所述第三綜合權重為所述待處理語音文件添加標點。
[0016] 由上述技術方案可見,由於本發明在添加標點所利用的語言模型是基於分詞和詞 語的語義特徵建立的,由於進行的是分詞處理而非分字處理,並且進一步利用詞在語句中 的語義特徵,由於詞在語句中的語義特徵往往與詞的標點狀態有著較強的關聯性,因此,通 過基於對語料庫進行分詞和詞在所述語料庫中的語義特徵來建立語言模型,能夠提取出語 句中所蘊含的信息(即所包含的詞和詞的語義特徵)與語句的標點狀態的真實關係,進而能 夠提1?添加標點的準確性。
[0017] 並且,由於本發明在利用基於分詞和詞語的語義特徵建立的語言模型為待處理語 音文件添加標點時,在將待處理語音文件作為整體確定待處理語音文件的各種標點狀態的 綜合權重(記為第一綜合權重)的同時,還考慮了所述語言文件的內部結構特徵,通過靜音 檢測將待處理語音文件分為一個以上的待處理語段,根據每個待處理語段包含的每個詞和 每個詞的語義特徵確定待處理語音文件的各種標點狀態的綜合權重(記為第二綜合權重), 通過對所述第一綜合權重和第二綜合權重進行加權處理第三綜合權重,根據第三綜合權重 為待處理語音文件添加標點。
[0018] 由於待處理語音文件的內部結構特徵對待處理語音文件中各個詞的語義特徵會 產生影響,進而會影響待處理語音文件中出現的特徵單元,因而最終影響待處理語音文件 的標點添加結果,因此,本發明通過基於靜音檢測將待處理語音文件分為一個以上的待處 理語段,基於待處理語段中包含的每個詞和每個詞的語義特徵識別待處理語音文件中出現 的特徵單元,從而考慮了待處理語音文件內部的結構特徵對待處理語音文件標點狀態的影 響,從而進一步提高了為待處理語音文件添加標點的準確性。

【專利附圖】

【附圖說明】
[0019] 圖1是本發明實施例提供的添加標點的方法流程圖。
[0020] 圖2是本發明實施例提供的標點添加系統的第一組成示意圖。
[0021] 圖3是本發明實施例提供的標點添加系統的第二組成示意圖。
[0022] 圖4是本發明實施例提供的用於添加標點的語言模型建立方法第一流程圖。
[0023] 圖5是本發明提供的用於添加標點的語言模型建立方法第二流程圖。
[0024] 圖6是基於本發明實施例提供的語言模型採用本發明實施例提供的標點添加方 法和系統為待處理語音文件添加標點的流程圖。

【具體實施方式】
[0025] 圖1是本發明實施例提供的添加標點的方法流程圖。
[0026] 如圖1所述,該流程包括:
[0027] 步驟101,將待處理語音文件作為整體,根據作為整體的所述待處理語音文件中包 含的每個詞和每個詞的語義特徵,識別所述待處理語音文件中出現的所有特徵單元N1。
[0028] 步驟102,基於靜音檢測將所述待處理語音文件分為一個以上的待處理語段,根據 每個待處理語段包含的每個詞和每個詞的語義特徵,識別所述待處理語音文件中出現的所 有特徵單元N2。
[0029] 其中,所述的語義特徵一般包括詞語的詞性和/或句子成分,同一個詞語的詞性 和/或句子成分在不同的語境中可以相同也可以不同。
[0030] 步驟103,利用基於分詞和詞語的語義特徵建立的語言模型,根據所述所有特徵單 元N1確定所述待處理語音文件的各種標點狀態的第一綜合權重,根據所述所有特徵單元 N2確定所述待處理語音文件的各種標點狀態的第二綜合權重。
[0031] 其中,基於分詞和詞語的語義特徵建立的語言模型中存儲有每個特徵單元與自身 各種標點狀態的權重的對應關係。
[0032] 在根據所述所有特徵單元N1確定所述待處理語音文件的各種標點狀態的第一綜 合權重時,從所述語言模型中獲取所述所有特徵單元N1中的每個特徵單元與自身各種標 點狀態的權重的對應關係,根據獲取的所述對應關係確定所述待處理文件中每個詞的標點 狀態的權重,根據每個詞的標點狀態的權重確定所述待處理文件的各種標點狀態的第一綜 合權重。
[0033] 在根據所述所有特徵單元N2確定所述待處理語音文件的各種標點狀態的第二綜 合權重時,從所述語言模型中獲取所述所有特徵單元N2中的每個特徵單元與自身各種標 點狀態的權重的對應關係,根據獲取的所述對應關係確定所述待處理文件中每個詞的標點 狀態的權重,根據每個詞的標點狀態的權重確定所述待處理文件的各種標點狀態的第二綜 合權重。
[0034] 步驟104,對所述待處理語音文件的各種標點狀態的第一綜合權重和第二綜合權 重進行加權處理,得到第三綜合權重,根據所述第三綜合權重為所述待處理語音文件添加 標點。
[0035] 由圖1所示方法可見, 申請人:既注意到了待處理語音文件中的靜音間隔對待處理 語音文件中詞語的語義特徵以及特徵單元的影響,也注意到了這種影響也不是絕對的,在 某些時候,一些靜音間隔只是說話人語速較慢或者在說話時思考或猶豫造成的,因此,圖1 所示的實施例中,一方面將待處理語音文件作為整體,來識別其中包含的詞語的語義特徵, 進而確定待處理語音文件中出現的所有特徵單元N1,根據所述所有特徵單元N1利用所述 語言模型確定待處理語音文件的各種標點狀態的第一綜合權重,另一方面,在語義特徵的 確定以及特徵單元的提取過程中,還通過靜音檢測將待處理語音文件分為一個以上的待處 理語段,從而考慮了待處理語音文件的內部結構對語義特徵以及特徵單元的影響,得到待 處理語音文件中出現的所有特徵單元N2,根據所述所有特徵單元N2利用基於分詞和詞語 的語義特徵得到的語言模型確定待處理語音文件的各種標點狀態的第二綜合權重,通過對 所述第一綜合權重和所述第二綜合權重進行加權處理得到第三綜合權重,最終根據所述第 三綜合權重對待處理語音文件添加標點,從而既考慮了靜音間隔對待處理語音文件中詞語 的語義特徵以及特徵單元的影響,同時,也能夠避免只是由於某些時候說話人語速較慢或 者在說話時思考或猶豫造成的靜音間隔對詞語語義特徵和特徵單元提取的影響最終造成 錯誤添加標點,進而,能夠提高為待處理語音文件添加標點的準確性。
[0036] 其中,為了加快處理速度,所述步驟101和所述步驟102可以並行進行。
[0037] 具體地,在一實施例中,可以將所述待處理語音文件分為兩路分別進行特徵單元 識別,兩路特徵單元的識別並行進行,其中一路將所述待處理語音文件作為整體輸入特徵 單元識別模塊,從而識別出所述所有特徵單元N1,另一路先對所述待處理語音文件進行靜 音檢測,根據靜音檢測結果將所述待處理語音文件分為一個以上的待處理語段,將每個待 處理語段逐個輸入特徵單元識別模塊,從而識別每個待處理語段中出現的特徵單元,將所 有待處理語段中出現的特徵單元的併集確定為所述所有特徵單元N2。在另一實施例中,也 可以根據靜音檢測將待處理語音文件分為一個以上的待處理語段以後,存儲待處理語音文 件的結構信息,從而根據所述結構信息能夠識別出所述待處理語音文件包含的各個語段, 一方面將待處理語音文件作為整體識別所述待處理語音文件包含的所有特徵單元N1,另一 方面識別待處理語音文件包含的各個語段中出現的特徵單元,將所有待處理語段中出現的 特徵單元的併集確定為所述所有特徵單元N2。
[0038] 本發明實施例中,基於靜音檢測將待處理語音文件分為一個以上的待處理語段具 體可以包括:檢測待處理語音文件中的靜音時長,將所述靜音時長與預設的靜音閾值作比 較,在所述靜音時長大於所述靜音閾值時,在所述靜音時長對應的靜音處從所述待處理語 音文件中劃分出待處理語段。
[0039] 優選地,在不同的應用場景中,可以預設不同的靜音閾值,根據當前的應用場景確 定當前需要採用的靜音閾值,從而能夠適應不同應用場景下語句標點狀態特點的需求。例 如,在基於地圖應用的場景中為語音輸入添加標點時,由於基於地圖應用的場景常常會有 關於地名的語音輸入,有時會出現由於地名較長或者不夠熟悉而產生短暫停頓的現象,因 此,可以針對基於地圖應用的場景設置較長的靜音閾值,從而避免在一個完整的地名中間 添加標點,提1?標點添加的準確性。
[0040] 本發明實施例還提供了一種標點添加系統,具體請參見圖2和圖3。
[0041] 圖2是本發明實施例提供的標點添加系統的第一組成示意圖。
[0042] 如圖2所示,該系統包括靜音檢測模塊201、識別模塊202和標點添加模塊203。
[0043] 靜音檢測模塊201,用於基於靜音檢測將待處理語音文件分為一個以上的待處理 語段。
[0044] 識別模塊202,用於將待處理語音文件作為整體,根據作為整體的所述待處理語音 文件中包含的每個詞和每個詞的語義特徵,識別所述待處理語音文件中出現的所有特徵單 元N1,根據每個所述待處理語段包含的每個詞和每個詞的語義特徵,識別所述待處理語音 文件中出現的所有特徵單元N2。
[0045] 標點添加模塊203,用於利用基於分詞和詞語的語義特徵建立的語言模型,根據所 述所有特徵單元N1確定所述待處理語音文件的各種標點狀態的第一綜合權重,根據所述 所有特徵單元N2確定所述待處理語音文件的各種標點狀態的第二綜合權重,對所述待處 理語音文件的各種標點狀態的第一綜合權重和第二綜合權重進行加權處理,得到第三綜合 權重,根據所述第三綜合權重為所述待處理語音文件添加標點。
[0046] 圖3是本發明實施例提供的標點添加系統的第二組成示意圖。
[0047] 如圖3所示,圖3所示的標點添加系統在圖2所示的標點添加系統的基礎上進一 步增加了第一輸入模塊301和第二輸入模塊302。
[0048] 第一輸入模塊301與識別模塊202相連,用於將待處理語音文件作為整體,整段地 輸入到識別模塊202中。
[0049] 識別模塊202,將經由第一輸入模塊301輸入的待處理語音文件作為整體識別出 所述所有特徵單元N1。
[0050] 第二輸入模塊302與靜音檢測模塊201相連,用於將所述待處理語音文件輸入靜 音檢測模塊201,然後靜音檢測模塊201將從所述待處理語音文件中分出的各個待處理語 段逐個輸入識別模塊202。
[0051] 識別模塊202,根據經由第二輸入模塊302輸入的每個待處理語段包含的每個詞 和每個詞的語義特徵,識別所述待處理語音文件中出現的所有特徵單元N1。
[0052] 具體地,識別模塊202可以用於根據每個所述待處理語段包含的每個詞和每個詞 的語義特徵,識別每個待處理語段中出現的特徵單元,將所有待處理語段中出現的特徵單 元的併集確定為所述所有特徵單元N2。
[0053] 可見,在圖3所示系統中,通過第一輸入模塊301和第二輸入模塊302將待處理語 音文件分為兩路輸入到識別模塊202中,從而,識別模塊202將經由第一輸入模塊301輸入 的待處理語音文件作為整體識別出所述待處理語音文件中出現的所有特徵單元N1,將經由 第二輸入模塊302輸入的待處理語音文件按照其包含的各個待處理語段識別出所述待處 理語音文件中出現的所有特徵單元N2。
[0054] 在上述圖2和/或圖3所示的標點添加系統中,識別模塊202可以用於同步進行 所述所有特徵單元N1的識別和所述所有特徵單元N2的識別。
[0055] 在上述圖2和/或圖3所示的標點添加系統中,靜音檢測模塊301,用於根據當前 的應用場景確定靜音閾值,檢測所述待處理語音文件中的靜音時長,在所述靜音時長大於 所述靜音閾值時,在所述靜音時長對應的靜音處從所述待處理語音文件中劃分出待處理語 段。
[0056] 在上述圖2和/或圖3所示的標點添加系統中,標點添加模塊203可以包括綜合 權重確定單元、綜合權重融合單元和標點添加單元。
[0057] 所述綜合權重確定單元,用於利用基於分詞和詞語的語義特徵建立的語言模型, 根據所述所有特徵單元N1確定所述待處理語音文件的各種標點狀態的第一綜合權重,根 據所述所有特徵單元N2確定所述待處理語音文件的各種標點狀態的第二綜合權重。
[0058] 所述綜合權重融合單元,用於對所述待處理語音文件的各種標點狀態的第一綜合 權重和第二綜合權重進行加權處理,得到第三綜合權重。
[0059] 所述標點添加單元,用於根據所述第三綜合權重為所述待處理語音文件添加標 點。
[0060] 其中,所述綜合權重確定單元,可以用於從所述語言模型中獲取所述所有特徵單 元N1中的每個特徵單元與自身各種標點狀態的權重的對應關係,根據獲取的所述對應關 系確定所述待處理文件中每個詞的標點狀態的權重,根據每個詞的標點狀態的權重確定所 述待處理文件的各種標點狀態的第一綜合權重;以及,用於從所述語言模型中獲取所述所 有特徵單元N2中的每個特徵單元與自身各種標點狀態的權重的對應關係,根據獲取的所 述對應關係確定所述待處理文件中每個詞的標點狀態的權重,根據每個詞的標點狀態的權 重確定所述待處理文件的各種標點狀態的第二綜合權重。
[0061] 在本發明實施例提供的標點添加系統中,還可以對該系統中的各個模塊根據實際 需要進行重新劃分或者細化。
[0062] 例如,識別模塊202可以包括語義識別單元、特徵提取單元,所述語義識別單元, 用於識別待處理語音文件或待處理語段中的每個詞、以及每個詞的語義特徵,所述特徵提 取單元,用於根據預先設定的特徵模板以及待處理語音文件中包含的每個詞和每個詞的語 義特徵,確定待處理語音文件中出現的所有特徵單元。
[0063] 再例如,標點添加模塊203可以包括權重獲取單元和綜合權重計算單元,所述權 重獲取單元,用於從語言模型中獲取待處理語音文件的所有特徵單元中的每個特徵單元與 該個特徵單元自身各種標點狀態的權重的對應關係,所述綜合權重計算單元,用於根據所 述權重獲取單元獲取的所述對應關係,確定待處理語音文件中每個特徵單元的標點狀態的 權重,根據每個特徵單元的標點狀態的權重計算待處理語音文件的各種標點狀態的所述第 一綜合權重或所述第二綜合權重。
[0064] 在本發明實施例提供的標點添加方法和/或系統中,根據獲取的特徵單元與自身 各種標點狀態的權重的對應關係,可以確定待處理語音文件中每個詞的標點狀態的權重。 具體可以採用多種方法確定待處理語音文件中每個詞的標點狀態的權重,本發明實施例對 此不做限定。例如,可以根據所述對應關係採用映射函數的方法確定待處理語音文件中每 個詞的標點狀態的權重,具體地,對於待處理語音文件中當前位置上的詞,確定包含該當前 位置上的詞的所有特徵單元,獲取包含當前位置上的詞的所有特徵單元中的每個特徵單元 與該個特徵單元自身的各種標點狀態的權重對應關係,按照預設的映射函數,確定所述當 前位置上的詞的各種標點狀態的權重。其中,當同一內容的詞處於待處理語音文件中的不 同位置時,相當於不同的詞,因此其所在的特徵單元也會有所不同,進而其標點狀態也會有 所不同。
[0065] 待處理語音文件的標點狀態包括了該待處理語音文件中的每個詞的標點狀態,相 當於該待處理語音文件中所有詞的標點狀態的組合,因此可以通過最優路徑算法確定待處 理語音文件的各種標點狀態的綜合權重,例如通過維特比(viterbi)算法確定出該待處理 語音文件中所有詞的標點狀態的最佳組合方式,即確定出最優路徑,該最佳組合方式的綜 合權重最商。
[0066] 本發明實施例所述的基於分詞和詞語的語義特徵建立的語言模型,包括每個特徵 單元與自身各種標點狀態的權重的對應關係,能夠根據查詢請求提供相應特徵單元與自身 各種標點狀態的權重的對應關係,本發明實施例提供的添加標點的方法和系統對所述語言 模型的具體建立方法不做限定。
[0067] 作為示例性地,下面給出所述基於分詞和詞語的語義特徵建立的語言模型的優選 建立方法,其通過對語料庫中的語句進行分詞,根據詞語在語料庫中的語義特徵以及標點 狀態的關聯關係得到所述語言模型,具體請參見圖4。
[0068] 圖4是本發明實施例提供的用於添加標點的語言模型建立方法第一流程圖。
[0069] 如圖4所示,該第一流程包括:
[0070] 步驟401,對語料庫中的語句進行分詞處理,其中,語料庫中的語句預先添加了標 點。
[0071] 步驟402,根據分詞處理後的語句中每個詞的語義特徵,依據預先設定的特徵模 板,搜索所述語料庫中出現的特徵單元,根據特徵單元中的每個詞後面的標點狀態,記錄所 述語料庫中每個特徵單元的每種標點狀態的出現次數。
[0072] 步驟403,根據每個特徵單元的每種標點狀態的出現次數,確定每個特徵單元的每 種標點狀態的權重,建立包括每個特徵單元與自身各種標點狀態的權重的對應關係的語言 模型。
[0073] 在圖4所示方法的步驟402中,可以採用方法一,即預先標註所述語料庫的語句中 每個詞的語義特徵和標點狀態,然後再根據預設的特徵模板搜索所述語料庫中出現的特徵 單元,並記錄每個特徵單元的每種標點狀態的出現次數。也可以採用方法二,即在根據預先 設定的特徵模板搜索語料庫中出現的特徵單元時,實時地識別語句中每個詞的語義特徵以 及每個詞後面的標點狀態。下面以採用所述方法一實現步驟402為例,對圖4所示方法進 行進一步的詳細介紹,具體請參見圖5。
[0074] 圖5是本發明提供的用於添加標點的語言模型建立方法第二流程圖。
[0075] 如圖5所示,該方法包括:
[0076] 步驟501,對語料庫中的語句進行分詞處理,其中,語料庫中的語句預先添加了標 點。
[0077] 步驟502,根據分詞處理後的語句中的每個詞在所述語句中的語義信息,為所述每 個詞標註語義特徵,根據在所述語句中所述每個詞後面的標點狀態信息,為所述每個詞標 註標點狀態。
[0078] 步驟503,根據每個詞的所述語義特徵,依據預先設定的特徵模版生成特徵單元, 所述特徵模板包括獲取的詞的數量、獲取詞的語義特徵,所述特徵單元包括詞和詞的語義 特徵。
[0079] 步驟504,從所述語料庫的語句中搜索每個特徵單元,記錄每個特徵單元出現時該 特徵單元的標點狀態,記錄該特徵單元的每種標點狀態的出現次數,其中,特徵單元的標點 狀態包括該特徵單元中每個詞的標點狀態。
[0080] 步驟505,根據每個特徵單元的每種標點狀態的出現次數,確定每個特徵單元的每 種標點狀態的權重,建立包括每個特徵單元與自身各種標點狀態的權重的對應關係的語言 模型。
[0081] 為了提高建立的語言模型的質量,所述語料庫中的語句中預先添加的標點的正確 率較高,最好都是正確的。
[0082] 圖5所示流程中,步驟503和步驟504可以在一個過程中實現,例如根據預先設 定的特徵模板從語料庫的語句中提取特徵單元,如果提取出的特徵單元之前沒有出現過, 則相當於生成一個新的特徵單元、且從語料庫的語句中搜索到該新的特徵單元的次數為1 次。
[0083] 在根據語句中的詞的語義特徵提取特徵單元的基礎上,還可以進一步利用詞的位 置信息,所述詞的位置信息是詞與當前基準位置的相對位置信息,進而提取的特徵單元除 了包括詞、詞的語義特徵以外,還包括詞與當前基準位置的相對位置信息。
[0084] 具體地,預先設定的特徵模板包括獲取的詞的數量、獲取詞的語義特徵、獲取的詞 與當前基準位置的相對位置關係需要滿足的預定要求,則依據預先設定的特徵模板從語句 中提取特徵單元具體可以包括:
[0085] 分別以分詞處理後的語句中的每個詞所處的位置作為當前基準位置,確定出在所 述語句中的位置與當前基準位置的相對位置關係滿足所述特徵模板要求的詞,根據所述相 對位置關係滿足特徵模板要求的詞的語義特徵和相對位置關係信息生成特徵單元,所述特 徵單元還包括詞與當前基準位置的相對位置關係。
[0086] 通過包含相對位置關係要求的特徵模板,可以確定詞與詞之間的關聯關係,進而 根據所述特徵模板提取的特徵單元包含了詞與詞之間的關聯關係,所述關聯關係通常與標 點狀態存在聯繫,因此根據所述特徵單元與每種標點狀態的權重關係建立的語言模型能夠 更加準確地反映語句所蘊含的信息與標點狀態的關係,進而利用所述語言模型能夠提高添 加標點的準確性。
[0087] 根據預先設定的特徵模板所要求獲取的詞的個數,預先設定的特徵模板可以包括 獨詞模板和/或多詞模板。
[0088] 其中,所述獨詞模板包括獲取與當前基準位置的相對位置關係滿足預定要求的單 個詞、以及所述單個詞的語義特徵。其中,獨詞模板涉及的所述相對位置關係可以就是獲取 當前基準位置上的詞,也可以是獲取當前基準位置的前一位置、或後一位置等其他位置上 的詞。
[0089] 依據獨詞模板從語句中提取特徵單元時,分別以所述語句中的每個詞所處的位置 作為所述當前基準位置,根據所述獨詞特徵模板確定與當前基準位置的相對位置關係滿足 所述獨詞特徵模板要求的單個詞,根據該單個詞的語義特徵確定待處理語句中出現的獨詞 特徵單元,所述獨詞特徵單元包括所述單個詞、所述單個詞的語義特徵以及所述單個詞的 位置與當前基準位置的相對位置關係。
[0090] 所述多詞模板包括獲取分別與當前基準位置的相對位置關係滿足預定要求的多 個詞、以及所述多個詞中每個詞的語義特徵。
[0091] 依據多詞模板從語句中提取特徵單元時,分別以所述語句中的每個詞所處的位置 作為所述當前基準位置,根據所述多詞特徵模板確定與當前基準位置的相對位置關係滿足 所述多詞特徵模板的相對位置關係要求的多個詞,根據該多個詞中每個詞的語義特徵確定 待處理語句中出現的多詞特徵單元,所述多詞特徵單元包括所述多個詞、所述多個詞中每 個詞的語義特徵、以及每個詞的位置與所述當前基準位置的相對位置關係。
[0092] 其中,通過對獨詞模板中與當前基準位置的相對位置關係的要求進行修改,可以 獲得不同種類的獨詞模板,例如用於獲取當前基準位置的詞及其語義特徵的獨詞模板(可 以記為模板TOO)、用於獲取當前基準位置的前一位置上的詞及其語義特徵的獨詞模板(可 以記為模板T01)、用於獲取當前基準位置的後一位置上的詞及其語義特徵的獨詞模板(可 以記為模板T02)。
[0093] 通過對多詞模板中與當前基準位置的相對位置關係的要求進行修改,也可以獲 得不同種類的多詞模板,例如,用於獲取當前基準位置的前一位置、當前基準位置、當前基 準位置的後一位置上的詞及其語義特徵的多詞模板(可以記為模板T05),用於獲取當前基 準位置的前兩個位置以及當前基準位置上的詞及其語義特徵的多詞模板(可以記為模板 T06)。
[0094] -個多詞模板要求獲取的詞的個數越多,詞之間的關聯性越強,進而利用建立的 語言模型添加標點的準確性越高,模板的種類越多,對語句中出現的語義特徵與標點狀態 的關聯關係的考慮越全面,進而利用建立的語言模型添加標點的準確性越高。當然,模板的 種類越多、一個多詞模板要求獲取的詞的個數越多,建立語言模型所需要的計算量越大,所 述語言模型的規模越大,利用建立的語言模型添加標點的信息處理量也越大。
[0095] 在步驟505中,根據每個特徵單元的每種標點狀態的出現次數,確定每個特徵單 元的每種標點狀態的權重時,為了便於操作,可以為每個特徵單元賦予標識(ID),建立的語 言模型包括特徵單元ID、該ID對應的特徵單元、以及所述特徵單元的各種標點狀態的權重 信息。
[0096] 本發明中,詞的語義特徵可以包括但不限於該詞在當前語句中的詞性和/或在當 前語句中充當的句子成分。
[0097] 下面舉一個具體的例子,對圖5所示語言模型建立方法進行示例性介紹。
[0098] 在該例子中,假設語料庫中包括如下的語句:今天天氣不錯,我們下午去打球,然 後去吃飯。
[0099] 在利用圖5所示方法建立語言模型時,需要執行如下步驟:
[0100] 步驟1,對所述語句進行分詞。
[0101] 對語句"今天天氣不錯,我們下午去打球,然後去吃飯。"進行分詞處理後得到的詞 包括:今天、天氣、不錯、我們、下午、去、打球、然後、去、吃飯。
[0102] 步驟2,對分詞處理後的語句中的每個詞進行語義特徵標註和標點狀態標註。
[0103] 作為示例性地,所述語義特徵包括詞性和句子成分,則對所述語句進行標註後的 結果參見表一:
[0104] 表一
[0105] 內容今天天氣 不錯我們 下午去 打球然後 去 吃飯 詞性名詞 名詞 形容代詞 名詞 動詞 名詞 副詞 動詞 名詞 _ 詞 __ 成分狀語 主語謂語 主語 狀語 謂語 狀語狀語 謂語 賓語 標點無 無 逗號 無無無 逗號無 無 句號
[0106] 步驟3,根據步驟2的標註結果,依據預先設定的特徵模板,從所述語句中提取特 徵單元,為提取的特徵單元分配ID,並記錄特徵單元的每種標點狀態的出現次數,其中,所 述特徵單元包括詞和詞的語義特徵。
[0107] 本步驟中,假設預先設定的特徵模板包括獨詞模板T00、T01、T02和多詞模板T05, 獨詞模板TOO用於獲取當前基準位置的詞及其語義特徵,獨詞模板Τ01用於獲取當前基準 位置的前一位置上的詞及其語義特徵,獨詞模板T02用於獲取當前基準位置的後一位置上 的詞及其語義特徵,多詞模板T05用於獲取當前基準位置的前一位置、當前基準位置、當前 基準位置的後一位置上的詞及其語義特徵。
[0108] 以步驟2標註後的語句中的每個詞所在的位置為當前位置,根據獨詞模板TOO、 T01、T02和多詞模板T05提取特徵單元。
[0109] 比如,當以"天氣"所在的位置為當前基準位置時,根據模板TOO得到的特徵單元 包括"今天"、以及"今天"的語義特徵(即名詞和狀語),根據模板T01得到的特徵單元包括 "天氣"、以及"天氣"的語義特徵(即名詞和主語),根據模板T02得到的特徵單元包括"不 錯"、以及"不錯"的語義特徵(即形容詞和謂語),根據模板T05得到的特徵單元包括"今天"、 以及"今天"的語義特徵(即名詞和狀語)、"天氣"、以及"天氣"的語義特徵(即名詞和主語) "不錯"、以及"不錯"的語義特徵(即形容詞和謂語)。
[0110] 其中,特徵單元中的每個詞與當前基準位置的相對位置信息,可以以顯式方式存 儲在特徵單元中,也可以根據每種模板對應的ID範圍、通過為特徵單元賦予相應範圍內的 ID等隱式方式進行存儲。
[0111] 當根據特徵模板提取特徵單元時,如果特徵模板要求的某個相對位置上沒有詞, 則可以採用約定方式表示無詞,比如採用約定字符或字符串表示無詞。例如所述語句中的 "今天"前面沒有詞,當以"今天"所在的位置為當前基準位置,根據模板TOO或T05提取特 徵單元時,需要採用約定的方式表示"今天"的前一位置無詞。
[0112] 提取出特徵單元以後,通過為特徵單元賦予不同的ID,來區分包括不同內容的特 徵單元。所述ID的賦予方式有多種,例如可以根據特徵單元包含的內容生成的哈希值作為 所述特徵單元的ID。
[0113] 對於每個特徵單元,當語料庫中的語句中每出現一次所述特徵單元時,根據本次 出現的特徵單元中每個詞的標點狀態,記錄該特徵單元的標點狀態的出現次數。其中,特徵 單元的標點狀態包括特徵單元中每個詞的標點狀態,換言之,當特徵單元包含多個詞時,特 徵單元的標點狀態是由所述多個詞的標點狀態組合而成的,其中任意一個詞的標點狀態發 生改變,則所述包含多個詞的特徵單元的標點狀態也發送了改變。比如,一個特徵單元包括 三個詞,三個詞的標點狀態分別為"無"、"無"和"逗號"時,該特徵單元的標點狀態時"無"、 "無,,和"逗號,,的組合,當第三個詞的標點狀態變為"無,,時,則該特徵單元的標點狀態變為 另一種標點狀態,即變為"無"、"無"和"無"。
[0114] 通過步驟2和3可以看出本發明採用分詞處理而非分字處理的好處:只有詞語才 具有明確的語義特徵,單個字一般無法具備明確的語義特徵,因此分詞處理也為步驟2做 了準備工作;另外,由於在特徵提取的過程中,常常會用到語句中包含的上下文信息,詞語 的上下文仍然是詞語,通過詞語之間的關聯關係能夠更明確地體現出語義特徵的聯繫,相 互關聯的語義特徵與標點狀態的關聯關係通常也較強,因此,基於分詞以及分詞後的上下 文關聯關係提取的特徵單元,能夠較為準確地提取出語句中蘊含的語義信息與標點狀態的 關聯關係。
[0115] 步驟4,根據步驟3提取的特徵單元,以及特徵單元的每種標點狀態的出現次數, 確定每個特徵單元的每種標點狀態的權重,建立包括每個特徵單元與自身各種標點狀態的 權重的對應關係的語言模型。
[0116] 其中,具體可以通過迭代優化算法確定每個特徵單元的每種標點狀態的權重。
[0117] 其中,可以採用的迭代優化算法有很多,例如牛頓迭代算法,BFGS (Large-scale Bound-constrained Optimization)迭代算法,L-BFGS (Software for Large-scale Bound-constrained Optimization)迭代算法,0WL-QN(0rthant_Wise Limited-memory Quasi-Newton)迭代算法等。優選地,可以採用L-BFGS迭代算法,因為L-BFGS迭代算法具 有迭代速度快的優點,能夠提高語言模型的建立速度。
[0118] 通過上述步驟1-步驟4,最終建立的語言模型包括每個特徵單元與該特徵單元自 身的各種標點狀態的權重的對應關係,其中,每個特徵單元還可以具有一個區別於其他特 徵單元的ID,通過所述ID能夠檢索到所述特徵單元與自身的各種標點狀態的權重的對應 關係,從而,在從語言模型中獲取特徵單元與自身各種標點狀態的權重的對應關係時,可以 向所述語言模型發送攜帶有特徵單元的標識(ID)的查詢請求,根據所述特徵單元的ID從 所述語言模型中獲取相應特徵單元與自身各種標點狀態的權重的對應關係,其中,所述語 言模型中存儲有特徵單元的ID、該ID對應的特徵單元、以及該特徵單元與自身各種標點狀 態的權重的對應關係。
[0119] 基於包括所述獨詞特徵單元和/或所述多詞特定單元的語言模型添加標點時,在 本發明實施例提供的添加標點的方法中,分別以每個詞所處的位置作為所述當前基準位 置,根據獨詞特徵模板確定與當前基準位置的相對位置關係滿足所述獨詞特徵模板要求的 單個詞,根據該單個詞的語義特徵識別獨詞特徵單元,其中,所述獨詞特徵模板包括獲取與 當前基準位置的相對位置關係滿足預定要求的單個詞、以及所述單個詞的語義特徵,所述 獨詞特徵單元包括所述單個詞、所述單個詞的語義特徵以及所述單個詞的位置與當前基準 位置的相對位置關係;和/或,分別以每個詞所處的位置作為所述當前基準位置,根據多 詞特徵模板確定與當前基準位置的相對位置關係滿足所述多詞特徵模板要求的多個詞,根 據該多個詞中每個詞的語義特徵識別多詞特徵單元,其中,所述多詞特徵模板包括獲取與 當前基準位置的相對位置關係滿足預定要求的多個詞、以及所述多個詞中每個詞的語義特 徵,所述多詞特徵單元包括所述多個詞、所述多個詞中每個詞的語義特徵、以及每個詞的位 置與所述當前基準位置的相對位置關係。
[0120] 基於包括所述獨詞特徵單元和/或所述多詞特定單元的語言模型添加標點時,在 本發明實施例提供的添加標點的系統中,識別模塊202,可以用於分別以每個詞所處的位置 作為所述當前基準位置,根據獨詞特徵模板確定與當前基準位置的相對位置關係滿足所述 獨詞特徵模板要求的單個詞,根據該單個詞的語義特徵識別獨詞特徵單元,其中,所述獨詞 特徵模板包括獲取與當前基準位置的相對位置關係滿足預定要求的單個詞、以及所述單個 詞的語義特徵,所述獨詞特徵單元包括所述單個詞、所述單個詞的語義特徵以及所述單個 詞的位置與當前基準位置的相對位置關係;和/或,識別模塊202,可以用於分別以每個詞 所處的位置作為所述當前基準位置,根據多詞特徵模板確定與當前基準位置的相對位置關 系滿足所述多詞特徵模板要求的多個詞,根據該多個詞中每個詞的語義特徵識別多詞特徵 單元,其中,所述多詞特徵模板包括獲取與當前基準位置的相對位置關係滿足預定要求的 多個詞、以及所述多個詞中每個詞的語義特徵,所述多詞特徵單元包括所述多個詞、所述多 個詞中每個詞的語義特徵、以及每個詞的位置與所述當前基準位置的相對位置關係。
[0121] 作為示例性地,下面提供一個具體的實現流程,用於進一步詳細而直觀地介紹基 於本發明實施例提供的語言模型採用本發明實施例提供的標點添加方法和系統為待處理 語音文件添加標點的流程,具體請參見圖6。
[0122] 圖6是基於本發明實施例提供的語言模型採用本發明實施例提供的標點添加方 法和系統為待處理語音文件添加標點的流程圖。
[0123] 如圖6所示,該流程包括如下的子流程:分別為語言模型建立流程、第一綜合權重 確定流程、第二綜合權重確定流程、權重融合以及標點添加流程。
[0124] 其中,語言模型建立流程是預先的處理流程,一旦語言模型建立以後,可以直接利 用建立的語言模型添加標點。優選地,所述第一綜合權重確定流程和所述第二綜合權重確 定流程可以並行進行,從而能夠提高信息處理速度。在得到第一綜合權重和第二綜合權重 以後,再執行權重融合以及標點添加流程。
[0125] 具體地,在語言模型建立流程中,首先對語料庫進行分詞和分句處理,然後標記語 料庫中每個詞的語義特徵,依據預設的特徵模板根據語料庫的分詞結果以及每個詞的語義 特徵進行特徵提取,從而提取出特徵單元,並標記每個特徵單元的每種標點狀態的出現次 數,為每個特徵單元設置ID,通過優化迭代得到每個特徵單元與自身各種標點狀態的權重 的對應關係,從而得到用於添加標點的語言模型,其中,在所述語言模型中存儲有每個特徵 單兀與自身各種標點狀態的權重的對應關係。
[0126] 在第一綜合權重確定流程中,將待處理語音文件作為一個整體整段輸入到語音引 擎中,所述語音引擎根據聲學模型、詞典以及用於識別語句的語義特徵的語言模型來識別 出待處理語音文件中所包含的詞,以及每個詞的語義特徵。根據所述語音引擎的識別結果, 進行特徵單元識別,從而識別出待處理語音文件中包含的所有特徵單元N1,根據所述所有 特徵單元N1中每個特徵單元的ID從在所述語言模型建立流程中建立的語言模型中獲取每 個特徵單元的各種標點狀態的權重,最後根據維特比算法計算出最優路徑,從而得到待處 理語音文件的各種標點狀態的第一綜合權重。
[0127] 在第二綜合權重確定流程中,將待處理語音文件作為一個整體整段輸入到靜音檢 測模塊中,靜音檢測模塊根據靜音檢測結果從待處理語音文件中劃分出待處理語段,將待 處理語段逐個送入語音引擎中,所述語音識別引擎根據聲學模型、詞典以及用於識別語句 的語義特徵的語言模型來識別出每個待處理語段中所包含的詞,以及每個詞的語義特徵, 根據每個待處理語段中所包含的詞,以及每個詞的語義特徵進行特徵單元識別,從而識別 出每個待處理語段中所包含的特徵單元,將待處理語音文件包含的所有待處理語段的特徵 單元的併集確定為待處理語音文件中包含的所有特徵單元N2,根據所述所有特徵單元N2 中每個特徵單元的ID從在所述語言模型建立流程中建立的語言模型中獲取每個特徵單元 的各種標點狀態的權重,最後根據維特比算法計算出最優路徑,從而得到待處理語音文件 的各種標點狀態的第二綜合權重。
[0128] 在得到第一綜合權重和第二綜合權重以後,在權重融合以及標點添加流程中, 首先對待處理語音文件的各種標點狀態的第一綜合權重和第二綜合權重進行加權處理, t匕如,假設第一綜合權重為R1,第二綜合權重為R2,則融合處理後得到的第三綜合權重 R3=a*Rl+ (l_a)*R2,其中,加權係數a的取值範圍為0〈a〈l。然後再根據融合處理後得到 的第三綜合權重R3,選出取值最大的第三綜合權重R3對應的標點狀態,根據該標點狀態為 待處理語音文件添加標點。
[0129] 以上所述僅為本發明的較佳實施例而已,並不用以限制本發明,凡在本發明的精 神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明保護的範圍之內。
【權利要求】
1. 一種添加標點的方法,其特徵在於,該方法包括: 將待處理語音文件作為整體,根據作為整體的所述待處理語音文件中包含的每個詞和 每個詞的語義特徵,識別所述待處理語音文件中出現的所有特徵單元N1 ; 基於靜音檢測將所述待處理語音文件分為一個以上的待處理語段,根據每個待處理 語段包含的每個詞和每個詞的語義特徵,識別所述待處理語音文件中出現的所有特徵單元 N2 ; 利用基於分詞和詞語的語義特徵建立的語言模型,根據所述所有特徵單元N1確定所 述待處理語音文件的各種標點狀態的第一綜合權重,根據所述所有特徵單元N2確定所述 待處理語音文件的各種標點狀態的第二綜合權重; 對所述待處理語音文件的各種標點狀態的第一綜合權重和第二綜合權重進行加權處 理,得到第三綜合權重,根據所述第三綜合權重為所述待處理語音文件添加標點。
2. 根據權利要求1所述的方法,其特徵在於, 同步進行所述所有特徵單元N1的識別和所述所有特徵單元N2的識別。
3. 根據權利要求1或2所述的方法,其特徵在於, 將所述待處理語音文件分為兩路分別進行特徵單元識別,其中一路將所述待處理語音 文件作為整體識別出所述所有特徵單元N1,另一路先對所述待處理語音文件進行靜音檢 測,根據靜音檢測結果將所述待處理語音文件分為一個以上的待處理語段,然後再根據每 個待處理語段包含的每個詞和每個詞的語義特徵,識別所述待處理語音文件中出現的所有 特徵單元N2。
4. 根據權利要求1所述的方法,其特徵在於,根據每個待處理語段包含的每個詞和每 個詞的語義特徵,識別所述待處理語音文件中出現的所有特徵單元N2包括: 識別每個待處理語段中出現的特徵單元,將所有待處理語段中出現的特徵單元的併集 確定為所述所有特徵單元N2。
5. 根據權利要求1所述的方法,其特徵在於,所述靜音檢測包括: 根據當前的應用場景確定靜音閾值,檢測所述待處理語音文件中的靜音時長,在所述 靜音時長大於所述靜音閾值時,在所述靜音時長對應的靜音處從所述待處理語音文件中劃 分出待處理語段。
6. 根據權利要求1所述的方法,其特徵在於,所述語言模型通過如下步驟建立: 對語料庫中的語句進行分詞處理,其中,語料庫中的語句預先添加了標點; 根據分詞處理後的語句中每個詞的語義特徵,依據預先設定的特徵模板,搜索所述語 料庫中出現的特徵單元,根據特徵單元中的每個詞後面的標點狀態,記錄所述語料庫中每 個特徵單元的每種標點狀態的出現次數; 根據每個特徵單元的每種標點狀態的出現次數,確定每個特徵單元的每種標點狀態的 權重,建立包括每個特徵單元與自身各種標點狀態的權重的對應關係的語言模型。
7. 根據權利要求1或6所述的方法,其特徵在於,所述特徵單元包括獨詞特徵單元和 /或多詞特徵單元,所述獨詞特徵單元依據獨詞特徵模板得到,所述多詞特徵單元依據多詞 特徵模板得到; 其中,所述獨詞特徵模板包括獲取與當前基準位置的相對位置關係滿足預定要求的單 個詞、以及所述單個詞的語義特徵,依據獨詞特徵模板得到獨詞特徵單元包括: 分別以每個詞所處的位置作為所述當前基準位置,根據所述獨詞特徵模板確定與當前 基準位置的相對位置關係滿足所述獨詞特徵模板要求的單個詞,根據該單個詞的語義特徵 識別獨詞特徵單元,所述獨詞特徵單元包括所述單個詞、所述單個詞的語義特徵以及所述 單個詞的位置與當前基準位置的相對位置關係; 所述多詞特徵模板包括獲取與當前基準位置的相對位置關係滿足預定要求的多個詞、 以及所述多個詞中每個詞的語義特徵,依據多詞特徵模板得到多詞特徵單元包括: 分別以每個詞所處的位置作為所述當前基準位置,根據所述多詞特徵模板確定與當前 基準位置的相對位置關係滿足所述多詞特徵模板要求的多個詞,根據該多個詞中每個詞的 語義特徵識別多詞特徵單元,所述多詞特徵單元包括所述多個詞、所述多個詞中每個詞的 語義特徵、以及每個詞的位置與所述當前基準位置的相對位置關係。
8. 根據權利要求1所述的方法,其特徵在於,根據所述所有特徵單元N1確定所述待處 理語音文件的各種標點狀態的第一綜合權重包括: 從所述語言模型中獲取所述所有特徵單元N1中的每個特徵單元與自身各種標點狀 態的權重的對應關係,根據獲取的所述對應關係確定所述待處理文件中每個詞的標點狀態 的權重,根據每個詞的標點狀態的權重確定所述待處理文件的各種標點狀態的第一綜合權 重; 和/或,根據所述所有特徵單元N2確定所述待處理語音文件的各種標點狀態的第二綜 合權重包括: 從所述語言模型中獲取所述所有特徵單元N2中的每個特徵單元與自身各種標點狀 態的權重的對應關係,根據獲取的所述對應關係確定所述待處理文件中每個詞的標點狀態 的權重,根據每個詞的標點狀態的權重確定所述待處理文件的各種標點狀態的第二綜合權 重。
9. 根據權利要求1所述的方法,其特徵在於,所述語義特徵包括詞語詞性和/或句子成 分。
10. -種添加標點的系統,其特徵在於,該系統包括靜音檢測模塊、識別模塊和標點添 加模塊; 所述靜音檢測模塊,用於基於靜音檢測將待處理語音文件分為一個以上的待處理語 段; 所述識別模塊,用於將待處理語音文件作為整體,根據作為整體的所述待處理語音文 件中包含的每個詞和每個詞的語義特徵,識別所述待處理語音文件中出現的所有特徵單元 N1,根據每個所述待處理語段包含的每個詞和每個詞的語義特徵,識別所述待處理語音文 件中出現的所有特徵單元N2 ; 所述標點添加模塊,用於利用基於分詞和詞語的語義特徵建立的語言模型,根據所述 所有特徵單元N1確定所述待處理語音文件的各種標點狀態的第一綜合權重,根據所述所 有特徵單元N2確定所述待處理語音文件的各種標點狀態的第二綜合權重,對所述待處理 語音文件的各種標點狀態的第一綜合權重和第二綜合權重進行加權處理,得到第三綜合權 重,根據所述第三綜合權重為所述待處理語音文件添加標點。
11. 根據權利要求10所述的系統,其特徵在於, 所述識別模塊,用於同步進行所述所有特徵單元N1的識別和所述所有特徵單元N2的 識別。
12. 根據權利要求10或11所述的系統,其特徵在於,該系統還包括第一輸入模塊和第 二輸入模塊, 所述第一輸入模塊與所述識別模塊相連,用於將所述待處理語音文件作為整體輸入所 述識別模塊; 所述識別模塊將經由所述第一輸入模塊輸入的待處理語音文件作為整體識別出所述 所有特徵單元N1 ; 所述第二輸入模塊與所述靜音檢測模塊相連,用於將所述待處理語音文件輸入所述靜 音檢測模塊,所述靜音檢測模塊將從所述待處理語音文件中分出的各個待處理語段逐個輸 入所述識別模塊; 所述識別模塊根據經由所述第二輸入模塊輸入的每個待處理語段包含的每個詞和每 個詞的語義特徵,識別所述待處理語音文件中出現的所有特徵單元N1。
13. 根據權利要求10所述的系統,其特徵在於, 所述識別模塊,用於根據每個所述待處理語段包含的每個詞和每個詞的語義特徵,識 別每個待處理語段中出現的特徵單元,將所有待處理語段中出現的特徵單元的併集確定為 所述所有特徵單元N2。
14. 根據權利要求10所述的系統,其特徵在於, 所述靜音檢測模塊,用於根據當前的應用場景確定靜音閾值,檢測所述待處理語音文 件中的靜音時長,在所述靜音時長大於所述靜音閾值時,在所述靜音時長對應的靜音處從 所述待處理語音文件中劃分出待處理語段。
15. 根據權利要求10所述的系統,其特徵在於,所述語言模型為通過如下步驟建立的 模型: 對語料庫中的語句進行分詞處理,其中,語料庫中的語句預先添加了標點; 根據分詞處理後的語句中每個詞的語義特徵,依據預先設定的特徵模板,搜索所述語 料庫中出現的特徵單元,根據特徵單元中的每個詞後面的標點狀態,記錄所述語料庫中每 個特徵單元的每種標點狀態的出現次數; 根據每個特徵單元的每種標點狀態的出現次數,確定每個特徵單元的每種標點狀態的 權重,建立包括每個特徵單元與自身各種標點狀態的權重的對應關係的語言模型。
16. 根據權利要求10或15所述的系統,其特徵在於,所述特徵單元包括獨詞特徵單元 和/或多詞特徵單元; 所述識別模塊,用於分別以每個詞所處的位置作為所述當前基準位置,根據獨詞特徵 模板確定與當前基準位置的相對位置關係滿足所述獨詞特徵模板要求的單個詞,根據該單 個詞的語義特徵識別獨詞特徵單元,其中,所述獨詞特徵模板包括獲取與當前基準位置的 相對位置關係滿足預定要求的單個詞、以及所述單個詞的語義特徵,所述獨詞特徵單元包 括所述單個詞、所述單個詞的語義特徵以及所述單個詞的位置與當前基準位置的相對位置 關係; 和/或,所述識別模塊,用於分別以每個詞所處的位置作為所述當前基準位置,根據多 詞特徵模板確定與當前基準位置的相對位置關係滿足所述多詞特徵模板要求的多個詞,根 據該多個詞中每個詞的語義特徵識別多詞特徵單元,其中,所述多詞特徵模板包括獲取與 當前基準位置的相對位置關係滿足預定要求的多個詞、以及所述多個詞中每個詞的語義特 徵,所述多詞特徵單元包括所述多個詞、所述多個詞中每個詞的語義特徵、以及每個詞的位 置與所述當前基準位置的相對位置關係。
17. 根據權利要求10所述的系統,其特徵在於,所述標點添加模塊包括綜合權重確定 單元、綜合權重融合單元和標點添加單元; 所述綜合權重確定單元,用於利用基於分詞和詞語的語義特徵建立的語言模型,根據 所述所有特徵單元N1確定所述待處理語音文件的各種標點狀態的第一綜合權重,根據所 述所有特徵單元N2確定所述待處理語音文件的各種標點狀態的第二綜合權重; 所述綜合權重融合單元,用於對所述待處理語音文件的各種標點狀態的第一綜合權重 和第二綜合權重進行加權處理,得到第三綜合權重; 所述標點添加單元,用於根據所述第三綜合權重為所述待處理語音文件添加標點。
18. 根據權利要求17所述的系統,其特徵在於, 所述綜合權重確定單元,用於從所述語言模型中獲取所述所有特徵單元N1中的每個 特徵單元與自身各種標點狀態的權重的對應關係,根據獲取的所述對應關係確定所述待處 理文件中每個詞的標點狀態的權重,根據每個詞的標點狀態的權重確定所述待處理文件的 各種標點狀態的第一綜合權重;以及,用於從所述語言模型中獲取所述所有特徵單元N2中 的每個特徵單元與自身各種標點狀態的權重的對應關係,根據獲取的所述對應關係確定所 述待處理文件中每個詞的標點狀態的權重,根據每個詞的標點狀態的權重確定所述待處理 文件的各種標點狀態的第二綜合權重。
【文檔編號】G10L15/18GK104143331SQ201310198454
【公開日】2014年11月12日 申請日期:2013年5月24日 優先權日:2013年5月24日
【發明者】劉海波, 王爾玉, 張翔, 盧鯉, 嶽帥, 陳波, 李露, 劉薦 申請人:騰訊科技(深圳)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀