一種添加標點的方法和系統的製作方法

2023-09-18 01:51:35 2

一種添加標點的方法和系統的製作方法
【專利摘要】本發明公開了一種添加標點的方法和系統。該方法包括：將待處理語音文件作為整體，根據其中包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元N1；基於靜音檢測將所述待處理語音文件分為一個以上的待處理語段，根據每個待處理語段包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元N2；利用基於分詞和詞語的語義特徵建立的語言模型，根據所述所有特徵單元N1和N2確定所述待處理語音文件的各種標點狀態的第一綜合權重和第二綜合權重；對所述第一綜合權重和第二綜合權重進行加權得到第三綜合權重，根據所述第三綜合權重為所述待處理語音文件添加標點。應用本發明能提高添加標點準確性。
【專利說明】
【技術領域】
[0001] 本申請涉及信息處理【技術領域】，尤其涉及一種添加標點的方法和系統。一種添加標點的方法和系統

【背景技術】
[0002] 在通信領域以及網際網路領域，在某些應用場景中需要為一些缺少標點的文件添加標點，例如，為語音文件添加標點。
[0003] 關於為語音文件添加標點，目前存在著一種基於分字處理以及每個字所處位置來添加標點的方案。
[0004] 在所述方案中，預先對語料庫中的語句進行分字處理，確定每個字在語句中所處的位置，即是處於句子的開始、中間還是結束，並確定每個字後面的標點符號情況，例如有無標點符號等，根據語料庫中每個字所處的位置以及每個字後面的標點符號情況建立語言模型，在實際添加標點的過程中，將待處理語音文件作為一個整體，根據該待處理語音文件中出現的每個字，利用基於分字建立的語言模型為所述待處理語音文件添加標點。
[0005] 可見，利用單個字在句子中的位置以及單個字後面是否有標點來建立語言模型，由於所利用的信息有限，且所利用的信息與標點狀態的關聯性不強，因此所建立的語言模型並不能提取出語句所蘊含的信息與語句的標點狀態之間的真實關係，並且，將待處理語音文件簡單地作為一個整體來添加標點，也沒有考慮到待處理語音文件內部的結構特徵，因此，綜合上述因素，導致目前為語音文件添加標點的準確性仍然較低。

【發明內容】

[0006] 本發明提供了一種添加標點的方法和系統，能夠提高添加標點的準確性。
[0007] -種添加標點的方法，該方法包括：
[0008] 將待處理語音文件作為整體，根據作為整體的所述待處理語音文件中包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元N1 ;
[0009] 基於靜音檢測將所述待處理語音文件分為一個以上的待處理語段，根據每個待處理語段包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元N2 ;
[0010] 利用基於分詞和詞語的語義特徵建立的語言模型，根據所述所有特徵單元N1確定所述待處理語音文件的各種標點狀態的第一綜合權重，根據所述所有特徵單元N2確定所述待處理語音文件的各種標點狀態的第二綜合權重；
[0011] 對所述待處理語音文件的各種標點狀態的第一綜合權重和第二綜合權重進行加權處理，得到第三綜合權重，根據所述第三綜合權重為所述待處理語音文件添加標點。
[0012] 一種添加標點的系統，該系統包括靜音檢測模塊、識別模塊和標點添加模塊；
[0013] 所述靜音檢測模塊，用於基於靜音檢測將待處理語音文件分為一個以上的待處理語段；
[0014] 所述識別模塊，用於將待處理語音文件作為整體，根據作為整體的所述待處理語音文件中包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元N1，根據每個所述待處理語段包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元N2 ;
[0015] 所述標點添加模塊，用於利用基於分詞和詞語的語義特徵建立的語言模型，根據所述所有特徵單元N1確定所述待處理語音文件的各種標點狀態的第一綜合權重，根據所述所有特徵單元N2確定所述待處理語音文件的各種標點狀態的第二綜合權重，對所述待處理語音文件的各種標點狀態的第一綜合權重和第二綜合權重進行加權處理，得到第三綜合權重，根據所述第三綜合權重為所述待處理語音文件添加標點。
[0016] 由上述技術方案可見，由於本發明在添加標點所利用的語言模型是基於分詞和詞語的語義特徵建立的，由於進行的是分詞處理而非分字處理，並且進一步利用詞在語句中的語義特徵，由於詞在語句中的語義特徵往往與詞的標點狀態有著較強的關聯性，因此，通過基於對語料庫進行分詞和詞在所述語料庫中的語義特徵來建立語言模型，能夠提取出語句中所蘊含的信息（即所包含的詞和詞的語義特徵）與語句的標點狀態的真實關係，進而能夠提1?添加標點的準確性。
[0017] 並且，由於本發明在利用基於分詞和詞語的語義特徵建立的語言模型為待處理語音文件添加標點時，在將待處理語音文件作為整體確定待處理語音文件的各種標點狀態的綜合權重(記為第一綜合權重）的同時，還考慮了所述語言文件的內部結構特徵，通過靜音檢測將待處理語音文件分為一個以上的待處理語段，根據每個待處理語段包含的每個詞和每個詞的語義特徵確定待處理語音文件的各種標點狀態的綜合權重(記為第二綜合權重)，通過對所述第一綜合權重和第二綜合權重進行加權處理第三綜合權重，根據第三綜合權重為待處理語音文件添加標點。
[0018] 由於待處理語音文件的內部結構特徵對待處理語音文件中各個詞的語義特徵會產生影響，進而會影響待處理語音文件中出現的特徵單元，因而最終影響待處理語音文件的標點添加結果，因此，本發明通過基於靜音檢測將待處理語音文件分為一個以上的待處理語段，基於待處理語段中包含的每個詞和每個詞的語義特徵識別待處理語音文件中出現的特徵單元，從而考慮了待處理語音文件內部的結構特徵對待處理語音文件標點狀態的影響，從而進一步提高了為待處理語音文件添加標點的準確性。

【專利附圖】

【附圖說明】
[0019] 圖1是本發明實施例提供的添加標點的方法流程圖。
[0020] 圖2是本發明實施例提供的標點添加系統的第一組成示意圖。
[0021] 圖3是本發明實施例提供的標點添加系統的第二組成示意圖。
[0022] 圖4是本發明實施例提供的用於添加標點的語言模型建立方法第一流程圖。
[0023] 圖5是本發明提供的用於添加標點的語言模型建立方法第二流程圖。
[0024] 圖6是基於本發明實施例提供的語言模型採用本發明實施例提供的標點添加方法和系統為待處理語音文件添加標點的流程圖。

【具體實施方式】
[0025] 圖1是本發明實施例提供的添加標點的方法流程圖。
[0026] 如圖1所述，該流程包括：
[0027] 步驟101，將待處理語音文件作為整體，根據作為整體的所述待處理語音文件中包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元N1。
[0028] 步驟102,基於靜音檢測將所述待處理語音文件分為一個以上的待處理語段，根據每個待處理語段包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元N2。
[0029] 其中，所述的語義特徵一般包括詞語的詞性和/或句子成分，同一個詞語的詞性和/或句子成分在不同的語境中可以相同也可以不同。
[0030] 步驟103,利用基於分詞和詞語的語義特徵建立的語言模型，根據所述所有特徵單元N1確定所述待處理語音文件的各種標點狀態的第一綜合權重，根據所述所有特徵單元 N2確定所述待處理語音文件的各種標點狀態的第二綜合權重。
[0031] 其中，基於分詞和詞語的語義特徵建立的語言模型中存儲有每個特徵單元與自身各種標點狀態的權重的對應關係。
[0032] 在根據所述所有特徵單元N1確定所述待處理語音文件的各種標點狀態的第一綜合權重時，從所述語言模型中獲取所述所有特徵單元N1中的每個特徵單元與自身各種標點狀態的權重的對應關係，根據獲取的所述對應關係確定所述待處理文件中每個詞的標點狀態的權重，根據每個詞的標點狀態的權重確定所述待處理文件的各種標點狀態的第一綜合權重。
[0033] 在根據所述所有特徵單元N2確定所述待處理語音文件的各種標點狀態的第二綜合權重時，從所述語言模型中獲取所述所有特徵單元N2中的每個特徵單元與自身各種標點狀態的權重的對應關係，根據獲取的所述對應關係確定所述待處理文件中每個詞的標點狀態的權重，根據每個詞的標點狀態的權重確定所述待處理文件的各種標點狀態的第二綜合權重。
[0034] 步驟104,對所述待處理語音文件的各種標點狀態的第一綜合權重和第二綜合權重進行加權處理，得到第三綜合權重，根據所述第三綜合權重為所述待處理語音文件添加標點。
[0035] 由圖1所示方法可見，申請人:既注意到了待處理語音文件中的靜音間隔對待處理語音文件中詞語的語義特徵以及特徵單元的影響，也注意到了這種影響也不是絕對的，在某些時候，一些靜音間隔只是說話人語速較慢或者在說話時思考或猶豫造成的，因此，圖1 所示的實施例中，一方面將待處理語音文件作為整體，來識別其中包含的詞語的語義特徵，進而確定待處理語音文件中出現的所有特徵單元N1，根據所述所有特徵單元N1利用所述語言模型確定待處理語音文件的各種標點狀態的第一綜合權重，另一方面，在語義特徵的確定以及特徵單元的提取過程中，還通過靜音檢測將待處理語音文件分為一個以上的待處理語段，從而考慮了待處理語音文件的內部結構對語義特徵以及特徵單元的影響，得到待處理語音文件中出現的所有特徵單元N2,根據所述所有特徵單元N2利用基於分詞和詞語的語義特徵得到的語言模型確定待處理語音文件的各種標點狀態的第二綜合權重，通過對所述第一綜合權重和所述第二綜合權重進行加權處理得到第三綜合權重，最終根據所述第三綜合權重對待處理語音文件添加標點，從而既考慮了靜音間隔對待處理語音文件中詞語的語義特徵以及特徵單元的影響，同時，也能夠避免只是由於某些時候說話人語速較慢或者在說話時思考或猶豫造成的靜音間隔對詞語語義特徵和特徵單元提取的影響最終造成錯誤添加標點，進而，能夠提高為待處理語音文件添加標點的準確性。
[0036] 其中，為了加快處理速度，所述步驟101和所述步驟102可以並行進行。
[0037] 具體地，在一實施例中，可以將所述待處理語音文件分為兩路分別進行特徵單元識別，兩路特徵單元的識別並行進行，其中一路將所述待處理語音文件作為整體輸入特徵單元識別模塊，從而識別出所述所有特徵單元N1，另一路先對所述待處理語音文件進行靜音檢測，根據靜音檢測結果將所述待處理語音文件分為一個以上的待處理語段，將每個待處理語段逐個輸入特徵單元識別模塊，從而識別每個待處理語段中出現的特徵單元，將所有待處理語段中出現的特徵單元的併集確定為所述所有特徵單元N2。在另一實施例中，也可以根據靜音檢測將待處理語音文件分為一個以上的待處理語段以後，存儲待處理語音文件的結構信息，從而根據所述結構信息能夠識別出所述待處理語音文件包含的各個語段，一方面將待處理語音文件作為整體識別所述待處理語音文件包含的所有特徵單元N1，另一方面識別待處理語音文件包含的各個語段中出現的特徵單元，將所有待處理語段中出現的特徵單元的併集確定為所述所有特徵單元N2。
[0038] 本發明實施例中，基於靜音檢測將待處理語音文件分為一個以上的待處理語段具體可以包括：檢測待處理語音文件中的靜音時長，將所述靜音時長與預設的靜音閾值作比較，在所述靜音時長大於所述靜音閾值時，在所述靜音時長對應的靜音處從所述待處理語音文件中劃分出待處理語段。
[0039] 優選地，在不同的應用場景中，可以預設不同的靜音閾值，根據當前的應用場景確定當前需要採用的靜音閾值，從而能夠適應不同應用場景下語句標點狀態特點的需求。例如，在基於地圖應用的場景中為語音輸入添加標點時，由於基於地圖應用的場景常常會有關於地名的語音輸入，有時會出現由於地名較長或者不夠熟悉而產生短暫停頓的現象，因此，可以針對基於地圖應用的場景設置較長的靜音閾值，從而避免在一個完整的地名中間添加標點，提1?標點添加的準確性。
[0040] 本發明實施例還提供了一種標點添加系統,具體請參見圖2和圖3。
[0041] 圖2是本發明實施例提供的標點添加系統的第一組成示意圖。
[0042] 如圖2所示，該系統包括靜音檢測模塊201、識別模塊202和標點添加模塊203。
[0043] 靜音檢測模塊201，用於基於靜音檢測將待處理語音文件分為一個以上的待處理語段。
[0044] 識別模塊202,用於將待處理語音文件作為整體，根據作為整體的所述待處理語音文件中包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元N1，根據每個所述待處理語段包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元N2。
[0045] 標點添加模塊203,用於利用基於分詞和詞語的語義特徵建立的語言模型，根據所述所有特徵單元N1確定所述待處理語音文件的各種標點狀態的第一綜合權重，根據所述所有特徵單元N2確定所述待處理語音文件的各種標點狀態的第二綜合權重，對所述待處理語音文件的各種標點狀態的第一綜合權重和第二綜合權重進行加權處理，得到第三綜合權重，根據所述第三綜合權重為所述待處理語音文件添加標點。
[0046] 圖3是本發明實施例提供的標點添加系統的第二組成示意圖。
[0047] 如圖3所示，圖3所示的標點添加系統在圖2所示的標點添加系統的基礎上進一步增加了第一輸入模塊301和第二輸入模塊302。
[0048] 第一輸入模塊301與識別模塊202相連，用於將待處理語音文件作為整體，整段地輸入到識別模塊202中。
[0049] 識別模塊202,將經由第一輸入模塊301輸入的待處理語音文件作為整體識別出所述所有特徵單元N1。
[0050] 第二輸入模塊302與靜音檢測模塊201相連，用於將所述待處理語音文件輸入靜音檢測模塊201，然後靜音檢測模塊201將從所述待處理語音文件中分出的各個待處理語段逐個輸入識別模塊202。
[0051] 識別模塊202,根據經由第二輸入模塊302輸入的每個待處理語段包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元N1。
[0052] 具體地，識別模塊202可以用於根據每個所述待處理語段包含的每個詞和每個詞的語義特徵，識別每個待處理語段中出現的特徵單元，將所有待處理語段中出現的特徵單元的併集確定為所述所有特徵單元N2。
[0053] 可見，在圖3所示系統中，通過第一輸入模塊301和第二輸入模塊302將待處理語音文件分為兩路輸入到識別模塊202中，從而，識別模塊202將經由第一輸入模塊301輸入的待處理語音文件作為整體識別出所述待處理語音文件中出現的所有特徵單元N1，將經由第二輸入模塊302輸入的待處理語音文件按照其包含的各個待處理語段識別出所述待處理語音文件中出現的所有特徵單元N2。
[0054] 在上述圖2和/或圖3所示的標點添加系統中，識別模塊202可以用於同步進行所述所有特徵單元N1的識別和所述所有特徵單元N2的識別。
[0055] 在上述圖2和/或圖3所示的標點添加系統中，靜音檢測模塊301，用於根據當前的應用場景確定靜音閾值，檢測所述待處理語音文件中的靜音時長，在所述靜音時長大於所述靜音閾值時，在所述靜音時長對應的靜音處從所述待處理語音文件中劃分出待處理語段。
[0056] 在上述圖2和/或圖3所示的標點添加系統中，標點添加模塊203可以包括綜合權重確定單元、綜合權重融合單元和標點添加單元。
[0057] 所述綜合權重確定單元，用於利用基於分詞和詞語的語義特徵建立的語言模型，根據所述所有特徵單元N1確定所述待處理語音文件的各種標點狀態的第一綜合權重，根據所述所有特徵單元N2確定所述待處理語音文件的各種標點狀態的第二綜合權重。
[0058] 所述綜合權重融合單元，用於對所述待處理語音文件的各種標點狀態的第一綜合權重和第二綜合權重進行加權處理，得到第三綜合權重。
[0059] 所述標點添加單元，用於根據所述第三綜合權重為所述待處理語音文件添加標點。
[0060] 其中，所述綜合權重確定單元，可以用於從所述語言模型中獲取所述所有特徵單元N1中的每個特徵單元與自身各種標點狀態的權重的對應關係，根據獲取的所述對應關系確定所述待處理文件中每個詞的標點狀態的權重，根據每個詞的標點狀態的權重確定所述待處理文件的各種標點狀態的第一綜合權重；以及，用於從所述語言模型中獲取所述所有特徵單元N2中的每個特徵單元與自身各種標點狀態的權重的對應關係，根據獲取的所述對應關係確定所述待處理文件中每個詞的標點狀態的權重，根據每個詞的標點狀態的權重確定所述待處理文件的各種標點狀態的第二綜合權重。
[0061] 在本發明實施例提供的標點添加系統中，還可以對該系統中的各個模塊根據實際需要進行重新劃分或者細化。
[0062] 例如，識別模塊202可以包括語義識別單元、特徵提取單元，所述語義識別單元，用於識別待處理語音文件或待處理語段中的每個詞、以及每個詞的語義特徵，所述特徵提取單元，用於根據預先設定的特徵模板以及待處理語音文件中包含的每個詞和每個詞的語義特徵，確定待處理語音文件中出現的所有特徵單元。
[0063] 再例如，標點添加模塊203可以包括權重獲取單元和綜合權重計算單元，所述權重獲取單元，用於從語言模型中獲取待處理語音文件的所有特徵單元中的每個特徵單元與該個特徵單元自身各種標點狀態的權重的對應關係，所述綜合權重計算單元，用於根據所述權重獲取單元獲取的所述對應關係，確定待處理語音文件中每個特徵單元的標點狀態的權重，根據每個特徵單元的標點狀態的權重計算待處理語音文件的各種標點狀態的所述第一綜合權重或所述第二綜合權重。
[0064] 在本發明實施例提供的標點添加方法和/或系統中，根據獲取的特徵單元與自身各種標點狀態的權重的對應關係，可以確定待處理語音文件中每個詞的標點狀態的權重。具體可以採用多種方法確定待處理語音文件中每個詞的標點狀態的權重，本發明實施例對此不做限定。例如，可以根據所述對應關係採用映射函數的方法確定待處理語音文件中每個詞的標點狀態的權重，具體地，對於待處理語音文件中當前位置上的詞，確定包含該當前位置上的詞的所有特徵單元，獲取包含當前位置上的詞的所有特徵單元中的每個特徵單元與該個特徵單元自身的各種標點狀態的權重對應關係，按照預設的映射函數，確定所述當前位置上的詞的各種標點狀態的權重。其中，當同一內容的詞處於待處理語音文件中的不同位置時，相當於不同的詞，因此其所在的特徵單元也會有所不同，進而其標點狀態也會有所不同。
[0065] 待處理語音文件的標點狀態包括了該待處理語音文件中的每個詞的標點狀態，相當於該待處理語音文件中所有詞的標點狀態的組合，因此可以通過最優路徑算法確定待處理語音文件的各種標點狀態的綜合權重，例如通過維特比（viterbi)算法確定出該待處理語音文件中所有詞的標點狀態的最佳組合方式，即確定出最優路徑，該最佳組合方式的綜合權重最商。
[0066] 本發明實施例所述的基於分詞和詞語的語義特徵建立的語言模型，包括每個特徵單元與自身各種標點狀態的權重的對應關係，能夠根據查詢請求提供相應特徵單元與自身各種標點狀態的權重的對應關係，本發明實施例提供的添加標點的方法和系統對所述語言模型的具體建立方法不做限定。
[0067] 作為示例性地，下面給出所述基於分詞和詞語的語義特徵建立的語言模型的優選建立方法，其通過對語料庫中的語句進行分詞，根據詞語在語料庫中的語義特徵以及標點狀態的關聯關係得到所述語言模型，具體請參見圖4。
[0068] 圖4是本發明實施例提供的用於添加標點的語言模型建立方法第一流程圖。
[0069] 如圖4所示，該第一流程包括：
[0070] 步驟401，對語料庫中的語句進行分詞處理，其中，語料庫中的語句預先添加了標點。
[0071] 步驟402,根據分詞處理後的語句中每個詞的語義特徵，依據預先設定的特徵模板，搜索所述語料庫中出現的特徵單元，根據特徵單元中的每個詞後面的標點狀態，記錄所述語料庫中每個特徵單元的每種標點狀態的出現次數。
[0072] 步驟403,根據每個特徵單元的每種標點狀態的出現次數，確定每個特徵單元的每種標點狀態的權重，建立包括每個特徵單元與自身各種標點狀態的權重的對應關係的語言模型。
[0073] 在圖4所示方法的步驟402中，可以採用方法一，即預先標註所述語料庫的語句中每個詞的語義特徵和標點狀態，然後再根據預設的特徵模板搜索所述語料庫中出現的特徵單元，並記錄每個特徵單元的每種標點狀態的出現次數。也可以採用方法二，即在根據預先設定的特徵模板搜索語料庫中出現的特徵單元時，實時地識別語句中每個詞的語義特徵以及每個詞後面的標點狀態。下面以採用所述方法一實現步驟402為例，對圖4所示方法進行進一步的詳細介紹，具體請參見圖5。
[0074] 圖5是本發明提供的用於添加標點的語言模型建立方法第二流程圖。
[0075] 如圖5所示，該方法包括：
[0076] 步驟501，對語料庫中的語句進行分詞處理，其中，語料庫中的語句預先添加了標點。
[0077] 步驟502,根據分詞處理後的語句中的每個詞在所述語句中的語義信息，為所述每個詞標註語義特徵，根據在所述語句中所述每個詞後面的標點狀態信息，為所述每個詞標註標點狀態。
[0078] 步驟503,根據每個詞的所述語義特徵，依據預先設定的特徵模版生成特徵單元，所述特徵模板包括獲取的詞的數量、獲取詞的語義特徵，所述特徵單元包括詞和詞的語義特徵。
[0079] 步驟504,從所述語料庫的語句中搜索每個特徵單元，記錄每個特徵單元出現時該特徵單元的標點狀態，記錄該特徵單元的每種標點狀態的出現次數，其中，特徵單元的標點狀態包括該特徵單元中每個詞的標點狀態。
[0080] 步驟505,根據每個特徵單元的每種標點狀態的出現次數，確定每個特徵單元的每種標點狀態的權重，建立包括每個特徵單元與自身各種標點狀態的權重的對應關係的語言模型。
[0081] 為了提高建立的語言模型的質量，所述語料庫中的語句中預先添加的標點的正確率較高，最好都是正確的。
[0082] 圖5所示流程中，步驟503和步驟504可以在一個過程中實現，例如根據預先設定的特徵模板從語料庫的語句中提取特徵單元，如果提取出的特徵單元之前沒有出現過，則相當於生成一個新的特徵單元、且從語料庫的語句中搜索到該新的特徵單元的次數為1 次。
[0083] 在根據語句中的詞的語義特徵提取特徵單元的基礎上，還可以進一步利用詞的位置信息，所述詞的位置信息是詞與當前基準位置的相對位置信息，進而提取的特徵單元除了包括詞、詞的語義特徵以外，還包括詞與當前基準位置的相對位置信息。
[0084] 具體地，預先設定的特徵模板包括獲取的詞的數量、獲取詞的語義特徵、獲取的詞與當前基準位置的相對位置關係需要滿足的預定要求，則依據預先設定的特徵模板從語句中提取特徵單元具體可以包括：
[0085] 分別以分詞處理後的語句中的每個詞所處的位置作為當前基準位置，確定出在所述語句中的位置與當前基準位置的相對位置關係滿足所述特徵模板要求的詞，根據所述相對位置關係滿足特徵模板要求的詞的語義特徵和相對位置關係信息生成特徵單元，所述特徵單元還包括詞與當前基準位置的相對位置關係。
[0086] 通過包含相對位置關係要求的特徵模板，可以確定詞與詞之間的關聯關係，進而根據所述特徵模板提取的特徵單元包含了詞與詞之間的關聯關係，所述關聯關係通常與標點狀態存在聯繫，因此根據所述特徵單元與每種標點狀態的權重關係建立的語言模型能夠更加準確地反映語句所蘊含的信息與標點狀態的關係，進而利用所述語言模型能夠提高添加標點的準確性。
[0087] 根據預先設定的特徵模板所要求獲取的詞的個數，預先設定的特徵模板可以包括獨詞模板和/或多詞模板。
[0088] 其中，所述獨詞模板包括獲取與當前基準位置的相對位置關係滿足預定要求的單個詞、以及所述單個詞的語義特徵。其中，獨詞模板涉及的所述相對位置關係可以就是獲取當前基準位置上的詞，也可以是獲取當前基準位置的前一位置、或後一位置等其他位置上的詞。
[0089] 依據獨詞模板從語句中提取特徵單元時，分別以所述語句中的每個詞所處的位置作為所述當前基準位置，根據所述獨詞特徵模板確定與當前基準位置的相對位置關係滿足所述獨詞特徵模板要求的單個詞，根據該單個詞的語義特徵確定待處理語句中出現的獨詞特徵單元，所述獨詞特徵單元包括所述單個詞、所述單個詞的語義特徵以及所述單個詞的位置與當前基準位置的相對位置關係。
[0090] 所述多詞模板包括獲取分別與當前基準位置的相對位置關係滿足預定要求的多個詞、以及所述多個詞中每個詞的語義特徵。
[0091] 依據多詞模板從語句中提取特徵單元時，分別以所述語句中的每個詞所處的位置作為所述當前基準位置，根據所述多詞特徵模板確定與當前基準位置的相對位置關係滿足所述多詞特徵模板的相對位置關係要求的多個詞，根據該多個詞中每個詞的語義特徵確定待處理語句中出現的多詞特徵單元，所述多詞特徵單元包括所述多個詞、所述多個詞中每個詞的語義特徵、以及每個詞的位置與所述當前基準位置的相對位置關係。
[0092] 其中，通過對獨詞模板中與當前基準位置的相對位置關係的要求進行修改，可以獲得不同種類的獨詞模板，例如用於獲取當前基準位置的詞及其語義特徵的獨詞模板(可以記為模板TOO)、用於獲取當前基準位置的前一位置上的詞及其語義特徵的獨詞模板(可以記為模板T01)、用於獲取當前基準位置的後一位置上的詞及其語義特徵的獨詞模板(可以記為模板T02)。
[0093] 通過對多詞模板中與當前基準位置的相對位置關係的要求進行修改，也可以獲得不同種類的多詞模板，例如，用於獲取當前基準位置的前一位置、當前基準位置、當前基準位置的後一位置上的詞及其語義特徵的多詞模板(可以記為模板T05)，用於獲取當前基準位置的前兩個位置以及當前基準位置上的詞及其語義特徵的多詞模板(可以記為模板 T06)。
[0094] -個多詞模板要求獲取的詞的個數越多，詞之間的關聯性越強，進而利用建立的語言模型添加標點的準確性越高，模板的種類越多，對語句中出現的語義特徵與標點狀態的關聯關係的考慮越全面，進而利用建立的語言模型添加標點的準確性越高。當然，模板的種類越多、一個多詞模板要求獲取的詞的個數越多，建立語言模型所需要的計算量越大，所述語言模型的規模越大，利用建立的語言模型添加標點的信息處理量也越大。
[0095] 在步驟505中，根據每個特徵單元的每種標點狀態的出現次數，確定每個特徵單元的每種標點狀態的權重時，為了便於操作，可以為每個特徵單元賦予標識（ID)，建立的語言模型包括特徵單元ID、該ID對應的特徵單元、以及所述特徵單元的各種標點狀態的權重信息。
[0096] 本發明中，詞的語義特徵可以包括但不限於該詞在當前語句中的詞性和/或在當前語句中充當的句子成分。
[0097] 下面舉一個具體的例子，對圖5所示語言模型建立方法進行示例性介紹。
[0098] 在該例子中，假設語料庫中包括如下的語句：今天天氣不錯，我們下午去打球，然後去吃飯。
[0099] 在利用圖5所示方法建立語言模型時，需要執行如下步驟：
[0100] 步驟1，對所述語句進行分詞。
[0101] 對語句"今天天氣不錯，我們下午去打球，然後去吃飯。"進行分詞處理後得到的詞包括：今天、天氣、不錯、我們、下午、去、打球、然後、去、吃飯。
[0102] 步驟2,對分詞處理後的語句中的每個詞進行語義特徵標註和標點狀態標註。
[0103] 作為示例性地，所述語義特徵包括詞性和句子成分，則對所述語句進行標註後的結果參見表一：
[0104] 表一
[0105] 內容今天天氣不錯我們下午去打球然後去吃飯詞性名詞名詞形容代詞名詞動詞名詞副詞動詞名詞 _ 詞 __ 成分狀語主語謂語主語狀語謂語狀語狀語謂語賓語標點無無逗號無無無逗號無無句號
[0106] 步驟3,根據步驟2的標註結果，依據預先設定的特徵模板，從所述語句中提取特徵單元，為提取的特徵單元分配ID，並記錄特徵單元的每種標點狀態的出現次數，其中，所述特徵單元包括詞和詞的語義特徵。
[0107] 本步驟中，假設預先設定的特徵模板包括獨詞模板T00、T01、T02和多詞模板T05，獨詞模板TOO用於獲取當前基準位置的詞及其語義特徵，獨詞模板Τ01用於獲取當前基準位置的前一位置上的詞及其語義特徵，獨詞模板T02用於獲取當前基準位置的後一位置上的詞及其語義特徵，多詞模板T05用於獲取當前基準位置的前一位置、當前基準位置、當前基準位置的後一位置上的詞及其語義特徵。
[0108] 以步驟2標註後的語句中的每個詞所在的位置為當前位置，根據獨詞模板TOO、 T01、T02和多詞模板T05提取特徵單元。
[0109] 比如，當以"天氣"所在的位置為當前基準位置時，根據模板TOO得到的特徵單元包括"今天"、以及"今天"的語義特徵（即名詞和狀語)，根據模板T01得到的特徵單元包括 "天氣"、以及"天氣"的語義特徵（即名詞和主語)，根據模板T02得到的特徵單元包括"不錯"、以及"不錯"的語義特徵（即形容詞和謂語)，根據模板T05得到的特徵單元包括"今天"、以及"今天"的語義特徵（即名詞和狀語)、"天氣"、以及"天氣"的語義特徵（即名詞和主語） "不錯"、以及"不錯"的語義特徵（即形容詞和謂語)。
[0110] 其中，特徵單元中的每個詞與當前基準位置的相對位置信息，可以以顯式方式存儲在特徵單元中，也可以根據每種模板對應的ID範圍、通過為特徵單元賦予相應範圍內的 ID等隱式方式進行存儲。
[0111] 當根據特徵模板提取特徵單元時，如果特徵模板要求的某個相對位置上沒有詞，則可以採用約定方式表示無詞，比如採用約定字符或字符串表示無詞。例如所述語句中的 "今天"前面沒有詞，當以"今天"所在的位置為當前基準位置，根據模板TOO或T05提取特徵單元時，需要採用約定的方式表示"今天"的前一位置無詞。
[0112] 提取出特徵單元以後，通過為特徵單元賦予不同的ID，來區分包括不同內容的特徵單元。所述ID的賦予方式有多種，例如可以根據特徵單元包含的內容生成的哈希值作為所述特徵單元的ID。
[0113] 對於每個特徵單元，當語料庫中的語句中每出現一次所述特徵單元時，根據本次出現的特徵單元中每個詞的標點狀態，記錄該特徵單元的標點狀態的出現次數。其中，特徵單元的標點狀態包括特徵單元中每個詞的標點狀態，換言之，當特徵單元包含多個詞時，特徵單元的標點狀態是由所述多個詞的標點狀態組合而成的，其中任意一個詞的標點狀態發生改變，則所述包含多個詞的特徵單元的標點狀態也發送了改變。比如，一個特徵單元包括三個詞，三個詞的標點狀態分別為"無"、"無"和"逗號"時，該特徵單元的標點狀態時"無"、 "無，，和"逗號，，的組合，當第三個詞的標點狀態變為"無，，時，則該特徵單元的標點狀態變為另一種標點狀態，即變為"無"、"無"和"無"。
[0114] 通過步驟2和3可以看出本發明採用分詞處理而非分字處理的好處：只有詞語才具有明確的語義特徵，單個字一般無法具備明確的語義特徵，因此分詞處理也為步驟2做了準備工作；另外，由於在特徵提取的過程中，常常會用到語句中包含的上下文信息，詞語的上下文仍然是詞語，通過詞語之間的關聯關係能夠更明確地體現出語義特徵的聯繫，相互關聯的語義特徵與標點狀態的關聯關係通常也較強，因此，基於分詞以及分詞後的上下文關聯關係提取的特徵單元，能夠較為準確地提取出語句中蘊含的語義信息與標點狀態的關聯關係。
[0115] 步驟4,根據步驟3提取的特徵單元，以及特徵單元的每種標點狀態的出現次數，確定每個特徵單元的每種標點狀態的權重，建立包括每個特徵單元與自身各種標點狀態的權重的對應關係的語言模型。
[0116] 其中，具體可以通過迭代優化算法確定每個特徵單元的每種標點狀態的權重。
[0117] 其中，可以採用的迭代優化算法有很多，例如牛頓迭代算法，BFGS (Large-scale Bound-constrained Optimization)迭代算法，L-BFGS (Software for Large-scale Bound-constrained Optimization)迭代算法，0WL-QN(0rthant_Wise Limited-memory Quasi-Newton)迭代算法等。優選地，可以採用L-BFGS迭代算法，因為L-BFGS迭代算法具有迭代速度快的優點，能夠提高語言模型的建立速度。
[0118] 通過上述步驟1-步驟4,最終建立的語言模型包括每個特徵單元與該特徵單元自身的各種標點狀態的權重的對應關係，其中，每個特徵單元還可以具有一個區別於其他特徵單元的ID，通過所述ID能夠檢索到所述特徵單元與自身的各種標點狀態的權重的對應關係，從而，在從語言模型中獲取特徵單元與自身各種標點狀態的權重的對應關係時，可以向所述語言模型發送攜帶有特徵單元的標識（ID)的查詢請求，根據所述特徵單元的ID從所述語言模型中獲取相應特徵單元與自身各種標點狀態的權重的對應關係，其中，所述語言模型中存儲有特徵單元的ID、該ID對應的特徵單元、以及該特徵單元與自身各種標點狀態的權重的對應關係。
[0119] 基於包括所述獨詞特徵單元和/或所述多詞特定單元的語言模型添加標點時，在本發明實施例提供的添加標點的方法中，分別以每個詞所處的位置作為所述當前基準位置，根據獨詞特徵模板確定與當前基準位置的相對位置關係滿足所述獨詞特徵模板要求的單個詞，根據該單個詞的語義特徵識別獨詞特徵單元，其中，所述獨詞特徵模板包括獲取與當前基準位置的相對位置關係滿足預定要求的單個詞、以及所述單個詞的語義特徵，所述獨詞特徵單元包括所述單個詞、所述單個詞的語義特徵以及所述單個詞的位置與當前基準位置的相對位置關係；和/或，分別以每個詞所處的位置作為所述當前基準位置，根據多詞特徵模板確定與當前基準位置的相對位置關係滿足所述多詞特徵模板要求的多個詞，根據該多個詞中每個詞的語義特徵識別多詞特徵單元，其中，所述多詞特徵模板包括獲取與當前基準位置的相對位置關係滿足預定要求的多個詞、以及所述多個詞中每個詞的語義特徵，所述多詞特徵單元包括所述多個詞、所述多個詞中每個詞的語義特徵、以及每個詞的位置與所述當前基準位置的相對位置關係。
[0120] 基於包括所述獨詞特徵單元和/或所述多詞特定單元的語言模型添加標點時，在本發明實施例提供的添加標點的系統中，識別模塊202,可以用於分別以每個詞所處的位置作為所述當前基準位置，根據獨詞特徵模板確定與當前基準位置的相對位置關係滿足所述獨詞特徵模板要求的單個詞，根據該單個詞的語義特徵識別獨詞特徵單元，其中，所述獨詞特徵模板包括獲取與當前基準位置的相對位置關係滿足預定要求的單個詞、以及所述單個詞的語義特徵，所述獨詞特徵單元包括所述單個詞、所述單個詞的語義特徵以及所述單個詞的位置與當前基準位置的相對位置關係；和/或，識別模塊202,可以用於分別以每個詞所處的位置作為所述當前基準位置，根據多詞特徵模板確定與當前基準位置的相對位置關系滿足所述多詞特徵模板要求的多個詞，根據該多個詞中每個詞的語義特徵識別多詞特徵單元，其中，所述多詞特徵模板包括獲取與當前基準位置的相對位置關係滿足預定要求的多個詞、以及所述多個詞中每個詞的語義特徵，所述多詞特徵單元包括所述多個詞、所述多個詞中每個詞的語義特徵、以及每個詞的位置與所述當前基準位置的相對位置關係。
[0121] 作為示例性地，下面提供一個具體的實現流程，用於進一步詳細而直觀地介紹基於本發明實施例提供的語言模型採用本發明實施例提供的標點添加方法和系統為待處理語音文件添加標點的流程，具體請參見圖6。
[0122] 圖6是基於本發明實施例提供的語言模型採用本發明實施例提供的標點添加方法和系統為待處理語音文件添加標點的流程圖。
[0123] 如圖6所示，該流程包括如下的子流程：分別為語言模型建立流程、第一綜合權重確定流程、第二綜合權重確定流程、權重融合以及標點添加流程。
[0124] 其中，語言模型建立流程是預先的處理流程，一旦語言模型建立以後，可以直接利用建立的語言模型添加標點。優選地，所述第一綜合權重確定流程和所述第二綜合權重確定流程可以並行進行，從而能夠提高信息處理速度。在得到第一綜合權重和第二綜合權重以後，再執行權重融合以及標點添加流程。
[0125] 具體地，在語言模型建立流程中，首先對語料庫進行分詞和分句處理，然後標記語料庫中每個詞的語義特徵，依據預設的特徵模板根據語料庫的分詞結果以及每個詞的語義特徵進行特徵提取，從而提取出特徵單元，並標記每個特徵單元的每種標點狀態的出現次數，為每個特徵單元設置ID，通過優化迭代得到每個特徵單元與自身各種標點狀態的權重的對應關係，從而得到用於添加標點的語言模型，其中，在所述語言模型中存儲有每個特徵單兀與自身各種標點狀態的權重的對應關係。
[0126] 在第一綜合權重確定流程中，將待處理語音文件作為一個整體整段輸入到語音引擎中，所述語音引擎根據聲學模型、詞典以及用於識別語句的語義特徵的語言模型來識別出待處理語音文件中所包含的詞，以及每個詞的語義特徵。根據所述語音引擎的識別結果，進行特徵單元識別，從而識別出待處理語音文件中包含的所有特徵單元N1，根據所述所有特徵單元N1中每個特徵單元的ID從在所述語言模型建立流程中建立的語言模型中獲取每個特徵單元的各種標點狀態的權重，最後根據維特比算法計算出最優路徑，從而得到待處理語音文件的各種標點狀態的第一綜合權重。
[0127] 在第二綜合權重確定流程中，將待處理語音文件作為一個整體整段輸入到靜音檢測模塊中，靜音檢測模塊根據靜音檢測結果從待處理語音文件中劃分出待處理語段，將待處理語段逐個送入語音引擎中，所述語音識別引擎根據聲學模型、詞典以及用於識別語句的語義特徵的語言模型來識別出每個待處理語段中所包含的詞，以及每個詞的語義特徵，根據每個待處理語段中所包含的詞，以及每個詞的語義特徵進行特徵單元識別，從而識別出每個待處理語段中所包含的特徵單元，將待處理語音文件包含的所有待處理語段的特徵單元的併集確定為待處理語音文件中包含的所有特徵單元N2,根據所述所有特徵單元N2 中每個特徵單元的ID從在所述語言模型建立流程中建立的語言模型中獲取每個特徵單元的各種標點狀態的權重，最後根據維特比算法計算出最優路徑，從而得到待處理語音文件的各種標點狀態的第二綜合權重。
[0128] 在得到第一綜合權重和第二綜合權重以後，在權重融合以及標點添加流程中，首先對待處理語音文件的各種標點狀態的第一綜合權重和第二綜合權重進行加權處理， t匕如，假設第一綜合權重為R1，第二綜合權重為R2,則融合處理後得到的第三綜合權重 R3=a*Rl+ (l_a)*R2,其中，加權係數a的取值範圍為0〈a〈l。然後再根據融合處理後得到的第三綜合權重R3,選出取值最大的第三綜合權重R3對應的標點狀態，根據該標點狀態為待處理語音文件添加標點。
[0129] 以上所述僅為本發明的較佳實施例而已，並不用以限制本發明，凡在本發明的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本發明保護的範圍之內。
【權利要求】
1. 一種添加標點的方法，其特徵在於，該方法包括：將待處理語音文件作為整體，根據作為整體的所述待處理語音文件中包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元N1 ; 基於靜音檢測將所述待處理語音文件分為一個以上的待處理語段，根據每個待處理語段包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元 N2 ；利用基於分詞和詞語的語義特徵建立的語言模型，根據所述所有特徵單元N1確定所述待處理語音文件的各種標點狀態的第一綜合權重，根據所述所有特徵單元N2確定所述待處理語音文件的各種標點狀態的第二綜合權重；對所述待處理語音文件的各種標點狀態的第一綜合權重和第二綜合權重進行加權處理，得到第三綜合權重，根據所述第三綜合權重為所述待處理語音文件添加標點。
2. 根據權利要求1所述的方法，其特徵在於，同步進行所述所有特徵單元N1的識別和所述所有特徵單元N2的識別。
3. 根據權利要求1或2所述的方法，其特徵在於，將所述待處理語音文件分為兩路分別進行特徵單元識別，其中一路將所述待處理語音文件作為整體識別出所述所有特徵單元N1，另一路先對所述待處理語音文件進行靜音檢測，根據靜音檢測結果將所述待處理語音文件分為一個以上的待處理語段，然後再根據每個待處理語段包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元N2。
4. 根據權利要求1所述的方法，其特徵在於，根據每個待處理語段包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元N2包括：識別每個待處理語段中出現的特徵單元，將所有待處理語段中出現的特徵單元的併集確定為所述所有特徵單元N2。
5. 根據權利要求1所述的方法，其特徵在於，所述靜音檢測包括：根據當前的應用場景確定靜音閾值，檢測所述待處理語音文件中的靜音時長，在所述靜音時長大於所述靜音閾值時，在所述靜音時長對應的靜音處從所述待處理語音文件中劃分出待處理語段。
6. 根據權利要求1所述的方法，其特徵在於，所述語言模型通過如下步驟建立：對語料庫中的語句進行分詞處理，其中，語料庫中的語句預先添加了標點；根據分詞處理後的語句中每個詞的語義特徵，依據預先設定的特徵模板，搜索所述語料庫中出現的特徵單元，根據特徵單元中的每個詞後面的標點狀態，記錄所述語料庫中每個特徵單元的每種標點狀態的出現次數；根據每個特徵單元的每種標點狀態的出現次數，確定每個特徵單元的每種標點狀態的權重，建立包括每個特徵單元與自身各種標點狀態的權重的對應關係的語言模型。
7. 根據權利要求1或6所述的方法，其特徵在於，所述特徵單元包括獨詞特徵單元和 /或多詞特徵單元，所述獨詞特徵單元依據獨詞特徵模板得到，所述多詞特徵單元依據多詞特徵模板得到；其中，所述獨詞特徵模板包括獲取與當前基準位置的相對位置關係滿足預定要求的單個詞、以及所述單個詞的語義特徵，依據獨詞特徵模板得到獨詞特徵單元包括：分別以每個詞所處的位置作為所述當前基準位置，根據所述獨詞特徵模板確定與當前基準位置的相對位置關係滿足所述獨詞特徵模板要求的單個詞，根據該單個詞的語義特徵識別獨詞特徵單元，所述獨詞特徵單元包括所述單個詞、所述單個詞的語義特徵以及所述單個詞的位置與當前基準位置的相對位置關係；所述多詞特徵模板包括獲取與當前基準位置的相對位置關係滿足預定要求的多個詞、以及所述多個詞中每個詞的語義特徵，依據多詞特徵模板得到多詞特徵單元包括：分別以每個詞所處的位置作為所述當前基準位置，根據所述多詞特徵模板確定與當前基準位置的相對位置關係滿足所述多詞特徵模板要求的多個詞，根據該多個詞中每個詞的語義特徵識別多詞特徵單元，所述多詞特徵單元包括所述多個詞、所述多個詞中每個詞的語義特徵、以及每個詞的位置與所述當前基準位置的相對位置關係。
8. 根據權利要求1所述的方法，其特徵在於，根據所述所有特徵單元N1確定所述待處理語音文件的各種標點狀態的第一綜合權重包括：從所述語言模型中獲取所述所有特徵單元N1中的每個特徵單元與自身各種標點狀態的權重的對應關係，根據獲取的所述對應關係確定所述待處理文件中每個詞的標點狀態的權重，根據每個詞的標點狀態的權重確定所述待處理文件的各種標點狀態的第一綜合權重；和/或，根據所述所有特徵單元N2確定所述待處理語音文件的各種標點狀態的第二綜合權重包括：從所述語言模型中獲取所述所有特徵單元N2中的每個特徵單元與自身各種標點狀態的權重的對應關係，根據獲取的所述對應關係確定所述待處理文件中每個詞的標點狀態的權重，根據每個詞的標點狀態的權重確定所述待處理文件的各種標點狀態的第二綜合權重。
9. 根據權利要求1所述的方法，其特徵在於，所述語義特徵包括詞語詞性和/或句子成分。
10. -種添加標點的系統，其特徵在於，該系統包括靜音檢測模塊、識別模塊和標點添加模塊；所述靜音檢測模塊，用於基於靜音檢測將待處理語音文件分為一個以上的待處理語段；所述識別模塊，用於將待處理語音文件作為整體，根據作為整體的所述待處理語音文件中包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元 N1，根據每個所述待處理語段包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元N2 ; 所述標點添加模塊，用於利用基於分詞和詞語的語義特徵建立的語言模型，根據所述所有特徵單元N1確定所述待處理語音文件的各種標點狀態的第一綜合權重，根據所述所有特徵單元N2確定所述待處理語音文件的各種標點狀態的第二綜合權重，對所述待處理語音文件的各種標點狀態的第一綜合權重和第二綜合權重進行加權處理，得到第三綜合權重，根據所述第三綜合權重為所述待處理語音文件添加標點。
11. 根據權利要求10所述的系統，其特徵在於，所述識別模塊，用於同步進行所述所有特徵單元N1的識別和所述所有特徵單元N2的識別。
12. 根據權利要求10或11所述的系統，其特徵在於，該系統還包括第一輸入模塊和第二輸入模塊，所述第一輸入模塊與所述識別模塊相連，用於將所述待處理語音文件作為整體輸入所述識別模塊；所述識別模塊將經由所述第一輸入模塊輸入的待處理語音文件作為整體識別出所述所有特徵單元N1 ; 所述第二輸入模塊與所述靜音檢測模塊相連，用於將所述待處理語音文件輸入所述靜音檢測模塊，所述靜音檢測模塊將從所述待處理語音文件中分出的各個待處理語段逐個輸入所述識別模塊；所述識別模塊根據經由所述第二輸入模塊輸入的每個待處理語段包含的每個詞和每個詞的語義特徵，識別所述待處理語音文件中出現的所有特徵單元N1。
13. 根據權利要求10所述的系統，其特徵在於，所述識別模塊，用於根據每個所述待處理語段包含的每個詞和每個詞的語義特徵，識別每個待處理語段中出現的特徵單元，將所有待處理語段中出現的特徵單元的併集確定為所述所有特徵單元N2。
14. 根據權利要求10所述的系統，其特徵在於，所述靜音檢測模塊，用於根據當前的應用場景確定靜音閾值，檢測所述待處理語音文件中的靜音時長，在所述靜音時長大於所述靜音閾值時，在所述靜音時長對應的靜音處從所述待處理語音文件中劃分出待處理語段。
15. 根據權利要求10所述的系統，其特徵在於，所述語言模型為通過如下步驟建立的模型：對語料庫中的語句進行分詞處理，其中，語料庫中的語句預先添加了標點；根據分詞處理後的語句中每個詞的語義特徵，依據預先設定的特徵模板，搜索所述語料庫中出現的特徵單元，根據特徵單元中的每個詞後面的標點狀態，記錄所述語料庫中每個特徵單元的每種標點狀態的出現次數；根據每個特徵單元的每種標點狀態的出現次數，確定每個特徵單元的每種標點狀態的權重，建立包括每個特徵單元與自身各種標點狀態的權重的對應關係的語言模型。
16. 根據權利要求10或15所述的系統，其特徵在於，所述特徵單元包括獨詞特徵單元和/或多詞特徵單元；所述識別模塊，用於分別以每個詞所處的位置作為所述當前基準位置，根據獨詞特徵模板確定與當前基準位置的相對位置關係滿足所述獨詞特徵模板要求的單個詞，根據該單個詞的語義特徵識別獨詞特徵單元，其中，所述獨詞特徵模板包括獲取與當前基準位置的相對位置關係滿足預定要求的單個詞、以及所述單個詞的語義特徵，所述獨詞特徵單元包括所述單個詞、所述單個詞的語義特徵以及所述單個詞的位置與當前基準位置的相對位置關係；和/或，所述識別模塊，用於分別以每個詞所處的位置作為所述當前基準位置，根據多詞特徵模板確定與當前基準位置的相對位置關係滿足所述多詞特徵模板要求的多個詞，根據該多個詞中每個詞的語義特徵識別多詞特徵單元，其中，所述多詞特徵模板包括獲取與當前基準位置的相對位置關係滿足預定要求的多個詞、以及所述多個詞中每個詞的語義特徵，所述多詞特徵單元包括所述多個詞、所述多個詞中每個詞的語義特徵、以及每個詞的位置與所述當前基準位置的相對位置關係。
17. 根據權利要求10所述的系統，其特徵在於，所述標點添加模塊包括綜合權重確定單元、綜合權重融合單元和標點添加單元；所述綜合權重確定單元，用於利用基於分詞和詞語的語義特徵建立的語言模型，根據所述所有特徵單元N1確定所述待處理語音文件的各種標點狀態的第一綜合權重，根據所述所有特徵單元N2確定所述待處理語音文件的各種標點狀態的第二綜合權重；所述綜合權重融合單元，用於對所述待處理語音文件的各種標點狀態的第一綜合權重和第二綜合權重進行加權處理，得到第三綜合權重；所述標點添加單元，用於根據所述第三綜合權重為所述待處理語音文件添加標點。
18. 根據權利要求17所述的系統，其特徵在於，所述綜合權重確定單元，用於從所述語言模型中獲取所述所有特徵單元N1中的每個特徵單元與自身各種標點狀態的權重的對應關係，根據獲取的所述對應關係確定所述待處理文件中每個詞的標點狀態的權重，根據每個詞的標點狀態的權重確定所述待處理文件的各種標點狀態的第一綜合權重；以及，用於從所述語言模型中獲取所述所有特徵單元N2中的每個特徵單元與自身各種標點狀態的權重的對應關係，根據獲取的所述對應關係確定所述待處理文件中每個詞的標點狀態的權重，根據每個詞的標點狀態的權重確定所述待處理文件的各種標點狀態的第二綜合權重。
【文檔編號】G10L15/18GK104143331SQ201310198454
【公開日】2014年11月12日申請日期:2013年5月24日優先權日:2013年5月24日
【發明者】劉海波, 王爾玉, 張翔, 盧鯉, 嶽帥, 陳波, 李露, 劉薦申請人:騰訊科技（深圳）有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種添加標點的方法和系統的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法