新四季網

一種用於識別失序文本的方法與設備的製作方法

2023-05-25 20:05:46

專利名稱:一種用於識別失序文本的方法與設備的製作方法
技術領域:
本發明涉及計算機技術領域,尤其涉及一種用於識別失序文本的技術。
背景技術:
網際網路技術的發展與應用,向人們提供了更多相互溝通的平臺和交流信息的方 式,例如人們可以通過論壇、貼吧等溝通平臺與他人分享趣聞、對所共同關注的事件發表意 見,進而,在開放的交流平臺上有效地管理文本內容的需求也日益增加。現有技術可以通過 對正常排序的文字進行分析管理,但是對失序文本無法有效識別,從而當有惡意或違法信 息以失序文本的形式通過網絡溝通平臺進行發布時,網絡伺服器等設備無法對其進行有效 識別。
因此,如何有效地識別失序文本,成為本領域技術人員亟須解決的問題之一。發明內容
本發明的目的是提供一種用於識別失序文本的方法與設備。
根據本發明的一個方面,提供了一種用於識別失序文本的方法,該方法包括以下 步驟
a獲取待識別的目標文本;
b根據所述目標文本,獲得與所述目標文本相對應的統計信息;
c根據所述統計信息,識別所述目標文本是否為失序文本。
根據本發明的另一方面,還提供了一種用於識別失序文本的設備,該設備包括
文本獲取裝置,用於獲取待識別的目標文本;
統計信息獲取裝置,用於根據所述目標文本,獲得與所述目標文本相對應的統計信息;
識別裝置,用於根據所述統計信息,識別所述目標文本是否為失序文本。
與現有技術相比,本發明根據獲得的與目標文本相對應的統計信息,識別該目標 文本是否為失序文本,進而實現有效的文本內容管理。


通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發明的其它 特徵、目的和優點將會變得更明顯
圖I示出根據本發明一個方面用於識別失序文本的設備示意圖2示出根據本發明一個優選實施例的用於識別失序文本的設備示意圖3示出根據本發明另一個方面用於識別失序文本的方法流程圖4示出根據本發明一個優選實施例的用於識別失序文本的方法流程圖。
附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施方式
下面結合附圖對本發明作進一步詳細描述。
圖I示出根據本發明一個方面用於識別失序文本的設備示意圖。識別設備I包括 文本獲取裝置11、統計信息獲取裝置12和識別裝置13。在此,識別設備I包括但不限於計 算機、網絡主機、單個網絡伺服器、多個網絡伺服器集或多個伺服器構成的雲。在此,雲由基 於雲計算(Cloud Computing)的大量計算機或網絡伺服器構成,其中,雲計算是分布式計算 的一種,由一群鬆散耦合的計算機集組成的一個超級虛擬計算機。
具體地,文本獲取裝置11獲取待識別的目標文本。更具體地,文本獲取裝置11按 預定周期或應事件觸發實時地獲取待處理的目標文本,例如通過實時監聽用戶通過用戶設 備提交的目標文本提交請求,以獲取用戶輸入的目標文本,或者定期地通過約定的通信方 式直接從第三方設備讀取目標文本。例如,假設識別設備I為網絡論壇伺服器,用戶通過用 戶設備在網絡論壇網頁的輸入界面輸入一段文本信息,然後,用戶設備將該信息作為論壇 發帖包裝成http請求並通過http通信協議提交到識別設備I的文本獲取裝置11,接著, 文本獲取裝置11通過實時監聽用戶消息,接收並解析該http請求,獲取其中的文本信息並 作為目標文本。再如,文本獲取裝置11按一定周期,定期地通過調用預定的應用編程接口 (API)向第三方設備發送獲取目標文本的請求,並接收該第三方設備基於該請求返回的目 標文本的文檔。本領域技術人員應能理解上述獲取目標文本的方式僅為舉例,其他現有的 或今後可能出現的獲取目標文本的方式如可適用於本發明,也應包含在本發明保護範圍以 內,並在此以引用方式包含於此。
隨後,統計信息獲取裝置12根據所述目標文本,獲得與所述目標文本相對應的統 計信息。具體地,統計信息獲取裝置12根據文本獲取裝置11提供的目標文本,例如通過對 該目標文本的每行進行字數統計,並計算獲得該目標文本的行平均字數,以獲取與該目標 文本相對應的字數統計信息;或者通過對該目標文本進行分詞處理,並統計獲得分詞處理 後的分詞處理結果中單字分詞與多字分詞的分布信息,如單字分詞與多字分詞的比例值, 以獲取與該目標文本相對應的統計信息。例如,統計信息獲取裝置12根據文本獲取裝置11 提供的目標文本
證速
件打
辦電辦
理話證
將該目標文本中的每行進行字數統計,即該目標文本從上到下各行字數分別為2、 2、3、3,並計算獲得該目標文本的行平均字數為2. 5。
再如,統計信息獲取裝置12根據文本獲取裝置11提供的目標文本
進豎失
行行序
分文文
詞文本
處字舉
理& 例
對該目標文本的每行文字按照最大反向匹配法進行分詞處理,以獲得分詞處理結 果如下
進/豎/失
行/行/序
分/文/文
詞/文本
處/字/舉
理/&/ 例
並計算該目標文本的分詞處理結果中單字分詞數量與多字分詞數量的比例值為 16 I。本領域技術人員應能理解上述獲得統計信息的方式僅為舉例,其他現有的或今後 可能出現的獲得統計信息的方式如可適用於本發明,也應包含在本發明保護範圍以內,並 在此以引用方式包含於此。
接著,識別裝置13根據所述統計信息,識別所述目標文本是否為失序文本。具體 地,識別裝置13根據統計信息獲取裝置12獲取的統計信息,例如若統計信息中包括該目 標文本各行的平均字數,則將該各行的平均字數與預定的各行平均字數閾值進行比較,當 該各行的平均字數小於預定的各行平均字數閾值時,識別該目標文本為失序文本;若統計 信息中包括對該目標文本進行分詞處理所獲得的分詞處理結果中單字分詞與多字分詞的 分布信息,將該分詞統計信息與預設的參考統計信息進行比較,識別該目標文本是否為失 序文本。例如,假設統計信息獲取裝置12獲取的統計信息為該目標文本各行的平均字數為 2. 5;識別裝置13根據該目標文本各行的平均字數,將該各行的平均字數與預定的各行平 均字數閾值6進行比較,即2.5 3 : 5,據此判斷該目標文本為失序文本。本領域技術人員應能理解上述識別失 序文本的方式僅為舉例,其他現有的或今後可能出現的識別失序文本的方式如可適用於本 發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
優選地,文本獲取裝置11、統計信息獲取裝置12和識別裝置13之間是持續不斷地 工作。具體地,文本獲取裝置11獲取待識別的目標文本;隨後,統計信息獲取裝置12根據 所述目標文本,獲得與所述目標文本相對應的統計信息;接著,識別裝置13根據所述統計 信息,識別所述目標文本是否為失序文本。在此,本領域技術人員應理解「持續」是指各裝 置分別按照設定的或實時調整的工作模式要求進行目標文本的獲取、統計信息的獲取、及 失序文本的識別,直至文本獲取裝置11在較長時間內停止對待識別的目標文本的獲取。
圖2示出根據本發明一個優選實施例的用於識別失序文本的設備示意圖,統計信 息獲取裝置12』還包括分詞處理單元121』和分布信息獲取單元122』。具體地,分詞處理單 元121』對所述目標文本進行分詞處理,以獲得與所述目標文本相對應的分詞處理結果;分 布信息獲取單元122』對所述分詞處理結果進行統計分析,以獲得與所述目標文本相對應的 單字分詞或多字分詞的統計分布信息;識別裝置13』還將所述統計分布信息與預設的參考分布信息進行比較,以識別所述目標文本是否為失序文本。在此,圖2中所示裝置11』與前 面參照圖I所描述的裝置11的內容相同,為簡明起見,以引用方式包含於此,而不做贅述。
更具體地,分詞處理單元121』例如對文本獲取裝置11獲取的目標文本的每行進 行分詞處理,或對該目標文本的各行中具有相同列數的文字組成的列文本進行分詞處理, 以獲得與所述目標文本相對應的分詞處理結果;其中,分詞處理的方法包括但不限於最 大正向匹配法、最大反向匹配法、詞典串匹配法;接著,分布信息獲取單元122』對分詞處理 單元121』獲取的分詞處理結果進行統計分析,以獲得該分詞處理結果中單字分詞或多字分 詞的統計分布信息,其中,該單字分詞或多字分詞的統計分布信息包括但不限於單字分詞 數量與多字分詞數量的比例值、單字分詞數量與所有分詞數量的比例值、多字分詞數量與 所有分詞數量的比例值;隨後,識別裝置13』例如將分布信息獲取單元122』獲取的統計分 布信息中單字分詞數量與多字分詞數量的比例值與預設的參考分布信息中單字分詞數量 與多字分詞數量的參考比例閾值進行比較,判斷該比例值與參考比例閾值的大小關係,以 識別目標文本是否為失序文本。
例如,分詞處理單元121』根據文本獲取裝置11』提供的目標文本
行豎失
分行序
詞文文
處文本
理字例
對該目標文本的每行文字按照最大正向匹配法進行分詞處理,以獲得第一行的分 詞處理結果為「行/豎/失」,第二行的分詞處理結果為「分行/序」,第三行的分詞處理結果 為「詞/文/文」,第四行的分詞結果為「處/文本」,第五行的分詞結果為「理/字/例」;接 著,分布信息獲取單元122』對分詞處理單元121』提供的該目標文本的各行分詞處理結果 進行統計分析,以獲得該目標文本所對應的統計分布信息,其示出該分詞處理結果中單字 分詞數量與多字分詞數量的比例為11 2;隨後,識別裝置13』將該單字分詞數量與多字 分詞數量的比例值與自然語言中單字分詞數量與多字分詞數量的參考比例閾值進行比較, 即11 : 2>2 : 5,以識別目標文本為失序文本。
又例如,分詞處理單元121』根據文本獲取裝置11』提供的目標文本
行豎失
分行序
詞文文
處文本
理字例
提取該目標文本的各行中具有相同列數的文字組成的列文本,即第一列文本為 「行分詞處理」,第二列文本為「豎行文文字」,第三列文本為「失序文本例」,對該三個列文本 按照最大正向匹配法進行分詞處理,以獲得第一列文本的分詞處理結果為「行/分詞/處 理」,第二列文本的分詞處理結果為「豎行文/文字」,第三列文本的分詞處理結果為「失序/ 文本/例」;接著,分布信息獲取單元122』對分詞處理單元121』提供的該目標文本的各行 分詞處理結果進行統計分析,以獲得該目標文本所對應的統計分布信息,其示出該分詞處理結果中單字分詞數量與多字分詞數量的比例為I : 3;隨後,識別裝置13』將該單字分詞 數量與多字分詞數量的比例值與自然語言中單字分詞數量與多字分詞數量的參考比例閾 值進行比較,即I : 3<2 : 5,以識別目標文本為失序文本。本領域技術人員應能理解上 述獲取分詞統計信息或獲取分布信息或識別失序文本的方式僅為舉例,其他現有的或今後 可能出現的獲取分詞統計信息、獲取分布信息和識別失序文本的方式如可適用於本發明, 也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
優選地,參考分布信息包括以下至少任一項
-基於自然語言的標準分布信息;
-與所述目標文本所對應的應用相關的分布信息。
具體地,參考分布信息包括但不限於基於自然語言的標準分布信息、與目標文本 所對應的應用相關的分布信息。獲得基於自然語言的標準分布信息的方式可為根據對自 然語言中的海量文本進行分詞處理,並對該海量分詞處理的所有分詞處理結果進行統計分 析,以獲得這些海量文本的分詞處理結果中標準的單字分詞或多字分詞的分布信息;獲得 與目標文本所對應的應用相關的分布信息的方式可為根據目標文本所在的應用,如網絡論 壇、百度貼吧等,提取該應用中的大量正常文本,並對這些文本進行分詞處理且對所有分詞 處理結果進行統計分析,以獲得與目標文本所對應的應用相關的中單字分詞或多字分詞的 分布信息。本領域技術人員應能理解上述參考分布信息僅為舉例,其他現有的或今後可能 出現的參考分布信息如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用 方式包含於此。
在另一個優選實施例中(參照圖I),識別設備I還包括選取裝置(未示出),具體 地,選取裝置按照預置的文本抽樣規則,從所述目標文本中選取優選文本;統計信息獲取裝 置12還根據所述優選文本,獲得與所述優選文本相對應的統計信息。以下參照圖I對該優 選實施例進行詳細描述,其中,文本獲取裝置11獲取待識別的目標文本;識別裝置13根據 所述統計信息,識別所述目標文本是否為失序文本;其具體過程與前述參照圖I所描述的 實施例中文本獲取裝置11和識別裝置13所執行的過程相同,為簡明起見,以引用方式包含 於此,而不做贅述。
更具體地,選取裝置按照預置的文本抽樣規則,從所述目標文本中選取優選文本, 例如選取裝置從目標文本中選取若干行作為優選文本;接著,統計信息獲取裝置12還根據 選取裝置選取的優選文本,例如通過對該優選文本的每行進行字數統計,並計算獲得該優 選文本的行平均字數,以獲得與該優選文本相對應的字數統計信息。例如,選取裝置根據文 本獲取裝置11獲取的目標文本
各速
種打
證電辦
件話證
辦聯*
理系&
按照預置的文本抽樣規則,選取目標文本中的前三行,
各速
種打
證電辦
作為優選文本;接著,統計信息獲取裝置12將該優選文本中的每行進行字數統 計,即該優選文本從上到下各行字數分別為2、2、3,並計算獲得該目標文本的行平均字數為 2. 3。本領域技術人員應能理解上述選取優選文本與獲取統計信息的方式僅為舉例,其他現 有的或今後可能出現的選取優選文本或獲取統計信息的方式如可適用於本發明,也應包含 在本發明保護範圍以內,並在此以引用方式包含於此。
優選地,所述文本抽樣規則基於以下至少任一項來從所述目標文本中選取所述優 選文本
-選取所述目標文本中的若干行文本;
-選取所述目標文本的各行中具有相同列數的文字組成的列文本。
具體地,文本抽樣規則基於選取目標文本中的若干行文本來從該目標文本中選取 優選文本。例如,選取裝置從目標文本中隨機地選取若干行文本作為優選文本,或選取裝置 從目標文本中選取固定地若干行作為優選文本。文本抽樣規則基於選取目標文本的各行中 具有相同列數的文字組成的列文本來從該目標文本中選取優選文本,例如,假設目標文本 為5行8列的文本,各行中具有相同列數的字符組成的字符序列構成一個列文本,如此獲得 與該目標文本相對應的8個列文本;選取裝置可從該些列文本中選取固定若干列文本作為 優選文本。優選地,選取裝置還可以根據上述文本抽樣規則的任意組合,從所述目標文本中 選取優選文本。本領域技術人員應能理解上述文本抽樣規則僅為舉例,其他現有的或今後 可能出現的文本抽樣規則如可適用於本發明,也應包含在本發明保護範圍以內,並在此以 引用方式包含於此。
在又一個優選實施例中(參照圖I),識別設備I還包括預處理裝置(未示出)。以 下參照圖I對該優選實施例進行詳細描述,其中,文本獲取裝置11獲取待識別的目標文本; 識別裝置13根據所述統計信息,識別所述目標文本是否為失序文本;其具體過程與前述參 照圖I所描述的實施例中文本獲取裝置11和識別裝置13所執行的過程相同,為簡明起見, 以引用方式包含於此,而不做贅述。
具體地,預處理裝置對所述目標文本進行預處理,獲得預處理文本;統計信息獲取 裝置12還根據所述預處理文本,獲得與所述預處理文本相對應的統計信息。更具體地,預 處理裝置對目標文本進行諸如濾除特定字符、將異型文字轉化為正常文字等預處理,獲得 預處理文本;統計信息獲取裝置12根據預處理裝置獲得的預處理文本,例如通過對該預處 理文本的每行進行字數統計,並計算獲得該目標文本的行平均字數,以獲取與該目標文本 相對應的字數統計信息。例如,假設目標文本為
矢預#
塘処#
吱理&
卒 #&
預處理裝置首先將該目標文本的每個字符在特定字符庫中進行匹配查詢,獲得字 符為特定字符,然後預處理裝置將字符從該失序文本中濾除,獲得第一預處理結 果
矢預
塘処
吱理

接著,預處理裝置將該第一預處理文本的每個字符在異型文字庫中進行匹配查詢,並據此將火星文字『矢』轉化為『失』,『塘』轉化為『序』,『吱』轉化為『文』,『卒』轉化為 『本』,『預』轉化為『預』,『処』轉化為『處』從而獲得第二預處理結果
失預
序處
文理

並將該第二預處理結果作為預處理文本;然 後,統計信息獲取裝置12根據預處理裝置獲得的預處理文本,將該預處理文本中的每行進行字數統計,即該預處理文本從上到下各行字數分別為2、2、2、1,並計算獲得該目標文本的行平均字數為I. 75。在此,所舉實施例中的特定字符庫用於存儲預定義的特定字符,包括但不限於關係資料庫,內存存儲器,硬碟存儲器等,所舉實施例中的異型文字庫用於存儲諸如菊花體、火星文等異型文字及與其對應的正常文字的映射。在此,本領域技術人員應能理解,所述特定字符庫既可以與所述異型文字庫相互獨立,也可以集成於所述異型文字庫中。本領域技術人員應能理解上述目標文本預處理的方式僅為舉例,其他現有的或今後可能出現的目標文本預處理的方式如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
優選地,所述預處理操作包括以下至少任一項
-濾除所述目標文本中的特定字符;
-將所述目標文本中的異型文字轉化為正常文字。
具體地,預處理操作包括濾除目標文本中的特定字符,該特定字符包括但不限於 ~、*、I、◎、口、(^、Θ、★等,其可存儲在特定字符庫中;預處理操作包括將目標文本中的異型文字轉化為正常文字,該異型文字包括但不限於菊花文、火星文等,其可存儲在異型文字庫中。本領域技術人員應能理解,上述兩項預處理規則不僅可以單獨用於對目標文本進行預處理,還可以將兩項結合用於對目標文本進行預處理。本領域技術人員應能理解上述預處理規則僅為舉例,其他現有的或今後可能出現的預處理規則如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
優選地,所述預處理操作包括將所述目標文本中的異型文字轉化為正常文字;其中,所述預處理裝置將所述目標文本在異型文字庫進行匹配映射,以使所述目標文本中的異型文字轉化為正常文字。具體地,預處理裝置將文本獲取裝置11獲取的目標文本在異型文字庫中進行匹配映射,若匹配成功,則將該字符串轉化為其在異型文字庫中匹配映射得到的正常文字,其中,匹配方式包括但不限於最大字符串匹配、正則表達式匹配。例如,假設目標文本中包括字符串「偷愫誰」,預處理裝置將該字符串的第一個字符「偷」在異型文字庫中進行匹配映射,匹配獲得火星文「偷」與正常文字「你」相對應,接著,將該字符串的前兩個字符「偷愫」在異型文字庫中進行匹配映射,匹配獲得火星文「偷愫」與正常文字「你是」相對應,隨後,將該字符串「偷愫誰」在異型文字庫中再次進行匹配映射,沒有匹配到與其相對應的正常文字,則將「偷愫誰」的前兩個字符轉換為正常文字且保留第三個字符,獲得轉化 後的文字為「你是誰」。又如,假設目標文本中包括數字字符串「13955667788」,預處理裝置 根據將該數字字符串進行正則表達式匹配,獲得「 139」與「 139」相對應的正則表達式相匹 配,將「13955667788」轉化為「13955667788」。本領域技術人員應能理解上述將異型文字轉 化為正常文字的方式僅為舉例,其他現有的或今後可能出現的將異型文字轉化為正常文字 的方式如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
優選地,所述異型文字包括以下至少任一項
-火星文;
-菊花文。
具體地,異形文字包括但不限於火星文、菊花文。火星文由符號、繁體字、日文、韓 文、冷僻字或漢字拆分後的部分等非正規化文字符號組合而成,如正常文字「國家大劇院」 對應的火星文為「嘓傢t劇院」;菊花文指在標準字符的前後加入一些特殊字符,如「失□序 □文□字□」,其中,菊花文的符號「□」的ASCII碼為1161。本領域技術人員應能理解上述 異型文字僅為舉例,其他現有的或今後可能出現的異型文字如可適用於本發明,也應包含 在本發明保護範圍以內,並在此以引用方式包含於此。
在再一個優選實施例中(參照圖I),識別設備I還包括提供裝置(未示出)。具 體地,文本獲取裝置11獲取用戶通過用戶設備提交的待識別的目標文本;提供裝置將所述 目標文本的識別結果提供給所述用戶設備。以下參照圖I對該優選實施例進行詳細描述, 其中,統計信息獲取裝置12根據所述目標文本,獲得與所述目標文本相對應的統計信息; 識別裝置13根據所述統計信息,識別所述目標文本是否為失序文本;其具體過程與前述參 照圖I所描述的實施例中統計信息獲取裝置12和識別裝置13所執行的過程相同,為簡明 起見,以引用方式包含於此,而不做贅述。
更具體地,用戶通過與用戶設備的交互方式,包括但不限於鍵盤、滑鼠、遙控器、觸 摸板、或手寫設備,在瀏覽器軟體、應用程式或客戶端軟體中輸入目標文本;以鍵盤為例,用 戶在應用程式的輸入文本框完成目標文本的輸入,並通過點擊「提交」按鈕或其他方式觸發 用戶設備將該目標文本按照約定的通信協議經由網絡發送到識別設備1,文本獲取裝置11 通過監聽用戶消息,實時地接收該失序文本。在此,該用戶設備可以是任何一種可與用戶 通過鍵盤、滑鼠、遙控器、觸摸板、或聲控設備進行人機互動的電子產品,包括但不限於計算 機、智慧型手機、PDA、或IPTV等。識別設備I與用戶設備之間可通過任何通信方式實現通信, 包括但不限於,基於3GPP、LTE、WIMAX的移動通信、基於TCP/IP、UDP協議的計算機網絡通 信以及基於藍牙、紅外傳輸標準的近距無線傳輸方式。識別設備I與用戶設備連接的網絡 包括但不限於網際網路、廣域網、城域網、區域網、VPN網絡、無線自組織網絡(Ad Hoc網絡) 等。本領域技術人員應能理解上述獲取目標文本的方式僅為舉例,其他現有的或今後可能 出現的獲取目標文本的方式如可適用於本發明,也應包含在本發明保護範圍以內,並在此 以引用方式包含於此。
隨後,提供裝置根據識別裝置13獲取的目標文本的識別結果,例如識別結果是目 標文本是否為失序文本,採用任何已知的計算機提供人可讀信息的技術手段,例如屏幕顯 示、揚聲器播放等,將該識別結果提供給用戶設備。以屏幕顯示為例,提供裝置將目標文本 的識別結果,利用頁面技術,如JSP、ASP或PHP,按一定格式提供給用戶設備,例如以連結、頁面文本等形式提供給用戶設備,供用戶進行瀏覽。本領域技術人員應能理解上述對提供 識別結果的方式僅為舉例,其他現有的或今後可能出現的提供識別結果的方式如可適用於 本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
圖3示出根據本發明一個方面用於識別失序文本的方法流程圖。在此,識別設備I 包括但不限於計算機、網絡主機、單個網絡伺服器、多個網絡伺服器集或多個伺服器構成的 雲。在此,雲由基於雲計算(Cloud Computing)的大量計算機或網絡伺服器構成,其中,雲 計算是分布式計算的一種,由一群鬆散耦合的計算機集組成的一個超級虛擬計算機。
具體地,在步驟SI中,識別設備I獲取待識別的目標文本。更具體地,在步驟SI 中,識別設備I按預定周期或應事件觸發實時地獲取待處理的目標文本,例如通過實時監 聽用戶通過用戶設備提交的目標文本提交請求,以獲取用戶輸入的目標文本,或者定期地 通過約定的通信方式直接從第三方設備讀取目標文本。例如,假設識別設備I為網絡論壇 伺服器,用戶通過用戶設備在網絡論壇網頁的輸入界面輸入一段文本信息,然後,用戶設備 將該信息作為論壇發帖包裝成http請求並通過http通信協議提交到識別設備1,接著,識 別設備I通過實時監聽用戶消息,接收並解析該http請求,獲取其中的文本信息並作為目 標文本。再如,在步驟SI中,識別設備I按一定周期,定期地通過調用預定的應用編程接口 (API)向第三方設備發送獲取目標文本的請求,並接收該第三方設備基於該請求返回的目 標文本的文檔。本領域技術人員應能理解上述獲取目標文本的方式僅為舉例,其他現有的 或今後可能出現的獲取目標文本的方式如可適用於本發明,也應包含在本發明保護範圍以 內,並在此以引用方式包含於此。
隨後,在步驟S2中,識別設備I根據所述目標文本,獲得與所述目標文本相對應的 統計信息。具體地,在步驟S2中,識別設備I根據其在步驟SI中提供的目標文本,例如通 過對該目標文本的每行進行字數統計,並計算獲得該目標文本的行平均字數,以獲取與該 目標文本相對應的字數統計信息;或者通過對該目標文本進行分詞處理,並統計獲得分詞 處理後的分詞處理結果中單字分詞與多字分詞的分布信息,如單字分詞與多字分詞的比例 值,以獲取與該目標文本相對應的統計信息。例如,在步驟S2中,識別設備I根據其在步驟 SI中提供的目標文本
證速
件打
辦電辦
理話證
將該目標文本中的每行進行字數統計,即該目標文本從上到下各行字數分別為2、 2、3、3,並計算獲得該目標文本的行平均字數為2. 5。再如,在步驟S2中,識別設備I根據其 在步驟SI中提供的目標文本
進豎失
行行序
分文文
詞文本
處字舉
理& 例
對該目標文本的每行文字按照最大反向匹配法進行分詞處理,以獲得分詞處理結果如下
選/豎/失
行/行/序
分/文/文
詞/文本
處/字/舉
理/&/例
並計算該目標文本的分詞處理結果中單字分詞數量與多字分詞數量的比例值為 16 I。本領域技術人員應能理解上述獲得統計信息的方式僅為舉例,其他現有的或今後可能出現的獲得統計信息的方式如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
接著,在步驟S3中,識別設備I根據所述統計信息,識別所述目標文本是否為失序文本。具體地,在步驟S3中,識別設備I根據其在步驟S2中獲取的統計信息,例如若統計信息中包括該目標文本各行的平均字數,則將該各行的平均字數與預定的各行平均字數閾值進行比較,當該各行的平均字數小於預定的各行平均字數閾值時,識別該目標文本為失序文本;若統計信息中包括對該目標文本進行分詞處理所獲得的分詞處理結果中單字分詞與多字分詞的分布信息,將該分詞統計信息與預設的參考統計信息進行比較,識別該目標文本是否為失序文本。例如,假設在步驟S2中,識別設備I獲取的統計信息為該目標文本各行的平均字數為2. 5 ;在步驟S3中,識別設備I根據該目標文本各行的平均字數,將該各行的平均字數與預定的各行平均字數閾值6進行比較,即2. 5 3 5,據此判斷該目標文本為失序文本。本領域技術人員應能理解上述識別失序文本的方式僅為舉例,其他現有的或今後可能出現的識別失序文本的方式如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
優選地,上述各步驟之間是持續不斷地工作。具體地,在步驟SI中,識別設備I獲取待識別的目標文本;隨後,在步驟S2中,識別設備I根據所述目標文本,獲得與所述目標文本相對應的統計信息;接著,在步驟S3中,識別設備I根據所述統計信息,識別所述目標文本是否為失序文本。在此,本領域技術人員應理解「持續」是指各步驟分別按照設定的或實時調整的工作模式要求進行目標文本的獲取、統計信息的獲取、及失序文本的識別,直至識別設備I在較長時間內停止對待識別的目標文本的獲取。
圖4示出根據本發明一個優選實施例的用於識別失序文本的方法流程圖,步驟 S2』還包括步驟S21』和步驟S22』。具體地,在步驟S21』中,識別設備I對所述目標文本進行分詞處理,以獲得與所述目標文本相對應的分詞處理結果;在步驟S22』中,識別設備I對所述分詞處理結果進行統計分析,以獲得與所述目標文本相對應的單字分詞或多字分詞的統計分布信息;在步驟S3』中,識別設備I還將所述統計分布信息與預設的參考分布信息進 行比較,以識別所述目標文本是否為失序文本。在此,圖4中所示步驟SI,與前面參照圖3 所描述的步驟SI的內容相同,為簡明起見,以引用方式包含於此,而不做贅述。
更具體地,在步驟S21』中,識別設備I例如對其在步驟SI』中獲取的目標文本的每 行進行分詞處理,或對該目標文本的各行中具有相同列數的文字組成的列文本進行分詞處 理,以獲得與所述目標文本相對應的分詞處理結果;其中,分詞處理的方法包括但不限於 最大正向匹配法、最大反向匹配法、詞典串匹配法;接著,在步驟S22』中,識別設備I對其在 步驟S21』中獲取的分詞處理結果進行統計分析,以獲得該分詞處理結果中單字分詞或多字 分詞的統計分布信息,其中,該單字分詞或多字分詞的統計分布信息包括但不限於單字分 詞數量與多字分詞數量的比例值、單字分詞數量與所有分詞數量的比例值、多字分詞數量 與所有分詞數量的比例值;隨後,在步驟S3』中,識別設備I例如將其在步驟S22』中獲取的 統計分布信息中單字分詞數量與多字分詞數量的比例值與預設的參考分布信息中單字分 詞數量與多字分詞數量的參考比例閾值進行比較,判斷該比例值與參考比例閾值的大小關 系,以識別目標文本是否為失序文本。
例如,在步驟S21』中,識別設備I根據其在步驟SI』中提供的目標文本
行豎失
分行序
詞文文
處文本
理字例
對該目標文本的每行文字按照最大正向匹配法進行分詞處理,以獲得第一行的分 詞處理結果為「行/豎/失」,第二行的分詞處理結果為「分行/序」,第三行的分詞處理結 果為「詞/文/文」,第四行的分詞結果為「處/文本」,第五行的分詞結果為「理/字/例」; 接著,在步驟S22』中,識別設備I對其在步驟S21』中提供的該目標文本的各行分詞處理結 果進行統計分析,以獲得該目標文本所對應的統計分布信息,其示出該分詞處理結果中單 字分詞數量與多字分詞數量的比例為11 2;隨後,在步驟S3』中,識別設備I將該單字分 詞數量與多字分詞數量的比例值與自然語言中單字分詞數量與多字分詞數量的參考比例 閾值進行比較,即11 2>2 5,以識別目標文本為失序文本。
又例如,在步驟S21』中,識別設備I根據其在步驟SI』中提供的目標文本
行豎失
分行序
詞文文
處文本
理字例
提取該目標文本的各行中具有相同列數的文字組成的列文本,即第一列文本為 「行分詞處理」,第二列文本為「豎行文文字」,第三列文本為「失序文本例」,對該三個列文本 按照最大正向匹配法進行分詞處理,以獲得第一列文本的分詞處理結果為「行/分詞/處 理」,第二列文本的分詞處理結果為「豎行文/文字」,第三列文本的分詞處理結果為「失序 /文本/例」;接著,在步驟S22』中,識別設備I對其在步驟S21』中提供的該目標文本的各行分詞處理結果進行統計分析,以獲得該目標文本所對應的統計分布信息,其示出該分詞 處理結果中單字分詞數量與多字分詞數量的比例為I : 3;隨後,在步驟S3』中,識別設備 I將該單字分詞數量與多字分詞數量的比例值與自然語言中單字分詞數量與多字分詞數量 的參考比例閾值進行比較,即I : 3<2 : 5,以識別目標文本為失序文本。本領域技術人 員應能理解上述獲取分詞統計信息或獲取分布信息或識別失序文本的方式僅為舉例,其他 現有的或今後可能出現的獲取分詞統計信息、獲取分布信息和識別失序文本的方式如可適 用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
優選地,參考分布信息包括以下至少任一項
-基於自然語言的標準分布信息;
-與所述目標文本所對應的應用相關的分布信息。
具體地,參考分布信息包括但不限於基於自然語言的標準分布信息、與目標文本 所對應的應用相關的分布信息。獲得基於自然語言的標準分布信息的方式可為根據對自 然語言中的海量文本進行分詞處理,並對該海量分詞處理的所有分詞處理結果進行統計分 析,以獲得這些海量文本的分詞處理結果中標準的單字分詞或多字分詞的分布信息;獲得 與目標文本所對應的應用相關的分布信息的方式可為根據目標文本所在的應用,如網絡論 壇、百度貼吧等,提取該應用中的大量正常文本,並對這些文本進行分詞處理且對所有分詞 處理結果進行統計分析,以獲得與目標文本所對應的應用相關的中單字分詞或多字分詞的 分布信息。本領域技術人員應能理解上述參考分布信息僅為舉例,其他現有的或今後可能 出現的參考分布信息如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用 方式包含於此。
在另一個優選實施例中(參照圖3),該過程還包括步驟S4(未示出),具體地,在 步驟S4中,識別設備I按照預置的文本抽樣規則,從所述目標文本中選取優選文本;在步驟 S2中,識別設備I還根據所述優選文本,獲得與所述優選文本相對應的統計信息。以下參 照圖3對該優選實施例進行詳細描述,其中,在步驟SI中,識別設備I獲取待識別的目標文 本;在步驟S3中,識別設備I根據所述統計信息,識別所述目標文本是否為失序文本;其具 體過程與前述參照圖3所描述的實施例中在步驟SI和步驟S3所執行的過程相同,為簡明 起見,以引用方式包含於此,而不做贅述。
更具體地,在步驟S4中,識別設備I按照預置的文本抽樣規則,從所述目標文本中 選取優選文本,例如在步驟S4中,識別設備I從目標文本中選取若干行作為優選文本;接 著,在步驟S2中,識別設備I還根據其在步驟S4中選取的優選文本,例如通過對該優選文 本的每行進行字數統計,並計算獲得該優選文本的行平均字數,以獲得與該優選文本相對 應的字數統計信息。例如,在步驟S4中,識別設備I根據其在步驟SI中獲取的目標文本
各速
種打
證電辦
件話證
辦聯*
理系&
按照預置的文本抽樣規則,選取目標文本中的前三行,
各速
種打
證電辦
作為優選文本;接著,在步驟S2中,識別設備I將該優選文本中的每行進行字數統 計,即該優選文本從上到下各行字數分別為2、2、3,並計算獲得該目標文本的行平均字數為2.3。本領域技術人員應能理解上述選取優選文本與獲取統計信息的方式僅為舉例,其他現 有的或今後可能出現的選取優選文本或獲取統計信息的方式如可適用於本發明,也應包含 在本發明保護範圍以內,並在此以引用方式包含於此。
優選地,所述文本抽樣規則基於以下至少任一項來從所述目標文本中選取所述優 選文本
-選取所述目標文本中的若干行文本;
-選取所述目標文本的各行中具有相同列數的文字組成的列文本。
具體地,文本抽樣規則基於選取目標文本中的若干行文本來從該目標文本中選取 優選文本。例如,在步驟S4中,識別設備I從目標文本中隨機地選取若干行文本作為優選 文本,或從目標文本中選取固定地若干行作為優選文本。文本抽樣規則基於選取目標文本 的各行中具有相同列數的文字組成的列文本來從該目標文本中選取優選文本,例如,假設 目標文本為5行8列的文本,各行中具有相同列數的字符組成的字符序列構成一個列文本, 如此獲得與該目標文本相對應的8個列文本;在步驟S4中,識別設備I可從該些列文本中 選取固定若干列文本作為優選文本。優選地,在步驟S4中,識別設備I還可以根據上述文 本抽樣規則的任意組合,從所述目標文本中選取優選文本。本領域技術人員應能理解上述 文本抽樣規則僅為舉例,其他現有的或今後可能出現的文本抽樣規則如可適用於本發明, 也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
在又一個優選實施例中(參照圖3),該過程還包括步驟S5(未示出)。以下參照 圖3對該優選實施例進行詳細描述,其中,在步驟SI中,識別設備I獲取待識別的目標文 本;在步驟S3中,識別設備I根據所述統計信息,識別所述目標文本是否為失序文本;其具 體過程與前述參照圖3所描述的實施例中步驟SI和S3所執行的過程相同,為簡明起見,以 引用方式包含於此,而不做贅述。
具體地,在步驟S5中,識別設備I對所述目標文本進行預處理,獲得預處理文本; 在步驟S2中,識別設備I還根據所述預處理文本,獲得與所述預處理文本相對應的統計信 息。更具體地,在步驟S5中,識別設備I對目標文本進行諸如濾除特定字符、將異型文字轉 化為正常文字等預處理,獲得預處理文本;在步驟S2中,識別設備I根據其在步驟S5中獲 得的預處理文本,例如通過對該預處理文本的每行進行字數統計,並計算獲得該目標文本 的行平均字數,以獲取與該目標文本相對應的字數統計信息。例如,假設目標文本為
矢預#
糖処#
吱理&
卒#&
在步驟S5中,識別設備I首先將該目標文本的每個字符在特定字符庫中進行匹配 查詢,獲得字符『#,、『&』為特定字符,然後識別設備I將字符從該失序文本中濾除,獲得第一預處理結果
矢預
塘処
吱理

接著,在步驟S5中,識別設備I將該第一預處理文本的每個字符在異型文字庫中進行匹配查詢,並據此將火星文字『矢』轉化為『失』,『塘』轉化為『序』,『吱』轉化為『文』, 『卒』轉化為『本』,『預』轉化為『預』,『処』轉化為『處』從而獲得第二預處理結果
失預
序處
文理

並將該第二預處理結果作為預處理文本;然後,在步驟S2中,識別設備I根據其在步驟S5中獲得的預處理文本,將該預處理文本中的每行進行字數統計,即該預處理文本從上到下各行字數分別為2、2、2、1,並計算獲得該目標文本的行平均字數為I. 75。在此,所舉實施例中的特定字符庫用於存儲預定義的特定字符,包括但不限於關係資料庫,內存存儲器,硬碟存儲器等,所舉實施例中的異型文字庫用於存儲諸如菊花體、火星文等異型文字及與其對應的正常文字的映射。在此,本領域技術人員應能理解,所述特定字符庫既可以與所述異型文字庫相互獨立,也可以集成於所述異型文字庫中。本領域技術人員應能理解上述目標文本預處理的方式僅為舉例,其他現有的或今後可能出現的目標文本預處理的方式如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
優選地,所述預處理操作包括以下至少任一項
-濾除所述目標文本中的特定字符;
-將所述目標文本中的異型文字轉化為正常文字。
具體地,預處理操作包括濾除目標文本中的特定字符,該特定字符包括但不限於 ~、*、I、◎、口、6\θ、★等,其可存儲在特定字符庫中;預處理操作包括將目標文本中的異型文字轉化為正常文字,該異型文字包括但不限於菊花文、火星文等,其可存儲在異型文字庫中。本領域技術人員應能理解,上述兩項預處理規則不僅可以單獨用於對目標文本進行預處理,還可以將兩項結合用於對目標文本進行預處理。本領域技術人員應能理解上述預處理規則僅為舉例,其他現有的或今後可能出現的預處理規則如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
優選地,所述預處理操作包括將所述目標文本中的異型文字轉化為正常文字;其中,步驟S5中,識別設備I將所述目標文本在異型文字庫進行匹配映射,以使所述目標文本中的異型文字轉化為正常文字。具體地,在步驟S5中,識別設備I將其在步驟SI中獲取的目標文本在異型文字庫中進行匹配映射,若匹配成功,則將該字符串轉化為其在異型文字庫中匹配映射得到的正常文字,其中,匹配方式包括但不限於最大字符串匹配、正則表達式匹配。例如,假設目標文本中包括字符串「偷愫誰」,在步驟S5中,識別設備I將該字符串的第一個字符「偷」在異型文字庫中進行匹配映射,匹配獲得火星文「偷」與正常文字「你」相對應,接著,將該字符串的前兩個字符「偷愫」在異型文字庫中進行匹配映射,匹配獲得火星、文「偷愫」與正常文字「你是」相對應,隨後,將該字符串「偷愫誰」在異型文字庫中再次進行 匹配映射,沒有匹配到與其相對應的正常文字,則將「偷愫誰」的前兩個字符轉換為正常文 字且保留第三個字符,獲得轉化後的文字為「你是誰」。又如,假設目標文本中包括數字字符 串「13955667788」,在步驟S5中,識別設備I根據將該數字字符串進行正則表達式匹配,獲 得「 139」與「 139」相對應的正則表達式相匹配,將「 13955667788」轉化為「 13955667788」。 本領域技術人員應能理解上述將異型文字轉化為正常文字的方式僅為舉例,其他現有的或 今後可能出現的將異型文字轉化為正常文字的方式如可適用於本發明,也應包含在本發明 保護範圍以內,並在此以引用方式包含於此。
優選地,所述異型文字包括以下至少任一項
-火星文;
-菊花文。
具體地,異形文字包括但不限於火星文、菊花文。火星文由符號、繁體字、日文、韓 文、冷僻字或漢字拆分後的部分等非正規化文字符號組合而成,如正常文字「國家大劇院」 對應的火星文為「嘓傢t劇院」;菊花文指在標準字符的前後加入一些特殊字符,如「失□序 □文□字□」,其中,菊花文的符號「□」的ASCII碼為1161。本領域技術人員應能理解上述 異型文字僅為舉例,其他現有的或今後可能出現的異型文字如可適用於本發明,也應包含 在本發明保護範圍以內,並在此以引用方式包含於此。
在再一個優選實施例中(參照圖3),該過程還包括步驟S6(未示出)。具體地,在 步驟S I中,識別設備I獲取用戶通過用戶設備提交的待識別的目標文本;在步驟S6中,識 別設備I將所述目標文本的識別結果提供給所述用戶設備。以下參照圖3對該優選實施例 進行詳細描述,其中,在步驟S2中,識別設備I根據所述目標文本,獲得與所述目標文本相 對應的統計信息;在步驟S3中,識別設備I根據所述統計信息,識別所述目標文本是否為失 序文本;其具體過程與前述參照圖3所描述的實施例中步驟S2和S3所執行的過程相同,為 簡明起見,以引用方式包含於此,而不做贅述。
更具體地,用戶通過與用戶設備的交互方式,包括但不限於鍵盤、滑鼠、遙控器、觸 摸板、或手寫設備,在瀏覽器軟體、應用程式或客戶端軟體中輸入目標文本;以鍵盤為例,用 戶在應用程式的輸入文本框完成目標文本的輸入,並通過點擊「提交」按鈕或其他方式觸發 用戶設備將該目標文本按照約定的通信協議經由網絡發送到識別設備1,在步驟S I中,識 別設備I通過監聽用戶消息,實時地接收該失序文本。在此,該用戶設備可以是任何一種可 與用戶通過鍵盤、滑鼠、遙控器、觸摸板、或聲控設備進行人機互動的電子產品,包括但不限 於計算機、智慧型手機、PDA、或IPTV等。識別設備I與用戶設備之間可通過任何通信方式實 現通信,包括但不限於,基於3GPP、LTE、WIMAX的移動通信、基於TCP/IP、UDP協議的計算機 網絡通信以及基於藍牙、紅外傳輸標準的近距無線傳輸方式。識別設備I與用戶設備連接 的網絡包括但不限於網際網路、廣域網、城域網、區域網、VPN網絡、無線自組織網絡(Ad Hoc 網絡)等。本領域技術人員應能理解上述獲取目標文本的方式僅為舉例,其他現有的或今 後可能出現的獲取目標文本的方式如可適用於本發明,也應包含在本發明保護範圍以內, 並在此以引用方式包含於此。
隨後,在步驟S6中,識別設備I根據其在步驟S3中獲取的目標文本的識別結果, 例如識別結果是目標文本是否為失序文本,採用任何已知的計算機提供人可讀信息的技術手段,例如屏幕顯示、揚聲器播放等,將該識別結果提供給用戶設備。以屏幕顯示為例,在步 驟S6中,識別設備I將目標文本的識別結果,利用頁面技術,如JSP、ASP或PHP,按一定格 式提供給用戶設備,例如以連結、頁面文本等形式提供給用戶設備,供用戶進行瀏覽。本領 域技術人員應能理解上述對提供識別結果的方式僅為舉例,其他現有的或今後可能出現的 提供識別結果的方式如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用 方式包含於此。
對於本領域技術人員而言,顯然本發明不限於上述示範性實施例的細節,而且在 不背離本發明的精神或基本特徵的情況下,能夠以其他的具體形式實現本發明。因此,無論 從哪一點來看,均應將實施例看作是示範性的,而且是非限制性的,本發明的範圍由所附權 利要求而不是上述說明限定,因此旨在將落在權利要求的等同要件的含義和範圍內的所有 變化涵括在本發明內。不應將權利要求中的任何附圖標記視為限制所涉及的權利要求。此 夕卜,顯然「包括」 一詞不排除其他單元或步驟,單數不排除複數。裝置權利要求中陳述的多 個單元或裝置也可以由一個單元或裝置通過軟體或者硬體來實現。第一,第二等詞語用來 表示名稱,而並不表示任何特定的順序。
權利要求
1.一種由計算機實現的用於識別失序文本的方法,該方法包括以下步驟 a獲取待識別的目標文本;b根據所述目標文本,獲得與所述目標文本相對應的統計信息; c根據所述統計信息,識別所述目標文本是否為失序文本。
2.根據權利要求I所述的方法,其中,所述步驟b還包括-對所述目標文本進行分詞處理,以獲得與所述目標文本相對應的分詞處理結果;-對所述分詞處理結果進行統計分析,以獲得與所述目標文本相對應的單字分詞或多字分詞的統計分布信息;其中,所述步驟c還包括-將所述統計分布信息與預設的參考分布信息進行比較,以識別所述目標文本是否為失序文本。
3.根據權利要求2所述的方法,其中,所述參考分布信息包括以下至少任一項-基於自然語目的標準分布息;-與所述目標文本所對應的應用相關的分布信息。
4.根據權利要求I至3中任一項所述的方法,其中,該方法還包括-按照預置的文本抽樣規則,從所述目標文本中選取優選文本;其中,所述步驟b還包括-根據所述優選文本,獲得與所述優選文本相對應的統計信息。
5.根據權利要求4所述的方法,其中,所述文本抽樣規則基於以下至少任一項來從所述目標文本中選取所述優選文本-選取所述目標文本中的若干行文本;-選取所述目標文本的各行中具有相同列數的文字組成的列文本。
6.根據權利要求I至5中任一項所述的方法,其中,該方法還包括X對所述目標文本進行預處理,獲得預處理文本;其中,所述步驟b還包括-根據所述預處理文本,獲得與所述預處理文本相對應的統計信息。
7.根據權利要求6所述的方法,其中,所述預處理操作包括以下至少任一項-濾除所述目標文本中的特定字符;-將所述目標文本中的異型文字轉化為正常文字。
8.根據權利要求7所述的方法,其中,所述預處理操作包括將所述目標文本中的異型文字轉化為正常文字;其中,所述步驟X還包括-將所述目標文本在異型文字庫進行匹配映射,以使所述目標文本中的異型文字轉化為正常文字。
9.根據權利要求7或8所述的方法,其中,所述異型文字包括以下至少任一項-火星文;-菊花文。
10.根據權利要求I至9中任一項所述的方法,其中,所述步驟a還包括-獲取用戶通過用戶設備提交的待識別的目標文本;其中,該方法還包括-將所述目標文本的識別結果提供給所述用戶設備。
11.一種用於識別失序文本的設備,該設備包括文本獲取裝置,用於獲取待識別的目標文本;統計信息獲取裝置,用於根據所述目標文本,獲得與所述目標文本相對應的統計信息;識別裝置,用於根據所述統計信息,識別所述目標文本是否為失序文本。
12.根據權利要求11所述的設備,其中,所述統計信息獲取裝置還包括分詞處理單元,用於對所述目標文本進行分詞處理,以獲得與所述目標文本相對應的分詞處理結果;分布信息獲取單元,用於對所述分詞處理結果進行統計分析,以獲得與所述目標文本相對應的單字分詞或多字分詞的統計分布信息;其中,所述識別裝置還用於將所述統計分布信息與預設的參考分布信息進行比較,以識別所述目標文本是否為失序文本。
13.根據權利要求12所述的設備,其中,所述參考分布信息包括以下至少任一項-基於自然語目的標準分布息;-與所述目標文本所對應的應用相關的分布信息。
14.根據權利要求11至13中任一項所述的設備,其中,該設備還包括選取裝置,用於按照預置的文本抽樣規則,從所述目標文本中選取優選文本;其中,所述統計信息獲取裝置還用於根據所述優選文本,獲得與所述優選文本相對應的統計信息。
15.根據權利要求14所述的設備,其中,所述文本抽樣規則基於以下至少任一項來從所述目標文本中選取所述優選文本-選取所述目標文本中的若干行文本;-選取所述目標文本的各行中具有相同列數的文字組成的列文本。
16.根據權利要求11至15中任一項所述的設備,其中,該設備還包括預處理裝置,用於對所述目標文本進行預處理,獲得預處理文本;其中,所述統計信息獲取裝置還用於根據所述預處理文本,獲得與所述預處理文本相對應的統計信息。
17.根據權利要求16所述的設備,其中,所述預處理操作包括以下至少任一項-濾除所述目標文本中的特定字符;-將所述目標文本中的異型文字轉化為正常文字。
18.根據權利要求17所述的設備,其中,所述預處理操作包括將所述目標文本中的異型文字轉化為正常文字;其中,所述預處理裝置還用於將所述目標文本在異型文字庫進行匹配映射,以使所述目標文本中的異型文字轉化為正常文字。
19.根據權利要求17或18所述的設備,其中,所述異型文字包括以下至少任一項-火星文;-菊花文。
20.根據權利要求11至19中任一項所述的設備,其中,所述文本獲取裝置還用於獲取用戶通過用戶設備提交的待識別的目標文本;其中,該設備還包括 提供裝置,用於將所述目標文本的識別結果提供給所述用戶設備。
全文摘要
本發明的目的是提供一種用於識別失序文本的方法與設備。其中,識別設備獲取待識別的目標文本;根據所述目標文本,獲得與所述目標文本相對應的統計信息;根據所述統計信息,識別所述目標文本是否為失序文本。與現有技術相比,本發明根據獲得的與目標文本相對應的統計信息,識別該目標文本是否為失序文本,進而實現有效的文本內容管理。
文檔編號G06F17/30GK102982011SQ20111026421
公開日2013年3月20日 申請日期2011年9月7日 優先權日2011年9月7日
發明者李彥宏, 舒迅, 帥帥, 王波 申請人:百度在線網絡技術(北京)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀