利用圖像處理技術及語義向量空間的文本語義處理方法和系統的製作方法
2023-07-05 17:01:16 1
利用圖像處理技術及語義向量空間的文本語義處理方法和系統的製作方法
【專利摘要】本發明屬於文本語義信息處理【技術領域】,具體涉及一種利用圖像處理技術及語義向量空間的文本語義處理方法和系統。本發明包括文本輸入及預處理、語義向量構建、語義信息處理、語義處理結果展示模塊;語義信息處理具體包括:語義轉折句提取、語義噪聲句檢測、語義範圍跟蹤和語義場景分割。本發明將文本單元映射為圖像中的像素,並將描述文本單元的語義向量視為圖像中的像素點灰度,從而能引入圖像處理領域中的各種技術和方法來靈活、直觀地處理文本,而且不易受到詞語本身形式多樣化的影響;同時,通過引入Word2Vec方法構建語義向量,保證了算法的輕量級,以應對實時應用的需求。
【專利說明】利用圖像處理技術及語義向量空間的文本語義處理方法和系統
【技術領域】
[0001]本發明屬於文本語義信息處理【技術領域】,具體涉及一種輕量級的利用圖像處理技術及語義向量空間的文本語義處理方法和系統。
【背景技術】
[0002]隨著計算機技術及網絡的發展,如今已進入信息爆炸時代一各種海量的數據以電子文本的形式呈現出來,在這種情況下,能夠快速、準確地從中抽取出用戶所關心的信息這一需求日益迫切,文本信息處理技術正是在這種背景下應運而生的,而文本的語義處理則是重中之重,它使得我們從語言處理邁向了語言理解。文本語義處理技術在很多領域都很有應用價值,如文本語義分段、自動文本摘要抽取、電子閱讀語義導航等。
[0003]然而,目前的文本語義處理技術仍有一些局限性,以文本語義分割技術為例,基本上上是從基於詞頻統計的角度出發,通過計算相鄰文本塊內重複出現詞語的詞頻統計向量的相似度來實現語義分割,如經典的TextTiling算法、Dotplotting算法,但它們都沒有考慮到詞語蘊含的語義空間,不能應對詞語變體或者是同義詞、近義詞的影響,因而魯棒性不強;在此之後的一些算法如ESA (Explicit semantic analysis)算法雖然通過引入語義向量空間增強了魯棒性,但由於其語義空間維度過高、計算代價巨大,無法滿足實時應用的需求;還有如TopicTilling算法,雖然通過加入詞與主題間的聯繫改進了分割性能,但其需要複雜的主題模型介入,等等。
【發明內容】
[0004]本發明針對文本語義信息處理技術背景的弱點提出了一種輕量級的利用圖像處理技術及語義向量空間的文本語義處理方法和系統。
[0005]本發明將文本單元映射為圖像中的像素,並將描述文本單元的語義向量視為圖像中的像素點灰度,從而不僅得以引入圖像處理領域中的各種技術和方法來對文本進行靈活、直觀地處理,而且也不易受到詞語本身形式多樣化的影響;同時,通過引入Word2Vec方法構建語義向量,保證了算法的輕量級,能夠滿足實時應用需求。
[0006]本發明面向文本語義處理中的幾個應用場景分別提出了針對性的技術。具體地:面向文本分割需求,使用圖像邊緣檢測技術實現對語義轉折句的提取;面向電子文本中的語義不相關語句(如廣告植入語句),採用圖像處理中的噪聲檢測方法進行提取;面向電子閱讀中的語義導航需求,採用圖像處理中的區域生長技術實現對用戶感興趣內容的語義範圍跟蹤;面向信息快速推送場合的語義切分需求,採用圖像分割方法實現對不同語義場景的分割。
[0007]本發明提供的輕量級的利用圖像處理技術及語義向量空間的文本語義處理方法,具體步驟分為:文本輸入及預處理、語義向量構建、語義信息處理、語義處理結果展示;其中: 1.文本輸入及預處理:是對於輸入的文本,首先進行語句分割處理,從而得到有序的語句序列,然後對每一句都進行停用詞去除操作,目的是去除助詞等幹擾、保留下真正有語義的詞語;
2.語義向量構建:基於大數據資源進行訓練,構建詞與語義空間的映射,從而為語義的比較提供可靠依據;
3.語義信息處理:包括語義轉折句提取、語義噪聲句檢測、語義範圍跟蹤、語義場景分割四個分步驟,核心是利用圖像處理技術並結合語義向量空間來對不同的場景需求進行處理以實現相應的功能;
4.語義處理結果展示:將處理結果進行輸出展示,並提交給用戶。
[0008]各步驟的具體內容如下:
(O文本輸入及預處理,具體步驟如下:
文本輸入及預處理包含兩個分步驟:文本輸入、文本預處理:
(1.1)文本輸入,是將用戶提交的待處理文本輸入系統;
(1.2)文本預處理,具體步驟為:
(1.2.1)對於輸入的文本,首先按照語句分割標誌符號(如句號、感嘆號等)進行語句分割處理,從而得到有序的語句序列;
(1.2.2)對序列中的每一句,進行停用詞去除操作,目的是將真正有語義的詞語保留下來,在減少無語義詞語幹擾、提高語義處理結果可靠性的同時,也減少了後續處理的計算量。
[0009](2)語義向量構建,具體步驟如下:
將文本單元視作圖像像素,語義特徵視作像素灰度,語義特徵可採用多種方法進行計算,如 Word2Vec 方法、ESA (Explicit semantic analysis)特徵、LSA (Latent semanticanalysis)特徵、共現詞頻率特徵等等,由於本發明的目的是面向能滿足實時應用需求的輕量級的方法,因此,優選地,採用 Word2Vec 方法(https://code, google.com/p/word2vec/,同時參見文獻[1,2,3])。
[0010]構建語義向量的訓練數據可來源於各大知識庫,優選地,採用維基百科知識庫(http://www.wikipedia.0rg/)。
[0011](3)語義信息處理,分為如下4個分步驟:
語義轉折句提取、語義噪聲句檢測、語義範圍跟蹤、語義場景分割:
(3.1)語義轉折句提取,具體步驟如下:
對預處理後得到的有序的語句序列,依次對每個語句進行如下操作:
以該句為中心進行加窗,窗口寬度W可根據實際情況而定,
W=ZXRfl
其中,R為窗口半徑。優選地,取窗口半徑為1,即窗口寬度為3,此時參考圖像處理中SOBEL模板並將其降至一維形式後得到的如下鄰域模板對序列進行卷積:
[-1 O I]
具體地,語義梯度計算如下:
E(i) = mst(S{1-l),S(itl))其中,S(i)表示序列號為i的語句對應的語義向量,Dist (a, b)表示向量a和向量b之間的距離。
[0012]為方便起見,可以直接考察相似度:
【權利要求】
1.一種利用圖像處理技術及語義向量空間的文本語義處理方法,其特徵在於具體步驟分為:文本輸入及預處理、語義向量構建、語義信息處理、語義處理結果展示4個步驟; 各步驟的具體內容如下: (O文本輸入及預處理,具體步驟如下: 文本輸入及預處理包含兩個分步驟:文本輸入、文本預處理: (1.1)文本輸入,是將用戶提交的待處理文本輸入系統; (1.2)文本預處理,具體步驟為: (1.2.1)對於輸入的文本,首先按照語句分割標誌符號進行語句分割處理,得到有序的語句序列; (1.2.2)對序列中的每一句,進行停用詞去除操作,將真正有語義的詞語保留下來,在減少無語義詞語幹擾、提高語義處理結果可靠性的同時,也減少了後續處理的計算量; (2)語義向量構建,具體步驟如下: 將文本單元視作圖像像素,語義特徵視作像素灰度,語義特徵採用多種方法進行計算,構建語義向量的訓練數據來源於各大知識庫; (3)語義信息處理,分為如下4個分步驟: 語義轉折句提取、語義噪聲句檢測、語義範圍跟蹤、語義場景分割: (3.1)語義轉折句提取,具體步驟如下: 對預處理後得到的有序的語句序列,依次對每個語句進行如下操作: 以該句為中心進行加窗,窗口寬度W根據實際情況而定:W=2XR++i 其中,R為窗口半徑,此時參考圖像處理中SOBEL模板並將其降至一維形式後得到的如下鄰域模板對序列進行卷積:卜I O I] 語義梯度計算如下:E(i) = Disl(S(1-l),S(itl)) 其中,S⑴表示序列號為i的語句對應的語義向量,Dist (a, b)表示向量a和向量b之間的距離; 直接考察相似度:S1 = 1- E(I) = Sim(S{1- l)?S(i + I)) 這裡,Sim (a, b)表示向量a和向量b的相似度; 同時,為去除結果的冗餘性,當相鄰兩句都符合語義轉折句條件時,說明它們是前一語義段的末尾和後一語義段的開頭,此時只保留相似度較低的那一句;另外,為保證結果的穩定性,當鄰域語句中至少有一句在去除停用詞後剩餘詞語數目小於一定數值時的結果不予考慮; (3.2)語義噪聲句檢測 採用圖像處理中的噪聲檢測方法,實現對語義無關句的自動檢測; 參考圖像處理中LAPLACIAN模板並將其降至一維形式後得到的如下鄰域模板對序列進行卷積:![—I 2 -1] 語義梯度計算如下:
2.基於權利要求1所述方法的利用圖像處理技術及語義向量空間的文本語義處理系統,其特徵在於由四大模塊組成:文本輸入及預處理模塊、語義向量構建模塊、語義信息處理模塊、語義處理結果展示模塊,分別對應於權利要求1中文本語義處理方法的4個步驟,其中: (I)文本輸入及預處理模塊,包含兩個子模塊:文本輸入子模塊、文本預處理子模塊,對應於權利要求1中文本輸入及預處理步驟中的2個分步驟; (1.1)文本輸入子模塊,該子模塊將用戶提交的待處理文本輸入系統; (1.2)文本預處理子模塊,該子模塊依次進行如下工作: (1.2.1)對於輸入的文本,首先按照語句分割標誌符號進行語句分割處理,得到有序的語句序列; (1.2.2)對序列中的每一句,進行停用詞去除操作,將真正有語義的詞語保留下來; (2)語義向量構建模塊,具體內容如下: 將文本單元視作圖像像素,語義特徵視作像素灰度,語義特徵可採用多種方法進行計算得到; 構建語義向量的訓練數據來源於各大知識庫; (3)語義信息處理模塊,具體內容如下: 該模塊包括語義轉折句提取、語義噪聲句檢測、語義範圍跟蹤、語義場景分割四個子模塊,分別對應於權利要求1中語義信息處理步驟中的4個分步驟: (3.1)語義轉折句提取子模塊,具體內容如下: 對預處理後得到的有序的語句序列,依次對每個語句進行如下操作: 以該句為中心進行加窗,窗口寬度W可根據實際情況而定,
【文檔編號】G06F17/30GK104035992SQ201410253847
【公開日】2014年9月10日 申請日期:2014年6月10日 優先權日:2014年6月10日
【發明者】王曉平, 肖仰華, 汪衛 申請人:復旦大學