新四季網

利用圖像處理技術及語義向量空間的文本語義處理方法和系統的製作方法

2023-07-05 17:01:16

利用圖像處理技術及語義向量空間的文本語義處理方法和系統的製作方法
【專利摘要】本發明屬於文本語義信息處理【技術領域】,具體涉及一種利用圖像處理技術及語義向量空間的文本語義處理方法和系統。本發明包括文本輸入及預處理、語義向量構建、語義信息處理、語義處理結果展示模塊;語義信息處理具體包括:語義轉折句提取、語義噪聲句檢測、語義範圍跟蹤和語義場景分割。本發明將文本單元映射為圖像中的像素,並將描述文本單元的語義向量視為圖像中的像素點灰度,從而能引入圖像處理領域中的各種技術和方法來靈活、直觀地處理文本,而且不易受到詞語本身形式多樣化的影響;同時,通過引入Word2Vec方法構建語義向量,保證了算法的輕量級,以應對實時應用的需求。
【專利說明】利用圖像處理技術及語義向量空間的文本語義處理方法和系統
【技術領域】
[0001]本發明屬於文本語義信息處理【技術領域】,具體涉及一種輕量級的利用圖像處理技術及語義向量空間的文本語義處理方法和系統。
【背景技術】
[0002]隨著計算機技術及網絡的發展,如今已進入信息爆炸時代一各種海量的數據以電子文本的形式呈現出來,在這種情況下,能夠快速、準確地從中抽取出用戶所關心的信息這一需求日益迫切,文本信息處理技術正是在這種背景下應運而生的,而文本的語義處理則是重中之重,它使得我們從語言處理邁向了語言理解。文本語義處理技術在很多領域都很有應用價值,如文本語義分段、自動文本摘要抽取、電子閱讀語義導航等。
[0003]然而,目前的文本語義處理技術仍有一些局限性,以文本語義分割技術為例,基本上上是從基於詞頻統計的角度出發,通過計算相鄰文本塊內重複出現詞語的詞頻統計向量的相似度來實現語義分割,如經典的TextTiling算法、Dotplotting算法,但它們都沒有考慮到詞語蘊含的語義空間,不能應對詞語變體或者是同義詞、近義詞的影響,因而魯棒性不強;在此之後的一些算法如ESA (Explicit semantic analysis)算法雖然通過引入語義向量空間增強了魯棒性,但由於其語義空間維度過高、計算代價巨大,無法滿足實時應用的需求;還有如TopicTilling算法,雖然通過加入詞與主題間的聯繫改進了分割性能,但其需要複雜的主題模型介入,等等。

【發明內容】

[0004]本發明針對文本語義信息處理技術背景的弱點提出了一種輕量級的利用圖像處理技術及語義向量空間的文本語義處理方法和系統。
[0005]本發明將文本單元映射為圖像中的像素,並將描述文本單元的語義向量視為圖像中的像素點灰度,從而不僅得以引入圖像處理領域中的各種技術和方法來對文本進行靈活、直觀地處理,而且也不易受到詞語本身形式多樣化的影響;同時,通過引入Word2Vec方法構建語義向量,保證了算法的輕量級,能夠滿足實時應用需求。
[0006]本發明面向文本語義處理中的幾個應用場景分別提出了針對性的技術。具體地:面向文本分割需求,使用圖像邊緣檢測技術實現對語義轉折句的提取;面向電子文本中的語義不相關語句(如廣告植入語句),採用圖像處理中的噪聲檢測方法進行提取;面向電子閱讀中的語義導航需求,採用圖像處理中的區域生長技術實現對用戶感興趣內容的語義範圍跟蹤;面向信息快速推送場合的語義切分需求,採用圖像分割方法實現對不同語義場景的分割。
[0007]本發明提供的輕量級的利用圖像處理技術及語義向量空間的文本語義處理方法,具體步驟分為:文本輸入及預處理、語義向量構建、語義信息處理、語義處理結果展示;其中: 1.文本輸入及預處理:是對於輸入的文本,首先進行語句分割處理,從而得到有序的語句序列,然後對每一句都進行停用詞去除操作,目的是去除助詞等幹擾、保留下真正有語義的詞語;
2.語義向量構建:基於大數據資源進行訓練,構建詞與語義空間的映射,從而為語義的比較提供可靠依據;
3.語義信息處理:包括語義轉折句提取、語義噪聲句檢測、語義範圍跟蹤、語義場景分割四個分步驟,核心是利用圖像處理技術並結合語義向量空間來對不同的場景需求進行處理以實現相應的功能;
4.語義處理結果展示:將處理結果進行輸出展示,並提交給用戶。
[0008]各步驟的具體內容如下:
(O文本輸入及預處理,具體步驟如下:
文本輸入及預處理包含兩個分步驟:文本輸入、文本預處理:
(1.1)文本輸入,是將用戶提交的待處理文本輸入系統;
(1.2)文本預處理,具體步驟為:
(1.2.1)對於輸入的文本,首先按照語句分割標誌符號(如句號、感嘆號等)進行語句分割處理,從而得到有序的語句序列;
(1.2.2)對序列中的每一句,進行停用詞去除操作,目的是將真正有語義的詞語保留下來,在減少無語義詞語幹擾、提高語義處理結果可靠性的同時,也減少了後續處理的計算量。
[0009](2)語義向量構建,具體步驟如下:
將文本單元視作圖像像素,語義特徵視作像素灰度,語義特徵可採用多種方法進行計算,如 Word2Vec 方法、ESA (Explicit semantic analysis)特徵、LSA (Latent semanticanalysis)特徵、共現詞頻率特徵等等,由於本發明的目的是面向能滿足實時應用需求的輕量級的方法,因此,優選地,採用 Word2Vec 方法(https://code, google.com/p/word2vec/,同時參見文獻[1,2,3])。
[0010]構建語義向量的訓練數據可來源於各大知識庫,優選地,採用維基百科知識庫(http://www.wikipedia.0rg/)。
[0011](3)語義信息處理,分為如下4個分步驟:
語義轉折句提取、語義噪聲句檢測、語義範圍跟蹤、語義場景分割:
(3.1)語義轉折句提取,具體步驟如下:
對預處理後得到的有序的語句序列,依次對每個語句進行如下操作:
以該句為中心進行加窗,窗口寬度W可根據實際情況而定,
W=ZXRfl
其中,R為窗口半徑。優選地,取窗口半徑為1,即窗口寬度為3,此時參考圖像處理中SOBEL模板並將其降至一維形式後得到的如下鄰域模板對序列進行卷積:
[-1 O I]
具體地,語義梯度計算如下:
E(i) = mst(S{1-l),S(itl))其中,S(i)表示序列號為i的語句對應的語義向量,Dist (a, b)表示向量a和向量b之間的距離。
[0012]為方便起見,可以直接考察相似度:
【權利要求】
1.一種利用圖像處理技術及語義向量空間的文本語義處理方法,其特徵在於具體步驟分為:文本輸入及預處理、語義向量構建、語義信息處理、語義處理結果展示4個步驟; 各步驟的具體內容如下: (O文本輸入及預處理,具體步驟如下: 文本輸入及預處理包含兩個分步驟:文本輸入、文本預處理: (1.1)文本輸入,是將用戶提交的待處理文本輸入系統; (1.2)文本預處理,具體步驟為: (1.2.1)對於輸入的文本,首先按照語句分割標誌符號進行語句分割處理,得到有序的語句序列; (1.2.2)對序列中的每一句,進行停用詞去除操作,將真正有語義的詞語保留下來,在減少無語義詞語幹擾、提高語義處理結果可靠性的同時,也減少了後續處理的計算量; (2)語義向量構建,具體步驟如下: 將文本單元視作圖像像素,語義特徵視作像素灰度,語義特徵採用多種方法進行計算,構建語義向量的訓練數據來源於各大知識庫; (3)語義信息處理,分為如下4個分步驟: 語義轉折句提取、語義噪聲句檢測、語義範圍跟蹤、語義場景分割: (3.1)語義轉折句提取,具體步驟如下: 對預處理後得到的有序的語句序列,依次對每個語句進行如下操作: 以該句為中心進行加窗,窗口寬度W根據實際情況而定:W=2XR++i 其中,R為窗口半徑,此時參考圖像處理中SOBEL模板並將其降至一維形式後得到的如下鄰域模板對序列進行卷積:卜I O I] 語義梯度計算如下:E(i) = Disl(S(1-l),S(itl)) 其中,S⑴表示序列號為i的語句對應的語義向量,Dist (a, b)表示向量a和向量b之間的距離; 直接考察相似度:S1 = 1- E(I) = Sim(S{1- l)?S(i + I)) 這裡,Sim (a, b)表示向量a和向量b的相似度; 同時,為去除結果的冗餘性,當相鄰兩句都符合語義轉折句條件時,說明它們是前一語義段的末尾和後一語義段的開頭,此時只保留相似度較低的那一句;另外,為保證結果的穩定性,當鄰域語句中至少有一句在去除停用詞後剩餘詞語數目小於一定數值時的結果不予考慮; (3.2)語義噪聲句檢測 採用圖像處理中的噪聲檢測方法,實現對語義無關句的自動檢測; 參考圖像處理中LAPLACIAN模板並將其降至一維形式後得到的如下鄰域模板對序列進行卷積:![—I 2 -1] 語義梯度計算如下:
2.基於權利要求1所述方法的利用圖像處理技術及語義向量空間的文本語義處理系統,其特徵在於由四大模塊組成:文本輸入及預處理模塊、語義向量構建模塊、語義信息處理模塊、語義處理結果展示模塊,分別對應於權利要求1中文本語義處理方法的4個步驟,其中: (I)文本輸入及預處理模塊,包含兩個子模塊:文本輸入子模塊、文本預處理子模塊,對應於權利要求1中文本輸入及預處理步驟中的2個分步驟; (1.1)文本輸入子模塊,該子模塊將用戶提交的待處理文本輸入系統; (1.2)文本預處理子模塊,該子模塊依次進行如下工作: (1.2.1)對於輸入的文本,首先按照語句分割標誌符號進行語句分割處理,得到有序的語句序列; (1.2.2)對序列中的每一句,進行停用詞去除操作,將真正有語義的詞語保留下來; (2)語義向量構建模塊,具體內容如下: 將文本單元視作圖像像素,語義特徵視作像素灰度,語義特徵可採用多種方法進行計算得到; 構建語義向量的訓練數據來源於各大知識庫; (3)語義信息處理模塊,具體內容如下: 該模塊包括語義轉折句提取、語義噪聲句檢測、語義範圍跟蹤、語義場景分割四個子模塊,分別對應於權利要求1中語義信息處理步驟中的4個分步驟: (3.1)語義轉折句提取子模塊,具體內容如下: 對預處理後得到的有序的語句序列,依次對每個語句進行如下操作: 以該句為中心進行加窗,窗口寬度W可根據實際情況而定,
【文檔編號】G06F17/30GK104035992SQ201410253847
【公開日】2014年9月10日 申請日期:2014年6月10日 優先權日:2014年6月10日
【發明者】王曉平, 肖仰華, 汪衛 申請人:復旦大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀