一種文本集合相似性的可視化方法和裝置的製作方法
2023-04-28 13:19:46 1
專利名稱:一種文本集合相似性的可視化方法和裝置的製作方法
技術領域:
本發明涉及文本信息處理和信息可視化領域,特別涉及一種文本集合相似性的可視化方法和裝置。
背景技術:
隨著信息技術的快速發展,海量信息不斷湧現,使得人們對其處理和理解的難度日益增大。傳統的文本處理技術雖已在一定程度上實現了從大數據中挖掘出重要信息,但是這些挖掘出的信息通常仍然無法滿足人們利用瀏覽、篩選等方式對其進行合理地分析、理解和應用。面對這種挑戰,文本可視化技術應運而生,它將文本中複雜的或者難以通過文字表達的內容和規律,以視覺符號的形式表達出來,同時向人們提供與視覺信息進行快速交互的功能,使人們能夠利用與生俱來的視覺感知的並行化處理能力快速獲取大數據中所蘊含的關鍵信息,為人們提供了一種理解文本的內容、結構和內在規律等信息的有效手段。基於文本內容的可視化技術將詞頻(詞語在文本中的出現次數)、分布情況等基本統計信息進行圖形化呈現,能使用戶快速地了解文本的大體內容,對於進一步的分析具有重要的嚮導意義。其中,標籤雲是一種將文本看作詞語的集合,利用詞頻信息來呈現文本特徵的可視化技術。標籤雲將詞語按照一定順序和規律排列,如頻度遞減順序、字母順序等,以文字的大小代表詞語的頻度或重要性。最初的標籤雲大多都採用將文字一行一行地水平排列的方式,後來漸漸遵循更加美觀複雜的布局規則,Jonathan Feinberg提出的Wordle便是其中被廣泛採用的代表之一。在Wordle中,詞語的布局採用水平、豎直相結合的方式,並將文字間的空隙充分利用,使得可視化結果更加緊湊、美觀。然而,標籤雲只能對單一文本集合進行可視化,不能表現文本集合之間的關係。
發明內容
為克服上述現有技術的缺點,本發明的目的在於提供一種文本集合的相似性的可視化方法和裝置,通過建立文本集合相似度計算模型來對文本集合的相似性進行度量,並以圖形化的方式顯示結果,使用戶對兩個文本集合的相似性有直觀地了解。為實現上述目的,本法採取如下技術方案一方面,提供了一種文本集合相似性的可視化方法,所述方法包括對文本集合進行預處理,以得到文本集合的特徵詞及特徵詞的權重;對文本集合的相似度進行計算;對文本集合的相似性進行可視化。另一方面,提供了一種文本集合相似性的可視化裝置,所述裝置包括預處理模塊,用於將待可視化的原始數據進行預處理,獲得文本集合的特徵詞及特徵詞的權重;文本相似性計算模塊,用於計算文本集合的相似度;可視化模塊,用於利用上述結果數據進行信息可視化,呈現出文本集合的相似性。
與現有技術相比,本發明的有益效果是將文本集合的特徵詞及文本集合的相似關係通過圖形界面進行展示,從而達到使用戶直觀、快速地了解文本集合內容以及相似性信息的目的。
圖1是本發明實施例1提供的文本集合相似性的可視化方法流程圖。圖2是本發明實施例2提供的文本集合相似性的可視化裝置結構示意圖。圖3是本發明實施例3提供的文本集合相似性的可視化裝置結構示意圖。圖4是應用本發明實施例3所述裝置對文本集合相似性進行可視化的結果示例示意圖。
具體實施例方式為使本發明的目的、技術方案和優點更加清楚,下面將結合附圖和實施例對本發明作進一步的詳細描述。實施例1參見圖1,本實施例提供了一種文本集合相似性的可視化方法,方法流程如下所示101 :對文本集合進行預處理;102 :對文本集合的相似度進行計算;103 :對文本集合的相似性進行可視化。本實施例提供的方法,通過建立文本集合相似度計算模型來對文本集合的相似性進行度量,並以圖形化的方式顯示相似性結果,達到使用戶直觀、快速地了解文本集合內容以及相似性信息的有益效果。實施例2參見圖2,本實施提供了一種文本集合相似性的可視化裝置,該裝置包括預處理模塊201,用於對待進行相似度計算的文本集合進行預處理;相似度計算模塊202,用於對經預處理後的文本集合進行相似度計算;可視化模塊203,用於對文本集合的相似性進行可視化。具體地,上述預處理模塊201中,將文本集合切分成詞,去除停用詞後得到文本特徵詞,並計算詞語的權重;其中,停用詞指如「的」、「和」和「在」等一些介詞、語氣助詞和非
常常用的字詞。相似度計算模塊202中,通過文本集合的特徵詞及其權重,計算文本集合的相似度。可視化模塊203中,圖形化展示的視覺特點描述如下1.特徵詞整體分布呈橢圓形,字體越大,位置越靠原點;2.共同特徵詞以顏色I表示,字體大小與特徵詞的權重以及文本集合A與B的相似度大小相關,並且比非共同特徵詞字體大,以突顯共同特徵詞;3.文本集合A的非共同特徵詞以顏色2表示,字體大小與特徵詞的權重相關;4.文本集合B的非共同特徵詞以顏色3表示,字體大小與特徵詞的權重相關;
5.文本集合A和B的非共同特徵詞的邊界,在保證圖形輪廓規則性的基礎上,與非共同特徵詞組的大小相關。實施例3參見圖3,本實施提供了一種文本集合相似性的可視化裝置,該裝置包括:預處理模塊301,用於對待可視化的原始數據進行預處理,獲得文本集合的特徵詞及權重;相似度計算模塊302,用於對經預處理後的文本集合進行相似度計算;可視化模塊303,用於利用上述結果對文本集合的相似性進行可視化。進一步地,所述的預處理模塊301包括:分詞單元301a,用於對文本集合進行分詞並去掉停用詞,得到獨立的特徵詞組;詞語權重計算單元301b,用於計算文本集合的特徵詞的權重。其中,分詞單元301a中,停用詞指如「的」、「和」和「在」等一些介詞、語氣助詞或是非常常用的字詞。分詞過程可以用已有或未來發明的方法進行,本實施例中不對其進行限制。其中,詞語權重計算單元301b,從分詞單元301a保存的文件中讀出分詞信息,統計詞頻並計算得出特徵詞的權重,將每個文本集合特徵詞及其權重以向量的形式保存在文本文檔中。在本實施例中,使用在信息檢索和文本挖掘時經常使用的加權技術TF-1DF(termfrequency-1nverse d ocument frequency)。所述的相似度計算模塊302包括: 計算模型構建單元302a,用於通過標註的文本語料計算出用於文本集合相似度計算的模型;計算單元302b,用於利用構建出的相似度計算模型和通過預處理模塊301得到的文本集合特徵詞及其權重,計算文本集合的相似度。以下是一種可能的實施方式:計算模型構建單元302a利用Leaning to Rank的方法,獲得文本相似度計算的模型。使用康奈爾大學計算機系開發的SVMrank工具包進行模型的構建,採用兩個文本集合的含權重特徵詞組的餘弦相似度、共同特徵詞個數、共同特徵詞個數分別與兩個特徵詞組的大小比值這4個特徵作為構建參數。然後,相似度計算單元302b基於構建的模型和待計算相似性的兩個文本集合的含權重特徵詞組,利用SVMm4工具
I
包計算出兩組特徵詞的相似度V。在本實施例中,定義文本集合的相似度》S =——17。
I + β所述的可視化模塊303,包括:布局計算單元303a,用於利用文本相似度值s和文本集合的含權重特徵詞組,計算出每個特徵詞在圖形展示中的大小和位置等布局信息;圖形界面單元303b,用於利用計算出的布局信息生成圖片,顯示在瀏覽設備中。其中,在本實施例中,布局計算單元303a計算出的布局信息特點描述如下:1.特徵詞整體分布呈橢圓形,字體越大,位置越靠原點;2.共同特徵詞以顏色I表示,字體大小與特徵詞的權重以及文本集合A與B的相似度大小相關,並且比非共同特徵詞字體大,以突顯共同特徵詞;3.文本集合A的非共同特徵詞以顏色2表示,字體大小與特徵詞的權重相關,例如權重越大,字體越大;4.文本集合B的非共同特徵詞以顏色3表示,字體大小與特徵詞的權重相關,例如權重越大,字體越大;5.文本集合A和B的非共同特徵詞的邊界,在保證圖形輪廓規則性的基礎上,與非共同特徵詞組的大小相關。具體地,以下是一種可能的實施方式:文本集合的共同特徵詞以紅色表示,特徵詞i字體大小用以下公式決定
權利要求
1.一種文本集合相似性的可視化方法,其特徵在於,所述方法包括: 對文本集合進行預處理,以得到文本集合的特徵詞及特徵詞的權重; 對文本集合的相似度進行計算; 對文本集合的相似性進行可視化。
2.根據權利要求1所述的方法,其特徵在於,所述預處理包括: 將文本集合中的句子切分成詞;去除停用詞得到文本集合的特徵詞;並通過出現頻次計算得到特徵詞的權重。
3.根據權利要求1所述的方法,其特徵在於,所述對文本集合的相似度進行計算,具體包括: 構建用於文本集合相似度計算的模型;利用構建出的相似度計算模型和通過預處理得到的文本集合的特徵詞及其權重,計算文本集合的相似度。
4.根據權利要求3所述的方法,其特徵在於,所述模型使用康奈爾大學計算機系開發的SVMm4工具包進行構建,採用兩個文本集合的含權重特徵詞組的餘弦相似度、共同特徵詞個數、共同特徵詞個數分 別與兩個特徵詞組的大小比值這4個特徵作為構建參數,然後, 利用SVMrank工具包計算出兩組特徵詞的相似度V,文本集合的相似度
5.根據權利要求1至4任一權利要求所述的方法,其特徵在於,所述對文本集合的相似性進行可視化包括: 計算特徵詞在圖形展示中布局信息;利用計算出的布局信息圖形化展示文本集合的相似性。
6.根據權利要求5所述的方法,其特徵在於,所述圖形化展示的視覺特點為: 特徵詞整體分布呈橢圓形,字體越大,位置越靠近原點;共同特徵詞以顏色I表示,字體大小與特徵詞的權重以及文本集合A與B的相似度大小相關,並且比非共同特徵詞字體大,以突顯共同特徵詞;文本集合A的非共同特徵詞以顏色2表示,字體大小與特徵詞的權重相關;文本集合B的非共同特徵詞以顏色3表示,字體大小與特徵詞的權重相關;文本集合A和B的非共同特徵詞的邊界,在保證圖形輪廓規則性的基礎上,與非共同特徵詞組的大小相關。
7.一種文本集合相似性的可視化裝置,其特徵在於,所述裝置包括: 預處理模塊,用於將待可視化的原始數據進行預處理,獲得文本集合的特徵詞及特徵詞的權重; 文本相似性計算模塊,用於計算文本集合的相似度; 可視化模塊,用於利用上述結果數據進行信息可視化,呈現出文本集合的相似性。
8.根據權利要求7所述的裝置,其特徵在於,所述預處理模塊包括: 分詞單元,用於將文本集合進行分詞並去掉停用詞,獲得獨立的特徵詞組; 詞語權重計算單元,用於計算文本集合的特徵詞的權重。
9.根據權利要求7所述的裝置,其特徵在於,所述文本相似性計算模塊包括: 計算模型構建單元,用於通過標註的文本語料構建用於文本集合相似度計算的模型; 計算單元,用於利用構建出的相似度計算模型和通過預處理模塊得到的文本集合特徵詞及權重,計算文本集合的相似度。
10.根據權利要求7至9任一權利要求所述的裝置,其特徵在於,所述可視化模塊包括: 布局計算單元,用於計算出每個特徵詞在圖形展示中的布局信息; 圖形界面單元,用於利用計算出的布局信息生成圖片,並顯示在瀏覽設備中。
11.根據權利要求10所述的裝置,其特徵在於,布局計算單元計算出的布局信息特點包括: 特徵詞整體分布呈橢圓形,字體越大,位置越靠近原點;共同特徵詞以顏色I表示,字體大小與特徵詞的權重以及文本集合A與B的相似度大小相關,並且比非共同特徵詞字體大,以突顯共同特徵詞;文本集合A的非共同特徵詞以顏色2表示,字體大小與特徵詞的權重相關;文本集合B的非共同特徵詞以顏色3表示,字體大小與特徵詞的權重相關;文本集合A和B的非共同特徵詞的邊界,在保證圖形輪廓規則性的基礎上,與非共同特徵詞組的大小相關。
全文摘要
本發明公開了一種文本集合相似性的可視化方法及裝置,屬於文本信息處理和信息可視化領域;所述方法包括對文本集合進行預處理;對文本集合的相似度進行計算;對文本集合的相似性進行可視化;所述裝置包括預處理模塊、文本相似性計算模塊和可視化模塊。本發明通過建立文本集合相似度計算模型來對文本集合的相似性進行度量,並以圖形化的方式顯示相似性結果,達到使用戶直觀、快速地了解文本集合內容以及相似性信息的有益效果。
文檔編號G06F17/21GK103077157SQ201310022589
公開日2013年5月1日 申請日期2013年1月22日 優先權日2013年1月22日
發明者唐家渝, 孫茂松, 劉知遠 申請人:清華大學