一種基於檢索結果數量的短文本相似度計算方法
2023-04-28 13:14:56
專利名稱:一種基於檢索結果數量的短文本相似度計算方法
技術領域:
本發明設計短文本的相似度計算,具體地指一種基於檢索結果數量的短文本相似度計算方法,屬於文本挖掘領域。
背景技術:
短文本(Short Text)指那些長度較短的文本形式,它具有廣泛的外延,越來越多的交流平臺更加頻繁地使用短文本,如手機簡訊息、即時消息、BBS標題、微博、在線聊天記錄、博客及新聞評論等。目前,短文本數據量日益龐大,對短文本的文本挖掘在話題跟蹤與發現、流行語分析、輿情預警、圖像檢索等領域有廣泛的應用前景。但是,由於短文本的文本長度短,導致其樣本特徵非常稀疏,不利於檢索分析。另外短文本表達簡潔或者使用不符合規範的要求,往往會超出傳統或者正常的文字表達意思,如現下網絡流行的「微博」,網絡用語中常常使用其諧音「圍脖」進行代指。短文本的這些獨特語言特徵大大降低了短文本相似度計算的精度,所以如何有效地提高計算精度是短文本挖掘的一個難點。為解決該難點,我們提出一種基於檢索結果數量的短文本相似度計算方法,利用大規模語料庫覆蓋面廣的特點,從語義上理解短文本的含義。
發明內容
本發明的目的是提供一種基於檢索結果數量的短文本相似度計算方法,能克服短文本自身樣本特徵不足和用語不規範的缺點,通過語義分析提高相似度計算的精度。為實現上述目的,本發明包括如下步驟(1)對短文本進行預處理;(2)將預處理後的單個短文本以及預處理後的短文本的兩兩組合作為檢索查詢詞分別提交給語料庫;(3)利用語料庫返回的檢索結果數量計算短文本兩兩之間的相似度。在上述技術方案中,所述步驟(1)具體為(1-1)利用通用的停用詞列表對短文本進行過濾,所述通用的停用詞為語氣助詞、 副詞、介詞和連接詞;(1-2)過濾組成短文本的各個單詞分詞變換形式的結尾,提取出單詞的詞幹,並計算所述詞幹的詞頻。在上述技術方案中,所述步驟O)中的語料庫為Web搜尋引擎或維基百科。在上述技術方案中,所述步驟C3)利用下述的公式計算短文本Sl和S2之間的相似度。
權利要求
1.一種基於檢索結果數量的短文本相似度計算方法,其特徵在於,包括如下步驟(1)對短文本進行預處理;(2)將預處理後的單個短文本以及預處理後的短文本的兩兩組合作為檢索查詢詞分別提交給語料庫;(3)利用語料庫返回的檢索結果數量計算短文本兩兩之間的相似度。
2.根據權利要求1所述基於檢索結果數量的短文本相似度計算方法,其特徵在於,所述步驟(1)具體為(1-1)利用通用的停用詞列表對短文本進行過濾,所述通用的停用詞為語氣助詞、副詞、介詞和連接詞;(1-2)過濾組成短文本的各個單詞分詞變換形式的結尾,提取出單詞的詞幹,並計算所述詞幹的詞頻。
3.根據權利要求1所述基於檢索結果數量的短文本相似度計算方法,其特徵在於步驟O)中所用搜尋引擎為Web搜尋引擎或維基百科。
4.根據權利要求1所述基於檢索結果數量的短文本相似度計算方法,其特徵在於,步驟(3)中相似度通過下式計算Similarity (si, s2) =-log/(^1^2)-log/(.1) +log/(.2)-log/(.1,.2)式中,f(sl)為將短文本si作為語料庫的檢索查詢詞得到的檢索結果的數量;f(s2)是將短文本s2作為語料庫的檢索查詢詞得到的檢索結果的數量;f (sl,s2)則將si和s2的組合作為語料庫的檢索查詢詞得到的檢索結果的數量。
5.根據權利要求1 4任一項所述基於檢索結果數量的短文本相似度計算方法,其特徵在於所述短文本的長度小於或者等於200字符。
全文摘要
本發明公開了一種基於檢索結果數量的短文本相似度計算方法,包括如下步驟(1)對短文本進行預處理;(2)將單個短文本和短文本的兩兩組合作為檢索查詢詞分別提交給大規模語料庫;(3)利用返回的檢索結果數量來計算短文本兩兩之間的相似度。本計算方法不依賴傳統的文本處理,而且能夠快速和有效地得到計算結果。將短文本作為檢索詞,大規模語料庫將返回包含該短文本的檢索結果。檢索結果內容包含該短文本的文本解釋,而其數量可以看作是一個壓縮器,蘊含著該短文本在該語料庫的語義解釋。
文檔編號G06F17/30GK102567537SQ20111045837
公開日2012年7月11日 申請日期2011年12月31日 優先權日2011年12月31日
發明者劉東飛, 夏紅霞, 李琳, 袁景凌, 鍾珞 申請人:武漢理工大學