新四季網

一種基於檢索結果數量的短文本相似度計算方法

2023-04-28 13:14:56

專利名稱:一種基於檢索結果數量的短文本相似度計算方法
技術領域:
本發明設計短文本的相似度計算,具體地指一種基於檢索結果數量的短文本相似度計算方法,屬於文本挖掘領域。
背景技術:
短文本(Short Text)指那些長度較短的文本形式,它具有廣泛的外延,越來越多的交流平臺更加頻繁地使用短文本,如手機簡訊息、即時消息、BBS標題、微博、在線聊天記錄、博客及新聞評論等。目前,短文本數據量日益龐大,對短文本的文本挖掘在話題跟蹤與發現、流行語分析、輿情預警、圖像檢索等領域有廣泛的應用前景。但是,由於短文本的文本長度短,導致其樣本特徵非常稀疏,不利於檢索分析。另外短文本表達簡潔或者使用不符合規範的要求,往往會超出傳統或者正常的文字表達意思,如現下網絡流行的「微博」,網絡用語中常常使用其諧音「圍脖」進行代指。短文本的這些獨特語言特徵大大降低了短文本相似度計算的精度,所以如何有效地提高計算精度是短文本挖掘的一個難點。為解決該難點,我們提出一種基於檢索結果數量的短文本相似度計算方法,利用大規模語料庫覆蓋面廣的特點,從語義上理解短文本的含義。

發明內容
本發明的目的是提供一種基於檢索結果數量的短文本相似度計算方法,能克服短文本自身樣本特徵不足和用語不規範的缺點,通過語義分析提高相似度計算的精度。為實現上述目的,本發明包括如下步驟(1)對短文本進行預處理;(2)將預處理後的單個短文本以及預處理後的短文本的兩兩組合作為檢索查詢詞分別提交給語料庫;(3)利用語料庫返回的檢索結果數量計算短文本兩兩之間的相似度。在上述技術方案中,所述步驟(1)具體為(1-1)利用通用的停用詞列表對短文本進行過濾,所述通用的停用詞為語氣助詞、 副詞、介詞和連接詞;(1-2)過濾組成短文本的各個單詞分詞變換形式的結尾,提取出單詞的詞幹,並計算所述詞幹的詞頻。在上述技術方案中,所述步驟O)中的語料庫為Web搜尋引擎或維基百科。在上述技術方案中,所述步驟C3)利用下述的公式計算短文本Sl和S2之間的相似度。
權利要求
1.一種基於檢索結果數量的短文本相似度計算方法,其特徵在於,包括如下步驟(1)對短文本進行預處理;(2)將預處理後的單個短文本以及預處理後的短文本的兩兩組合作為檢索查詢詞分別提交給語料庫;(3)利用語料庫返回的檢索結果數量計算短文本兩兩之間的相似度。
2.根據權利要求1所述基於檢索結果數量的短文本相似度計算方法,其特徵在於,所述步驟(1)具體為(1-1)利用通用的停用詞列表對短文本進行過濾,所述通用的停用詞為語氣助詞、副詞、介詞和連接詞;(1-2)過濾組成短文本的各個單詞分詞變換形式的結尾,提取出單詞的詞幹,並計算所述詞幹的詞頻。
3.根據權利要求1所述基於檢索結果數量的短文本相似度計算方法,其特徵在於步驟O)中所用搜尋引擎為Web搜尋引擎或維基百科。
4.根據權利要求1所述基於檢索結果數量的短文本相似度計算方法,其特徵在於,步驟(3)中相似度通過下式計算Similarity (si, s2) =-log/(^1^2)-log/(.1) +log/(.2)-log/(.1,.2)式中,f(sl)為將短文本si作為語料庫的檢索查詢詞得到的檢索結果的數量;f(s2)是將短文本s2作為語料庫的檢索查詢詞得到的檢索結果的數量;f (sl,s2)則將si和s2的組合作為語料庫的檢索查詢詞得到的檢索結果的數量。
5.根據權利要求1 4任一項所述基於檢索結果數量的短文本相似度計算方法,其特徵在於所述短文本的長度小於或者等於200字符。
全文摘要
本發明公開了一種基於檢索結果數量的短文本相似度計算方法,包括如下步驟(1)對短文本進行預處理;(2)將單個短文本和短文本的兩兩組合作為檢索查詢詞分別提交給大規模語料庫;(3)利用返回的檢索結果數量來計算短文本兩兩之間的相似度。本計算方法不依賴傳統的文本處理,而且能夠快速和有效地得到計算結果。將短文本作為檢索詞,大規模語料庫將返回包含該短文本的檢索結果。檢索結果內容包含該短文本的文本解釋,而其數量可以看作是一個壓縮器,蘊含著該短文本在該語料庫的語義解釋。
文檔編號G06F17/30GK102567537SQ20111045837
公開日2012年7月11日 申請日期2011年12月31日 優先權日2011年12月31日
發明者劉東飛, 夏紅霞, 李琳, 袁景凌, 鍾珞 申請人:武漢理工大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀