新四季網

基於多義性關鍵詞的文本過濾方法及裝置製造方法

2023-06-14 07:32:51 1

基於多義性關鍵詞的文本過濾方法及裝置製造方法
【專利摘要】本發明公開一種基於多義性關鍵詞的文本過濾方法及裝置,其方法包括:以指定關鍵詞收集文本集;基於文本集生成預定多義性關鍵詞向量及文本向量;預定多義性關鍵詞包括所述指定關鍵詞;計算文本向量與預定多義性關鍵詞向量的相似度;過濾出相似度小於預定閾值的文本向量所對應的文本。本發明基於多義性TAG篩選出其主流含義所對應的文本列表,進而篩選出用戶所需要的文本,其成本小,效率高,過濾效果好,且無需人工幹預,對所有多義性關鍵詞均適用。
【專利說明】基於多義性關鍵詞的文本過濾方法及裝置
【技術領域】
[0001]本發明涉及網際網路【技術領域】,尤其涉及一種基於多義性關鍵詞的文本過濾方法及
>J-U ρ?α裝直。
【背景技術】
[0002]許多詞彙經常具有多個含義,而在不同語境下,其主要含義也會有所不同。比如「蘋果」這個詞有科技、水果、報紙等相關含義。而對於絕大多數資訊用戶來說,關注的往往是其科技含義及相關文章內容。因此需要將其它含義的文章從用戶訂閱的文章列表中去除。
[0003]如圖1所示,圖1是提取出「小米」這個多義詞TAG (從文章正文提取出來的關鍵詞,能夠代表文章主體內容)的文章列表,從該文章列表中,可以發現裡面不僅有小米公司相關文章,還有小米粥、人名等相關內容。而對於訂閱「小米」的用戶來說,最關心的應該是其科技含義,其它含義的文章則不希望出現在此。
[0004]目前,基於上述現象的一種解決方式是進行人工審核,對於含義與用戶理解不一致的情況的文章,在發布給用戶之前進行人工校驗,將不合格的文章進行刪除處理,以保證文章列表的一致性。
[0005]現有的這種人工審核方式,雖然過濾效果好,但是效率低,當TAG數量較多時,由於資訊更新很快,因此需要人工成本也較高。

【發明內容】

[0006]本發明的主要目的在於提供一種成本低且效率高的基於多義性關鍵詞的文本過濾方法及裝置。
[0007]為了達到上述目的,本發明提出一種基於多義性關鍵詞的文本過濾方法,包括:
[0008]以指定關鍵詞收集文本集;
[0009]基於所述文本集生成預定多義性關鍵詞向量及文本向量;所述預定多義性關鍵詞包括所述指定關鍵詞;
[0010]計算所述文本向量與所述預定多義性關鍵詞向量的相似度;
[0011]過濾出相似度小於預定閾值的文本向量所對應的文本。
[0012]本發明還提出一種基於多義性關鍵詞的文本過濾裝置,包括:
[0013]收集模塊,用於以指定關鍵詞收集文本集;
[0014]向量生成模塊,用於基於所述文本集生成預定多義性關鍵詞向量及文本向量;所述預定多義性關鍵詞包括所述指定關鍵詞;
[0015]相似度計算模塊,用於計算所述文本向量與所述預定多義性關鍵詞向量的相似度;
[0016]過濾模塊,用於過濾出相似度小於預定閾值的文本向量所對應的文本。
[0017]本發明提出的一種基於多義性關鍵詞的文本過濾方法及裝置,通過以指定關鍵詞收集文本集;基於所述文本集生成預定多義性關鍵詞向量及文本向量;計算文本向量與預定多義性關鍵詞向量的相似度,根據相似度大小過濾出相似度小於預定閾值的文本向量,從而篩選出用戶需要的多義性關鍵詞的主流含義對應文章,其成本小,效率高,過濾效果好,且無需人工幹預,對所有多義性關鍵詞均適用。
【專利附圖】

【附圖說明】
[0018]圖1是現有技術中提取出「小米」多義詞TAG的文章列表的示意圖;
[0019]圖2是本發明基於多義性關鍵詞的文本過濾方法較佳實施例的流程示意圖;
[0020]圖3是本發明中以關鍵詞收集文本集的一種實例示意圖;
[0021]圖4是基於圖3中的文本集統計的預定多義性關鍵詞出現的文本次數排序示意圖;
[0022]圖5是基於圖4得到的關鍵詞「蘋果」的文章與TAG向量相似度最差的前10條示意圖;
[0023]圖6是基於圖4得到的關鍵詞「蘋果」的文章與TAG向量相似度最高的前10條示意圖;
[0024]圖7a和圖7b分別是基於關鍵詞「小米」得到的相似度最低和最聞10條的不意圖;
[0025]圖8是本發明基於多義性關鍵詞的文本過濾裝置較佳實施例的結構示意圖。
[0026]為了使本發明的技術方案更加清楚、明了,下面將結合附圖作進一步詳述。
【具體實施方式】
[0027]本發明實施例的解決方案主要是:以指定關鍵詞收集文本集,對於多義性關鍵詞,篩選出其主流含義所對應的文本列表;基於該文本集生成預定多義性關鍵詞向量及文本向量;計算文本向量與預定多義性關鍵詞向量的相似度,根據相似度大小過濾出相似度小於預定閾值的文本向量,從而篩選出用戶需要的多義性關鍵詞的主流含義對應文章。
[0028]如圖1所示,本發明較佳實施例提出一種基於多義性關鍵詞的文本過濾方法,包括:
[0029]步驟SlOl,以指定關鍵詞收集文本集;
[0030]本實施例通過基於多義性TAG篩選出其主流含義所對應的文本列表,進而篩選出用戶所需要的文本。其中,多義性TAG是指從文本正文中提取出來的具有多種含義的關鍵詞,其能夠代表文章主體內容。
[0031]比如「蘋果」一詞有科技公司/產品、水果等含義,是一個多義性TAG。而對於資訊文章來說,其主流含義是偏科技。本實施例從提取出「蘋果」這個TAG來篩選出主流含義所對應的文章,以保證其含義的一致性。
[0032]當用戶需要搜索某一類文本時,比如需要搜索「蘋果」科技含義這類文章時,給定「蘋果」這一關鍵詞,並從實時資料庫中收集該指定關鍵詞下的所有文本列表及正文。
[0033]如圖3所示,圖3是以指定關鍵詞「蘋果」搜集到的「蘋果」及其部分文章列表的標題。
[0034]上述實時資料庫用於存儲後臺服務系統從網際網路中實時獲取的各種文本。在收集文本時,也可以直接從網際網路各網站中搜索包含有該指定關鍵詞的各種文本。
[0035]步驟S102,基於所述文本集生成預定多義性關鍵詞向量及文本向量;所述預定多義性關鍵詞包括所述指定關鍵詞;
[0036]對於預定多義性關鍵詞向量的生成,其過程如下:
[0037]當收集到指定關鍵詞下的所有文本後,對每一文本,從中提取若干類預定多義性關鍵詞(包括用戶指定的關鍵詞),統計每一類預定多義性關鍵詞在所有文本中出現的文本次數;然後根據統計的文本次數及對應的預定多義性關鍵詞的名稱生成每一類預定多義性關鍵詞的詞向量。
[0038]比如,對於收集的每一篇文章,一般會提取出1-5個預定多義性關鍵詞,針對每一個多義性關鍵詞,計算其在多少篇文章中出現。如圖4所示,圖4是含有「蘋果」一詞的所有文章裡,各預定多義性關鍵詞出現的文本次數(即文本篇數)從高到低的排序序列及對應的預定多義性關鍵詞名稱,由圖4可以看出:其主流資訊含義與科技相關。
[0039]然後根據統計的文本次數及對應的預定多義性關鍵詞的名稱生成每一類預定多義性關鍵詞的詞向量(以下簡稱TAG向量),其中TAG向量的每一個元素表示一個預定多義性關鍵詞,其值表示含有此預定多義性關鍵詞的文章的出現次數,比如:〈蘋果,695〉,〈iPhone, 173〉…〈iOS, 16>...。
[0040]對於文本向量的生成,其過程如下:
[0041]對每一文本進行分詞,並判斷上述所統計的TAG向量中的每一預定多義性關鍵詞在該文本中是否出現過,根據判斷結果標定相應的值,比如,若出現則標定為1,沒出現則為標定0,由此基於該標定的值及對應的預定多義性關鍵詞的名稱生成該文本的文本向量,該文本向量的長度與上述TAG向量的長度相同。
[0042]在文本向量中,每一個向量元素代表其所在位置的預定多義性關鍵詞在此文本中是否出現。比如:〈蘋果,1>,〈iPhone, l>...〈i0S,0>…。
[0043]步驟S103,計算所述文本向量與所述預定多義性關鍵詞向量的相似度;
[0044]然後,計算文本向量與TAG向量的相似度,相似度可以採用餘弦公式來度量,具體採用如下公式:
【權利要求】
1.一種基於多義性關鍵詞的文本過濾方法,其特徵在於,包括: 以指定關鍵詞收集文本集; 基於所述文本集生成預定多義性關鍵詞向量及文本向量;所述預定多義性關鍵詞包括所述指定關鍵詞; 計算所述文本向量與所述預定多義性關鍵詞向量的相似度; 過濾出相似度小於預定閾值的文本向量所對應的文本。
2.根據權利要I所述的方法,其特徵在於,所述以指定關鍵詞收集文本集的步驟包括: 以指定關鍵詞從實時資料庫中收集該指定關鍵詞下的所有文本列表及正文。
3.根據權利要I所述的方法,其特徵在於,所述基於文本集生成預定多義性關鍵詞向量及文本向量的步驟包括: 對於所述文本集中的每一文本,從中提取若干類預定多義性關鍵詞; 統計每一類預定多義性關鍵詞在所述文本集中出現的文本次數; 根據統計的文本次數及對應的預定多義性關鍵詞的名稱生成每一類預定多義性關鍵詞的詞向量; 對每一文本進行分詞,並判斷所統計的詞向量中的每一預定多義性關鍵詞在該文本中是否出現過; 根據判斷結果標定相應的值,基於該標定的值及對應的預定多義性關鍵詞的名稱生成該文本的文本向量。
4.根據權利要1、2或3所述的方法,其特徵在於,所述過濾出相似度小於預定閾值的文本向量所對應的文本的步驟之前包括: 對所有文本向量與所述預定多義性關鍵詞向量的相似度進行排序。
5.根據權利要I所述的方法,其特徵在於,所述預定多義性關鍵詞屬於同一類詞。
6.一種基於多義性關鍵詞的文本過濾裝置,其特徵在於,包括: 收集模塊,用於以指定關鍵詞收集文本集; 向量生成模塊,用於基於所述文本集生成預定多義性關鍵詞向量及文本向量;所述預定多義性關鍵詞包括所述指定關鍵詞; 相似度計算模塊,用於計算所述文本向量與所述預定多義性關鍵詞向量的相似度; 過濾模塊,用於過濾出相似度小於預定閾值的文本向量所對應的文本。
7.根據權利要求6所述的裝置,其特徵在於,所述收集模塊還用於以指定關鍵詞從實時資料庫中收集該指定關鍵詞下的所有文本列表及正文。
8.根據權利要求6所述的裝置,其特徵在於,所述向量生成模塊還用於對於所述文本集中的每一文本,從中提取若干類預定多義性關鍵詞;統計每一類預定多義性關鍵詞在所述文本集中出現的文本次數;根據統計的文本次數及對應的預定多義性關鍵詞的名稱生成每一類預定多義性關鍵詞的詞向量;對每一文本進行分詞,並判斷所統計的詞向量中的每一預定多義性關鍵詞在該文本中是否出現過;根據判斷結果標定相應的值,基於該標定的值及對應的預定多義性關鍵詞的名稱生成該文本的文本向量。
9.根據權利要求6、7或8所述的裝置,其特徵在於,所述相似度計算模塊還用於對所有文本向量與所述預定多義性關鍵詞向量的相似度進行排序。
10.根據權利要求6所述的裝置,其特徵在於,所述預定多義性關鍵詞屬於同一類詞。
【文檔編號】G06F17/30GK104008098SQ201310055818
【公開日】2014年8月27日 申請日期:2013年2月21日 優先權日:2013年2月21日
【發明者】蔡兵 申請人:騰訊科技(深圳)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀