基於多義性關鍵詞的文本過濾方法及裝置製造方法
2023-06-14 07:32:51 1
基於多義性關鍵詞的文本過濾方法及裝置製造方法
【專利摘要】本發明公開一種基於多義性關鍵詞的文本過濾方法及裝置,其方法包括:以指定關鍵詞收集文本集;基於文本集生成預定多義性關鍵詞向量及文本向量;預定多義性關鍵詞包括所述指定關鍵詞;計算文本向量與預定多義性關鍵詞向量的相似度;過濾出相似度小於預定閾值的文本向量所對應的文本。本發明基於多義性TAG篩選出其主流含義所對應的文本列表,進而篩選出用戶所需要的文本,其成本小,效率高,過濾效果好,且無需人工幹預,對所有多義性關鍵詞均適用。
【專利說明】基於多義性關鍵詞的文本過濾方法及裝置
【技術領域】
[0001]本發明涉及網際網路【技術領域】,尤其涉及一種基於多義性關鍵詞的文本過濾方法及
>J-U ρ?α裝直。
【背景技術】
[0002]許多詞彙經常具有多個含義,而在不同語境下,其主要含義也會有所不同。比如「蘋果」這個詞有科技、水果、報紙等相關含義。而對於絕大多數資訊用戶來說,關注的往往是其科技含義及相關文章內容。因此需要將其它含義的文章從用戶訂閱的文章列表中去除。
[0003]如圖1所示,圖1是提取出「小米」這個多義詞TAG (從文章正文提取出來的關鍵詞,能夠代表文章主體內容)的文章列表,從該文章列表中,可以發現裡面不僅有小米公司相關文章,還有小米粥、人名等相關內容。而對於訂閱「小米」的用戶來說,最關心的應該是其科技含義,其它含義的文章則不希望出現在此。
[0004]目前,基於上述現象的一種解決方式是進行人工審核,對於含義與用戶理解不一致的情況的文章,在發布給用戶之前進行人工校驗,將不合格的文章進行刪除處理,以保證文章列表的一致性。
[0005]現有的這種人工審核方式,雖然過濾效果好,但是效率低,當TAG數量較多時,由於資訊更新很快,因此需要人工成本也較高。
【發明內容】
[0006]本發明的主要目的在於提供一種成本低且效率高的基於多義性關鍵詞的文本過濾方法及裝置。
[0007]為了達到上述目的,本發明提出一種基於多義性關鍵詞的文本過濾方法,包括:
[0008]以指定關鍵詞收集文本集;
[0009]基於所述文本集生成預定多義性關鍵詞向量及文本向量;所述預定多義性關鍵詞包括所述指定關鍵詞;
[0010]計算所述文本向量與所述預定多義性關鍵詞向量的相似度;
[0011]過濾出相似度小於預定閾值的文本向量所對應的文本。
[0012]本發明還提出一種基於多義性關鍵詞的文本過濾裝置,包括:
[0013]收集模塊,用於以指定關鍵詞收集文本集;
[0014]向量生成模塊,用於基於所述文本集生成預定多義性關鍵詞向量及文本向量;所述預定多義性關鍵詞包括所述指定關鍵詞;
[0015]相似度計算模塊,用於計算所述文本向量與所述預定多義性關鍵詞向量的相似度;
[0016]過濾模塊,用於過濾出相似度小於預定閾值的文本向量所對應的文本。
[0017]本發明提出的一種基於多義性關鍵詞的文本過濾方法及裝置,通過以指定關鍵詞收集文本集;基於所述文本集生成預定多義性關鍵詞向量及文本向量;計算文本向量與預定多義性關鍵詞向量的相似度,根據相似度大小過濾出相似度小於預定閾值的文本向量,從而篩選出用戶需要的多義性關鍵詞的主流含義對應文章,其成本小,效率高,過濾效果好,且無需人工幹預,對所有多義性關鍵詞均適用。
【專利附圖】
【附圖說明】
[0018]圖1是現有技術中提取出「小米」多義詞TAG的文章列表的示意圖;
[0019]圖2是本發明基於多義性關鍵詞的文本過濾方法較佳實施例的流程示意圖;
[0020]圖3是本發明中以關鍵詞收集文本集的一種實例示意圖;
[0021]圖4是基於圖3中的文本集統計的預定多義性關鍵詞出現的文本次數排序示意圖;
[0022]圖5是基於圖4得到的關鍵詞「蘋果」的文章與TAG向量相似度最差的前10條示意圖;
[0023]圖6是基於圖4得到的關鍵詞「蘋果」的文章與TAG向量相似度最高的前10條示意圖;
[0024]圖7a和圖7b分別是基於關鍵詞「小米」得到的相似度最低和最聞10條的不意圖;
[0025]圖8是本發明基於多義性關鍵詞的文本過濾裝置較佳實施例的結構示意圖。
[0026]為了使本發明的技術方案更加清楚、明了,下面將結合附圖作進一步詳述。
【具體實施方式】
[0027]本發明實施例的解決方案主要是:以指定關鍵詞收集文本集,對於多義性關鍵詞,篩選出其主流含義所對應的文本列表;基於該文本集生成預定多義性關鍵詞向量及文本向量;計算文本向量與預定多義性關鍵詞向量的相似度,根據相似度大小過濾出相似度小於預定閾值的文本向量,從而篩選出用戶需要的多義性關鍵詞的主流含義對應文章。
[0028]如圖1所示,本發明較佳實施例提出一種基於多義性關鍵詞的文本過濾方法,包括:
[0029]步驟SlOl,以指定關鍵詞收集文本集;
[0030]本實施例通過基於多義性TAG篩選出其主流含義所對應的文本列表,進而篩選出用戶所需要的文本。其中,多義性TAG是指從文本正文中提取出來的具有多種含義的關鍵詞,其能夠代表文章主體內容。
[0031]比如「蘋果」一詞有科技公司/產品、水果等含義,是一個多義性TAG。而對於資訊文章來說,其主流含義是偏科技。本實施例從提取出「蘋果」這個TAG來篩選出主流含義所對應的文章,以保證其含義的一致性。
[0032]當用戶需要搜索某一類文本時,比如需要搜索「蘋果」科技含義這類文章時,給定「蘋果」這一關鍵詞,並從實時資料庫中收集該指定關鍵詞下的所有文本列表及正文。
[0033]如圖3所示,圖3是以指定關鍵詞「蘋果」搜集到的「蘋果」及其部分文章列表的標題。
[0034]上述實時資料庫用於存儲後臺服務系統從網際網路中實時獲取的各種文本。在收集文本時,也可以直接從網際網路各網站中搜索包含有該指定關鍵詞的各種文本。
[0035]步驟S102,基於所述文本集生成預定多義性關鍵詞向量及文本向量;所述預定多義性關鍵詞包括所述指定關鍵詞;
[0036]對於預定多義性關鍵詞向量的生成,其過程如下:
[0037]當收集到指定關鍵詞下的所有文本後,對每一文本,從中提取若干類預定多義性關鍵詞(包括用戶指定的關鍵詞),統計每一類預定多義性關鍵詞在所有文本中出現的文本次數;然後根據統計的文本次數及對應的預定多義性關鍵詞的名稱生成每一類預定多義性關鍵詞的詞向量。
[0038]比如,對於收集的每一篇文章,一般會提取出1-5個預定多義性關鍵詞,針對每一個多義性關鍵詞,計算其在多少篇文章中出現。如圖4所示,圖4是含有「蘋果」一詞的所有文章裡,各預定多義性關鍵詞出現的文本次數(即文本篇數)從高到低的排序序列及對應的預定多義性關鍵詞名稱,由圖4可以看出:其主流資訊含義與科技相關。
[0039]然後根據統計的文本次數及對應的預定多義性關鍵詞的名稱生成每一類預定多義性關鍵詞的詞向量(以下簡稱TAG向量),其中TAG向量的每一個元素表示一個預定多義性關鍵詞,其值表示含有此預定多義性關鍵詞的文章的出現次數,比如:〈蘋果,695〉,〈iPhone, 173〉…〈iOS, 16>...。
[0040]對於文本向量的生成,其過程如下:
[0041]對每一文本進行分詞,並判斷上述所統計的TAG向量中的每一預定多義性關鍵詞在該文本中是否出現過,根據判斷結果標定相應的值,比如,若出現則標定為1,沒出現則為標定0,由此基於該標定的值及對應的預定多義性關鍵詞的名稱生成該文本的文本向量,該文本向量的長度與上述TAG向量的長度相同。
[0042]在文本向量中,每一個向量元素代表其所在位置的預定多義性關鍵詞在此文本中是否出現。比如:〈蘋果,1>,〈iPhone, l>...〈i0S,0>…。
[0043]步驟S103,計算所述文本向量與所述預定多義性關鍵詞向量的相似度;
[0044]然後,計算文本向量與TAG向量的相似度,相似度可以採用餘弦公式來度量,具體採用如下公式:
【權利要求】
1.一種基於多義性關鍵詞的文本過濾方法,其特徵在於,包括: 以指定關鍵詞收集文本集; 基於所述文本集生成預定多義性關鍵詞向量及文本向量;所述預定多義性關鍵詞包括所述指定關鍵詞; 計算所述文本向量與所述預定多義性關鍵詞向量的相似度; 過濾出相似度小於預定閾值的文本向量所對應的文本。
2.根據權利要I所述的方法,其特徵在於,所述以指定關鍵詞收集文本集的步驟包括: 以指定關鍵詞從實時資料庫中收集該指定關鍵詞下的所有文本列表及正文。
3.根據權利要I所述的方法,其特徵在於,所述基於文本集生成預定多義性關鍵詞向量及文本向量的步驟包括: 對於所述文本集中的每一文本,從中提取若干類預定多義性關鍵詞; 統計每一類預定多義性關鍵詞在所述文本集中出現的文本次數; 根據統計的文本次數及對應的預定多義性關鍵詞的名稱生成每一類預定多義性關鍵詞的詞向量; 對每一文本進行分詞,並判斷所統計的詞向量中的每一預定多義性關鍵詞在該文本中是否出現過; 根據判斷結果標定相應的值,基於該標定的值及對應的預定多義性關鍵詞的名稱生成該文本的文本向量。
4.根據權利要1、2或3所述的方法,其特徵在於,所述過濾出相似度小於預定閾值的文本向量所對應的文本的步驟之前包括: 對所有文本向量與所述預定多義性關鍵詞向量的相似度進行排序。
5.根據權利要I所述的方法,其特徵在於,所述預定多義性關鍵詞屬於同一類詞。
6.一種基於多義性關鍵詞的文本過濾裝置,其特徵在於,包括: 收集模塊,用於以指定關鍵詞收集文本集; 向量生成模塊,用於基於所述文本集生成預定多義性關鍵詞向量及文本向量;所述預定多義性關鍵詞包括所述指定關鍵詞; 相似度計算模塊,用於計算所述文本向量與所述預定多義性關鍵詞向量的相似度; 過濾模塊,用於過濾出相似度小於預定閾值的文本向量所對應的文本。
7.根據權利要求6所述的裝置,其特徵在於,所述收集模塊還用於以指定關鍵詞從實時資料庫中收集該指定關鍵詞下的所有文本列表及正文。
8.根據權利要求6所述的裝置,其特徵在於,所述向量生成模塊還用於對於所述文本集中的每一文本,從中提取若干類預定多義性關鍵詞;統計每一類預定多義性關鍵詞在所述文本集中出現的文本次數;根據統計的文本次數及對應的預定多義性關鍵詞的名稱生成每一類預定多義性關鍵詞的詞向量;對每一文本進行分詞,並判斷所統計的詞向量中的每一預定多義性關鍵詞在該文本中是否出現過;根據判斷結果標定相應的值,基於該標定的值及對應的預定多義性關鍵詞的名稱生成該文本的文本向量。
9.根據權利要求6、7或8所述的裝置,其特徵在於,所述相似度計算模塊還用於對所有文本向量與所述預定多義性關鍵詞向量的相似度進行排序。
10.根據權利要求6所述的裝置,其特徵在於,所述預定多義性關鍵詞屬於同一類詞。
【文檔編號】G06F17/30GK104008098SQ201310055818
【公開日】2014年8月27日 申請日期:2013年2月21日 優先權日:2013年2月21日
【發明者】蔡兵 申請人:騰訊科技(深圳)有限公司