新四季網

一種低頻點擊的過濾方法和裝置製造方法

2023-09-13 14:22:40 1

一種低頻點擊的過濾方法和裝置製造方法
【專利摘要】本發明公開了一種低頻點擊的過濾方法和裝置,包括:基於點擊用戶的點擊數據,對所述點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個點擊特徵集合;對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量;對所述一個或多個點擊特徵向量進行聚類處理,以得到所述點擊用戶的低頻點擊向量集合;以及根據所述低頻點擊向量集合確定對應的點擊為所述點擊用戶的低頻點擊,並從所述點擊數據中過濾掉所述低頻點擊。採用本發明的技術方案,能夠過濾點擊數據中的低頻點擊,並且能提高低頻點擊的過濾過程中過濾的精確度。
【專利說明】一種低頻點擊的過濾方法和裝置
【技術領域】
[0001]本發明涉及網際網路【技術領域】,具體涉及一種低頻點擊的過濾方法和裝置。
【背景技術】
[0002]低頻點擊是指帶有攻擊意圖的惡意用戶,在一段較長的時間內每隔一段時間(例如,每天)對某幾個內容項,或者幾個固定的內容項發布用戶,或者某幾個固定關鍵詞的內容項進行少量點擊(例如,一至兩次),以消耗這些用戶的內容項展示量的攻擊方式。低頻點擊的攻擊模式,隱蔽性較強,並且會給內容項發布用戶帶來損失,同時還將影響內容項發布用戶的用戶體驗。因此,需要對點擊數據進行低頻點擊過濾。
[0003]為了有效地發現並過濾掉低頻點擊,本發明提出一種對低頻點擊進行過濾的方案。

【發明內容】

[0004]鑑於上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的低頻點擊的過濾方法和裝置。
[0005]依據本發明的一個方面,提供了一種低頻點擊的過濾方法,包括:基於點擊用戶的點擊數據,對所述點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個點擊特徵集合;對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量;對所述一個或多個點擊特徵向量進行聚類處理,以得到所述點擊用戶的低頻點擊向量集合;以及根據所述低頻點擊向量集合確定對應的點擊為所述點擊用戶的低頻點擊,並從所述點擊數據中過濾掉所述低頻點擊。
[0006]其中,所述點擊數據包括如下中的一項或多項:點擊用戶的用戶標識、被點擊內容項的標識、點擊用戶搜索的搜索詞、被點擊的關鍵詞、被點擊用戶的用戶標識。
[0007]其中,對所述點擊用戶的點擊數據進行特徵提取時,所提取的特徵包括如下中的一項或多項:內容項標識特徵、搜索詞特徵、關鍵詞特徵、被點擊用戶的用戶標識特徵。
[0008]其中,對所述點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個點擊特徵集合,進一步包括:對所述點擊用戶每天的點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個每天的點擊數據對應的點擊特徵集合。
[0009]其中,對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量,包括:匯總所述一個或多個點擊特徵集合,以得到所述點擊用戶的點擊特徵匯總集合;根據所述點擊特徵匯總集合,對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量。
[0010]其中,匯總所述一個或多個點擊特徵集合,以得到所述點擊用戶的點擊特徵匯總集合,進一步包括:合併所述一個或多個點擊特徵集合,並將合併後得到的集合中重複的特徵去除,以得到所述點擊用戶的點擊特徵匯總集合。
[0011]其中,根據所述點擊特徵匯總集合,對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量,進一步包括:將所述點擊特徵匯總集合中的特徵與所述一個或多個點擊特徵集合中的特徵進行對比,以得到與所述一個或多個點擊特徵集合對應的一個或多個點擊特徵向量。
[0012]其中,對所述一個或多個點擊特徵向量進行聚類處理,以得到所述點擊用戶的低頻點擊向量集合,包括:對所述一個或多個點擊特徵向量進行聚類,以得到一個或多個點擊類別;其中,所述一個或多個點擊類別中的每一個點擊類別至少包括一個點擊特徵向量;提取所述一個或多個點擊類別中點擊特徵向量的數目超過預定閾值的點擊類別中的點擊特徵向量作為所述點擊用戶的低頻點擊向量,以得到所述點擊用戶的低頻點擊向量集合。
[0013]其中,還包括:提取所述點擊用戶的低頻點擊向量集合所對應的點擊的特徵,以生成所述點擊用戶對應的低頻點擊過濾表,其中,所述低頻點擊過濾表用於過濾掉所述點擊用戶進行的與所述低頻點擊過濾表中包含的特徵相關的點擊。
[0014]根據本發明的另一方面,提供了一種過濾低頻點擊的裝置,包括:特徵提取模塊,用於基於點擊用戶的點擊數據,對所述點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個點擊特徵集合;向量化模塊,用於對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量;聚類處理模塊,用於對所述一個或多個點擊特徵向量進行聚類處理,以得到所述點擊用戶的低頻點擊向量集合;以及過濾模塊,用於根據所述低頻點擊向量集合確定對應的點擊為所述點擊用戶的低頻點擊,並從所述點擊數據中過濾掉所述低頻點擊。
[0015]其中,所述點擊數據包括如下中的一項或多項:點擊用戶的用戶標識、被點擊內容項的標識、點擊用戶搜索的搜索詞、被點擊的關鍵詞、被點擊用戶的用戶標識。
[0016]其中,對所述每個點擊用戶的點擊數據進行特徵提取時,所提取的特徵包括如下中的一項或多項:內容項標識特徵、搜索詞特徵、關鍵詞特徵、被點擊用戶的用戶標識特徵。
[0017]其中,所述特徵提取模塊進一步用於:對所述點擊用戶每天的點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個每天的點擊數據對應的點擊特徵集合。
[0018]其中,所述向量化模塊,包括:匯總子模塊,用於匯總所述一個或多個點擊特徵集合,以得到所述點擊用戶的點擊特徵匯總集合;向量化子模塊,用於根據所述點擊用戶的點擊特徵匯總集合,對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量。
[0019]其中,所述匯總子模塊進一步用於:合併所述一個或多個點擊特徵集合,並將合併後得到的集合中重複的特徵去除,以得到所述點擊用戶的點擊特徵匯總集合。
[0020]其中,所述向量化子模塊進一步用於:將所述點擊特徵匯總集合中的特徵與所述一個或多個點擊特徵集合中的特徵進行對比,以得到與所述一個或多個點擊特徵集合對應的一個或多個點擊特徵向量。
[0021]其中,所述聚類處理模塊,包括:聚類子模塊,用於對所述一個或多個點擊特徵向量進行聚類,以得到一個或多個點擊類別;其中,所述一個或多個點擊類別中的每一個點擊類別至少包括一個點擊特徵向量;提取子模塊,用於提取所述一個或多個點擊類別中點擊特徵向量的數目超過預定閾值的點擊類別中的點擊特徵向量作為所述點擊用戶的低頻點擊向量,以得到所述點擊用戶的低頻點擊向量集合。
[0022]其中,還包括:過濾表生成模塊,用於提取所述點擊用戶的低頻點擊向量集合所對應的點擊的特徵,以生成所述點擊用戶對應的低頻點擊過濾表,其中,所述低頻點擊過濾表用於過濾掉所述點擊用戶進行的與所述低頻點擊過濾表中包含的特徵相關的點擊。
[0023]與現有技術相比,根據本發明的技術方案存在以下有益效果:
[0024](I)根據本發明的技術方案,可以過濾點擊數據中的低頻點擊,並且,與現有的過濾低頻點擊的方案相比具有更高的精確度。
[0025]( 2 )根據本發明的技術方案,可以在一定程度上保證正常的點擊不被過濾掉。
[0026]上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,並且為了讓本發明的上述和其它目的、特徵和優點能夠更明顯易懂,以下特舉本發明的【具體實施方式】。
【專利附圖】

【附圖說明】
[0027]通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對於本領域普通技術人員將變得清楚明了。附圖僅用於示出優選實施方式的目的,而並不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0028]圖1示出了根據本發明一個實施例的低頻點擊的過濾方法的流程圖;
[0029]圖2示出了根據本發明一個實施例的圖1中的步驟S120的流程圖;
[0030]圖3示出了根據本發明一個實施例的圖1中的步驟S130的流程圖;以及
[0031]圖4示出了根據本發明一個實施例的過濾低頻點擊的裝置的結構圖。
【具體實施方式】
[0032]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這裡闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,並且能夠將本公開的範圍完整的傳達給本領域的技術人員。
[0033]針對低頻點擊攻擊進行過濾的實現方法包括:(I)人工觀察點擊行為,這種方法需大量人力,過濾的精確度大部分取決於觀察人員的觀察能力和認真程度,並且,召回率較低;(2)根據被點擊用戶(內容項發布用戶)的投訴進行過濾,這種方法較為滯後,且也存在不準確的因素;(3)基於規則的過濾方法,也就是強制規定符合某一條件的點擊為低頻點擊,並將其過濾。基於規則的方法,是目前比較常用的低頻點擊的過濾方法,但是,制定的規則有時過於簡單,精確度較低,往往還會誤殺很多正常的點擊,並且,規則的制定需要對作弊的數據進行統計和深入的分析才能制定。
[0034]下面將參考附圖,詳細描述本發明改進的技術方案。
[0035]如圖1所示,圖1是根據本發明一實施例的低頻點擊的過濾方法的流程圖。
[0036]在步驟SllO處,基於點擊用戶的點擊數據,對所述點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個點擊特徵集合。
[0037]其中,所述點擊數據可以包括如下中的一項或多項:點擊用戶的用戶標識、被點擊內容項的標識、點擊用戶搜索的搜索詞、被點擊的關鍵詞、被點擊用戶的用戶標識。
[0038]應該注意,本發明中的詞語「點擊」所包含的意義,不僅限於用戶對內容項的點擊行為,還可以包括例如輸入搜索詞進行的搜索的搜索行為。[0039]其中,點擊用戶的用戶標識,即,代表點擊用戶(點擊或搜索內容項的用戶)身份的標識,例如,可以用點擊用戶的Cookie(網站為了辨別用戶身份而儲存在用戶本地終端上的數據)的標識來標識點擊用戶的身份,即,Cookie ID0被點擊內容項的標識,即,用於標記該被點擊的內容項的標識。點擊用戶搜索的搜索詞,即,點擊用戶進行搜索時所使用的搜索詞。被點擊的關鍵詞,即,被點擊的內容項的關鍵詞,內容項的發布用戶取得其發布的內容項的關鍵詞的關聯權(有優先級的劃分),當用戶輸入與此關鍵詞近似的信息時,該內容項會被按照該內容項的發布用戶所具有的該關鍵詞關聯權的優先級展示給用戶。被點擊用戶的用戶標識,即代表被點擊內容項的發布用戶的身份的標識。
[0040]對所述點擊用戶的點擊數據進行特徵提取時,所提取的特徵可以包括如下中的一項或多項:內容項標識特徵、搜索詞特徵、關鍵詞特徵、被點擊用戶的用戶標識特徵。
[0041]應該注意,在本申請中的所述點擊用戶是指以點擊用戶的用戶標識來標識用戶身份的點擊用戶,而對點擊用戶的點擊數據進行特徵提取,以及後續的向量化、聚類處理等操作時,均是以所述點擊用戶的用戶標識來識別一個具體的點擊用戶。
[0042]對所述點擊用戶的點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個點擊特徵集合,具體來說,可以先將所述點擊用戶的點擊數據按照一定的屬性劃分為一個或多個點擊數據集合(例如,按照日期屬性,將點擊數據按每天來劃分,即,將N天的數據劃分為N個點擊數據集合,每天的點擊數據為一個點擊數據集合),再對每個點擊數據集合中的點擊數據進行特徵提取,以得到一個或多個點擊數據集合對應的一個或多個點擊特徵集合;或者,還可以先對所述點擊數據進行特徵提取,再按照一定規則將提取的特徵劃分為一個或多個點擊特徵集合。
[0043]應該理解,對所述點擊用戶的點擊數據進行特徵提取後所得到的點擊特徵集合中包含的某一屬性的特徵可能有一個或多個,例如,對該點擊用戶的點擊數據提取的內容項標識特徵有SIF_123和SIF_234兩個(其中,SIF表示內容項標識特徵)。
[0044]應該理解,本發`明不限於此,而是還可以採用任何其他合適的方法來對所述點擊用戶的點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個點擊特徵集合。
[0045]根據本申請的一個實施例,對所述點擊用戶的點擊數據進行特徵提取時,可以對所述點擊用戶每天的點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個每天的點擊數據對應的點擊特徵集合。也就是說,以天為單位對所述點擊用戶的點擊數據進行特徵提取,即,該點擊用戶每天的點擊數據對應一個點擊特徵集合。例如,獲取的點擊數據為N(N^ I)天的點擊數據,則進行特徵提取後,可以獲得N個點擊特徵集合。
[0046]例如,對點擊用戶C的5天的點擊數據進行特徵提取後,得到每天的點擊數據對應的點擊特徵集合分別為:
[0047]Featuresc, i={SIF_123,SIF_234, SKF_ 手機,SKF_MP3,BF_ 手機,BF_ 彩屏 MP3,MF_memberI, MF_member2};
[0048]Featuresa2= {SIF_123, SIF_345, SKF_ 智慧型手機,SKF_MP3,BF_ 手機,BF_ 彩屏 MP3,MF_memberl, MF_member3};
[0049]Features。,3= {SIF_123, SIF_345, SKF_ 手機,SKF_MP3,BF_ 智慧型手機,BF_ 彩屏 MP3,MF_member2, MF_member3};
[0050]Featuresa4= {SIF_234, SIF_345, SKF_MP3, SKF_ 智慧型手機,BF_ 手機,BF_MP3,MF_memberI, MF_member3};
[0051]Featuresa5= {SIF_123, SIF_234, SKF_ 手機,SKF_MP3,BF_ 智慧型手機,BF_MP3, MF_memberI, MF_member2}。
[0052]其中,點擊特徵集合用Featuresai來表示,C表示點擊用戶的用戶標識,i表示第i天,即,Featuresai表示用戶C第i天的點擊特徵集合;SIF表示內容項標識特徵、SKF表示搜索詞特徵、BF表示關鍵詞特徵、MF表示被點擊用戶的用戶標識特徵。
[0053]在步驟S120處,對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量。也就是說,對得到的一個或多個點擊特徵集合中的每一個進行向量化,以得到每個點擊特徵集合對應的點擊特徵向量。
[0054]如圖2所示,圖2是根據本發明一實施例的圖1中的步驟S120的流程圖。
[0055]對所述一個或多個點擊特徵集合進行向量化可以按如下的步驟進行。
[0056]在步驟S210處,匯總所述一個或多個點擊特徵集合,以得到所述點擊用戶的點擊特徵匯總集合。具體而言,可以合併所述一個或多個點擊特徵集合,並將合併後得到的集合中重複的特徵去除,以得到所述點擊用戶的點擊特徵匯總集合。即,先將得到的一個或多個點擊特徵集合合併為一個集合,再將合併後得到的集合中重複的特徵去除,得到該點擊用戶的點擊特徵匯總集合。
[0057]例如,在步驟SllO處所舉的例子中,將用戶C的點擊特徵集合Features。」、Featuresa2> Featuresa3> Featuresa4> Featuresa5 進行合併,可以得到集合 M:
[0058]M={SIF_123, SIF_234, SKF_ 手機,SKF_MP3,BF_ 手機,BF_ 彩屏 MP3,MF_memberl,MF_member2, SIF_123, SIF_345, SKF_ 智慧型手機,SKF_MP3, BF_ 手機,BF_ 彩屏 MP3,MF_memberl,MF_member3,SIF_123,SIF_345, SKF_ 手機,SKF_MP3,BF_ 智慧型手機,BF_ 彩屏 MP3,MF_member2, MF_member3, SIF_234, SIF_345, SKF_MP3, SKF_ 智慧型手機,BF_ 手機,BF_MP3,MF_memberl, MF_member3, SIF_123, SIF_234, SKF_ 手機,SKF_MP3, BF_ 智慧型手機,BF_MP3,MF_memberl, MF_member2}。
[0059]去除集合M中重複的特徵,可以得到該點擊用戶C的點擊特徵匯總集合DimesionalityC:
[0060]DimesionalityC= {SIF_123, SIF_234, SKF_手機,SKF_MP3,BF_ 手機,BF_彩屏 MP3,MF_memberl, MF_member2, SIF_345, SKF_ 智慧型手機,MF_member3, BF_ 智慧型手機,BF_MP3}。
[0061]在步驟S220處,根據所述點擊特徵匯總集合,對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量。
[0062]根據本發明的一個實施例,可以將所述點擊特徵匯總集合中的特徵與所述一個或多個點擊特徵集合中的特徵進行對比,以得到與所述一個或多個點擊特徵集合對應的一個或多個點擊特徵向量。
[0063]具體地,針對一個點擊特徵集合,可以將點擊特徵匯總集合中的所有特徵依次與該點擊特徵集合中的特徵進行對比,得到每個分量與所述點擊特徵匯總集合中的每個特徵依次對應的該點擊特徵集合的點擊特徵向量,其中,在該點擊特徵向量中,對應於點擊特徵匯總集合中的特徵,在該點擊特徵集合中出現的特徵對應的分量為1,在該點擊特徵集合中未出現的特徵對應的分量為O。
[0064]例如,用戶C第I天的點擊特徵集合為Features。,,{SIF—US,SIF_234, SKF_手機,SKF_MP3,BF_手機,BF_彩屏MP3,MF_memberl, MF_member2};用戶C的點擊特徵匯總集合 DimesionalityC= {SIF_123,SIF_234, SKF_ 手機,SKF_MP3, BF_ 手機,BF_ 彩屏 MP3,MF_member I, MF_member2, SIF_345, SKF—智慧型手機,MF_member3, BF—智慧型手機,BF_MP3},以Vectorai表示用戶C第i天的點擊特徵向量,則將點擊特徵匯總集合中的所有特徵依次與該點擊特徵集合中的特徵進行對比,可得到Vectorai=U, 1,1,1,1,1,1,1,0,0,0,0,0,}。其中,點擊特徵匯總集合中有13個特徵,每個點擊特徵向量也對應都有13個分量。
[0065]也就是說,根據點擊特徵匯總集合中的特徵是否在該點擊特徵集合中出現,將該一個或多個點擊特徵集合進行向量化,每個點擊特徵集合向量化之後得到的點擊特徵向量
中各個分量與點擊特徵匯總集合中的各個特徵順次--對應。因此,每個點擊特徵向量中
分量的數目與點擊特徵匯總集合中特徵的數目相同。也就是說,若點擊特徵匯總集合中有m個特徵,則對一個或多個點擊特徵集合進行向量化後得到的一個或多個點擊特徵向量都為m維向量。
[0066]將前述所舉的例子中用戶C的5天的點擊特徵集合分別進行向量化後,可以得到用戶C的5個點擊特徵向量分別為:
[0067]Vectorcu=U, I, I, I, I, I, I, I, O, O, O, O, 0};
[0068]Vectorc 2= {I, O, O, I, I, I, I, O, I, I, I, O, 0};
[0069]vectorc』3= {1,O, I, I, O, I, O, I, I, O, I, O, 0};
[0070]vectorc』4= {O, I, O, I, I, O, I, O, I, I, I, O, 1};
[0071]Vectora5= {I,` I, I, I, O, O, I, I, O, O, O, I, 1}。
[0072]應該理解,本發明不限於此,而是還可以採用任何其他合適的方法來對所述一個或多個點擊特徵集合進行向量化。
[0073]在步驟S130處,對所述一個或多個點擊特徵向量進行聚類處理,以得到所述點擊用戶的低頻點擊向量集合。
[0074]如圖3所示,圖3是根據本發明一實施例的圖1中的步驟S130的流程圖。步驟S130可以進一步包括步驟S310~S320。
[0075]在步驟S310處,對所述一個或多個點擊特徵向量進行聚類,以得到一個或多個點擊類別;其中,所述一個或多個點擊類別中的每一個點擊類別至少包括一個點擊特徵向量。
[0076]對該一個或多個點擊特徵向量進行聚類,即,將該一個或多個點擊特徵向量,按照相似度聚類為一個或多個向量集合,即,點擊類別,其中每個點擊類別中至少包含一個點擊特徵向量。根據本發明的實施例,可以利用聚類算法,先將該一個或多個點擊特徵向量進行相似度計算,再根據相似度計算的結果,將該一個或多個點擊特徵向量聚類為一個或多個點擊類別。例如,可以採用最鄰近節點算法(KNN,k-Nearest Neighbor algorithm)進行聚類。
[0077]在步驟S320處,提取所述一個或多個點擊類別中點擊特徵向量的數目超過預定閾值的點擊類別中的點擊特徵向量作為所述點擊用戶的低頻點擊向量,以得到所述點擊用戶的低頻點擊向量集合。其中,所述預定閾值可以通過對歷史數據的分析來確定,例如,通過對大量用戶(發布內容項的用戶)投訴數據的分析進行確定。
[0078]例如,預定閾值設為ξ =2,聚類後得到m個點擊類別分別為C1X2X3-Cm。其中,點擊類別Cj中點擊特徵向量的數目為3個,點擊類別Ck中點擊特徵向量的數目為4個,CjJPCk中點擊特徵向量的數目都超過了預定閾值I,則將點擊類別CyCk中的共7個點擊特徵向量作為該點擊用戶的低頻點擊向量,並將這7個低頻點擊向量合併為一個向量集合,SP,該點擊用戶的低頻點擊向量集合。
[0079]在步驟S140處,根據所述低頻點擊向量集合確定對應的點擊為所述點擊用戶的低頻點擊,並從所述點擊數據中過濾掉所述低頻點擊。也就是說,對於該低頻點擊向量集合中的所有低頻點擊向量,找出每個低頻點擊向量所對應的點擊,即為該用戶的低頻點擊。
[0080]例如,可以根據在步驟S210處得到的該點擊用戶的點擊特徵匯總集合,找到每個點擊向量對應的點擊。每個點擊特徵集合向量化之後得到的點擊特徵向量的各個分量與點擊特徵匯總集合中的各個特徵是順次一一對應的,因此,可以按照它們的對應關係找到對應的點擊特徵,進而找到對應的點擊。
[0081]根據本申請的一個實施例,還可以包括:提取所述點擊用戶的低頻點擊向量集合所對應的點擊的特徵,以生成所述點擊用戶對應的低頻點擊過濾表的步驟。
[0082]具體地,可以對於該點擊用戶的低頻點擊向量集合中的每個低頻點擊向量分別找到對應的點擊後,匯總各個對應的點擊的特徵,例如,內容項標識特徵、搜索詞特徵、關鍵詞特徵、被點擊用戶的用戶標識特徵等,生成該點擊用戶對應的低頻點擊過濾表。其中,所述低頻點擊過濾表用於過濾掉所述點擊用戶進行的與所述低頻點擊過濾表中包含的特徵相關的點擊。即,可以根據該低頻點擊過濾表,將該點擊用戶進行與該表中包含的特徵相關的點擊過濾掉。通過低頻點擊過濾表進行過濾,能夠在一定程度上保證正常的點擊不會被過濾掉。
[0083]本發明還提供了一種過濾低頻點擊的裝置。如圖4所示,圖4是根據本發明一實施例的過濾低頻點擊的裝置400的結構框圖。該裝置包括:特徵提取模塊410、向量化模塊420、聚類處理模塊430以及過濾模塊440。
[0084]其中,特徵提取模塊410可以用於基於點擊用戶的點擊數據,對所述點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個點擊特徵集合。
[0085]向量化模塊420可以用於對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量。
[0086]聚類處理模塊430可以用於對所述一個或多個點擊特徵向量進行聚類處理,以得到所述點擊用戶的低頻點擊向量集合。
[0087]過濾模塊440可以用於根據所述低頻點擊向量集合確定對應的點擊為所述點擊用戶的低頻點擊,並從所述點擊數據中過濾掉所述低頻點擊。
[0088]所述點擊數據可以包括如下中的一項或多項:點擊用戶的用戶標識、被點擊內容項的標識、點擊用戶搜索的搜索詞、被點擊的關鍵詞、被點擊用戶的用戶標識。
[0089]對所述每個點擊用戶的點擊數據進行特徵提取時,所提取的特徵可以包括如下中的一項或多項:內容項標識特徵、搜索詞特徵、關鍵詞特徵、被點擊用戶的用戶標識特徵。
[0090]根據本發明的實施例,所述特徵提取模塊410可以進一步用於:對所述點擊用戶每天的點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個每天的點擊數據對應的點擊特徵集合。
[0091]根據本發明的實施例,所述向量化模塊420可以包括匯總子模塊和向量化子模塊。匯總子模塊可以用於匯總所述一個或多個點擊特徵集合,以得到所述點擊用戶的點擊特徵匯總集合。向量化子模塊可以用於根據所述點擊用戶的點擊特徵匯總集合,對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量。
[0092]根據本發明的實施例,所述匯總子模塊可以進一步用於:合併所述一個或多個點擊特徵集合,並將合併後得到的集合中重複的特徵去除,以得到所述點擊用戶的點擊特徵匯總集合。
[0093]根據本發明的實施例,所述向量化子模塊可以進一步用於:將所述點擊特徵匯總集合中的特徵與所述一個或多個點擊特徵集合中的特徵進行對比,以得到與所述一個或多個點擊特徵集合對應的一個或多個點擊特徵向量。
[0094]根據本發明的實施例,所述聚類處理模塊430可以包括:聚類子模塊和提取子模塊。其中,聚類子模塊可以用於對所述一個或多個點擊特徵向量進行聚類,以得到一個或多個點擊類別。其中,所述一個或多個點擊類別中的每一個點擊類別至少包括一個點擊特徵向量。提取子模塊可以用於提取所述一個或多個點擊類別中點擊特徵向量的數目超過預定閾值的點擊類別中的點擊特徵向量作為所述點擊用戶的低頻點擊向量,以得到所述點擊用戶的低頻點擊向量集合。
[0095]根據本發明的實施例,裝置400還可以包括過濾表生成模塊,該模塊可以用於提取所述點擊用戶的低頻點擊向量集合所對應的點擊的特徵,以生成所述點擊用戶對應的低頻點擊過濾表,其中,所述低頻點擊過濾表用於過濾掉所述點擊用戶進行的與所述低頻點擊過濾表中包含的特徵相關的點擊。
[0096]以上描述的過濾低頻點擊的裝置與之前描述的低頻點擊的過濾方法的處理是對應的,因此,關於更詳細的技術細節,可以參見之前描述的方法。
[0097]在此提供的算法和顯示不與任何特定計算機、虛擬系統或者其它設備固有相關。各種通用系統也可以與基於在此的示教一起使用。根據上面的描述,構造這類系統所要求的結構是顯而易見的。此外,本發明也不針對任何特定程式語言。應當明白,可以利用各種程式語言實現在此描述的本發明的內容,並且上面對特定語言所做的描述是為了披露本發明的最佳實施方式。
[0098]在此處所提供的說明書中,說明了大量具體細節。然而,能夠理解,本發明的實施例可以在沒有這些具體細節的情況下實踐。在一些實例中,並未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。
[0099]類似地,應當理解,為了精簡本公開並幫助理解各個發明方面中的一個或多個,在上面對本發明的示例性實施例的描述中,本發明的各個特徵有時被一起分組到單個實施例、圖、或者對其的描述中。然而,並不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發明要求比在每個權利要求中所明確記載的特徵更多的特徵。更確切地說,如下面的權利要求書所反映的那樣,發明方面在於少於前面公開的單個實施例的所有特徵。因此,遵循【具體實施方式】的權利要求書由此明確地併入該【具體實施方式】,其中每個權利要求本身都作為本發明的單獨實施例。
[0100]本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行自適應性地改變並且把它們設置在與該實施例不同的一個或多個設備中。可以把實施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特徵和/或過程或者單元中的至少一些是相互排斥之外,可以採用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特徵以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特徵可以由提供相同、等同或相似目的的替代特徵來代替。
[0101]此外,本領域的技術人員能夠理解,儘管在此所述的一些實施例包括其它實施例中所包括的某些特徵而不是其它特徵,但是不同實施例的特徵的組合意味著處於本發明的範圍之內並且形成不同的實施例。例如,在下面的權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
[0102]本發明的各個部件實施例可以以硬體實現,或者以在一個或者多個處理器上運行的軟體模塊實現,或者以它們的組合實現。本領域的技術人員應當理解,可以在實踐中使用微處理器或者數位訊號處理器(DSP)來實現根據本發明實施例的過濾低頻點擊的裝置中的一些或者全部部件的一些或者全部功能。本發明還可以實現為用於執行這裡所描述的方法的一部分或者全部的設備或者裝置程序(例如,電腦程式和電腦程式產品)。這樣的實現本發明的程序可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號的形式。這樣的信號可以從網際網路網站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0103]應該注意的是上述實施例對本發明進行說明而不是對本發明進行限制,並且本領域技術人員在不脫離所附權利要求的範圍的情況下可設計出替換實施例。在權利要求中,不應將位於括號之間的任何參考符號構造成對權利要求的限制。單詞「包含」不排除存在未列在權利要求中的元件或步驟。位於元件之前的單詞「一」或「一個」不排除存在多個這樣的元件。本發明可以藉助於包括有若干不同元件的硬體以及藉助於適當編程的計算機來實現。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬體項來具體體現。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
[0104]本發明包括B10、一種過濾低頻點擊的裝置,其特徵在於,包括:
[0105]特徵提取模塊,用於基於點擊用戶的點擊數據,對所述點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個點擊特徵集合;
[0106]向量化模塊,用於對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量;
[0107]聚類處理模塊,用於對所述一個或多個點擊特徵向量進行聚類處理,以得到所述點擊用戶的低頻點擊向量集合;以及
[0108]過濾模塊,用於根據所述低頻點擊向量集合確定對應的點擊為所述點擊用戶的低頻點擊,並從所述點擊數據中過濾掉所述低頻點擊。
[0109]B11、根據權利要求BlO所述的裝置,其特徵在於,所述點擊數據包括如下中的一項或多項:點擊用戶的用戶標識、被點擊內容項的標識、點擊用戶搜索的搜索詞、被點擊的關鍵詞、被點擊用戶的用戶標識。
[0110]B12、根據權利要求BlO所述的裝置,其特徵在於,對所述每個點擊用戶的點擊數據進行特徵提取時,所提取的特徵包括如下中的一項或多項:內容項標識特徵、搜索詞特徵、關鍵詞特徵、被點擊用戶的用戶標識特徵。[0111]B13、根據權利要求BlO所述的裝置,其特徵在於,所述特徵提取模塊進一步用於:對所述點擊用戶每天的點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個每天的點擊數據對應的點擊特徵集合。
[0112]B14、根據權利要求BlO所述的裝置,其特徵在於,所述向量化模塊,包括:
[0113]匯總子模塊,用於匯總所述一個或多個點擊特徵集合,以得到所述點擊用戶的點擊特徵匯總集合;
[0114]向量化子模塊,用於根據所述點擊用戶的點擊特徵匯總集合,對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量。
[0115]B15、根據權利要求B14所述的裝置,其特徵在於,所述匯總子模塊進一步用於:
[0116]合併所述一個或多個點擊特徵集合,並將合併後得到的集合中重複的特徵去除,以得到所述點擊用戶的點擊特徵匯總集合。
[0117]B16、根據權利要求B14或B15所述的裝置,其特徵在於,所述向量化子模塊進一步用於:
[0118]將所述點擊特徵匯總集合中的特徵與所述一個或多個點擊特徵集合中的特徵進行對比,以得到與所述一個或多個點擊特徵集合對應的一個或多個點擊特徵向量。
[0119]B17、根據權利要求BlO所述的裝置,其特徵在於,所述聚類處理模塊,包括:
[0120]聚類子模塊,用於對所述一個或多個點擊特徵向量進行聚類,以得到一個或多個點擊類別;其中,所述一個或多個點擊類別中的每一個點擊類別至少包括一個點擊特徵向量;
[0121]提取子模塊,用於提取所述一個或多個點擊類別中點擊特徵向量的數目超過預定閾值的點擊類別中的點擊特徵向量作為所述點擊用戶的低頻點擊向量,以得到所述點擊用戶的低頻點擊向量集合。
[0122]B18、根據權利要求BlO所述的裝置,其特徵在於,還包括:過濾表生成模塊,用於提取所述點擊用戶的低頻點擊向量集合所對應的點擊的特徵,以生成所述點擊用戶對應的低頻點擊過濾表,其中,所述低頻點擊過濾表用於過濾掉所述點擊用戶進行的與所述低頻點擊過濾表中包含的特徵相關的點擊。
【權利要求】
1.一種低頻點擊的過濾方法,其特徵在於,包括: 基於點擊用戶的點擊數據,對所述點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個點擊特徵集合; 對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量; 對所述一個或多個點擊特徵向量進行聚類處理,以得到所述點擊用戶的低頻點擊向量集合;以及 根據所述低頻點擊向量集合確定對應的點擊為所述點擊用戶的低頻點擊,並從所述點擊數據中過濾掉所述低頻點擊。
2.根據權利要求1所述的方法,其特徵在於,所述點擊數據包括如下中的一項或多項:點擊用戶的用戶標識、被點擊內容項的標識、點擊用戶搜索的搜索詞、被點擊的關鍵詞、被點擊用戶的用戶標識。
3.根據權利要求1所述的方法,其特徵在於,對所述點擊用戶的點擊數據進行特徵提取時,所提取的特徵包括如下中的一項或多項:內容項標識特徵、搜索詞特徵、關鍵詞特徵、被點擊用戶的用戶標識特徵。
4.根據權利要求1所述的方法,其特徵在於,對所述點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個點擊特徵集合,進一步包括: 對所述點擊用戶每天的 點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個每天的點擊數據對應的點擊特徵集合。
5.根據權利要求1所述的方法,其特徵在於,對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量,包括: 匯總所述一個或多個點擊特徵集合,以得到所述點擊用戶的點擊特徵匯總集合; 根據所述點擊特徵匯總集合,對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量。
6.根據權利要求5所述的方法,其特徵在於,匯總所述一個或多個點擊特徵集合,以得到所述點擊用戶的點擊特徵匯總集合,進一步包括: 合併所述一個或多個點擊特徵集合,並將合併後得到的集合中重複的特徵去除,以得到所述點擊用戶的點擊特徵匯總集合。
7.根據權利要求5或6所述的方法,其特徵在於,根據所述點擊特徵匯總集合,對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量,進一步包括: 將所述點擊特徵匯總集合中的特徵與所述一個或多個點擊特徵集合中的特徵進行對t匕,以得到與所述一個或多個點擊特徵集合對應的一個或多個點擊特徵向量。
8.根據權利要求1所述的方法,其特徵在於,對所述一個或多個點擊特徵向量進行聚類處理,以得到所述點擊用戶的低頻點擊向量集合,包括: 對所述一個或多個點擊特徵向量進行聚類,以得到一個或多個點擊類別;其中,所述一個或多個點擊類別中的每一個點擊類別至少包括一個點擊特徵向量; 提取所述一個或多個點擊類別中點擊特徵向量的數目超過預定閾值的點擊類別中的點擊特徵向量作為所述點擊用戶的低頻點擊向量,以得到所述點擊用戶的低頻點擊向量集合。
9.根據權利要求1所述的方法,其特徵在於,還包括:提取所述點擊用戶的低頻點擊向量集合所對應的點擊的特徵,以生成所述點擊用戶對應的低頻點擊過濾表,其中,所述低頻點擊過濾表用於過濾掉所述點擊用戶進行的與所述低頻點擊過濾表中包含的特徵相關的點擊。
10.一種過濾低頻點擊的裝置,其特徵在於,包括: 特徵提取模塊,用於基於點擊用戶的點擊數據,對所述點擊數據進行特徵提取,以得到所述點擊用戶的一個或多個點擊特徵集合; 向量化模塊,用於對所述一個或多個點擊特徵集合進行向量化,以得到所述點擊用戶的一個或多個點擊特徵向量; 聚類處理模塊,用於對所述一個或多個點擊特徵向量進行聚類處理,以得到所述點擊用戶的低頻點擊向量集合;以及 過濾模塊,用於根據所述低頻點擊向量集合確定對應的點擊為所述點擊用戶的低頻點擊,並從所述點擊數據 中過濾掉所述低頻點擊。
【文檔編號】G06F17/30GK103810241SQ201310597954
【公開日】2014年5月21日 申請日期:2013年11月22日 優先權日:2013年11月22日
【發明者】楊松 申請人:北京奇虎科技有限公司, 奇智軟體(北京)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀