新四季網

一種垃圾內容過濾的方法及裝置的製作方法

2023-07-14 07:22:16

專利名稱:一種垃圾內容過濾的方法及裝置的製作方法
技術領域:
本發明涉及網際網路技術領域,具體地說,涉及一種垃圾內容過濾的方法 及裝置。
背景技術:
目前,網際網路技術中針對社區垃圾內容過濾的手段, 一般採用傳統的過 濾方式。結合圖1所示,用戶發帖的內容在發布到網絡上之前,首先要經過
一級髒詞過濾,將帖子中與一級髒詞匹配的詞彙作為垃;及詞彙進行屏蔽;其 次,對經過一級髒詞過濾處理後的內容進行人工審核階段的二級髒詞過濾, 並將所述帖子中與二級髒詞匹配的詞彙作為垃圾詞彙再次屏蔽掉;對經過二 級髒詞過濾處理後內容將一皮成功發布到網絡上;對於在一級或二級髒詞過濾 中未過濾出的垃圾內容,只能依靠在後期對發布到網絡上的帖子進行人工或 機器的巡查的方式進行刪除,以實現對社區垃圾內容的過濾。
在實現本發明的過程中,發明人發現,上述現有技術存在以下缺點 (1 )對用戶發出的帖子內容進4亍一級髒詞過濾時,由於目前一級髒詞 過濾階段,只能將帖子中的內容與髒詞資料庫中現有髒詞進行一對一完全匹 配的方式進行過濾,若用戶的帖子中存在一些髒詞資料庫中未保存的新的垃 圾詞彙,這樣在一級髒詞過濾處理中就過濾不到;
對於人工審核的二級髒詞過濾階段,仍單純的依靠通過髒詞匹配的方式 進行過濾,所以同樣存在一級髒詞過濾中的問題。在一級或二級髒詞匹配過 程中,未檢查出的新的垃圾詞彙會作為符合發布要求的帖子發布到網絡上, 只能依靠後期的人工或機器巡查進行刪除,並相應的添加到一級或二級髒詞
6資料庫中。所以現有技術中這種依靠髒詞過濾的方式來過濾垃圾內容具有被
動性,並且導致過濾覆蓋面的局限性;
(2)已發布到網絡上的帖子內容的後期巡查過程,也存在一定的^f皮動 性,管理伺服器要主動地對發布到網絡上的帖子進行瀏覽和巡查,逐一對發 現的垃》及詞彙進行刪除,所以加大了勞動力的才殳入以及才幾器維護方面的資本。

發明內容
本發明要解決的技術問題是提供一種垃圾內容過濾的方法及裝置,能 夠有效地實現社區垃圾內容的屏蔽,節約了人力和物力的投入資本。 本發明的技術方案如下所述 一種垃;及內容過濾的方法,該方法包4舌
通過預定的語義分析條件對發帖內容進行判斷,將所述發帖內容中滿足 所述預定的語義分析條件的內容,作為垃圾內容進行屏蔽;
將經過屏蔽處理後的所述發帖內容經過審核後,發布到網絡上。 進一步地,所述預定的語義分析條件包括 (a )所述發帖內容是否滿足語法的要求;或
(b) 是否具有能夠描述垃圾詞彙的特徵;或
(c) 是否包含詞彙出現頻率大於頻率標準值的詞彙內容;或 (d )攜帶網絡連結地址的數量是否超過設定的參考值;
或者上述(a)、 (b) 、 (c) 、 (d)的任意組合。 進一步地,所述預定的語義分析條件的生成過程,具體包括 當所述預定的語義分析條件為(b)時,通過收集大量被過濾掉的垃圾
內容,將所述內容按照類別進行分類;針對每個類別中的所述內容,獲得具
有能夠描述垃圾詞彙的特徵;或者,
當所述預定的語義分析條件為(c)時,通過對垃圾內容中垃圾詞彙的出現次數進行記錄,獲得能夠判斷所述發帖內容中是否包含垃圾詞彙的頻率
標準值;或者,
當所述預定的語義分析條件為(d)時,通過對垃圾內容中攜帶網絡鏈 接地址的數量進行記錄,獲得能夠判別所述發帖內容中是否包含垃圾內容的 參考值。
進一步地,通過預定的語義分析條件對發帖內容進行判斷,將所述發帖 內容中滿足所述預定的語義分析條件的內容,作為垃圾內容進行屏蔽之前, 所述方法還包括
對發帖內容的重複性進行判斷,如所述發帖內容與之前發帖內容重複 時,將所述重複的內容自動屏蔽;否則,不做任何處理;
對經過重複性判斷的發帖內容進行一級髒詞匹配,如匹配到,將所述發 帖內容屏蔽;否則,對經過一級髒詞過濾後的發帖內容進行語義分析。
進一步地,將經過屏蔽處理後的所述發帖內容經過審核後,發布到網絡 上,具體過程包括
對經過屏蔽處理後的所述發帖內容,分別通過二級髒詞以及網頁地址黑 名單進行過濾,並根據過濾結果分別對帖子評分,將所述評分小於標準值的 帖子屏蔽後,發送給人工審核;將所述評分大於等於標準值的帖子發布到網 絡上。
進一步地,所述方法還包括
對發布到網絡上的所述帖子進行後臺監控,對發帖頻率大於設定參考值 的用戶,點擊量和回帖量大於設定參考值的普通帖以及選項選擇次數、點擊 量和回復量大於設定參考值的投票帖進行自動記錄,並以郵件報警的方式通 知管理伺服器進行處理。
本發明還提供了 一種垃圾內容過濾的裝置,所述裝置包括 語義分析執行模塊,用於通過預定的語義分析條件對發帖內容進行判斷,將所述發帖內容中滿足所述預定的語義分析條件的內容,作為垃圾內容
進行屏蔽;
審核執行模塊,用於對所述語義分析執行模塊處理後的發帖內容經過審 核後,發布到網絡上。
優選的,所述預定的語義分析條件包括
(e) 所述發帖內容是否滿足語法的要求;或
(f) 是否具有能夠描述垃圾詞彙的特徵;或
(g) 是否包含詞彙出現頻率大於頻率標準值的詞彙內容;或
(h) 攜帶網絡連結地址的數量是否超過設定的參考值; 或者上述(e)、 (f) 、 (g) 、 (h)的任意組合。 優選的,所述裝置還包括
條件生成模塊,用於當所述預定的語義分析條件為(f)時,通過收集大 量被過濾掉的垃圾內容,將所述內容按照類別進行分類;針對每個類別中的 所述內容,獲得具有能夠描述垃圾詞彙的特徵;或者,
當所述預定的語義分析條件為(g)時,通過對垃圾內容中垃圾詞彙的 出現次數進行記錄,獲得能夠判斷所述發帖內容中是否包含垃圾詞彙的頻率 標準值;或者,
當所述預定的語義分析條件為(h)時,通過對垃圾內容中攜帶網絡鏈 接地址的數量進行記錄,獲得能夠判別所述發帖內容中是否包含垃圾內容的 參考值。
優選的,所述語義分析執行模塊具體包括
判斷單元,用於判斷發帖內容中是否含有滿足預定的語義分析條件的內
答;
處理單元,用於根據所述判斷單元對發帖內容的判斷結果,將所述發帖 內容中滿足預定的語義分析條件的內容,作為垃圾內容進行屏蔽;否則,不 做任何處理。優選的,所述裝置還包括
重複性判斷處理模塊,用於對發帖內容的重複性進行判斷,如所述發帖
內容與之前發帖內容重複,則將所述重複的內容自動屏蔽;否則,不做任何 處理;
一級髒詞過濾模塊,用於將經過所述重複性判斷處理模塊處理後的所述 發帖內容與一級髒詞相匹配,如匹配到,將所述發帖內容屏蔽;否則,將經
優選的,所述審核執行模塊具體包括
評審單元,用於對所述語義分析執行模塊過濾後的發帖內容,分別通過 二級髒詞以及網頁地址黑名單進行過濾,並根據過濾結果分別對帖子評分;
執行單元,用於根據評審單元的評審結果進行處理,將所述評分小於標 準值的帖子進行屏蔽後,發送給人工審核;將所述評分大於等於標準值的帖 子發布到網絡上。
優選的,所述裝置還包括
後臺監控模塊,用於對所述審核執行模塊發布到網絡上的帖子進行後臺 監控,對發帖頻率大於設定參考值的用戶,點擊量和回帖量大於設定參考值 的普通帖以及選項選擇次數、點擊量和回復量大於設定參考值的投票帖進行 自動記錄;
監控報警模塊,用於對所述後臺監控模塊記錄的數據以郵件報警的方式 通知管理伺服器進行處理。
釆用本發明所述的技術方案具有以下有益效果
了現有技術中單純採用髒詞進行過濾的被動性,由於預定的語義分析條件中 保存有大量關於垃圾內容的特徵信息,所以過濾的覆蓋面更廣泛;
2、通過語義分析過程給人工審核和後臺監控過程減少了工作量,節約
10了勞動力。


圖1為現有技術中傳統社區過濾方式的流程框圖; 圖2為本發明實施例一種垃圾內容過濾方法的簡要流程圖 圖3為本發明實施例了 一種垃圾內容過濾裝置的簡要框圖; 圖4為本發明實施例一種垃圾內容過濾方法的流程框圖。
具體實施例方式
為了更好的理解本發明的技術方案,下面結合具體實施例進行說明。 本發明通過在社區垃圾過濾中,採用了語義分析過程克服了現有技術中
過濾覆蓋範圍的局限性,能夠更好的節約勞動力,提高工作效率。
如圖2所示,本發明實施例一種垃圾內容過濾的方法,所述方法包括 步驟S103:通過預定的語義分析條件對發帖內容進行判斷,將所述發
帖內容中滿足所述預定的語義分析條件的內容,作為垃圾內容進行屏蔽;
步驟S104:將經過屏蔽處理後的所述發帖內容經過審核後,發布到網絡上。
具體地說,所述預定的語義分析條件包括 (a )所述發帖內容是否滿足語法的要求;或
(b) 是否具有能夠描述垃圾詞彙的特徵;或
(c) 是否包含詞彙出現頻率大於頻率標準值的詞彙內容;或 (d )攜帶網絡連結地址的數量是否超過設定的參考值;
或者上述(a)、 (b) 、 (c) 、 (d)的任意組合。 通常,垃圾帖中經常會出現一些隨意用鍵盤敲出的漢字或者字母,根據 語法分析這些都是不符合語法要求的,所以在帖子中發現這樣的內容就會被過濾掉。
具體地說,所述預定的語義分析條件的生成過程,具體包括
(1) 如果預定的語義分析條件為上述(b)時,通過收集大量被過濾掉
的垃圾內容,將所述內容按照類別進行分類;針對每個類別中的所述內容, 獲得具有能夠描述垃圾詞彙的特徵;
一般對於收集到的垃圾帖子,分別可以將這些內容按照廣告,色情以及 惡意交友這三種方式來分類,分別獲得這三種類型帖的特徵,保存在特徵庫 中。
(2) 或者,如果預定的語義分析條件為上述(c)時,通過對垃圾內容 中垃圾詞彙的出現次數進行記錄,獲得能夠判斷所述發帖內容中是否包含垃 圾詞彙的頻率標準值(3) 或者,如果預定的語義分析條件為上述(d)時,通過對垃圾內容 中攜帶網絡連結地址的數量進行記錄,獲得能夠判別所述發帖內容中是否包 含垃圾內容的參考值。
當然,在本實施例中,所述預定的語義分析條件的生成過程包括上述 (1) 、 (2) 、 (3)的任意組合。比如,所述預定的語義分析條件的生成 過程為(1 )和(2 )、或者(1 )和(3 )、或者(2 )和(3 )、或者(1 ) 和(2 )和(3 )。
通常,垃圾帖中垃圾詞彙出現的頻率非常高以及出現的連結地址也非常 多,通過對大量垃圾內容的統計學習,可以從中獲得辨別發帖內容中是否含 有垃圾詞彙的頻率標準值和參考值。
具體地說,步驟S103之前,所述方法還包括
步驟S101:對發帖內容的重複性進行判斷,如所述發帖內容與之前發帖 內容重複時,將所述重複的內容自動屏蔽;否則,不估文任何處理;
步驟S102:對經過重複性判斷的發帖內容進行一級髒詞匹配,如匹配
12到,將所述發帖內容屏蔽;否則,對經過一級髒詞過濾後的發帖內容進行語
義分析。
具體地說,本發明實施例可以對普通帖、創建吧以及投票帖的內容進行
垃圾內容的過濾。通過步驟S101,能夠限制重複刷帖(手動刷帖、機器刷
帖)、限制無意義內容對新增內容裡的惡意灌水信息進行屏蔽;具體可以採
用對比相同IP的發帖內容,識別內容是否重複。
通過步驟S102,通過髒詞匹配能夠將帖子內容中包含的髒詞進行過濾; 通過步驟S103,能夠對帖子中新增內容裡的色情、廣告、惡意交友等垃
圾內容進行屏蔽;
對於普通帖,創建吧與投票帖的垃圾內容處理過程涉及的技術方案相 同,不再贅述。
具體地說,步驟S104的具體過程包括
對經過屏蔽處理後的所述發帖內容,分別通過二級髒詞以及網頁地址黑 名單進行過濾,並根據過濾結果分別對帖子評分,將所述評分小於標準值的 帖子屏蔽後,發送給人工審核;將所述評分大於等於標準值的帖子發布到網 絡上。
在實際運用中,對帖子內容分別通過二級髒詞以及網頁地址黑名單進行 過濾,由於帖子內容不同,過濾到的垃圾內容不同,分別對每個帖子評分。 當然匹配到垃圾詞彙多的帖子評分相對較低,相反匹配到垃圾內容較少的帖 子評分較高,為了區分垃圾帖,根據對以往垃圾帖的統計規律獲得一個能夠 衡量垃圾帖與正常帖的標準值,分別與評分進行判斷,確保了由於某個帖子 存在少量的垃圾詞彙被屏蔽的誤操作。
本發明實施例步驟S10 4以安全中心審核平臺為平臺,通過匹配二級髒 詞、URL黑名單等對文字內容和所有圖片內容進行審核。對步驟S104之前的 過濾過程中無法處理的內容進行人工審核處理。例如垃圾圖片(色情、廣告、反動圖片等),包括對包含反動、色情等國家規定限制的垃圾內容進行 審核。
通常現有技術中的人工審核階段只能對用戶本地上傳的圖片內容進行審 核,對引用其他網站的圖片內容不能審核,本發明實施例可以對帖子中所有 的圖片進行審核,包括外部連結的圖片和本地上傳的圖片。
具體地說,所述方法還包括步驟S105::
對發布到網絡上的所述帖子進行後臺監控,對發帖頻率大於設定參考值 的用戶,點擊量和回帖量大於設定參考值的普通帖以及選項選擇次數、點擊 量和回復量大於設定參考值的投票帖進行自動記錄,並以郵件報警的方式通 知管理伺服器進行處理。
可以根據對之前大量搜集到的垃圾帖結合經驗值,確定能夠辨別帖子數 據發生異常的參考值。
對發布到網絡上的所述帖子進行後臺監控時,辨別帖子發生異常的情況 可以包括
(1 )根據記錄下的帖子數據,對5分鐘發帖超過10個、24小時發帖超過 600個的用戶進行自動記錄
(2) 對點擊量、回帖數突增的普通帖子進行自動記錄;
(3) 對選項選擇次數、點擊量、回複數突增的投票帖進行自動記錄; 上述三種情況的出現,可以通過郵件報警的方式通知到管理伺服器進行
人工清理。
如圖3所述,本發明還提供了一種垃圾內容過濾裝置,所述裝置包括 語義分析執行模塊S33,用於通過預定的語義分析條件對發帖內容進行
判斷,將所述發帖內容中滿足所述預定的語義分析條件的內容,作為垃圾內
容進行屏蔽;
14審核執行模塊S44,用於對所述語義分析執行模塊處理後的發帖內容經
過審核後,發布到網絡上。
本發明實施例中所述語義分析執行模塊S33和審核執行模塊S44,與上 述方法實施例中步驟S103和步驟S104涉及的技術方案相同,在此不作贅述。
具體地說,所述預定的語義分析條件包括
(e) 所述發帖內容是否滿足語法的要求;或
(f) 是否具有能夠描述垃圾詞彙的特徵;或
(h)攜帶網絡連結地址的數量是否超過設定的參考值; 或者上述(e)、 (f) 、 (g) 、 (h)的任意組合。 所述預定的語義分析條件與上述方法實施例中的生成過程相同,在此不 作贅述。
具體地說,所述裝置還包括
條件生成模塊S88,用於當所述預定的語義分析條件為上述(f)時,通 過收集大量被過濾掉的垃圾內容,將所述內容按照類別進行分類;針對每個 類別中的所述內容,獲得具有能夠描述垃圾詞彙的特徵;或者,
當所述預定的語義分析條件為上述(g)時,通過對垃圾內容中垃圾詞 匯的出現次數進行記錄,獲得能夠判斷所述發帖內容中是否包含垃圾詞彙的 頻率標準值;或者,
當所述預定的語義分析條件為上述(h)時,通過對垃圾內容中攜帶網 絡連結地址的數量進行記錄,獲得能夠判別所述發帖內容中是否包含垃圾內 容的參考值。
所述條件生成模塊S88的功能與上述實施例涉及的技術內容相同,請參
1照上述說明。
具體地說,所述語義分析執行模塊具體可以包括 的內容;
處理單元S332,用於根據所述判斷單元對發帖內容的判斷結果,將所述 發帖內容中滿足預定的語義分析條件的內容,作為垃圾內容進行屏蔽;否 則,不做任何處理。
具體地說,所述裝置還包括
重複性判斷處理模塊S11,用於對發帖內容的重複性進行判斷,如所述 發帖內容與之前發帖內容重複,則將所述重複的內容自動屏蔽;否則,不做 任何處理;
一級髒詞過濾模塊S22,用於將經過所述重複性判斷處理模塊處理後的 所述發帖內容與一級髒詞相匹配,如匹配到,將所述發帖內容屏蔽;否則,
本發明實施例中重複性判斷處理模塊S11和一級髒詞過濾模塊S22,與 上述方法實施例中步驟S101和步驟S102涉及的技術方案相同,在此不作贅述。
具體地說,所述審核執行模塊具體包括
評審單元S441,用於對所述語義分析執行模塊過濾後的發帖內容,分別 通過二級髒詞以及網頁地址黑名單進行過濾,並^4居過濾結果分別對帖子評
分;
執行單元S442,用於根據評審單元的評審結果進行處理,將所述評分小 於標準值的帖子進行屏蔽後,發送給人工審核;將所述評分大於等於標準值 的帖子發布具體地說,所述裝置還包括
後臺監控模塊S55,用於對所述審核執行模塊發布到網絡上的帖子進行 後臺監控,對發帖頻率大於設定參考值的用戶,點擊量和回帖量大於設定參 考值的普通帖以及選項選擇次數、點擊量和回復量大於設定參考值的投票帖 進行自動記錄;
監控報警模塊S66,用於對所述後臺監控模塊記錄的數據以郵件報警的 方式通知管理伺服器進行處理。
所述後臺監控模塊S55和所述監控報警模塊S66中涉及的技術方案與上 述方法實施例中步驟S105涉及的技術相同,在此不作贅述。
為了更好的理解本發明所述的方法,下面結合實施例1進行說明。 實施例1:
本發明實施例1以普通帖為例對本發明所述方法進行說明,結合圖4所示。
步驟S501:網友在搜吧發布一個普通帖,帖子內容首先要經過內容過濾 的三個階段
(1)重複性判斷階段;判斷帖子內容是否與之前發布的帖子內容重複 (可以通過比4交相同IP的發帖內容來實現),如果重複,則自動屏蔽;如果 不重複,則不作任何處理;
(2 ) —級髒詞匹配階段;將經過重複性判斷的帖子內容進行一級髒詞 匹配,如果匹配到,則將帶有髒詞的帖子內容自動屏蔽;如果未匹配到,則 進入語義分析過程;
(3)語義分析過程;通過分析文字內容的語義通過預定的語義分析條 件判定是否是垃圾內容,如果是,則自動屏蔽;如果不是,則進入審核階 段;從圖4上可以看出,通過步驟S501的三個過程對帖子進行過濾後,不符
合要求的帖子內容會被刪除,並可以通過文字提示的方式反饋給發帖用戶, 通知帖子已被屏蔽。
圖4中顯示出本發明可以針對普通帖、創建吧及投票帖的內容進行垃圾 過濾,但本應用實例是針對普通帖來說的,其他兩種方式與本實例處理過程 相同,不作贅述。
步驟S502:審核階段可以通過安全中心審核平臺實現,其中包括對文 字、圖片以及創建吧的內容審核;通過二級髒詞、以及網頁地址黑白名單等 邏輯分別對帖子內容進行過濾,並對經過過濾後的帖子分別進行評分,將評 分小於參考值的帖子自動屏蔽,評分小於等於參考值的帖子發布到網絡上;
其中,對於評分小於參考值的帖子會被發送到審核平臺,由人工審核最 終判定該帖子是否包含垃圾內容,是,則直接刪除帖子;不是,則不做刪除 處理,直接發布到網絡上(本次審核結果也可以通過文字提示的方式告知發 帖用戶)。
步驟S503:帖子成功發布以後,對發布到網絡上的所述帖子進行後臺監 控,如果有異常數據發生,如對發帖頻率大於設定參考值的用戶,點擊量 和回帖量大於設定參考值的普通帖以及選項選擇次數、點擊量和回復量大於 設定參考值的投票帖進行自動記錄,監控後臺會自動把數據異常的用戶和帖 子通過郵件報警的方式發送給管理伺服器,由管理員進行人工刪除;
步驟S504:對於沒有被在內容過濾階段和審核階段屏蔽,也沒有在後臺 監控過程中發現異常的帖子,需要由人工通過搜索關鍵詞或直接在吧裡查看 的方式,對線上的垃圾內容進行刪除清理。人力有限,所以需要搜吧機器人 對線上新增的內容進行巡查及清理,通過添加機器人髒詞的方式,對匹配機 器人髒詞的內容進行刪除。
更力口廣泛。
18以上所述,僅為本發明較佳的具體實施方式
,但本發明的保護範圍並不 局限於此,任何熟悉本技術領域的技術人員在本發明揭露的技術範圍內,可 輕易想到的變化或替換,都應涵蓋在本發明的保護範圍之內。因此,本發明 的保護範圍應該以權利要求書的保護範圍為準。
權利要求
1、一種垃圾內容過濾的方法,其特徵在於,所述方法包括通過預定的語義分析條件對發帖內容進行判斷,將所述發帖內容中滿足所述預定的語義分析條件的內容,作為垃圾內容進行屏蔽;將經過屏蔽處理後的所述發帖內容經過審核後,發布到網絡上。
2、 根據權利要求1所述的方法,其特徵在於,所述預定的語義分析條件 包括(a) 所述發帖內容是否滿足語法的要求;或(b) 是否具有能夠描述垃;及詞彙的特徵;或(c) 是否包含詞彙出現頻率大於頻率標準值的詞彙內容;或 (d )攜帶網絡連結地址的數量是否超過設定的參考值;或者上述(a)、 (b) 、 (c) 、 (d)的任意組合。
3、 根據權利要求2所述的方法,其特徵在於,所述預定的語義分析條件 的生成過程,具體包括當所述預定的語義分析條件為(b)時,通過收集大量被過濾掉的垃圾 內容,將所述內容按照類別進行分類;針對每個類別中的所述內容,獲得具 有能夠描述垃^及詞彙的特徵;或者,當所述預定的語義分析條件為(c)時,通過對垃圾內容中垃圾詞彙的 出現次數進行記錄,獲得能夠判斷所述發帖內容中是否包含垃圾詞彙的頻率 標準值;或者,當所述預定的語義分析條件為(d)時,通過對垃圾內容中攜帶網絡鏈 接地址的數量進行記錄,獲得能夠判別所述發帖內容中是否包含垃圾內容的參考值。
4、 根據權利要求1所述的方法,其特徵在於,通過預定的語義分析條件容,作為垃圾內容進行屏蔽之前,所述方法還包括對發帖內容的重複性進行判斷,如所述發帖內容與之前發帖內容重複時,將所述重複的內容自動屏蔽;否則,不做任何處理;對經過重複性判斷的發帖內容進行一級髒詞匹配,如匹配到,將所述發 帖內容屏蔽;否則,對經過一級髒詞過濾後的發帖內容進行語義分析。
5、 根據權利要求1所述的方法,其特徵在於,將經過屏蔽處理後的所述 發帖內容經過審核後,發布到網絡上,具體過程包括對經過屏蔽處理後的所述發帖內容,分別通過二級髒詞以及網頁地址黑 名單進行過濾,並根據過濾結果分別對帖子評分,將所述評分小於標準值的 帖子屏蔽後,發送給人工審核;將所述評分大於等於標準值的帖子發布到網 絡上。
6、 根據權利要求1所述的方法,其特徵在於,所述方法還包括 對發布到網絡上的所述帖子進行後臺監控,對發帖頻率大於設定參考值的用戶,點擊量和回帖量大於設定參考值的普通帖以及選項選擇次數、點擊 量和回復量大於設定參考值的投票帖進行自動記錄,並以郵件報警的方式通 知管理伺服器進行處理。
7、 一種垃圾內容過濾的裝置,其特徵在於,所述裝置包括 進行屏蔽;審核執行模塊,用於對所述語義分析執行模塊處理後的發帖內容經過審 核後,發布到網絡上。
8、 根據權利要求7所述的裝置,其特徵在於,所述預定的語義分析條件包括(e) 所述發帖內容是否滿足語法的要求;或(f) 是否具有能夠描述垃圾詞彙的特徵;或(h)攜帶網絡連結地址的數量是否超過設定的參考值; 或者上述(e)、 (f) 、 (g) 、 (h)的任意組合。
9、 根據權利要求8所述的裝置,其特徵在於,所述裝置還包括 條件生成模塊,用於當所述預定的語義分析條件為(f)時,通過收集大量被過濾掉的垃圾內容,將所述內容按照類別進行分類;針對每個類別中的 所述內容,獲得具有能夠描述垃圾詞彙的特徵;或者,當所述預定的語義分析條件為(g)時,通過對垃圾內容中垃圾詞彙的 出現次數進行記錄,獲得能夠判斷所述發帖內容中是否包含垃圾詞彙的頻率 標準值;或者,當所述預定的語義分析條件為(h)時,通過對垃圾內容中攜帶網絡鏈 接地址的數量進行記錄,獲得能夠判別所述發帖內容中是否包含垃圾內容的 參考值。
10、 根據權利要求7所述的裝置,其特徵在於,所述語義分析執行模塊 具體包括判斷單元,用於判斷發帖內容中是否含有滿足預定的語義分析條件的內谷,處理單元,用於根據所述判斷單元對發帖內容的判斷結果,將所述發帖 內容中滿足預定的語義分析條件的內容,作為垃圾內容進行屏蔽;否則,不 做任何處理。
11、 根據權利要求7所述的裝置,其特徵在於,所述裝置還包括 重複性判斷處理模塊,用於對發帖內容的重複性進行判斷,如所述發帖內容與之前發帖內容重複,則將所述重複的內容自動屏蔽;否則,不做任何 處理;一級髒詞過濾模塊,用於將經過所述重複性判斷處理模塊處理後的所述 發帖內容與一級髒詞相匹配,如匹配到,將所述發帖內容屏蔽;否則,將經
12、根據權利要求7所述的裝置,其特徵在於,所述審核執行模塊具體包括評審單元,用於對所述語義分析執行模塊過濾後的發帖內容,分別通過 二級髒詞以及網頁地址黑名單進行過濾,並根據過濾結果分別對帖子評分;執行單元,用於根據評審單元的評審結果進行處理,將所述評分小於標 準值的帖子進行屏蔽後,發送給人工審核;將所述評分大於等於標準值的帖 子發布到網絡上。 '
13、根據權利要求7所述的裝置,其特徵在於,所述裝置還包括 後臺監控模塊,用於對所述審核執行模塊發布到網絡上的帖子進行後臺 監控,對發帖頻率大於設定參考值的用戶,點擊量和回帖量大於設定參考值 的普通帖以及選項選擇次數、點擊量和回復量大於設定參考值的投票帖進行 自動記錄;監控報警模塊,用於對所述後臺監控模塊記錄的數據以郵件報警的方式 通知管理伺服器進行處理。
全文摘要
本發明公開了一種垃圾內容過濾的方法,技術方案包括通過預定的語義分析條件對發帖內容進行判斷,將所述發帖內容中滿足所述預定的語義分析條件的內容,作為垃圾內容進行屏蔽;將經過屏蔽處理後的所述發帖內容經過審核後,發布到網絡上。本發明還提供了一種垃圾內容過濾的裝置。採用本發明所述的技術方案,能夠有效地實現社區垃圾內容的屏蔽,節約了人力和物力的投入資本,提高了工作效率。
文檔編號H04L29/08GK101510879SQ20091008073
公開日2009年8月19日 申請日期2009年3月26日 優先權日2009年3月26日
發明者於章濤, 張萌萌, 李京晶, 銳 祝, 趙琳霖 申請人:騰訊科技(深圳)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀