一種垃圾內容過濾的方法及裝置的製作方法

2023-07-14 07:22:16 5

專利名稱：一種垃圾內容過濾的方法及裝置的製作方法
技術領域：
本發明涉及網際網路技術領域，具體地說，涉及一種垃圾內容過濾的方法及裝置。
背景技術：
目前，網際網路技術中針對社區垃圾內容過濾的手段，一般採用傳統的過濾方式。結合圖1所示，用戶發帖的內容在發布到網絡上之前，首先要經過
一級髒詞過濾，將帖子中與一級髒詞匹配的詞彙作為垃;及詞彙進行屏蔽；其次，對經過一級髒詞過濾處理後的內容進行人工審核階段的二級髒詞過濾，並將所述帖子中與二級髒詞匹配的詞彙作為垃圾詞彙再次屏蔽掉；對經過二級髒詞過濾處理後內容將一皮成功發布到網絡上；對於在一級或二級髒詞過濾中未過濾出的垃圾內容，只能依靠在後期對發布到網絡上的帖子進行人工或機器的巡查的方式進行刪除，以實現對社區垃圾內容的過濾。
在實現本發明的過程中，發明人發現，上述現有技術存在以下缺點 (1 )對用戶發出的帖子內容進4亍一級髒詞過濾時，由於目前一級髒詞過濾階段，只能將帖子中的內容與髒詞資料庫中現有髒詞進行一對一完全匹配的方式進行過濾，若用戶的帖子中存在一些髒詞資料庫中未保存的新的垃圾詞彙，這樣在一級髒詞過濾處理中就過濾不到；
對於人工審核的二級髒詞過濾階段，仍單純的依靠通過髒詞匹配的方式進行過濾，所以同樣存在一級髒詞過濾中的問題。在一級或二級髒詞匹配過程中，未檢查出的新的垃圾詞彙會作為符合發布要求的帖子發布到網絡上，只能依靠後期的人工或機器巡查進行刪除，並相應的添加到一級或二級髒詞
6資料庫中。所以現有技術中這種依靠髒詞過濾的方式來過濾垃圾內容具有被
動性，並且導致過濾覆蓋面的局限性；
(2)已發布到網絡上的帖子內容的後期巡查過程，也存在一定的^f皮動性，管理伺服器要主動地對發布到網絡上的帖子進行瀏覽和巡查，逐一對發現的垃》及詞彙進行刪除，所以加大了勞動力的才殳入以及才幾器維護方面的資本。

發明內容
本發明要解決的技術問題是提供一種垃圾內容過濾的方法及裝置，能夠有效地實現社區垃圾內容的屏蔽，節約了人力和物力的投入資本。本發明的技術方案如下所述一種垃;及內容過濾的方法，該方法包4舌
通過預定的語義分析條件對發帖內容進行判斷，將所述發帖內容中滿足所述預定的語義分析條件的內容，作為垃圾內容進行屏蔽；
將經過屏蔽處理後的所述發帖內容經過審核後，發布到網絡上。進一步地，所述預定的語義分析條件包括 (a )所述發帖內容是否滿足語法的要求；或
(b) 是否具有能夠描述垃圾詞彙的特徵；或
(c) 是否包含詞彙出現頻率大於頻率標準值的詞彙內容；或 (d )攜帶網絡連結地址的數量是否超過設定的參考值；
或者上述(a)、 (b) 、 (c) 、 (d)的任意組合。進一步地，所述預定的語義分析條件的生成過程，具體包括當所述預定的語義分析條件為(b)時，通過收集大量被過濾掉的垃圾
內容，將所述內容按照類別進行分類；針對每個類別中的所述內容，獲得具
有能夠描述垃圾詞彙的特徵；或者，
當所述預定的語義分析條件為(c)時，通過對垃圾內容中垃圾詞彙的出現次數進行記錄，獲得能夠判斷所述發帖內容中是否包含垃圾詞彙的頻率
標準值；或者，
當所述預定的語義分析條件為(d)時，通過對垃圾內容中攜帶網絡鏈接地址的數量進行記錄，獲得能夠判別所述發帖內容中是否包含垃圾內容的參考值。
進一步地，通過預定的語義分析條件對發帖內容進行判斷，將所述發帖內容中滿足所述預定的語義分析條件的內容，作為垃圾內容進行屏蔽之前，所述方法還包括
對發帖內容的重複性進行判斷，如所述發帖內容與之前發帖內容重複時，將所述重複的內容自動屏蔽；否則，不做任何處理；
對經過重複性判斷的發帖內容進行一級髒詞匹配，如匹配到，將所述發帖內容屏蔽；否則，對經過一級髒詞過濾後的發帖內容進行語義分析。
進一步地，將經過屏蔽處理後的所述發帖內容經過審核後，發布到網絡上，具體過程包括
對經過屏蔽處理後的所述發帖內容，分別通過二級髒詞以及網頁地址黑名單進行過濾，並根據過濾結果分別對帖子評分，將所述評分小於標準值的帖子屏蔽後，發送給人工審核；將所述評分大於等於標準值的帖子發布到網絡上。
進一步地，所述方法還包括
對發布到網絡上的所述帖子進行後臺監控，對發帖頻率大於設定參考值的用戶，點擊量和回帖量大於設定參考值的普通帖以及選項選擇次數、點擊量和回復量大於設定參考值的投票帖進行自動記錄，並以郵件報警的方式通知管理伺服器進行處理。
本發明還提供了一種垃圾內容過濾的裝置，所述裝置包括語義分析執行模塊，用於通過預定的語義分析條件對發帖內容進行判斷，將所述發帖內容中滿足所述預定的語義分析條件的內容，作為垃圾內容
進行屏蔽；
審核執行模塊，用於對所述語義分析執行模塊處理後的發帖內容經過審核後，發布到網絡上。
優選的，所述預定的語義分析條件包括
(e) 所述發帖內容是否滿足語法的要求；或
(f) 是否具有能夠描述垃圾詞彙的特徵；或
(g) 是否包含詞彙出現頻率大於頻率標準值的詞彙內容；或
(h) 攜帶網絡連結地址的數量是否超過設定的參考值；或者上述(e)、 (f) 、 (g) 、 (h)的任意組合。優選的，所述裝置還包括
條件生成模塊，用於當所述預定的語義分析條件為(f)時，通過收集大量被過濾掉的垃圾內容，將所述內容按照類別進行分類；針對每個類別中的所述內容，獲得具有能夠描述垃圾詞彙的特徵；或者，
當所述預定的語義分析條件為(g)時，通過對垃圾內容中垃圾詞彙的出現次數進行記錄，獲得能夠判斷所述發帖內容中是否包含垃圾詞彙的頻率標準值；或者，
當所述預定的語義分析條件為(h)時，通過對垃圾內容中攜帶網絡鏈接地址的數量進行記錄，獲得能夠判別所述發帖內容中是否包含垃圾內容的參考值。
優選的，所述語義分析執行模塊具體包括
判斷單元，用於判斷發帖內容中是否含有滿足預定的語義分析條件的內
答；
處理單元，用於根據所述判斷單元對發帖內容的判斷結果，將所述發帖內容中滿足預定的語義分析條件的內容，作為垃圾內容進行屏蔽；否則，不做任何處理。優選的，所述裝置還包括
重複性判斷處理模塊，用於對發帖內容的重複性進行判斷，如所述發帖
內容與之前發帖內容重複，則將所述重複的內容自動屏蔽；否則，不做任何處理；
一級髒詞過濾模塊，用於將經過所述重複性判斷處理模塊處理後的所述發帖內容與一級髒詞相匹配，如匹配到，將所述發帖內容屏蔽；否則，將經
優選的，所述審核執行模塊具體包括
評審單元，用於對所述語義分析執行模塊過濾後的發帖內容，分別通過二級髒詞以及網頁地址黑名單進行過濾，並根據過濾結果分別對帖子評分；
執行單元，用於根據評審單元的評審結果進行處理，將所述評分小於標準值的帖子進行屏蔽後，發送給人工審核；將所述評分大於等於標準值的帖子發布到網絡上。
優選的，所述裝置還包括
後臺監控模塊，用於對所述審核執行模塊發布到網絡上的帖子進行後臺監控，對發帖頻率大於設定參考值的用戶，點擊量和回帖量大於設定參考值的普通帖以及選項選擇次數、點擊量和回復量大於設定參考值的投票帖進行自動記錄；
監控報警模塊，用於對所述後臺監控模塊記錄的數據以郵件報警的方式通知管理伺服器進行處理。
釆用本發明所述的技術方案具有以下有益效果
了現有技術中單純採用髒詞進行過濾的被動性，由於預定的語義分析條件中保存有大量關於垃圾內容的特徵信息，所以過濾的覆蓋面更廣泛；
2、通過語義分析過程給人工審核和後臺監控過程減少了工作量，節約
10了勞動力。

圖1為現有技術中傳統社區過濾方式的流程框圖；圖2為本發明實施例一種垃圾內容過濾方法的簡要流程圖圖3為本發明實施例了一種垃圾內容過濾裝置的簡要框圖；圖4為本發明實施例一種垃圾內容過濾方法的流程框圖。
具體實施例方式
為了更好的理解本發明的技術方案，下面結合具體實施例進行說明。本發明通過在社區垃圾過濾中，採用了語義分析過程克服了現有技術中
過濾覆蓋範圍的局限性，能夠更好的節約勞動力，提高工作效率。
如圖2所示，本發明實施例一種垃圾內容過濾的方法，所述方法包括步驟S103:通過預定的語義分析條件對發帖內容進行判斷，將所述發
帖內容中滿足所述預定的語義分析條件的內容，作為垃圾內容進行屏蔽；
步驟S104:將經過屏蔽處理後的所述發帖內容經過審核後，發布到網絡上。
具體地說，所述預定的語義分析條件包括 (a )所述發帖內容是否滿足語法的要求；或
(b) 是否具有能夠描述垃圾詞彙的特徵；或
(c) 是否包含詞彙出現頻率大於頻率標準值的詞彙內容；或 (d )攜帶網絡連結地址的數量是否超過設定的參考值；
或者上述(a)、 (b) 、 (c) 、 (d)的任意組合。通常，垃圾帖中經常會出現一些隨意用鍵盤敲出的漢字或者字母，根據語法分析這些都是不符合語法要求的，所以在帖子中發現這樣的內容就會被過濾掉。
具體地說，所述預定的語義分析條件的生成過程，具體包括
(1) 如果預定的語義分析條件為上述(b)時，通過收集大量被過濾掉
的垃圾內容，將所述內容按照類別進行分類；針對每個類別中的所述內容，獲得具有能夠描述垃圾詞彙的特徵；
一般對於收集到的垃圾帖子，分別可以將這些內容按照廣告，色情以及惡意交友這三種方式來分類，分別獲得這三種類型帖的特徵，保存在特徵庫中。
(2) 或者，如果預定的語義分析條件為上述(c)時，通過對垃圾內容中垃圾詞彙的出現次數進行記錄，獲得能夠判斷所述發帖內容中是否包含垃圾詞彙的頻率標準值(3) 或者，如果預定的語義分析條件為上述(d)時，通過對垃圾內容中攜帶網絡連結地址的數量進行記錄，獲得能夠判別所述發帖內容中是否包含垃圾內容的參考值。
當然，在本實施例中，所述預定的語義分析條件的生成過程包括上述 (1) 、 (2) 、 (3)的任意組合。比如，所述預定的語義分析條件的生成過程為(1 )和(2 )、或者(1 )和(3 )、或者(2 )和(3 )、或者(1 ) 和(2 )和(3 )。
通常，垃圾帖中垃圾詞彙出現的頻率非常高以及出現的連結地址也非常多，通過對大量垃圾內容的統計學習，可以從中獲得辨別發帖內容中是否含有垃圾詞彙的頻率標準值和參考值。
具體地說，步驟S103之前，所述方法還包括
步驟S101:對發帖內容的重複性進行判斷，如所述發帖內容與之前發帖內容重複時，將所述重複的內容自動屏蔽；否則，不估文任何處理；
步驟S102:對經過重複性判斷的發帖內容進行一級髒詞匹配，如匹配
12到，將所述發帖內容屏蔽；否則，對經過一級髒詞過濾後的發帖內容進行語
義分析。
具體地說，本發明實施例可以對普通帖、創建吧以及投票帖的內容進行
垃圾內容的過濾。通過步驟S101，能夠限制重複刷帖(手動刷帖、機器刷
帖)、限制無意義內容對新增內容裡的惡意灌水信息進行屏蔽；具體可以採
用對比相同IP的發帖內容，識別內容是否重複。
通過步驟S102，通過髒詞匹配能夠將帖子內容中包含的髒詞進行過濾；通過步驟S103，能夠對帖子中新增內容裡的色情、廣告、惡意交友等垃
圾內容進行屏蔽；
對於普通帖，創建吧與投票帖的垃圾內容處理過程涉及的技術方案相同，不再贅述。
具體地說，步驟S104的具體過程包括
對經過屏蔽處理後的所述發帖內容，分別通過二級髒詞以及網頁地址黑名單進行過濾，並根據過濾結果分別對帖子評分，將所述評分小於標準值的帖子屏蔽後，發送給人工審核；將所述評分大於等於標準值的帖子發布到網絡上。
在實際運用中，對帖子內容分別通過二級髒詞以及網頁地址黑名單進行過濾，由於帖子內容不同，過濾到的垃圾內容不同，分別對每個帖子評分。當然匹配到垃圾詞彙多的帖子評分相對較低，相反匹配到垃圾內容較少的帖子評分較高，為了區分垃圾帖，根據對以往垃圾帖的統計規律獲得一個能夠衡量垃圾帖與正常帖的標準值，分別與評分進行判斷，確保了由於某個帖子存在少量的垃圾詞彙被屏蔽的誤操作。
本發明實施例步驟S10 4以安全中心審核平臺為平臺，通過匹配二級髒詞、URL黑名單等對文字內容和所有圖片內容進行審核。對步驟S104之前的過濾過程中無法處理的內容進行人工審核處理。例如垃圾圖片(色情、廣告、反動圖片等)，包括對包含反動、色情等國家規定限制的垃圾內容進行審核。
通常現有技術中的人工審核階段只能對用戶本地上傳的圖片內容進行審核，對引用其他網站的圖片內容不能審核，本發明實施例可以對帖子中所有的圖片進行審核，包括外部連結的圖片和本地上傳的圖片。
具體地說，所述方法還包括步驟S105::
對發布到網絡上的所述帖子進行後臺監控，對發帖頻率大於設定參考值的用戶，點擊量和回帖量大於設定參考值的普通帖以及選項選擇次數、點擊量和回復量大於設定參考值的投票帖進行自動記錄，並以郵件報警的方式通知管理伺服器進行處理。
可以根據對之前大量搜集到的垃圾帖結合經驗值，確定能夠辨別帖子數據發生異常的參考值。
對發布到網絡上的所述帖子進行後臺監控時，辨別帖子發生異常的情況可以包括
(1 )根據記錄下的帖子數據，對5分鐘發帖超過10個、24小時發帖超過 600個的用戶進行自動記錄
(2) 對點擊量、回帖數突增的普通帖子進行自動記錄；
(3) 對選項選擇次數、點擊量、回複數突增的投票帖進行自動記錄；上述三種情況的出現，可以通過郵件報警的方式通知到管理伺服器進行
人工清理。
如圖3所述，本發明還提供了一種垃圾內容過濾裝置，所述裝置包括語義分析執行模塊S33，用於通過預定的語義分析條件對發帖內容進行
判斷，將所述發帖內容中滿足所述預定的語義分析條件的內容，作為垃圾內
容進行屏蔽；
14審核執行模塊S44,用於對所述語義分析執行模塊處理後的發帖內容經
過審核後，發布到網絡上。
本發明實施例中所述語義分析執行模塊S33和審核執行模塊S44，與上述方法實施例中步驟S103和步驟S104涉及的技術方案相同，在此不作贅述。
具體地說，所述預定的語義分析條件包括
(e) 所述發帖內容是否滿足語法的要求；或
(f) 是否具有能夠描述垃圾詞彙的特徵；或
(h)攜帶網絡連結地址的數量是否超過設定的參考值；或者上述(e)、 (f) 、 (g) 、 (h)的任意組合。所述預定的語義分析條件與上述方法實施例中的生成過程相同，在此不作贅述。
具體地說，所述裝置還包括
條件生成模塊S88，用於當所述預定的語義分析條件為上述(f)時，通過收集大量被過濾掉的垃圾內容，將所述內容按照類別進行分類；針對每個類別中的所述內容，獲得具有能夠描述垃圾詞彙的特徵；或者，
當所述預定的語義分析條件為上述(g)時，通過對垃圾內容中垃圾詞匯的出現次數進行記錄，獲得能夠判斷所述發帖內容中是否包含垃圾詞彙的頻率標準值；或者，
當所述預定的語義分析條件為上述(h)時，通過對垃圾內容中攜帶網絡連結地址的數量進行記錄，獲得能夠判別所述發帖內容中是否包含垃圾內容的參考值。
所述條件生成模塊S88的功能與上述實施例涉及的技術內容相同，請參
1照上述說明。
具體地說，所述語義分析執行模塊具體可以包括的內容；
處理單元S332，用於根據所述判斷單元對發帖內容的判斷結果，將所述發帖內容中滿足預定的語義分析條件的內容，作為垃圾內容進行屏蔽；否則，不做任何處理。
具體地說，所述裝置還包括
重複性判斷處理模塊S11,用於對發帖內容的重複性進行判斷，如所述發帖內容與之前發帖內容重複，則將所述重複的內容自動屏蔽；否則，不做任何處理；
一級髒詞過濾模塊S22，用於將經過所述重複性判斷處理模塊處理後的所述發帖內容與一級髒詞相匹配，如匹配到，將所述發帖內容屏蔽；否則，
本發明實施例中重複性判斷處理模塊S11和一級髒詞過濾模塊S22,與上述方法實施例中步驟S101和步驟S102涉及的技術方案相同，在此不作贅述。
具體地說，所述審核執行模塊具體包括
評審單元S441,用於對所述語義分析執行模塊過濾後的發帖內容，分別通過二級髒詞以及網頁地址黑名單進行過濾，並^4居過濾結果分別對帖子評
分；
執行單元S442,用於根據評審單元的評審結果進行處理，將所述評分小於標準值的帖子進行屏蔽後，發送給人工審核；將所述評分大於等於標準值的帖子發布具體地說，所述裝置還包括
後臺監控模塊S55,用於對所述審核執行模塊發布到網絡上的帖子進行後臺監控，對發帖頻率大於設定參考值的用戶，點擊量和回帖量大於設定參考值的普通帖以及選項選擇次數、點擊量和回復量大於設定參考值的投票帖進行自動記錄；
監控報警模塊S66,用於對所述後臺監控模塊記錄的數據以郵件報警的方式通知管理伺服器進行處理。
所述後臺監控模塊S55和所述監控報警模塊S66中涉及的技術方案與上述方法實施例中步驟S105涉及的技術相同，在此不作贅述。
為了更好的理解本發明所述的方法，下面結合實施例1進行說明。實施例1:
本發明實施例1以普通帖為例對本發明所述方法進行說明，結合圖4所示。
步驟S501:網友在搜吧發布一個普通帖，帖子內容首先要經過內容過濾的三個階段
(1)重複性判斷階段；判斷帖子內容是否與之前發布的帖子內容重複 (可以通過比4交相同IP的發帖內容來實現)，如果重複，則自動屏蔽；如果不重複，則不作任何處理；
(2 ) —級髒詞匹配階段；將經過重複性判斷的帖子內容進行一級髒詞匹配，如果匹配到，則將帶有髒詞的帖子內容自動屏蔽；如果未匹配到，則進入語義分析過程；
(3)語義分析過程；通過分析文字內容的語義通過預定的語義分析條件判定是否是垃圾內容，如果是，則自動屏蔽；如果不是，則進入審核階段；從圖4上可以看出，通過步驟S501的三個過程對帖子進行過濾後，不符
合要求的帖子內容會被刪除，並可以通過文字提示的方式反饋給發帖用戶，通知帖子已被屏蔽。
圖4中顯示出本發明可以針對普通帖、創建吧及投票帖的內容進行垃圾過濾，但本應用實例是針對普通帖來說的，其他兩種方式與本實例處理過程相同，不作贅述。
步驟S502:審核階段可以通過安全中心審核平臺實現，其中包括對文字、圖片以及創建吧的內容審核；通過二級髒詞、以及網頁地址黑白名單等邏輯分別對帖子內容進行過濾，並對經過過濾後的帖子分別進行評分，將評分小於參考值的帖子自動屏蔽，評分小於等於參考值的帖子發布到網絡上；
其中，對於評分小於參考值的帖子會被發送到審核平臺，由人工審核最終判定該帖子是否包含垃圾內容，是，則直接刪除帖子；不是，則不做刪除處理，直接發布到網絡上(本次審核結果也可以通過文字提示的方式告知發帖用戶)。
步驟S503:帖子成功發布以後，對發布到網絡上的所述帖子進行後臺監控，如果有異常數據發生，如對發帖頻率大於設定參考值的用戶，點擊量和回帖量大於設定參考值的普通帖以及選項選擇次數、點擊量和回復量大於設定參考值的投票帖進行自動記錄，監控後臺會自動把數據異常的用戶和帖子通過郵件報警的方式發送給管理伺服器，由管理員進行人工刪除；
步驟S504:對於沒有被在內容過濾階段和審核階段屏蔽，也沒有在後臺監控過程中發現異常的帖子，需要由人工通過搜索關鍵詞或直接在吧裡查看的方式，對線上的垃圾內容進行刪除清理。人力有限，所以需要搜吧機器人對線上新增的內容進行巡查及清理，通過添加機器人髒詞的方式，對匹配機器人髒詞的內容進行刪除。
更力口廣泛。
18以上所述，僅為本發明較佳的具體實施方式
，但本發明的保護範圍並不局限於此，任何熟悉本技術領域的技術人員在本發明揭露的技術範圍內，可輕易想到的變化或替換，都應涵蓋在本發明的保護範圍之內。因此，本發明的保護範圍應該以權利要求書的保護範圍為準。
權利要求
1、一種垃圾內容過濾的方法，其特徵在於，所述方法包括通過預定的語義分析條件對發帖內容進行判斷，將所述發帖內容中滿足所述預定的語義分析條件的內容，作為垃圾內容進行屏蔽；將經過屏蔽處理後的所述發帖內容經過審核後，發布到網絡上。
2、根據權利要求1所述的方法，其特徵在於，所述預定的語義分析條件包括(a) 所述發帖內容是否滿足語法的要求；或(b) 是否具有能夠描述垃;及詞彙的特徵；或(c) 是否包含詞彙出現頻率大於頻率標準值的詞彙內容；或 (d )攜帶網絡連結地址的數量是否超過設定的參考值；或者上述(a)、 (b) 、 (c) 、 (d)的任意組合。
3、根據權利要求2所述的方法，其特徵在於，所述預定的語義分析條件的生成過程，具體包括當所述預定的語義分析條件為(b)時，通過收集大量被過濾掉的垃圾內容，將所述內容按照類別進行分類；針對每個類別中的所述內容，獲得具有能夠描述垃^及詞彙的特徵；或者，當所述預定的語義分析條件為(c)時，通過對垃圾內容中垃圾詞彙的出現次數進行記錄，獲得能夠判斷所述發帖內容中是否包含垃圾詞彙的頻率標準值；或者，當所述預定的語義分析條件為(d)時，通過對垃圾內容中攜帶網絡鏈接地址的數量進行記錄，獲得能夠判別所述發帖內容中是否包含垃圾內容的參考值。
4、根據權利要求1所述的方法，其特徵在於，通過預定的語義分析條件容，作為垃圾內容進行屏蔽之前，所述方法還包括對發帖內容的重複性進行判斷，如所述發帖內容與之前發帖內容重複時，將所述重複的內容自動屏蔽；否則，不做任何處理；對經過重複性判斷的發帖內容進行一級髒詞匹配，如匹配到，將所述發帖內容屏蔽；否則，對經過一級髒詞過濾後的發帖內容進行語義分析。
5、根據權利要求1所述的方法，其特徵在於，將經過屏蔽處理後的所述發帖內容經過審核後，發布到網絡上，具體過程包括對經過屏蔽處理後的所述發帖內容，分別通過二級髒詞以及網頁地址黑名單進行過濾，並根據過濾結果分別對帖子評分，將所述評分小於標準值的帖子屏蔽後，發送給人工審核；將所述評分大於等於標準值的帖子發布到網絡上。
6、根據權利要求1所述的方法，其特徵在於，所述方法還包括對發布到網絡上的所述帖子進行後臺監控，對發帖頻率大於設定參考值的用戶，點擊量和回帖量大於設定參考值的普通帖以及選項選擇次數、點擊量和回復量大於設定參考值的投票帖進行自動記錄，並以郵件報警的方式通知管理伺服器進行處理。
7、一種垃圾內容過濾的裝置，其特徵在於，所述裝置包括進行屏蔽；審核執行模塊，用於對所述語義分析執行模塊處理後的發帖內容經過審核後，發布到網絡上。
8、根據權利要求7所述的裝置，其特徵在於，所述預定的語義分析條件包括(e) 所述發帖內容是否滿足語法的要求；或(f) 是否具有能夠描述垃圾詞彙的特徵；或(h)攜帶網絡連結地址的數量是否超過設定的參考值；或者上述(e)、 (f) 、 (g) 、 (h)的任意組合。
9、根據權利要求8所述的裝置，其特徵在於，所述裝置還包括條件生成模塊，用於當所述預定的語義分析條件為(f)時，通過收集大量被過濾掉的垃圾內容，將所述內容按照類別進行分類；針對每個類別中的所述內容，獲得具有能夠描述垃圾詞彙的特徵；或者，當所述預定的語義分析條件為(g)時，通過對垃圾內容中垃圾詞彙的出現次數進行記錄，獲得能夠判斷所述發帖內容中是否包含垃圾詞彙的頻率標準值；或者，當所述預定的語義分析條件為(h)時，通過對垃圾內容中攜帶網絡鏈接地址的數量進行記錄，獲得能夠判別所述發帖內容中是否包含垃圾內容的參考值。
10、根據權利要求7所述的裝置，其特徵在於，所述語義分析執行模塊具體包括判斷單元，用於判斷發帖內容中是否含有滿足預定的語義分析條件的內谷，處理單元，用於根據所述判斷單元對發帖內容的判斷結果，將所述發帖內容中滿足預定的語義分析條件的內容，作為垃圾內容進行屏蔽；否則，不做任何處理。
11、根據權利要求7所述的裝置，其特徵在於，所述裝置還包括重複性判斷處理模塊，用於對發帖內容的重複性進行判斷，如所述發帖內容與之前發帖內容重複，則將所述重複的內容自動屏蔽；否則，不做任何處理；一級髒詞過濾模塊，用於將經過所述重複性判斷處理模塊處理後的所述發帖內容與一級髒詞相匹配，如匹配到，將所述發帖內容屏蔽；否則，將經
12、根據權利要求7所述的裝置，其特徵在於，所述審核執行模塊具體包括評審單元，用於對所述語義分析執行模塊過濾後的發帖內容，分別通過二級髒詞以及網頁地址黑名單進行過濾，並根據過濾結果分別對帖子評分；執行單元，用於根據評審單元的評審結果進行處理，將所述評分小於標準值的帖子進行屏蔽後，發送給人工審核；將所述評分大於等於標準值的帖子發布到網絡上。 '
13、根據權利要求7所述的裝置，其特徵在於，所述裝置還包括後臺監控模塊，用於對所述審核執行模塊發布到網絡上的帖子進行後臺監控，對發帖頻率大於設定參考值的用戶，點擊量和回帖量大於設定參考值的普通帖以及選項選擇次數、點擊量和回復量大於設定參考值的投票帖進行自動記錄；監控報警模塊，用於對所述後臺監控模塊記錄的數據以郵件報警的方式通知管理伺服器進行處理。
全文摘要
本發明公開了一種垃圾內容過濾的方法，技術方案包括通過預定的語義分析條件對發帖內容進行判斷，將所述發帖內容中滿足所述預定的語義分析條件的內容，作為垃圾內容進行屏蔽；將經過屏蔽處理後的所述發帖內容經過審核後，發布到網絡上。本發明還提供了一種垃圾內容過濾的裝置。採用本發明所述的技術方案，能夠有效地實現社區垃圾內容的屏蔽，節約了人力和物力的投入資本，提高了工作效率。
文檔編號H04L29/08GK101510879SQ20091008073
公開日2009年8月19日申請日期2009年3月26日優先權日2009年3月26日
發明者於章濤, 張萌萌, 李京晶, 銳祝, 趙琳霖申請人:騰訊科技(深圳)有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種垃圾內容過濾的方法及裝置的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法