新四季網

一種信息安全過濾方法

2023-10-23 00:41:37 1

一種信息安全過濾方法
【專利摘要】本發明公開了一種信息安全過濾方法,其具體實現過程包括了第一級的基於Web緩存技術的地址過濾和第二級的基於內容的過濾兩大步驟。其中基於內容的過濾步驟又包含了文檔預處理、生成文本特徵和過濾三個子步驟。該一種信息安全過濾方法與現有技術相比,利用了Web緩存技術及統計和知識特徵兩個方面的知識,很好地提高了信息過濾的準確性和網絡信息的安全性,實用性強。
【專利說明】一種信息安全過濾方法

【技術領域】
[0001]本發明涉及信息安全【技術領域】,具體地說是一種實用性強、信息安全過濾方法。

【背景技術】
[0002]隨著網絡通信技術的快速發展和網際網路上數據量的急劇增長,主動信息服務作為一種新的信息服務模式,可以通過收集和分析用戶興趣建立用戶模型,並在領域知識的指導下,按照用戶模型對網絡信息進行收集、整理和分類,最後將符合用戶興趣的內容及時推送給用戶,大大提高了用戶在網上獲取信息的效率。但是,由於網際網路的開放性、動態性和異構性的特點,又不可避免地給這種服務方式帶來了諸多不安全的因素,如缺乏對信息發布的有效控制、不良信息的泛濫等。如何在這樣的網絡環境下為網絡用戶提供更好的服務,並有效控制網絡信息的傳播,保障網絡信息的內容安全,就成為了目前急待解決的問題。信息過濾技術作為信息檢索和主動信息服務中的關鍵技術,它的快速發展及廣泛應用成為了解決該問題的最好方式。
[0003]所謂主動信息服務,就是指在沒有用戶幹預的情況下,信息服務者或信息服務系統能根據用戶的信息需求和偏好自動提供信息響應的服務。其實質就是針對計算機系統而言的服務的主動性。其特徵有以下幾點:主動發布信息、主動預測需求、主動採集信息、主動處理信息、主動挖掘知識、主動預測仿真、主動人機互動和主動適應用戶。
[0004]上面的論述中可以看出,主動信息服務不僅可以根據用戶信息需求的變化,把用戶需要的感興趣的信息主動動性也大大提高了用戶獲取網絡信息的效率,節省了用戶的時間和網絡帶寬。但是,它也帶來了主動信息服務過程中極為突出的安全性問題:信息推送的不相關性和惡意的主動性問題。信息推送的不相關性主要體現在信息服務方在收集了用戶興趣之後,在定期為用戶推送用戶感興趣的信息的同時,也會將一些與用戶興趣無關的或以前有關而現在無關(用戶興趣改變)的信息強行推送到用戶桌面的工作方式。
[0005]惡意的主動性是指在用戶允許主動信息服務的情況下,授權的或非授權的信息服務方將一些與用戶需求無關的信息(如廣告)或不良的惡意信息(如病毒、腳本程序和不良網頁等)推送到用戶桌面的工作方式。由此我們可以看出,以上兩種服務方式不僅給接受主動信息服務的用戶帶來了許多使用上的不便,如浪費用戶時間和網絡帶寬,也給用戶的計算機系統造成了很大的威脅。下面將針對以上安全問題給出相關的判斷、限制和阻止惡意主動信息服務的方法,提供一種信息安全過濾方法。
[0006]該方法基於信息安全過濾技術設計,其中信息過濾(Informat1nFiltering, IF)也就是所謂的信息的選擇性傳播。它是通過監控動態的信息源以找到滿足用戶需求的信息或剔除用戶不需要的信息。該技術作為信息檢索和主動信息服務的關鍵技術,可以有效地提高信息查詢的查全率和查準率,為用戶提供高效的個性化服務。但在網絡安全領域,它的任務就是從動態的信息源中過濾掉在一段時間內比較固定的非需求信息或非法信息,並阻斷有害信息的進一步的傳播,這就是信息的安全過濾。
[0007]安全過濾的特點: 從上面的有關定義,我們可以對安全過濾的特點總結如下:
1)安全過濾是從兩個方面進行描述的:非需求信息過濾和非法信息過濾;
2)非需求信息和非法信息的特徵描述與表達在一段時間內是相對固定的;
3)安全過濾直接阻斷或刪除過濾出的有關信息,並將其記入日誌文件,以避免用戶下一次瀏覽相關信息,過濾的準確性和自主性更高;
4)安全過濾的實現對用戶是隱藏的,在用戶使用網絡的過程中可以實時地進行過濾;
5)對於非需求信息的過濾需要用戶進行反饋評價,但對於非法信息的過濾是不需要用戶反饋的。
[0008]安全過濾的主要方法:
O名單過濾(URL/IP過濾)。建立不良網站的URL或者IP位址列表資料庫,並對該資料庫進行定期的數據更新,當用戶訪問這些站點時,將訪問站點的URL或者IP位址與資料庫列表中的進行匹配,如果能夠正確匹配,則給予阻斷或封鎖。
[0009]2)分級過濾。根據網頁的內容屬性或其他特徵,並按照一定的分級標準,建立網站的分級標記,分級標記可以附在網頁上,也可以保存在文件或資料庫中,使用時以分級標記為過濾的依據,與過濾模板進行比較,或通過瀏覽器的安全設置選項實現分級過濾。
[0010]3)關鍵詞過濾。該方法是對文本內容、文檔的元數據等進行關鍵詞簡單匹配或者布爾邏輯運算,對滿足匹配條件的網頁或網站進行的過濾。在進行關鍵詞過濾時,時常會出現關鍵詞變形的情況,如同音字詞、字詞順序顛倒、字詞中插入其他字符串等,這些變形後的關鍵詞是不能通過簡單的匹配或者邏輯運算來實現有效過濾的。因此,可以採用計算關鍵詞的匹配相關度、計算關鍵詞中字之間的位置差等方法來完成對變形後的關鍵詞的過濾。
[0011]前面提到的名單過濾和關鍵詞過濾雖然是目前實現信息安全過濾的主要方法,但是它們在進行過濾時也存在一定的缺陷,如在名單過濾中,當網頁中的部分內容為非需求信息或非法信息時,有可能導致整個網站被封,或者非法網站也可以通過改變IP位址,使之能夠在一段時間內避免被過濾;而對於關鍵詞過濾,其較高的漏報和錯報率影響了安全過濾的效率。本發明提供一種基於統計和知識特徵的多級信息安全過濾方法,能很好地解決以上問題。


【發明內容】

[0012]本發明的技術任務是針對以上不足之處,提供一種實用性強、信息安全過濾方法。
[0013]一種信息安全過濾方法,其具體實現過程為:
一、設置第一級過濾,即基於Web緩存的地址過濾,利用Web緩存技術在機器空閒或不忙時啟動內容分析功能,對網頁內容分類識別:使用標題判別引擎或內容判別引擎,根據預先設定的規則對緩存數據進行判斷,對提供不良內容的URL進行登記,生成攔截黑名單加入資料庫,同時刪除緩存的不良網頁,在該級將不良網站過濾掉;
二、設置第二級過濾,即基於內容的過濾,該級過濾包括:
文檔預處理:對文本進行分詞後加權,計算出文本中詞的權值;
生成文本特徵:根據上述計算的權值大小構造特徵詞典;
過濾:計算預先收集的滿足和不滿足過濾需求的兩類文本的特徵值,根據兩類特徵值的差異設置該過濾步驟中的閾值,計算得到的閾值用來判斷待分析文本的特徵值是否超過了該值,以決定是否進行相應的過濾處理,超過該值時,進行過濾。
[0014]所述分詞為文檔預處理的第一步,即將經第一級過濾後待處理的文檔轉換成詞序列後,供信息過濾系統使用,上述分詞採用機械匹配法、特徵詞庫法、正向/逆向最大匹配法、抽取中頻字串法、鄰接約束法、最少分詞法中的一種或幾種的結合。
[0015]所述加權計算為文檔預處理的第二步,其具體實現過程為:
將分詞後待處理的文檔D用一個m維向量表示為:D=(wl,w2,…,wi,其中wi
表示第i個詞的權值;用詞頻因子與反向文檔頻度因子之積來計算詞的權值,即詞的加權函數表示為:Wi=f (wi) *v (wi),其中詞頻因子f (wi)反映詞在文檔中出現的頻率,反向文檔頻度因子V(Wi)表示詞在文檔中的重要程度。
[0016]所述文檔特徵的生成包括:
創建特徵詞典:經過對待處理文檔的分詞和詞的權值計算之後,設置一個門檻值,該值作為構建特徵詞典的標準,權值高於門檻值的詞作為特徵詞加入到特徵詞典中;然後根據詞的權值大小來決定是否將對應的詞加入到特徵詞典中;
創建好特徵詞典後,對特徵詞典中的特徵詞進行量化,即將其作為屬性因子與詞的權值進行運算,從而生成文檔特徵。
[0017]所述文檔經過兩級過濾後,系統根據所得到的過濾結果,發送相關反饋給特徵詞典及特徵閾值,以及時改變其大小範圍,實現最優的過濾。
[0018]本發明的一種信息安全過濾方法,具有以下優點:
該發明的一種信息安全過濾方法從地址和文檔內容兩個方面,利用了 Web緩存技術及統計和知識特徵兩個方面的知識,很好地提高了信息過濾的準確性和網絡信息的安全性,實用性較強,適用範圍廣泛,易於推廣。

【專利附圖】

【附圖說明】
[0019]附圖1為本發明的實現示意圖。

【具體實施方式】
[0020]下面結合附圖和具體實施例對本發明作進一步說明。
[0021]本發明提供一種信息安全過濾方法,該方法包括了第一級的基於Web緩存技術的地址過濾和第二級的基於內容的過濾兩大步驟。其中基於內容的過濾又包含了文檔預處理、生成文本特徵和過濾三個子步驟。此方法從地址和文檔內容兩個方面,利用了 Web緩存技術及統計和知識特徵兩個方面的知識,很好地提高了信息過濾的準確性和網絡信息的安全性。如附圖1所示,其具體實現過程為:
一、設置第一級過濾,簡單的URL過濾。由於Web高速緩存伺服器技術可以緩存用戶訪問過的對象,這一特點使得我們可以利用Web緩存技術在機器空閒或不忙時啟動內容分析功能,採用網頁內容判別技術,使用標題判別引擎或內容判別引擎,並根據預先設定的規則對緩存數據進行判斷,對提供不良內容的URL進行登記,生成攔截黑名單加入資料庫,同時刪除緩存的不良網頁,這樣,在以後正常工作時,便可以在這一級將不良網站過濾掉,從而實現了一次掃描,多次服務的高效服務模式。該技術採用事後審計的方式,避免了常用的基於事先判別的內容過濾技術中用戶響應時間長、瀏覽速度慢、誤判率較高的缺點。
[0022]二、設置第二級過濾,由於上一級的過濾有可能存在一些沒有被過濾掉的不良網頁,此時可以對可能含有不安全信息的文本進行預處理,然後經過加權,計算出文本中詞的權值,根據權值的大小構造特徵詞典。同時計算預先收集的滿足和不滿足過濾需求的兩類文本的特徵值,根據兩類特徵值的差異設置過濾模塊中的閾值,計算得到的閾值可用來判斷待分析文本的特徵值是否超過了該值,以決定是否進行相應的過濾處理,超過該值時,進行過濾。
[0023]所述分詞為文檔預處理的第一步,也是進行信息過濾的基礎環節,其目的在於將一篇待處理的文檔先轉換成詞序列後,供信息過濾系統使用。目前常用的分詞方法主要有機械匹配法、特徵詞庫法、正向/逆向最大匹配法、抽取中頻字串法、鄰接約束法、最少分詞法等。在這裡我們採用詞頻統計和機械匹配相結合的方法進行文檔的分詞。
[0024]加權計算:一篇待處理的文檔D可以用一個m維向量表示為:D=(wl,《2,…,wi,…,wm),其中wi表示第i個詞的權值。因此,在對文檔進行了分詞預處理後,還需要對表示文檔的詞進行加權計算。計算詞的權值最常用的方法是用詞頻因子(TermFrequency,TF)與反向文檔頻度因子(InverseDocumentFrequency, IDF)之積來表示的,即詞的加權函數可以表示為:Wi=f (wi)*v(wi),其中詞頻因子f (wi)反映詞在文檔中出現的頻率,反向文檔頻度因子V(Wi)表示詞在文檔中的重要程度。
[0025]所述文檔特徵的生成包括:
創建特徵詞典:經過對待處理文檔的分詞和詞的權值計算之後,設置一個門檻值,該值作為構建特徵詞典的標準,權值高於門檻值的詞作為特徵詞加入到特徵詞典中;然後根據詞的權值大小(權值大的詞更能反映文檔的特徵)來決定是否將對應的詞加入到特徵詞典中;
創建好特徵詞典後,對特徵詞典中的特徵詞進行量化,即將其作為屬性因子與詞的權值進行運算,從而生成文檔特徵。
[0026]所述文檔經過兩級過濾後,系統根據所得到的過濾結果,發送相關反饋給特徵詞典及特徵閾值,以及時改變其大小範圍,實現最優的過濾。
[0027]上述【具體實施方式】僅是本發明的具體個案,本發明的專利保護範圍包括但不限於上述【具體實施方式】,任何符合本發明的一種信息安全過濾方法的權利要求書的且任何所述【技術領域】的普通技術人員對其所做的適當變化或替換,皆應落入本發明的專利保護範圍。
【權利要求】
1.一種信息安全過濾方法,其特徵在於,其具體實現過程為: 一、設置第一級過濾,即基於Web緩存的地址過濾,利用Web緩存技術在機器空閒或不忙時啟動內容分析功能,對網頁內容分類識別:使用標題判別引擎或內容判別引擎,根據預先設定的規則對緩存數據進行判斷,對提供不良內容的URL進行登記,生成攔截黑名單加入資料庫,同時刪除緩存的不良網頁,在該級將不良網站過濾掉; 二、設置第二級過濾,即基於內容的過濾,該級過濾包括: 文檔預處理:對文本進行分詞後加權,計算出文本中詞的權值; 生成文本特徵:根據上述計算的權值大小構造特徵詞典; 過濾:計算預先收集的滿足和不滿足過濾需求的兩類文本的特徵值,根據兩類特徵值的差異設置該過濾步驟中的閾值,計算得到的閾值用來判斷待分析文本的特徵值是否超過了該值,以決定是否進行相應的過濾處理,超過該值時,進行過濾。
2.根據權利要求1所述的一種信息安全過濾方法,其特徵在於,所述分詞為文檔預處理的第一步,即將經第一級過濾後待處理的文檔轉換成詞序列後,供信息過濾系統使用,上述分詞採用機械匹配法、特徵詞庫法、正向/逆向最大匹配法、抽取中頻字串法、鄰接約束法、最少分詞法中的一種或幾種的結合。
3.根據權利要求2所述的一種信息安全過濾方法,其特徵在於,所述加權計算為文檔預處理的第二步,其具體實現過程為: 將分詞後待處理的文檔D用一個m維向量表示為:D=(wl, w2,..., wi,…,wm),其中wi表示第i個詞的權值;用詞頻因子與反向文檔頻度因子之積來計算詞的權值,即詞的加權函數表示為:Wi=f (wi)*v(wi),其中詞頻因子f (wi)反映詞在文檔中出現的頻率,反向文檔頻度因子V(Wi)表示詞在文檔中的重要程度。
4.根據權利要求1所述的一種信息安全過濾方法,其特徵在於,所述文檔特徵的生成包括: 創建特徵詞典:經過對待處理文檔的分詞和詞的權值計算之後,設置一個門檻值,該值作為構建特徵詞典的標準,權值高於門檻值的詞作為特徵詞加入到特徵詞典中;然後根據詞的權值大小來決定是否將對應的詞加入到特徵詞典中; 創建好特徵詞典後,對特徵詞典中的特徵詞進行量化,即將其作為屬性因子與詞的權值進行運算,從而生成文檔特徵。
5.根據權利要求1-4中任一所述的一種信息安全過濾方法,其特徵在於,所述文檔經過兩級過濾後,系統根據所得到的過濾結果,發送相關反饋給特徵詞典及特徵閾值,以及時改變其大小範圍,實現最優的過濾。
【文檔編號】H04L29/06GK104394158SQ201410711235
【公開日】2015年3月4日 申請日期:2014年12月1日 優先權日:2014年12月1日
【發明者】劉洋 申請人:浪潮電子信息產業股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀