網站信息合併去重方法
2023-07-26 05:47:46 2
網站信息合併去重方法
【專利摘要】本發明涉及一種網站信息的合併去重方法,該方法主要包括以下步驟:(1)獲取所需分析的多個目標網站的數據信息,對數據信息在各網站之間進行橫向比較,對信息進行合併去重;(2)獲取每個目標網站內部的數據信息,對網站內部之間的數據進行縱向比較,合併去重;(3)將合併去重後的信息在新的網站頁面顯示。本發明提供的方法可以去除同類網站的大量重複信息,並將去重後的信息集中顯示,可充分發揮網際網路的時效性和便利性。
【專利說明】網站信息合併去重方法
【技術領域】
[0001]本發明屬於網際網路【技術領域】,具體涉及一種網站信息合併去重方法。
【背景技術】
[0002]隨著網際網路技術的發展,網絡平臺已經成為人們獲取信息的主要方式,同種類型的網站也越來越多,隨之也發生了這樣一種現象:即相同的信息發布在不同的網絡上,例如:同樣是某公司發布的商貿信息,該商貿信息將會發布在同類的多個商貿網站上,用戶在瀏覽網站,尋找信息時,將會大量重複的瀏覽,獲得大量重複信息,造成時間和勞動的浪費,無法最大程度的享受網際網路帶來的便利。
[0003]這種問題形成的關鍵原因即是各個同類的網站為獨立運行的網站,彼此之間沒有信息聯繫,目前尚沒有一個綜合信息的網站,可以對孤立於各個獨立網站的信息進行分析,對重複的信息進行去重處理,當用戶瀏覽該綜合信息的網站時即可以獲得多個同類網站的信息量,節省用戶的瀏覽時間,為用戶帶來便利。研究一種對網站信息的合併去重技術具有
重要意義。
【發明內容】
[0004]本發明的目的在於提供一種應用於同類型網站的網站信息合併去重方法。
[0005]本發明的技術方案是:一種網站信息合併去重方法,該方法包括以下步驟:
[0006](I)獲取所需分析的多個目標網站的數據信息,對數據信息在各網站之間進行橫向比較,對信息進行合併去重;
[0007](2)獲取每個目標網站內部的數據信息,對網站內部之間的數據進行縱向比較,合
並去重;
[0008](3)將合併去重後的信息在新的網站頁面顯示。
[0009]優選的是:獲取所需分析的多個目標網站的數據信息,對數據信息在各網站之間進行橫向比較,對信息進行合併去重的過程主要包括以下步驟:
[0010](I)根據目標網站的結構,設置所需分析目標網站的網站模板,並設定目標網站URL ;
[0011](2)為每個目標網站的網站模板設定獨立的線程,進行網站頁面數據內容的分析;
[0012](3)每個網站模板的獨立線程獨立採集所對應目標網站的主頁面的標籤內容和主頁面標籤下對應的分頁面的標籤內容,獨立線程在信息採集的過程中對所採集的各目標網站之間的信息在各目標網站之間進行橫向對比,即將採集到網站主頁面的標籤內容進行比較,若發現標籤內容相同,則對內容進行合併去重,同時也對主頁面對應的分頁面標籤內容進行比較,若發現標籤內容相同,則對內容進行合併去重;
[0013](4)以主頁面的標籤內容及其對應的分頁面標籤內容為存儲單元,將去重結果存儲在內存中;[0014](5)設定內存存儲上線,計算內存中存儲單元的數量,若內存中存儲單元的數量超過設定的存儲上線,則將內存中存儲單元的信息存儲到資料庫。
[0015]優選的是:獲取每個目標網站內部的數據信息,對網站內部之間的數據進行縱向比較,合併去重的過程主要包括:
[0016](I)對每個目標網站的主頁面內容進行分析,根據網站URL獲取主頁面標籤信息對應的HTML代碼;對HTML代碼進行解析,獲取目標網站主頁面標籤信息;
[0017](2)對網站主頁面標籤所對應的分頁面進行分析,獲取並解析分頁面URL,獲取分頁面標籤內容,以主頁面的標籤內容及其對應的分頁面標籤內容為存儲單元,將存儲單元內容進行比較,對比較結果合併去重,將去重結果存放在內存中;
[0018](3)設定內存存儲上線,計算內存中存儲單元的數量,若內存中存儲單元的數量超過設定的存儲上線,則將內存中存儲單元的信息存儲到資料庫。
[0019]優選的是:網站模板的設計過程包括分析所需比較的各目標網站的結構,根據網站結構設定抓取需要的數據主頁URL、數據主頁下對應的數據分頁URL、需抓取的頁面標籤,通過正則表達式匹配、DOM解析HTML標籤元素;通過網站模板可以得到需要的網站內容。
[0020]優選的是:每個獨立線程對目標網站信息採集及比較完畢後,自動清理採集過程中的髒數據,即對網站內容分析無意義的數據或非法格式數據,以及在源系統中存在的不規範的代碼或含糊業務邏輯。
[0021 ] 優選的是:在橫向對比和縱向對比過程中向內存存儲信息時,先將要存儲的信息在內存內進行查找,若內存內已存在相同的數據信息,不進行重複存儲;若內存內沒有相同的數據信息,則將信息存入內存中。
[0022]優選的是:在橫向對比和縱向對比過程中,將內存中存儲單元的信息存儲到資料庫的過程中,先將要存儲的信息在資料庫內進行查找,若資料庫內已存在相同的數據信息,不進行重複存儲;若資料庫內沒有相同的數據信息,則將信息新增入庫。
[0023]優選的是:在網頁內部縱向對比獲取分頁面標籤內容的過程中,解析分頁面URL,判斷標籤更新時間,若標籤的更新時間早於當前時間,則跳過當前職位解析。
[0024]優選的是:在橫向對比和縱向對比過程中,設定資料庫存儲時限,將內存中存儲單元的信息存儲到資料庫的過程中,查詢資料庫,若資料庫內存在相同的存儲單元,查詢存儲單元發布日期,發布日期通過解析存儲單元數據分頁URL,獲取數據分頁在網站發布時間獲得,若發布日期到查詢日期超過存儲時限,更新存儲單元信息;相反,若發布日期到查詢日期未超過存儲時限,則將存儲單元信息視為重複信息,做去重處理。
[0025]本發明的有益效果是:本發明提供的方法可以去除同類網站的大量重複信息,並將去重後的信息集中顯示,可充分發揮網際網路的時效性和便利性。
【專利附圖】
【附圖說明】
[0026]附圖1為本發明多個目標網站信息橫向對比流程示意圖。
[0027]附圖2為本發明單個目標網站內信息縱向對比流程示意圖。
【具體實施方式】[0028]以下結合附圖對本發明做進一步詳細的說明。
[0029]實施例1
[0030]網站信息合併去重方法,該方法包括以下步驟:
[0031](I)獲取所需分析的多個目標網站的數據信息,對數據信息在各網站之間進行橫向比較,對信息進行合併去重;
[0032]A.根據目標網站的結構,設置所需分析目標網站的網站模板,並設定目標網站URL;網站模板的設計過程包括分析所需比較的各目標網站的結構,根據網站結構設定抓取需要的數據主頁URL、數據主頁下對應的數據分頁URL、需抓取的頁面標籤,通過正則表達式匹配、DOM解析HTML標籤元素;通過網站模板可以得到需要的網站內容。
[0033]B.為每個目標網站的網站模板設定獨立的線程,進行網站頁面數據內容的分析;
[0034]C.每個網站模板的獨立線程獨立採集所對應目標網站的主頁面的標籤內容和主頁面標籤下對應的分頁面的標籤內容,獨立線程在信息採集的過程中對所採集的各目標網站之間的信息在各目標網站之間進行橫向對比,即將採集到網站主頁面的標籤內容進行比較,若發現標籤內容相同,則對內容進行合併去重,同時也對主頁面對應的分頁面標籤內容進行比較,若發現標籤內容相同,則對內容進行合併去重;
[0035]D.以主頁面的標籤內容及其對應的分頁面標籤內容為存儲單元,將去重結果存儲在內存中;
[0036]E.設定內存存儲上線,計算內存中存儲單元的數量,若內存中存儲單元的數量超過設定的存儲上線,則將內存中存儲單元的信息存儲到資料庫;
[0037]F.每個獨立線程對目標網站信息採集及比較完畢後,自動清理採集過程中的髒數據,即對網站內容分析無意義的數據或非法格式數據,以及在源系統中存在的不規範的代碼或含糊業務邏輯。
[0038](2)獲取每個目標網站內部的數據信息,對網站內部之間的數據進行縱向比較,合
並去重;
[0039]A.對每個目標網站的主頁面內容進行分析,根據網站URL獲取主頁面標籤信息對應的HTML代碼;對HTML代碼進行解析,獲取目標網站主頁面標籤信息;
[0040]B.對網站主頁面標籤所對應的分頁面進行分析,獲取並解析分頁面URL,獲取分頁面標籤內容,以主頁面的標籤內容及其對應的分頁面標籤內容為存儲單元,將存儲單元內容進行比較,對比較結果合併去重,將去重結果存放在內存中;
[0041]C.設定內存存儲上線,計算內存中存儲單元的數量,若內存中存儲單元的數量超過設定的存儲上線,則將內存中存儲單元的信息存儲到資料庫。
[0042](3)將合併去重後的信息在新的網站頁面顯示。
[0043]在橫向對比和縱向對比過程中向內存存儲信息時,先將要存儲的信息在內存內進行查找,若內存內已存在相同的數據信息,不進行重複存儲;若內存內沒有相同的數據信息,則將信息存入內存中。
[0044]在橫向對比和縱向對比過程中,將內存中存儲單元的信息存儲到資料庫的過程中,先將要存儲的信息在資料庫內進行查找,若資料庫內已存在相同的數據信息,不進行重複存儲;若資料庫內沒有相同的數據信息,則將信息新增入庫。
[0045]在網頁內部縱向對比獲取分頁面標籤內容的過程中,解析分頁面URL,判斷標籤更新時間,若標籤的更新時間早於當前時間,則跳過當前職位解析。
[0046]在橫向對比和縱向對比過程中,設定資料庫存儲時限,將內存中存儲單元的信息存儲到資料庫的過程中,查詢資料庫,若資料庫內存在相同的存儲單元,查詢存儲單元發布日期,若發布日期到查詢日期超過存儲時限,更新存儲單元信息;相反,若發布日期到查詢日期未超過存儲時限,則將存儲單元信息視為重複信息,做去重處理。
[0047]實施例2
[0048]本實施例以招聘網站為例說明本發明方法的實施步驟。
[0049]Al.根據各個目標招聘網站的結構於抓取程序內部設置需抓取網站模板,設定抓取需要的數據頁URL,分頁URL、需抓取標籤(抓取標籤如:職位名稱、職位類別),通過正則表達式匹配、DOM解析HTML標籤元素的方法,得到需要的內容,並設定網站URL。
[0050]A2.系統為每個目標招聘網站的模板設定獨立線程,每個模板獨立線程獨立採集所屬網站的主頁面標籤內容(主要包括公司名稱)和主頁面標籤對應的分頁面標籤內容(主要包括招聘職位等),獨立線程在採集過程中進行橫向對比(即各個網站公司名稱、招聘職位比較),發現重複公司名稱、職位名稱進行合併去重(採用先入為主思路,例:A網站甲公司的「銷售」職位與B網站甲公司的「銷售」同時出現時,被收錄的將是A網站甲公司的「銷
隹
口 乂 O
[0051]A3.當其中一個獨立線程採集完畢,會自動清理抓取過程中的髒數據(髒數據是指對實際業務無意義或是數據格式非法,以及在源系統中存在不規範的編碼和含糊的業務邏輯)。
[0052]A4.將合併去重結果以企業名稱及其下屬的招聘職位等信息為存儲單元存入內存中,當內存中存儲單元的數量多餘20個時,將存儲單元信息存入存儲器中。當向資料庫中存儲數據時,先在資料庫中進行數據查找,若資料庫中已存在相同的數據,則不再重新進行存儲。
[0053]A5.設定資料庫存儲時限為15天,在向資料庫內存儲數據時,若資料庫內已存在相同的數據單元,則判斷該數據單元的發布日期,若發布日期大於15天,則更新職位信息,若發布信息小於15天,將存儲單元作為重複存儲單元記,不進行重複存儲。
[0054]B.單個網站內部基於公司名稱、職位名稱的縱向比較合併去重。
[0055]B1.根據單個招聘網站URL獲取最新發布主頁面的企業HTML代碼及主頁面企業標籤下對應的職位列表HTML代碼。
[0056]B2.解析BI中代碼,獲取企業名稱,並放置內存中,獲取企業頁URL。
[0057]B3.訪問企業頁URL,解析企業關鍵內容(企業信息:企業名稱,企業行業,企業類另O,註冊資金,企業簡介,企業地址,企業電話,聯繫方式)、解析職位列表中職位名稱及對應URL。
[0058]B4.解析每個職位頁關鍵內容(職位信息:職位名稱,職位類別,招聘人數,學歷要求,工作地點,職位要求,職位職責,聯繫人)。
[0059]B5.將B1-B4中解析的內容以主頁面企業信息和分頁面招聘信息為單位存儲到內存單元中。當內存中存儲單元的數量多餘20個時,將存儲單元信息存入存儲器中。當向資料庫中存儲數據時,先在資料庫中進行數據查找,若資料庫中已存在相同的數據,則不再重新進行存儲。[0060]B6.設定資料庫存儲時限為15天,在向資料庫內存儲數據時,若資料庫內已存在相同的數據單元,則判斷該數據單元的發布日期,若發布日期大於15天,則更新職位信息,若發布信息小於15天,將存儲單元作為重複存儲單元記,不進行重複存儲。
[0061]將步驟A和步驟B中的去重結束於新的網站頁面顯示,並定時更新。
【權利要求】
1.一種網站信息合併去重方法,其特徵在於,該方法包括以下步驟: (1)獲取所需分析的多個目標網站的數據信息,對數據信息在各網站之間進行橫向比較,對信息進行合併去重; (2)獲取每個目標網站內部的數據信息,對網站內部之間的數據進行縱向比較,合併去重; (3)將合併去重後的信息在新的網站頁面顯示。
2.如權利要求1所述的網站信息合併去重方法,其特徵在於:獲取所需分析的多個目標網站的數據信息,對數據信息在各網站之間進行橫向比較,對信息進行合併去重的過程主要包括以下步驟: (1)根據目標網站的結構,設置所需分析目標網站的網站模板,並設定目標網站URL; (2)為每個目標網站的網站模板設定獨立的線程,進行網站頁面數據內容的分析; (3)每個網站模板的獨立線程獨立採集所對應目標網站的主頁面的標籤內容和主頁面標籤下對應的分頁面的標籤內容,獨立線程在信息採集的過程中對所採集的各目標網站之間的信息在各目標網站之間進行橫向對比,即將採集到網站主頁面的標籤內容進行比較,若發現標籤內容相同,則對內容進行合併去重,同時也對主頁面對應的分頁面標籤內容進行比較,若發現標籤內容相同,則對內容進行合併去重; (4)以主頁面的標籤內容及其對應的分頁面標籤內容為存儲單元,將去重結果存儲在內存中; (5)設定內存存儲上線,計算內存中存儲單元的數量,若內存中存儲單元的數量超過設定的存儲上線,則將內存中存儲單元的信息存儲到資料庫。
3.如權利要求1所述的網站信息合併去重方法,其特徵在於:獲取每個目標網站內部的數據信息,對網站內部之間的數據進行縱向比較,合併去重的過程主要包括: (1)對每個目標網站的主頁面內容進行分析,根據網站URL獲取主頁面標籤信息對應的HTML代碼;對HTML代碼進行解析,獲取目標網站主頁面標籤信息; (2)對網站主頁面標籤所對應的分頁面進行分析,獲取並解析分頁面URL,獲取分頁面標籤內容,以主頁面的標籤內容及其對應的分頁面標籤內容為存儲單元,將存儲單元內容進行比較,對比較結果合併去重,將去重結果存放在內存中; (3)設定內存存儲上線,計算內存中存儲單元的數量,若內存中存儲單元的數量超過設定的存儲上線,則將內存中存儲單元的信息存儲到資料庫。
4.如權利要求2所述的網站信息合併去重方法,其特徵在於:所述網站模板的設計過程包括分析所需比較的各目標網站的結構,根據網站結構設定抓取需要的數據主頁URL、數據主頁下對應的數據分頁URL、需抓取的頁面標籤,通過正則表達式匹配、DOM解析HTML標籤元素;通過網站模板可以得到需要的網站內容。
5.如權利要求2所述的網站信息合併去重方法,其特徵在於:每個獨立線程對目標網站信息採集及比較完畢後,自動清理採集過程中的髒數據,即對網站內容分析無意義的數據或非法格式數據,以及在源系統中存在的不規範的代碼或含糊業務邏輯。
6.如權利要求2或3所述的網站信息合併去重方法,其特徵在於:向內存存儲信息時,先將要存儲的信息在內存內進行查找,若內存內已存在相同的數據信息,不進行重複存儲;若內存內沒有相同的數據信息,則將信息存入內存中。
7.如權利要求2或3所述的網站信息合併去重方法,其特徵在於:將內存中存儲單元的信息存儲到資料庫的過程中,先將要存儲的信息在資料庫內進行查找,若資料庫內已存在相同的數據信息,不進行重複存儲;若資料庫內沒有相同的數據信息,則將信息新增入庫。
8.如權利要求3所述的網站信息合併去重法,其特徵在於:獲取分頁面標籤內容的過程中,解析分頁面URL,判斷標籤更新時間,若標籤的更新時間早於當前時間,則跳過當前職位解析。
9.如權利要求2或3所述的網站信息合併去重法,其特徵在於:設定資料庫存儲時限,將內存中存儲單元的信息存儲到資料庫的過程中,查詢資料庫,若資料庫內存在相同的存儲單元,查詢存儲單元發布日期,發布日期通過解析存儲單元數據分頁URL,獲取數據分頁在網站發布時間獲得,若發布日期到查詢日期超過存儲時限,更新存儲單元信息;相反,若發布日期到查詢日期未超過 存儲時限,則將存儲單元信息視為重複信息,做去重處理。
【文檔編號】G06F17/30GK103544283SQ201310508282
【公開日】2014年1月29日 申請日期:2013年10月24日 優先權日:2013年10月24日
【發明者】初殿松 申請人:青島英網資訊股份有限公司