新四季網

一種圖片下載系統及方法

2023-11-07 03:14:02 1

專利名稱:一種圖片下載系統及方法
技術領域:
本發明屬於計算機技術領域,尤其涉及一種圖片下載系統及方法。
背景技術:
圖片下載系統在網絡上利用爬取技術下載圖片文件,即通過抓取帶有圖片的網頁獲得圖片連結,即圖片的統一資源定位符(Uniform Resource Location,URL)。
圖片下載系統可以通過網頁淨化去除圖片中的廣告部分,即通過分析網頁的結構和文字特點,將網頁中所帶有的廣告部分(包含URL)去除,但該方案只是針對單一網頁的結構和全網網頁的特點進行判斷,而對於某一站點內的區域特點利用不夠導致去除廣告的效率低。
此外,圖片下載系統還可以通過網頁模版去除廣告,即針對特定網站或特定類型的網頁製作模版,在網頁分析的過程中利用模版判斷圖片連接是否為廣告,是則將其去除。但該方案的這種分析不夠全面,因為大部分網站沒有模版,所以去除廣告的效率也很低。

發明內容
本發明實施例的目的在於提供一種圖片下載系統,旨在解決現有技術中通過網頁淨化或網頁模板的方式的去除廣告效率低的問題。
本發明實施例的另一目的在於提供一種圖片下載方法。
本發明實施例是這樣實現的,一種圖片下載系統,所述系統包括網頁分析模塊,用於分析網頁並獲取所述網頁中圖片的統一資源定位符;圖片信息庫,用於保存已下載圖片的統一資源定位符,以及記錄了圖片與網站歸屬關係的文檔信息;控制模塊,用於根據所述網頁分析模塊提供的統一資源定位符判斷圖片信息庫中是否包括所述統一資源定位符,並發出相應的控制信號;下載模塊,用於當所述圖片信息庫中不包括所述統一資源定位符時,接收所述控制模塊發送的控制信號,根據所述圖片的統一資源定位符下載所述圖片並將所述圖片的統一資源定位符保存到圖片信息庫中;文檔信息記錄模塊,用於記錄所述圖片與網站的歸屬關係,並保存到所述圖片信息庫中;所述控制模塊進一步用於根據包括圖片與網站歸屬關係的文檔信息判斷所述圖片在當前網站出現次數是否大於閾值p,是則將其判定為廣告圖片並刪除,否則不進行刪除操作;其中閾值p為當前網站上已下載圖片的平均分布值。
一種圖片下載方法,所述方法包括A.分析網頁,獲取所述網頁中圖片的統一資源定位符;B.判斷圖片信息庫中是否包括所述統一資源定位符,是則執行步驟C,否則執行步驟D;C.根據所述圖片的統一資源定位符下載所述圖片並將圖片的統一資源定位符保存到圖片信息庫中;D.記錄所述圖片的文檔信息並保存在圖片信息庫中,所述文檔信息包括圖片與網站的歸屬關係;E.根據所述文檔信息判斷所述圖片在當前網站出現次數是否大於閾值p,是則將其判定為廣告圖片並刪除,否則不進行刪除操作;其中閾值p為當前網站上已下載圖片的平均分布值。
本發明實施例通過建立圖片信息庫,對在網頁中出現的圖片進行記錄,將在同一網站出現的次數異常的圖片判定為廣告,充分利用了同一網站上網頁所具有的區域特點,從而提高了判斷廣告圖片的效率。


圖1是本發明實施例提供的圖片下載系統結構圖;圖2是本發明實施例提供的圖片下載方法的實現流程圖。
具體實施例方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,並不用於限定本發明。
本發明實施例通過建立圖片信息庫,對在網頁中出現的圖片進行記錄,將在同一網站出現的次數異常的圖片判定為廣告,充分利用了同一網站上網頁所具有的區域特點,從而提高了判斷廣告圖片的效率。
圖1示出了本發明實施例提供的圖片下載系統100,包括網頁分析模塊101、圖片信息庫102、控制模塊103、下載模塊104以及文檔信息記錄模塊105。其中,網頁分析模塊101分析網頁並獲取網頁中圖片的URL,圖片信息庫102保存已下載的圖片URL,以及記錄了圖片與網站歸屬關係的文檔信息等。
控制模塊103根據網頁分析模塊101提供的URL判斷圖片信息庫102中是否包括該URL,是則發送控制信號,控制文檔信息記錄模塊105記錄該圖片與網站的歸屬關係,並將其作為文檔信息保存在圖片信息庫102中;否則還向下載模塊104發送控制信號,觸發下載模塊104根據該URL下載對應的圖片並將圖片的URL保存到圖片信息庫102中。
控制模塊103還根據圖片信息庫102中的文檔信息,判斷當前圖片在當前網站出現的次數是否大於閾值p,是則將其判定為廣告圖片並刪除,否則不進行刪除操作;其中,閾值p為當前網站上已下載圖片的平均分布值,當前網站上已下載圖片的平均分布值可以通過統計圖片信息庫存儲的圖片文檔信息中的記錄獲得。例如一個網站上共有20張圖片,其中15張圖片在該網站上出現的次數為2次,5張圖片在該網站上出現的次數為50次,那麼平均分布值為(15*2+5*50)/(15+5)C=14C,其中,C為根據反覆實驗總結出的經驗常數,假設為2,那麼只要當圖片在該網站上出現的次數超過28則會被判斷為廣告圖片。
在本發明一實施例中,文檔信息記錄模塊105還用於記錄圖片與當前網站的所有網頁的位置關係,例如圖片在網頁結構中的正文位置等,並保存在圖片信息庫102中,此時,圖片在當前網站出現的次數可以通過對該網站上所有網頁進行加權的廣告分值來體現,同理的,閾值p為所有圖片在該網站上的廣告分值的平均數,從而進一步提高判斷廣告圖片的準確率。例如一個網站上共有n個網頁,m張圖片,Kij為第j張圖片在第i個網頁中的廣告權重(當圖片未在某個網頁中出現則Kij為0),則該圖片在當前網站上的廣告分值為w=i=0n(Kij),]]>廣告權重Kij隨圖片所在網頁的不同而不同,例如,當圖片在網頁中的位置較好時(例如正文位置),則廣告權重較低,而當圖片所在網頁中的位置較差時,則廣告權重較高。
閾值p,即所有圖片在該網站上的廣告分值的平均數為v=Cj=0m(i=0n(Kij))m,]]>其中,C為根據反覆實驗總結出的經驗常數。
所以,當圖片在當前網站上的廣告分值w大於所有圖片在該網站上廣告分值的平均數v時則會被判斷為廣告圖片。
在本發明一實施例中,控制模塊103根據當前圖片的URL在與當前網站相關的文檔信息中的重複次數作為判斷當前圖片在當前網站所有網頁中出現的次數的依據。
在本發明另一實施例中,為避免相同廣告圖片具有不同的URL造成廣告圖片的漏判,控制模塊103使用圖片指紋替代URL作為判斷圖片在當前網站出現次數的依據,圖片指紋是根據圖片的二進位源碼計算出的用於標記圖片內容的一個唯一的數字序列,圖片指紋可以是該圖片的全部數據經信息-摘要算法(Message-Digest Algorithm 5,md5)計算得到的值。為此,文檔信息記錄模塊105還用於根據下載模塊104下載的圖片二進位源碼計算該圖片的指紋,並將其保存到圖片信息庫102中相應的文檔信息中。控制模塊103將圖片信息庫102中與當前網站相關的文檔信息中當前圖片指紋重複出現的次數作為判斷圖片在當前網站出現次數的依據。
在本發明一優選實施例中,圖片下載系統100還包括下載優化模塊106,對網頁進行評價,根據評價進行網頁連結推送。例如根據包含廣告圖片的由多到少,將網頁分為由低到高多個等級,因為每個網頁都有很多外部連結,所以可以根據這個網頁的等級決定是不是推送這個網頁含有的外部連結以及推送該網頁中外部連結的數量等,便於系統在下一輪下載中只針對推送的外部連結進行圖片下載,從而優化下載方向。
圖2示出了本發明實施例提供的圖片下載方法的實現流程,詳述如下在步驟S201中,分析網頁,取得其中圖片的URL;在步驟S202中,判斷圖片信息庫中是否有當前圖片的URL,是則執行步驟S204,否則執行步驟S203;在步驟S203中,根據圖片的URL下載圖片,並將圖片的URL保存到圖片信息庫中,繼續執行步驟S204;在步驟S204中,記錄圖片與當前網站的歸屬關係,並作為文檔信息保存;在步驟S205中,分析上述文檔信息,判斷圖片在當前網站出現次數是否大於閾值p,是則執行步驟S206,否則執行步驟S207;在本發明一實施例中,根據圖片信息庫中圖片的URL在相應的圖片文檔信息中的重複次數得出該圖片在當前網站上出現的次數,在本發明另一實施例中,為避免相同廣告圖片具有不同的URL造成廣告圖片的漏判,可以選用圖片指紋替代URL作為判斷圖片在當前網站出現次數的依據。相應的,在步驟S204中記錄圖片與當前網站歸屬關係的同時,還包括根據該圖片的二進位源碼計算該圖片的指紋,並將其一併保存到文檔信息中的步驟。
其中,閾值p為當前網站上已下載圖片的平均分布值,當前網站上已下載圖片的平均分布值可以通過統計圖片信息庫存儲的圖片文檔信息中的記錄獲得。例如一個網站上共有20張圖片,其中15張圖片在該網站上出現的次數為2次,5張圖片在該網站上出現的次數為50次,那麼平均分布值為(15*2+5*50)/(15+5)C=14C,其中,C為根據反覆實驗總結出的經驗常數,假設為2,那麼只要當圖片在該網站上出現的次數超過28則會被判斷為廣告圖片。
在本發明一實施例中,步驟S204中還包括在文檔信息中記錄圖片與網頁位置關係的步驟,此時,圖片在當前網站出現的次數可以通過對該網站上所有網頁進行加權的廣告分值來體現,同理的,閾值p為所有圖片在該網站上的廣告分值的平均數,從而進一步提高判斷廣告圖片的準確率。例如一個網站上共有n個網頁,m張圖片,Kij為第j張圖片在第i個網頁中的廣告權重(當圖片未在某個網頁中出現則Kij為0),則該圖片在當前網站上的廣告分值為w=i=0n(Kij),]]>廣告權重Kij隨圖片所在網頁的不同而不同,例如,當圖片在網頁中的位置較好時(例如正文位置),則廣告權重較低,而當圖片所在網頁中的位置較差時,則廣告權重較高。
閾值p,即所有圖片在該網站上的廣告分值的平均數為v=Cj=0m(i=0n(Kij))m,]]>其中,C為根據反覆實驗總結出的經驗常數。
所以,當圖片在當前網站所有網頁中出現的廣告分值w大於所有圖片的廣告分值的平均數v時執行步驟S206,否則執行步驟S207。
在步驟S206中,將該圖片判定為廣告圖片並刪除;在步驟S207中,對網頁進行評價,根據評價進行網頁連結推送。
本發明實施例通過建立圖片信息庫,對在網頁中出現的圖片進行記錄,將在同一網站出現的次數異常的圖片判定為廣告,充分利用了同一網站上網頁所具有的區域特點,使得判斷廣告圖片的效率大大提高。此外,根據包含廣告圖片的由多到少,對網頁進行評價,根據評價進行網頁連結推送從而優化了下載方向。
以上所述僅為本發明的較佳實施例而已,並不用以限制本發明,凡在本發明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發明的保護範圍之內。
權利要求
1.一種圖片下載系統,其特徵在於,所述系統包括網頁分析模塊,用於分析網頁並獲取所述網頁中圖片的統一資源定位符;圖片信息庫,用於保存已下載圖片的統一資源定位符,以及記錄了圖片與網站歸屬關係的文檔信息;控制模塊,用於根據所述網頁分析模塊提供的統一資源定位符判斷圖片信息庫中是否包括所述統一資源定位符,並發出相應的控制信號;下載模塊,用於當所述圖片信息庫中不包括所述統一資源定位符時,接收所述控制模塊發送的控制信號,根據所述圖片的統一資源定位符下載所述圖片並將所述圖片的統一資源定位符保存到圖片信息庫中;文檔信息記錄模塊,用於記錄所述圖片與網站的歸屬關係,並保存到所述圖片信息庫中;所述控制模塊進一步用於根據包括圖片與網站歸屬關係的文檔信息判斷所述圖片在當前網站出現次數是否大於閾值p,是則將其判定為廣告圖片並刪除,否則不進行刪除操作;其中閾值p為當前網站上已下載圖片的平均分布值。
2.如權利要求1所述的圖片下載系統,其特徵在於,所述控制模塊進一步用於判斷當前圖片的統一資源定位符在與當前網站相關的文檔信息中的重複次數是否大於閾值p。
3.如權利要求1所述的圖片下載系統,其特徵在於,所述文檔信息記錄模塊進一步用於根據所述下載模塊下載的圖片二進位源碼計算所述圖片的指紋,並將其保存到所述圖片信息庫中相應的文檔信息中;所述控制模塊進一步用於判斷當前圖片的指紋在與當前網站相關的文檔信息中重複出現的次數是否大於閾值p。
4.如權利要求1所述的圖片下載系統,其特徵在於,所述文檔信息記錄模塊進一步用於記錄圖片與網頁的位置關係;所述圖片信息庫進一步用於保存記錄了所述圖片與網頁的位置關係的文檔信息。
5.如權利要求4所述的圖片下載系統,其特徵在於,所述圖片在當前網站出現的次數通過圖片在當前網站上的廣告分值體現,所述廣告分值按下式計算w=i=0n(Kij)]]>,其中n為當前網站上的網頁數量,Kij為第j張圖片在第i個網頁中的廣告權重;所述閾值p為所有圖片在當前網站上的廣告分值的平均數,所述所有圖片在當前網站上的廣告分值的平均數按下式計算v=Cj=0m(i=0n(Kij))m]]>,其中,C為根據實驗總結出的經驗常數,m為當前網站上的圖片數量。
6.如權利要求1至5任一權利要求所述的圖片下載系統,其特徵在於,所述系統進一步包括下載優化模塊,用於對當前網頁進行評價,根據評價對網頁中的外部連結進行推送。
7.一種圖片下載方法,其特徵在於,所述方法包括A.分析網頁,獲取所述網頁中圖片的統一資源定位符;B.判斷圖片信息庫中是否包括所述統一資源定位符,是則執行步驟C,否則執行步驟D;C.根據所述圖片的統一資源定位符下載所述圖片並將圖片的統一資源定位符保存到圖片信息庫中;D.記錄所述圖片的文檔信息並保存在圖片信息庫中,所述文檔信息包括圖片與網站的歸屬關係;E.根據所述文檔信息判斷所述圖片在當前網站出現次數是否大於閾值p,是則將其判定為廣告圖片並刪除,否則不進行刪除操作;其中閾值p為當前網站上已下載圖片的平均分布值。
8.如權利要求7所述的圖片下載方法,其特徵在於,所述步驟E進一步包括E11.判斷當前圖片的統一資源定位符在與當前網站相關的所述文檔信息中的重複次數是否大於閾值p。
9.如權利要求7所述的圖片下載方法,其特徵在於,所述步驟D進一步包括根據已下載圖片的二進位源碼計算圖片的指紋;將圖片的指紋保存到所述圖片信息庫中相應的文檔信息中;所述步驟E進一步包括E21.判斷當前圖片的指紋在與當前網站相關的所述文檔信息中重複出現的次數是否大於閾值p。
10.如權利要求7所述的圖片下載方法,其特徵在於,所述步驟D進一步包括在文檔信息中記錄圖片與網頁的位置關係。
11.如權利要求10所述的圖片下載方法,其特徵在於,所述圖片在當前網站出現的次數通過圖片在當前網站上的廣告分值體現,所述廣告分值按下式計算w=i=0n(Kij)]]>,其中n為當前網站上的網頁數量, Kij為第j張圖片在第i個網頁中的廣告權重;所述閾值p為所有圖片在當前網站上的廣告分值的平均數,所述所有圖片在當前網站上的廣告分值的平均數按下式計算v=Cj=0m(i=0n(Kij))m]]>,其中,C為根據實驗總結出的經驗常數,m為當前網站上的圖片數量。
12.如權利要求7至11任一權利要求所述的圖片下載方法,其特徵在於,在所述步驟E之後,所述方法還包括F.對當前網頁進行評價,根據評價對網頁中的外部連結進行推送。
全文摘要
本發明提供了一種圖片下載系統及方法,所述系統包括網頁分析模塊,分析網頁並獲取所述網頁中圖片的URL;圖片信息庫,保存已下載圖片的URL,以及記錄了圖片與網站歸屬關係的文檔信息;控制模塊,根據網頁分析模塊提供的URL判斷圖片信息庫中是否包括所述URL並發出相應的控制信號;下載模塊,當圖片信息庫中不包括所述URL時,接收控制模塊發送的控制信號,根據圖片的URL下載圖片並將圖片的URL保存到圖片信息庫中;文檔信息記錄模塊,記錄圖片與網站的歸屬關係,並保存到圖片信息庫中;所述控制模塊還根據包括圖片與網站歸屬關係的文檔信息判斷所述圖片在當前網站出現次數是否大於閾值p,是則將其判定為廣告圖片並刪除。
文檔編號G06F17/30GK101071433SQ20071007440
公開日2007年11月14日 申請日期2007年5月10日 優先權日2007年5月10日
發明者胡景賀 申請人:騰訊科技(深圳)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀