新四季網

用於獲取網站資源的數據處理系統、方法及裝置製造方法

2023-05-29 10:28:56 1

用於獲取網站資源的數據處理系統、方法及裝置製造方法
【專利摘要】本發明公開了一種用於獲取網站資源的數據處理系統、方法及裝置,其中,所述系統包括:數據篩選裝置,用於接收由網絡爬蟲抓取的網頁數據,並在接收過程中對接收到的網頁數據進行篩選處理,將篩選出的與指定網站相關的網頁數據發送至網頁解析伺服器;網頁解析伺服器,用於根據預設的解析策略對與指定網站相關的網頁數據進行解析處理得到第一結構化數據,並將第一結構化數據保存至資料庫;資料庫,用於根據在預定時間段內接收到的第一結構化數據進行數據融合處理,得到用於描述指定網站的資源的第二結構化數據。採用本發明,能縮短網站資源的更新周期,提高網站資源的時效性,針對視頻網站,還能提高視頻資源的出圖率,提高用戶體驗。
【專利說明】用於獲取網站資源的數據處理系統、方法及裝置

【技術領域】
[0001] 本發明涉及數據處理領域,更為具體而言,涉及一種用於獲取網站資源的數據處 理系統、方法及裝置。

【背景技術】
[0002] 搜尋引擎基於資料庫中收錄的網站資源(網站資源通常以結構化數據描述)為用 戶提供搜索服務。搜尋引擎的搜索結果與資料庫中收錄的網站資源直接相關,因此,為了提 高用戶體驗,需要及時更新網站資源。
[0003] 在現有技術中,通常採用如下方式更新網站資源:首先,等待網絡爬蟲(spider) 抓取海量的網頁,將抓取的網頁存入第一資料庫中並建立索引;然後,對第一資料庫中的全 量網頁進行篩選和結構化數據解析(這一作業通常由人工觸發),將解析結果存入第二數 據庫;最後,由第二資料庫對多種數據進行數據融合、建立索引等處理以便線上展示。
[0004] 由於等待網絡爬蟲抓取網頁的時間很長並且涉及對第一資料庫的數據存取處理, 這導致對於單個網頁的計算成本(包括資料庫成本和時間成本)較大;由於整個數據篩選、 解析過程為離線地批量處理,這導致數據更新的整體周期較長。
[0005] 以上缺陷導致現有技術無法及時收錄最新的網站資源,這大大影響用戶的搜索體 驗。並且對於時效性需求較強的網站資源以及結構化數據計算較為複雜的網站資源,採用 現有技術更是無法及時收錄。以時效性要求較高的視頻資源為例,其數據處理較為複雜,一 方面需要從視頻列表頁與視頻播放頁共同解析結構化數據才能達到較好的數據覆蓋;另一 方面需要融合與網頁相關的圖片才能在後續展示時提高用戶體驗,然而海量視頻帶來的海 量圖片資源根本難以在短時間內完成抓取、存儲轉換等處理。當採用現有技術更新視頻資 源時,不僅更新周期長,無法滿足視頻資源的時效性要求,而且由於圖片處理與結構化數據 處理的進度難以掌控,很容易出現無法展示圖片的情況,嚴重影響用戶體驗。


【發明內容】

[0006] 為了解決現有技術所存在的缺陷,本發明實施方式提供一種用於獲取網站資源的 數據處理系統、方法及裝置,能夠克服現有技術數據更新周期長、資源的時效性差等缺陷。
[0007] 第一方面,本發明實施例提供了一種用於獲取網站資源的數據處理系統,包括:
[0008] 數據篩選裝置,用於接收由網絡爬蟲抓取的網頁數據,並在接收過程中對接收到 的網頁數據進行篩選處理,將篩選出的與指定網站相關的網頁數據發送至網頁解析服務 器;
[0009] 網頁解析伺服器,用於根據預設的解析策略對與所述指定網站相關的網頁數據進 行解析處理,得到與所述指定網站相關的第一結構化數據,並將所述第一結構化數據保存 至資料庫;
[0010] 所述資料庫,用於根據在預定時間段內接收到的所述第一結構化數據進行數據融 合處理,得到用於描述所述指定網站的資源的第二結構化數據。 toon] 可選地,在本實施例的一種實現方式中,所述數據篩選裝置具體用於,在接收網頁 數據的過程中,根據所述指定網站的URL(Uniform Resoure Locator:統一資源定位器)正 則表達式對接收到的網頁數據進行篩選處理。
[0012] 可選地,在本實施例的另一種實現方式中,當所述指定網站為視頻網站時,所述網 頁解析伺服器具體用於:在所述網頁解析伺服器接收到的網頁數據為與所述指定網站的視 頻播放頁相關的網頁數據時,根據第一解析策略進行解析處理;在所述網頁解析伺服器接 收到的網頁數據為與所述指定網站的視頻列表頁相關的網頁數據時,根據與所述第一解析 策略不同的第二解析策略進行解析處理。
[0013] 可選地,在本實施例的再一種實現方式中,所述數據處理系統還包括圖片處理子 系統;所述網頁解析伺服器還用於,將在所述解析處理中解析出的圖片連結發送至所述圖 片處理子系統;所述圖片處理子系統,用於根據所述圖片連結抓取原始圖片並根據圖片處 理策略對所述原始圖片進行處理得到新圖片,保存所述新圖片並為所述新圖片生成圖片鏈 接,以及將包含所述原始圖片的圖片連結和所述新圖片的圖片連結的圖片信息發送至所述 資料庫。
[0014] 進一步可選地,所述圖片處理子系統包括圖片抓取伺服器、圖片處理伺服器和圖 片資料庫,其中,所述圖片抓取伺服器,用於根據所述圖片連結抓取所述原始圖片,並將所 述原始圖片及其圖片連結發送至所述圖片處理伺服器;所述圖片處理伺服器,用於根據圖 片處理策略對所述原始圖片進行處理得到所述新圖片,並將所述原始圖片的圖片連結和所 述新圖片保存至所述圖片資料庫;所述圖片資料庫,用於為所述新圖片生成圖片連結,並將 所述圖片信息發送至所述資料庫。
[0015] 或者進一步可選地,所示資料庫還用於根據所述第二結構化數據和所述圖片信息 進行數據融合處理。
[0016] 第二方面,本發明實施例提供了一種用於獲取網站資源的數據處理方法,包括:
[0017] 接收由網絡爬蟲抓取的網頁數據,並在接收過程中對接收到的網頁數據進行篩選 處理,得到與指定網站相關的網頁數據;
[0018] 根據預設的解析策略對與所述指定網站相關的網頁數據進行解析處理,得到與所 述指定網站相關的第一結構化數據;
[0019] 根據在預定時間段內解析得到的所述第一結構化數據進行數據融合處理,得到用 於描述所述指定網站的資源的第二結構化數據。
[0020] 可選地,在本實施例的一種實現方式中,所述在接收過程中對接收到的網頁數據 進行篩選處理包括:在接收網頁數據的過程中,根據所述指定網站的URL正則表達式對接 收到的網頁數據進行篩選處理。
[0021] 可選地,在本實施例的另一種實現方式中,當所述指定網站為視頻網站時,所述根 據預設的解析策略對與所述指定網站相關的網頁數據進行解析處理包括:當與所述指定網 站相關的網頁數據為與所述指定網站的視頻播放頁相關的網頁數據時,根據第一解析策略 進行所述解析處理;當與所述指定網站相關的網頁數據為與所述指定網站的視頻列表頁相 關的網頁數據時,根據與所述第一解析策略不同的第二解析策略進行所述解析處理。
[0022] 可選地,在本實施例的再一種實現方式中,所述方法還包括:將在所述解析處理過 程中解析出的圖片連結發送至圖片處理子系統,所述圖片處理子系統用於執行以下處理: 根據所述圖片連結抓取原始圖片並根據圖片處理策略對所述原始圖片進行處理得到新圖 片,保存所述新圖片並為所述新圖片生成圖片連結;接收由所述圖片處理子系統發送的圖 片信息,所述圖片信息包括所述原始圖片的圖片連結和所述新圖片的圖片連結;根據所述 第二結構化數據和所述圖片信息進行數據融合處理。
[0023] 可選地,在本實施例的又一種實現方式中,所述方法還包括:根據在所述解析處理 中解析出的圖片連結抓取原始圖片;根據圖片處理策略對所述原始圖片進行處理得到新圖 片,保存所述新圖片保存並為所述新圖片生成圖片連結;根據所述第二結構化數據和圖片 信息進行數據融合處理,所述圖片信息包括所述原始圖片的圖片連結和所述新圖片的圖片 連結。
[0024] 第三方面,本發明實施例提供了一種用於獲取網站資源的數據處理裝置,包括:
[0025] 數據篩選模塊,用於接收由網絡爬蟲抓取的網頁數據,並在接收過程中對接收到 的網頁數據進行篩選處理,得到與指定網站相關的網頁數據;
[0026] 數據解析模塊,用於根據預設的解析策略對與所述指定網站相關的網頁數據進行 解析處理,得到與所述指定網站相關的第一結構化數據;
[0027] 數據融合模塊,用於根據在預定時間段內解析得到的所述第一結構化數據進行數 據融合處理,得到用於描述所述指定網站的資源的第二結構化數據。
[0028] 可選地,在本實施例的第一實現方式中,所述數據篩選模塊具體用於,在接收網頁 數據的過程中,根據所述指定網站的URL正則表達式對接收到的網頁數據進行篩選處理。
[0029] 可選地,在本實施例的第二實現方式中,所述數據解析模塊包括:
[0030] 第一解析子模塊,用於在所述指定網站為視頻網站並且與所述指定網站相關的網 頁數據為與所述指定網站的視頻播放頁相關的網頁數據時,根據第一解析策略進行解析處 理;第二解析子模塊,用於在所述指定網站為視頻網站並且與所述指定網站相關的網頁數 據為與所述指定網站的視頻列表頁相關的網頁數據時,根據與所述第一解析策略不同的第 二解析策略進行解析處理。
[0031] 可選地,在本實施例的第三實現方式中,所述數據處理裝置還包括:圖片連結發送 模塊,用於將所述數據解析模塊在所述解析處理中解析出的圖片連結發送至圖片處理子系 統;其中,所述圖片處理子系統用於執行以下處理:根據所述圖片連結抓取原始圖片並根 據圖片處理策略對所述原始圖片進行處理得到新圖片,保存所述新圖片並為所述新圖片生 成圖片連結,以及將包含所述原始圖片的圖片連結和所述新圖片的圖片連結的圖片信息發 送至所述數據處理裝置;圖片信息接收模塊,用於接收所述圖片信息;所述數據融合模塊 還用於,根據所述第二結構化數據和所述圖片信息進行數據融合處理,得到包含所述圖片 信息的結構化數據。
[0032] 可選地,在本實施例的第四實現方式中,所述數據處理裝置還包括:圖片抓取模 塊,用於根據所述數據解析模塊在所述解析處理中解析出的圖片連結抓取原始圖片,和圖 片處理模塊,用於根據圖片處理策略處理所述原始圖片得到新圖片,保存所述新圖片並為 所述新圖片生成圖片連結;所述數據融合模塊還用於,根據所述第二結構化數據和圖片信 息進行數據融合處理,得到包含所述圖片信息的結構化數據,所述圖片信息包括所述原始 圖片的圖片連結和所述新圖片的圖片連結。
[0033] 第四方面,本發明實施例提供了一種用於獲取網站資源的數據處理系統,包括:根 據本發明實施例的第三方面或第三方面的第一或第二實現方式的數據處理裝置;和,用於 保存所述第二結構化數據的資料庫。
[0034] 第五方面,本發明實施例提供了一種用於獲取網站資源的數據處理系統,包括:根 據本發明實施例的第三方面的第三實現方式的數據處理裝置;和,用於保存包含所述圖片 信息的結構化數據的資料庫。
[0035] 第六方面,本發明實施例提供了一種用於獲取網站資源的數據處理系統,包括:根 據本發明實施例的第三方面的第四實現方式的數據處理裝置、圖片處理子系統和用於保存 包含所述圖片信息的結構化數據的資料庫。其中,圖片處理子系統,用於根據所述圖片連結 抓取原始圖片並根據圖片處理策略對所述原始圖片進行處理得到新圖片,保存所述新圖片 並為所述新圖片生成圖片連結,以及將包含所述原始圖片的圖片連結和所述新圖片的圖片 連結的圖片信息發送至所述數據處理裝置。
[0036] 採用本發明的各種實施例具有以下有益效果:
[0037] 一方面,通過在接收網頁數據的過程中對網頁數據進行篩選處理和解析處理,從 而能每隔一段時間(例如每小時)進行數據融合處理以達到更新網站資源的目的,這有效 克服了現有技術離線批量處理導致數據更新周期長、資源的時效性差等缺陷。另一方面,在 計算結構化數據的過程中,根據在解析處理解析得到的圖片連結地址進行圖片抓取和後續 的圖片處理,能夠提高視頻資源的出圖率,為用戶提供更好的搜索體驗。

【專利附圖】

【附圖說明】
[0038] 圖1是根據本發明實施例的一種用於獲取網站資源的數據處理系統的方塊圖;
[0039] 圖2A是根據本發明實施例的一種用於獲取視頻網站資源的數據處理系統的方塊 圖;
[0040] 圖2B是圖2A所示實施例中的圖片處理子系統的一種方塊圖;
[0041] 圖3是根據本發明實施例的一種用於獲取網站資源的數據處理方法的流程示意 圖;
[0042] 圖4是根據本發明實施例的一種用於獲取視頻網站資源的數據處理方法的流程 示意圖;
[0043] 圖5是根據本發明實施例的一種用於獲取視頻網站資源的數據處理方法的流程 示意圖;
[0044] 圖6是根據本發明實施例的一種用於獲取網站資源的數據處理裝置的方塊圖;
[0045] 圖7是根據本發明實施例的一種用於獲取網站資源的數據處理裝置的方塊圖;
[0046] 圖8是根據本發明實施例的一種用於獲取網站資源的數據處理裝置的方塊圖;
[0047] 圖9A-9C是根據本發明實施例的一種用於獲取網站資源的數據處理系統的方塊 圖。

【具體實施方式】
[0048] 以下結合附圖和【具體實施方式】對本發明的各個方面進行詳細闡述。其中,眾所周 知的模塊、單元及其相互之間的連接、連結、通信或操作沒有示出或未作詳細說明。並且,所 描述的特徵、架構或功能可在一個或一個以上實施方式中以任何方式組合。本領域技術人 員應當理解,下述的各種實施方式只用於舉例說明,而非用於限制本發明的保護範圍。還可 以容易理解,本文所述和附圖所示的各實施方式中的模塊或單元或步驟可以按各種不同配 置進行組合和設計。
[0049] 【第一實施例】
[0050] 圖1是根據本發明實施例的一種用於獲取網站資源的數據處理系統的方塊圖,參 照圖1,數據處理系統1包括數據篩選裝置10、網頁解析伺服器20和資料庫30,下面分別進 行說明。
[0051] 數據篩選裝置10,用於接收由網絡爬蟲抓取的網頁數據,並在接收過程中對接收 到的網頁數據進行篩選處理,將篩選出的與指定網站相關的網頁數據發送至網頁解析服務 器20。
[0052] 可選地,在本實施例的一種實現方式中,數據篩選裝置10可以直接與網絡爬蟲通 信並持續接收網頁數據,也可以與用於保存網絡爬蟲抓取的網頁數據的資料庫通信並持續 接收網頁數據,還可以與用於轉發網絡爬蟲所抓取的網頁數據的數據轉發設備通信並持續 接收網頁數據。
[0053] 可選地,在本實施例的一種實現方式中,數據篩選裝置10可以根據指定網站的 URL正則表達式對接收到的網頁數據進行篩選處理,得到與指定網站相關的網頁數據。
[0054] 網頁解析伺服器20,用於根據預設的解析策略對與指定網站相關的網頁數據進行 解析處理,得到與指定網站相關的第一結構化數據,並將第一結構化數據保存至資料庫30。
[0055] 可選地,在本實施例的一種實現方式中,網頁解析伺服器20持續地接收數據篩選 裝置10發送來的網頁數據,並在每次接收到網頁數據後進行解析處理,或者,周期性地(例 如,每隔一分鐘)對接收到的網頁數據進行解析處理。
[0056] 可選地,在本實施例的一種實現方式中,以指定網站為視頻網站為例,網頁解析服 務器20可以在接收到與指定網站的視頻播放頁相關的網頁數據時,根據第一解析策略進 行解析;在接收到與指定網站的視頻列表頁相關的網頁數據時,根據與第一解析策略不同 的第二解析策略進行解析。也就是說,在本實施例中的解析策略可包括多種分別與所解析 的數據對應的解析策略而不限於一種解析策略。
[0057] 資料庫30,用於根據在預定時間段內接收到的第一結構化數據進行數據融合處 理,得到用於描述指定網站資源的第二結構化數據。需要說明的是,"第一結構化數據"和 "第二結構化數據"中提及的"第一"和"第二"僅用作名稱之別,除此之外,不對結構化數據 構成任何限制。
[0058] 可選地,在本實施例的一種應用場景中,當針對多個指定網站進行網頁數據的篩 選處理、解析處理和數據融合處理時,資料庫30接收到分別與不同網站相關的第一結構化 數據,並且可以採用以下方式進行數據融合處理:
[0059] 方式一,資料庫30周期性地進行數據融合處理,包括:將在當前周期內接收到的 具有相同URL的第一結構化數據進行數據融合,得到分別對應不同網站的第二結構化數 據。
[0060] 方式二,資料庫30周期性地進行數據融合處理,包括:在每一個周期,將在該周期 內接收到的具有相同URL的第一結構化數據進行融合得到融合結果,然後將在最近的兩個 或兩個以上周期得到的具有相同URL的融合結果相融合,得到分別對應不同網站的第二結 構化數據。
[0061] 方式三,資料庫30周期性地進行數據融合處理,包括:將在當前周期接收到的具 有相同URL的第一結構化數據進行數據融合,將融合後的結果與在前一周期計算得到的具 有相同URL的第二結構化數據相融合,得到在當前周期分別對應不同網站的第二結構化數 據。
[0062] 可選地,在本實施例的一種實現方式中,資料庫30在計算得到第二結構化數據之 後,為第二結構化數據建立索引以供線上檢索。
[0063] 採用本發明實施例所提供的數據處理系統1,能夠實時或及時地對網絡爬蟲抓取 的網頁數據進行篩選和解析處理,從而能每隔一段時間進行數據融合處理達到更新網站資 源的目的,這有效克服了現有技術離線批量處理導致數據更新周期長、資源的時效性差等 缺陷。此外,本發明實施例所提供的數據處理系統1搭建了一個完整的數據處理流程,能夠 持續作業且避免了人工介入。
[0064] 【第二實施例】
[0065] 圖1所示的數據處理系統1適用於獲取各種類型的網站(例如:新聞網站、視頻網 站、教育科研網站、軍事網站等)的資源。就獲取視頻網站資源而言,考慮到以圖片形式展 現視頻資源能提高用戶體驗,本發明還進一步提供了一種用於獲取視頻網站資源的優選的 數據處理系統,如圖2A所示,數據處理系統2除了包括數據篩選裝置10、網頁解析伺服器 20和資料庫30外,還包括圖片處理子系統40。下面分別進行說明,其中,雖然沒有對數據 篩選裝置10、網頁解析伺服器20和資料庫30進行詳細說明,但三者可以具有在圖1所示實 施例中的所有特徵,此處不贅述。
[0066] 在本實施例中,數據篩選裝置10用於接收由網絡爬蟲抓取的網頁數據,並在接收 過程中對接收到的網頁數據進行篩選處理,將篩選出的與指定視頻網站相關的網頁數據發 送至網頁解析伺服器20。
[0067] 網頁解析伺服器20,用於根據預設的解析策略對與指定視頻網站相關的網頁數據 進行解析處理,得到與指定視頻網站相關的第一結構化數據,並將第一結構化數據保存至 資料庫30,以及,用於將在解析處理中解析出的圖片連結發送至圖片處理子系統40。
[0068] 可選地,在本實施例的一種實現方式中,網頁解析伺服器10根據網頁數據所在頁 面是否包含播放器,判斷網頁數據是與視頻播放頁相關的網頁數據還是與視頻列表頁相 關的網頁數據,如果是前者,則根據第一解析策略進行解析(解析結果屬於第一結構化數 據);如果是後者,則根據與第一解析策略不同的第二解析策略進行解析(解析結果屬於第 一結構化數據)。其中,對與視頻列表頁相關的網頁數據的解析結果包含圖片連結,例如,包 含從網頁原始碼中解析出的圖片連結。
[0069] 在本實施例中,圖片處理子系統40用於執行以下處理:根據圖片連結抓取原始圖 片並根據圖片處理策略對原始圖片進行處理得到新圖片;保存新圖片並為新圖片生成圖片 連結;以及將包含原始圖片的圖片連結和新圖片的圖片連結的圖片信息發送至資料庫30。
[0070] 採用本實施例提供的數據處理系統2,通過圖片處理子系統40進行圖片處理,能 夠得到與指定視頻網站相關的圖片數據,便於後續在需要展示視頻資源的圖片時進行調用 或進行數據融合處理。
[0071] 可選地,在本實施例的一種實現方式中,如圖2B所示,圖片處理子系統40可包括 圖片抓取伺服器41、圖片處理伺服器42和圖片資料庫43。
[0072] 圖片抓取伺服器41用於接收網頁解析伺服器20發送的圖片連結(即原始圖片的 圖片連結),根據圖片連結抓取原始圖片,並將原始圖片及其圖片連結發送至圖片處理服務 器42。
[0073] 圖片處理伺服器42,用於根據圖片處理策略對原始圖片進行處理得到新圖片,並 將原始圖片的圖片連結和新圖片保存至圖片資料庫43。
[0074] 示例性地,圖片處理伺服器42可採用以下方式對原始圖片進行處理:首先對原始 圖片進行分析,識別其像素點的二維矩陣圖從而獲取圖片的長寬信息;然後,根據預先設定 好的規則對原始圖片進行壓縮、裁剪等操作得到新圖片,使處理後的新圖片符合展現要求。
[0075] 圖片資料庫43,用於為新圖片生成圖片連結,並將包含原始圖片的圖片連結和新 圖片的圖片連結的圖片信息發送至資料庫30。
[0076] 可選地,在本實施例的一種實現方式中,資料庫30除了用於根據在預定時間段內 接收到的第一結構化數據計算得到第二結構化數據之外,還可以根據第二結構化數據和接 收到的圖片信息進行數據融合處理。例如,針對第二結構化數據和在所述預定時間段內接 收到的圖片信息,將其中具有相同URL的數據進行數據融合處理。採用本實現方式,以不同 進程執行結構化數據的計算和圖片信息的計算,能夠提高圖片處理效率,從而提高視頻資 源的出圖率,為用戶提供更好的搜索體驗。
[0077]【第三實施例】
[0078] 以上結合附圖對根據本發明實施例的數據處理系統進行了說明,下面結合附圖對 根據本發明實施例的數據處理方法進行說明。
[0079] 圖3是根據本發明實施例的一種用於獲取網站資源的數據處理方法的流程示意 圖,參照圖3,所述方法包括:
[0080] 300:接收由網絡爬蟲抓取的網頁數據,並在接收過程中對接收到的網頁數據進行 篩選處理,得到與指定網站相關的網頁數據。
[0081] 可選地,在本實施例的一種實現方式中,在接收網頁數據的過程中,根據指定網站 的URL正則表達式對接收到的網頁數據進行篩選處理。
[0082] 302:根據預設的解析策略對與指定網站相關的網頁數據進行解析處理,得到與指 定網站相關的第一結構化數據。
[0083] 其中,針對同一個或同一類網站的網頁數據可能採用一種解析策略,也可能採用 多種解析策略。例如,針對新聞網站的網頁數據,可以採用一種解析策略進行解析;針對視 頻網站的網頁數據,可以根據網頁數據與視頻播放頁相關還是與視頻列表頁相關來採用不 同的解析策略進行解析。
[0084] 304:根據在預定時間段內解析得到的第一結構化數據進行數據融合處理,得到用 於描述指定網站的資源的第二結構化數據。
[0085] 可選地,在本實施例的一種應用場景中,在304中可以周期性地進行數據融合處 理,具體方式請參照(但不限於)前文所述的三種方式,此處不贅述。
[0086] 可選地,在本實施例的一種實現方式中,在304之後,為第二結構化數據建立索引 以供線上檢索。
[0087] 在本實施例的一種具體實現方式中,由數據篩選裝置10執行300並將執行結果發 送給網頁解析伺服器20,由網頁解析伺服器20執行302並將執行結果發送給資料庫30,然 後由資料庫30執行304。其中,各個部分執行各步驟的具體過程請參見前文的描述,此處不 贅述。
[0088] 採用本發明實施例所提供的數據處理方法,通過實時或及時地對網絡爬蟲抓取的 網頁數據進行篩選和解析處理,能每隔一段時間進行數據融合處理達到更新網站資源的目 的,這有效克服了現有技術離線批量處理導致數據更新周期長、資源的時效性差等缺陷。 [0089]【第四實施例】
[0090] 圖4是根據本發明實施例的一種用於獲取視頻網站資源的數據處理方法的流程 示意圖,參照圖4,所述方法包括:
[0091] 400:接收由網絡爬蟲抓取的網頁數據,並在接收過程中對接收到的網頁數據進行 篩選處理,得到與指定視頻網站相關的網頁數據。
[0092] 402:根據預設的解析策略對與指定視頻網站相關的網頁數據進行解析處理,得到 與指定視頻網站相關的第一結構化數據。
[0093] 可選地,在本實施例的一種實現方式中,當與指定視頻網站相關的網頁數據為與 指定視頻網站的視頻播放頁相關的網頁數據時,根據第一解析策略進行解析處理;當與指 定視頻網站相關的網頁數據為與指定視頻網站的視頻列表頁相關的網頁數據時,根據與第 一解析策略不同的第二解析策略進行解析處理。
[0094] 404:根據在預定時間段內解析得到的第一結構化數據進行數據融合處理,得到用 於描述指定網站的資源的第二結構化數據。
[0095] 406:將在解析處理過程中解析出的圖片連結發送至圖片處理子系統。所述圖片處 理子系統用於執行以下處理:根據圖片連結抓取原始圖片並根據圖片處理策略對原始圖片 進行處理得到新圖片,保存新圖片並為新圖片生成圖片連結。
[0096] 其中,對於圖片處理子系統的說明可以參見圖2A及圖2B所示實施例中的說明,此 處不贅述。
[0097] 408:接收圖片處理子系統發送的圖片信息,所述圖片信息包括原始圖片的圖片鏈 接和新圖片的圖片連結。
[0098] 410 :根據第二結構化數據和圖片信息進行數據融合處理。可選地,與第二結構化 數據進行融合的圖片信息為在所述預定時間段內接收到的圖片信息。
[0099] 在本實施例中,並不限制404與406-408的執行順序,甚至在本實施例的一種變形 例中,404與410可以同時通過以下方式實現:根據在預定時間段內解析得到的第一結構化 數據以及接收到的圖片信息進行數據融合處理,得到包含圖片信息的結構化數據。
[0100] 本實施例中的與圖3所示實施例相同或相似的步驟可以具有相同的實現方式,此 處不做贅述。
[0101] 在本實施例的一種具體實現方式中,由數據篩選裝置10執行400並將執行結果發 送給網頁解析伺服器20,由網頁解析伺服器20執行402並將執行結果發送給資料庫30,由 網頁解析伺服器20執行404以將圖片連結發送給圖片處理子系統40,由圖片處理子系統 40將圖片信息發送給資料庫30 ( S卩,由資料庫30執行408),由資料庫30執行406和410。 其中,各個部分執行各步驟的具體過程請參見前文的描述,此處不贅述。
[0102] 採用本發明實施例所提供的數據處理方法,除了具有圖3所示實施例的優點之 夕卜,還能提高視頻資源的出圖率,提高用戶體驗。
[0103] 【第五實施例】
[0104] 圖5是根據本發明實施例的一種用於獲取視頻網站資源的數據處理方法的流程 示意圖,參照圖5,所述方法包括:
[0105] 500:接收由網絡爬蟲抓取的網頁數據,並在接收過程中對接收到的網頁數據進行 篩選處理,得到與指定視頻網站相關的網頁數據。
[0106] 502:根據預設的解析策略對與指定視頻網站相關的網頁數據進行解析處理,得到 與指定視頻網站相關的第一結構化數據。
[0107] 504:根據在預定時間段內解析得到的第一結構化數據進行數據融合處理,得到用 於描述指定網站的資源的第二結構化數據。
[0108] 506 :根據在解析處理中解析出的圖片連結抓取原始圖片。
[0109] 508:根據圖片處理策略對原始圖片進行處理得到新圖片,保存新圖片並為新圖片 生成圖片連結。
[0110] 510:根據第二結構化數據和圖片信息進行數據融合處理,得到包含圖片信息的結 構化數據。圖片信息包括原始圖片的圖片連結和新圖片的圖片連結。
[0111] 在本實施例中,並不限制504與506-508的執行順序,甚至在本實施例的一種變形 例中,504與510可以同時通過以下方式實現:根據在預定時間段內解析得到的第一結構化 數據以及接收到的圖片信息進行數據融合處理,得到包含圖片信息的結構化數據。
[0112] 本實施例中與的圖3及圖4所示實施例相同或相似的步驟可以具有相同的實現方 式,此處不做贅述。
[0113] 在本實施例的一種具體實現方式中,由數據篩選裝置10執行500並將執行結果發 送給網頁解析伺服器20,由網頁解析伺服器20執行502並將執行結果發送給資料庫30, 由網頁解析伺服器20將圖片連結發送給圖片抓取伺服器41以由圖片抓取伺服器41執行 506,由圖片處理伺服器42和圖片資料庫43執行508並將圖片信息發送至資料庫30,由數 據庫30執行504和510。其中,各個部分執行各步驟的具體過程請參見前文的描述,此處不 贅述。
[0114] 採用本發明實施例所提供的數據處理方法,除了具有圖3所示實施例的優點之 夕卜,還能提高視頻資源的出圖率,提高用戶體驗。
[0115] 【第六實施例】
[0116] 下面以獲取"http://www. bugaboo, tv"這一視頻網站資源為例對本發明進行說 明,在以下舉例中提及的判斷條件、具體處理方式等特徵均可以用於圖1至圖5所示實施例 中。
[0117] 首先,數據篩選裝置10接收網絡爬蟲返回的網頁數據,通過bugaboo, tv/ (watch I video)/. *對URL進行篩選,獲取到bugaboo, tv站點的視頻播放頁A以及視頻列表 頁B的網頁數據,並將獲取的網頁數據發送給網頁解析伺服器20。
[0118] 然後,網頁解析伺服器20載入預設的解析策略,通過判斷頁面是否存在播放器識 別出A為視頻播放頁、B為視頻列表頁。分別套用對應的解析策略對A頁面的網頁數據和B 頁面的網頁數據進行結構化信息的提取,A頁面可以提取到數據C(如表一),包含標題、摘 要、時間等;B頁面可以提取到數據D,包含21個列表因子(如表二),每個列表因子包含對 應資源的URL、標題、圖片連結、播放次數。
[0119]

【權利要求】
1. 一種用於獲取網站資源的數據處理系統,其特徵在於,包括: 數據篩選裝置,用於接收由網絡爬蟲抓取的網頁數據,並在接收過程中對接收到的網 頁數據進行篩選處理,將篩選出的與指定網站相關的網頁數據發送至網頁解析伺服器; 網頁解析伺服器,用於根據預設的解析策略對與所述指定網站相關的網頁數據進行解 析處理,得到與所述指定網站相關的第一結構化數據,並將所述第一結構化數據保存至數 據庫; 所述資料庫,用於根據在預定時間段內接收到的所述第一結構化數據進行數據融合處 理,得到用於描述所述指定網站的資源的第二結構化數據。
2. 如權利要求1所述的數據處理系統,其特徵在於, 所述數據篩選裝置具體用於,在接收網頁數據的過程中,根據所述指定網站的統一資 源定位符URL正則表達式對接收到的網頁數據進行篩選處理。
3. 如權利要求1所述的數據處理系統,其特徵在於,當所述指定網站為視頻網站時,所 述網頁解析伺服器具體用於: 在所述網頁解析伺服器接收到的網頁數據為與所述指定網站的視頻播放頁相關的網 頁數據時,根據第一解析策略進行解析處理; 在所述網頁解析伺服器接收到的網頁數據為與所述指定網站的視頻列表頁相關的網 頁數據時,根據與所述第一解析策略不同的第二解析策略進行解析處理。
4. 如權利要求1-3中任一項所述的數據處理系統,其特徵在於, 所述數據處理系統還包括圖片處理子系統; 所述網頁解析伺服器還用於,將在所述解析處理中解析出的圖片連結發送至所述圖片 處理子系統; 所述圖片處理子系統,用於根據所述圖片連結抓取原始圖片並根據圖片處理策略對所 述原始圖片進行處理得到新圖片,保存所述新圖片並為所述新圖片生成圖片連結,以及將 包含所述原始圖片的圖片連結和所述新圖片的圖片連結的圖片信息發送至所述資料庫。
5. 如權利要求4所述的數據處理系統,其特徵在於,所述圖片處理子系統包括圖片抓 取伺服器、圖片處理伺服器和圖片資料庫,其中, 所述圖片抓取伺服器,用於根據所述圖片連結抓取所述原始圖片,並將所述原始圖片 及其圖片連結發送至所述圖片處理伺服器; 所述圖片處理伺服器,用於根據圖片處理策略對所述原始圖片進行處理得到所述新圖 片,並將所述原始圖片的圖片連結和所述新圖片保存至所述圖片資料庫; 所述圖片資料庫,用於為所述新圖片生成圖片連結,並將所述圖片信息發送至所述數 據庫。
6. 如權利要求4所述的數據處理系統,其特徵在於, 所示資料庫還用於,根據所述第二結構化數據和所述圖片信息進行數據融合處理。
7. -種用於獲取網站資源的數據處理方法,其特徵在於,包括: 接收由網絡爬蟲抓取的網頁數據,並在接收過程中對接收到的網頁數據進行篩選處 理,得到與指定網站相關的網頁數據; 根據預設的解析策略對與所述指定網站相關的網頁數據進行解析處理,得到與所述指 定網站相關的第一結構化數據; 根據在預定時間段內解析得到的所述第一結構化數據進行數據融合處理,得到用於描 述所述指定網站的資源的第二結構化數據。
8. 如權利要求7所述的數據處理方法,其特徵在於,所述在接收過程中對接收到的網 頁數據進行篩選處理包括: 在接收網頁數據的過程中,根據所述指定網站的URL正則表達式對接收到的網頁數據 進行篩選處理。
9. 如權利要求7所述的數據處理方法,其特徵在於,當所述指定網站為視頻網站時,所 述根據預設的解析策略對與所述指定網站相關的網頁數據進行解析處理包括: 當與所述指定網站相關的網頁數據為與所述指定網站的視頻播放頁相關的網頁數據 時,根據第一解析策略進行所述解析處理; 當與所述指定網站相關的網頁數據為與所述指定網站的視頻列表頁相關的網頁數據 時,根據與所述第一解析策略不同的第二解析策略進行所述解析處理。
10. 如權利要求7-9中任一項所述的數據處理方法,其特徵在於,所述方法還包括: 將在所述解析處理過程中解析出的圖片連結發送至圖片處理子系統,所述圖片處理子 系統用於執行以下處理:根據所述圖片連結抓取原始圖片並根據圖片處理策略對所述原始 圖片進行處理得到新圖片,保存所述新圖片並為所述新圖片生成圖片連結; 接收由所述圖片處理子系統發送的圖片信息,所述圖片信息包括所述原始圖片的圖片 連結和所述新圖片的圖片連結; 根據所述第二結構化數據和所述圖片信息進行數據融合處理。
11. 如權利要求7-9中任一項所述的數據處理方法,其特徵在於,所述方法還包括: 根據在所述解析處理中解析出的圖片連結抓取原始圖片; 根據圖片處理策略對所述原始圖片進行處理得到新圖片,保存所述新圖片保存並為所 述新圖片生成圖片連結; 根據所述第二結構化數據和圖片信息進行數據融合處理,所述圖片信息包括所述原始 圖片的圖片連結和所述新圖片的圖片連結。
12. -種用於獲取網站資源的數據處理裝置,其特徵在於,包括: 數據篩選模塊,用於接收由網絡爬蟲抓取的網頁數據,並在接收過程中對接收到的網 頁數據進行篩選處理,得到與指定網站相關的網頁數據; 數據解析模塊,用於根據預設的解析策略對與所述指定網站相關的網頁數據進行解析 處理,得到與所述指定網站相關的第一結構化數據; 數據融合模塊,用於根據在預定時間段內解析得到的所述第一結構化數據進行數據融 合處理,得到用於描述所述指定網站的資源的第二結構化數據。
13. 如權利要求12所述的數據處理裝置,其特徵在於, 所述數據篩選模塊具體用於,在接收網頁數據的過程中,根據所述指定網站的URL正 則表達式對接收到的網頁數據進行篩選處理。
14. 如權利要求12所述的數據處理裝置,其特徵在於,所述數據解析模塊包括: 第一解析子模塊,用於在所述指定網站為視頻網站並且與所述指定網站相關的網頁數 據為與所述指定網站的視頻播放頁相關的網頁數據時,根據第一解析策略進行解析處理; 第二解析子模塊,用於在所述指定網站為視頻網站並且與所述指定網站相關的網頁數 據為與所述指定網站的視頻列表頁相關的網頁數據時,根據與所述第一解析策略不同的第 二解析策略進行解析處理。
15. 如權利要求12-14中任一項所述的數據處理裝置,其特徵在於, 所述數據處理裝置還包括: 圖片連結發送模塊,用於將所述數據解析模塊在所述解析處理中解析出的圖片連結發 送至圖片處理子系統;其中,所述圖片處理子系統用於執行以下處理:根據所述圖片連結 抓取原始圖片並根據圖片處理策略對所述原始圖片進行處理得到新圖片,保存所述新圖片 並為所述新圖片生成圖片連結,以及將包含所述原始圖片的圖片連結和所述新圖片的圖片 連結的圖片信息發送至所述數據處理裝置, 圖片信息接收模塊,用於接收所述圖片信息; 所述數據融合模塊還用於,根據所述第二結構化數據和所述圖片信息進行數據融合處 理,得到包含所述圖片信息的結構化數據。
16. 如權利要求12-14中任一項所述的數據處理裝置,其特徵在於, 所述數據處理裝置還包括: 圖片抓取模塊,用於根據所述數據解析模塊在所述解析處理中解析出的圖片連結抓取 原始圖片,和 圖片處理模塊,用於根據圖片處理策略處理所述原始圖片得到新圖片,保存所述新圖 片並為所述新圖片生成圖片連結; 所述數據融合模塊還用於,根據所述第二結構化數據和圖片信息進行數據融合處理, 得到包含所述圖片信息的結構化數據,所述圖片信息包括所述原始圖片的圖片連結和所述 新圖片的圖片連結。
17. -種用於獲取網站資源的數據處理系統,其特徵在於, 所述數據處理系統包括: 如權利要求12-14中任一項所述的數據處理裝置,和, 用於保存所述第二結構化數據的資料庫; 或,所述數據處理系統包括: 如權利要求15所述的數據處理裝置, 用於保存包含所述圖片信息的結構化數據的資料庫,和 圖片處理子系統,用於根據所述圖片連結抓取原始圖片並根據圖片處理策略對所述 原始圖片進行處理得到新圖片,保存所述新圖片並為所述新圖片生成圖片連結,以及將包 含所述原始圖片的圖片連結和所述新圖片的圖片連結的圖片信息發送至所述數據處理裝 置; 或,所述數據處理系統包括: 如權利要求16所述的數據處理裝置,和 用於保存包含所述圖片信息的結構化數據的資料庫。
【文檔編號】H04L29/06GK104281680SQ201410521135
【公開日】2015年1月14日 申請日期:2014年9月30日 優先權日:2014年9月30日
【發明者】魯曉瑩, 李進, 劉世戟, 劉鴻宇 申請人:百度在線網絡技術(北京)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀