新四季網

一種網頁信息抽取方法及抽取系統的製作方法

2023-06-14 20:43:51 1

專利名稱:一種網頁信息抽取方法及抽取系統的製作方法
技術領域:
本申請涉及網頁處理技術,特別是涉及一種網頁信息抽取方法及抽取系統。
背景技術:
網頁信息抽取就是獲取網頁的數據,然後通過程序分析,將有用的數據提取分離出來。比如編製程序抽取某網站新聞頻道裡的某個新聞標題就是一種網頁信息抽取。目前的信息抽取主要分為兩種,一種是基於規則的抽取,規則可以人工定製,也可以通過學習得至IJ,另一種就是利用機器學習方法進行抽取。搜尋引擎工作的一部分就是網頁信息抽取。隨著網際網路的發展,網際網路上的信息規模也隨之不斷擴大。由於網際網路上的數據來自於大量不同的站點,而不同站點的頁面結構差異很大,因此搜尋引擎無法開發出通用的抽取器來分析源自不同站點的網頁。
由於這個原因,最初的搜尋引擎,尤其是垂直搜尋引擎(針對某類知識領域的專業搜尋引擎)通過許多個定向的抽取器來解決這一問題,即每個抽取器定向抽取某個站點或具有某類頁面結構的網頁信息。但是,由於這種信息抽取方法需要維護很多個定向抽取器,因此存在不易維護的問題,而且新添加一個或一類站點就需要開發新的定向抽取器,開發成本也很高。之後,人們開始尋找能夠自動生成抽取器的方案。火車頭採集器是一種主要基於正則表達式的信息抽取方法,包含信息的抓取、抽取、發布等功能,通過用戶配置的正則表達式,實現定製化的抓取與抽取。但是,這種單純基於正則表達式的信息抽取方法,還需要手工配置正則表達式,自動化程度不高,對大批量的網頁抽取支持不夠。而且,使用者需要掌握正則表達式的知識,同時也必須對網頁結構有相當程度的了解,對非專業人員來說,技術門檻較高。因此,目前還沒有一種真正簡單、實用的自動化抽取方法,供搜尋引擎或其他網際網路應用進行網頁信息的自動抽取。

發明內容
本申請提供了一種網頁信息抽取方法及抽取系統,以解決現有的信息抽取方法自動化程度不高並且技術門檻較高的問題。為了解決上述問題,本申請公開了一種網頁信息抽取方法,包括通過界面交互方式配置網頁信息抽取任務,並存入資料庫;監控資料庫,當發現資料庫中存入新的網頁信息抽取任務後,將所述新的網頁信息抽取任務發送給調度器;調度器解析網頁信息抽取任務,並依據解析結果自動執行所述網頁信息抽取任務。優選的,所述通過界面交互方式配置網頁信息抽取任務,包括通過界面交互方式執行以下操作提交標註頁面;在所述標註頁面上標註頁面信息的點擊行為和/或抽取行為;對所述點擊行為或抽取行為進行細化配置。優選的,對所述點擊行為或抽取行為進行細化配置之前,還包括配置所述點擊行為或抽取行為的操作對象是單一信息還是列表信息,如果是單一信息,則針對該單一信息進行點擊行為或抽取行為的細化配置;如果是列表信息,則配置列表屬性,並從列表中選取樣例進行點擊行為或抽取行為的細化配置。優選的,每個點擊行為在觸發頁面跳轉時都會產生一個新的標註頁面;最初的標註頁面為起始頁面,基於起始頁面產生的所有標註頁面的集合構成一棵以該起始頁面為根的標註樹,所有的起始頁面代表的標註樹構成一個標註森林;所述網頁信息抽取任務為一個標註森林或一棵標註樹或一個標註頁面。優選的,所述調度器解析網頁信息抽取任務,並依據解析結果自動執行所述網頁信息抽取任務,包括所述調度器解析網頁信息抽取任務,並依據解析結果調度進行網頁抓取,和/或頁面渲染,和/或頁面信息抽取。 優選的,所述調度器解析網頁信息抽取任務,並依據解析結果自動執行所述網頁信息抽取任務,包括調度器解析網頁信息抽取任務,並獲得每個標註頁面的配置;依據標註頁面的URL調度抓取頁面數據;調度渲染標註頁面,並獲得標註頁面的DOM樹結構;遍歷標註頁面的DOM樹結構中對應節點的配置,並依據所述節點的配置進行如下操作如果是抽取行為,則依據抽取行為的配置調度抽取文本信息;如果是點擊行為,並且如果是下載行為,則依據點擊行為的配置調度抓取下載內容;如果是涉及渲染的點擊行為,則依據點擊行為的配置進行調度渲染。本申請還提供了一種網頁信息抽取系統,包括抽取配置模塊,用於通過界面交互方式配置網頁信息抽取任務,並存入資料庫;資料庫,用於存儲網頁信息抽取任務;監控模塊,用於監控資料庫,當發現資料庫中存入新的網頁信息抽取任務後,將所述新的網頁信息抽取任務發送給調度器;調度器,用於解析網頁信息抽取任務,並依據解析結果自動執行所述網頁信息抽取任務。優選的,所述抽取配置模塊包括配置入口子模塊,用於提交標註頁面;行為標註子模塊,用於在所述標註頁面上標註頁面信息的點擊行為和/或抽取行為;細化配置子模塊,用於對所述點擊行為或抽取行為進行細化配置。優選的,所述抽取配置模塊還包括元素類型選擇子模塊,用於配置所述點擊行為或抽取行為的操作對象是單一信息還是列表 目息;如果是單一信息,則觸發所述細化配置子模塊針對該單一信息進行點擊行為或抽取行為的細化配置;如果是列表信息,則配置列表屬性,並觸發所述細化配置子模塊從列表中選取樣例進行點擊行為或抽取行為的細化配置。優選的,每個點擊行為在觸發頁面跳轉時都會產生一個新的標註頁面;最初的標註頁面為起始頁面,基於起始頁面產生的所有標註頁面的集合構成一棵以該起始頁面為根的標註樹,所有的起始頁面代表的標註樹構成一個標註森林;所述網頁信息抽取任務為一個標註森林或一棵標註樹或一個標註頁面。優選的,所述系統還包括抓取器,用於根據調度器的調度,依據標註頁面的URL抓取頁面數據,並返回給所述調度器;渲染引擎,用 於根據調度器的調度,渲染抓取回來的標註頁面,並獲得標註頁面的DOM樹結構,返回給所述調度器;抽取器,用於根據調度器的調度,依據網頁信息抽取任務的配置抽取相應的網頁信息;所述調度器通過解析網頁信息抽取任務獲得每個標註頁面的配置;所述調度器依據標註頁面的URL調度抓取器抓取頁面數據;所述調度器調度渲染引擎渲染標註頁面,並獲得標註頁面的DOM樹結構;所述調度器遍歷標註頁面的DOM樹結構中對應節點的配置,並依據所述節點的配置進行如下操作如果是抽取行為,則依據抽取行為的配置調度抽取器抽取文本信息;如果是點擊行為,並且如果是下載行為,則依據點擊行為的配置調度抓取器抓取下載內容;如果是涉及渲染的點擊行為,則依據點擊行為的配置調度渲染引擎進行渲染。與現有技術相比,本申請包括以下優點首先,本申請提供的網頁信息抽取方法及系統可通過界面交互方式配置網頁信息抽取任務,系統中的調度器通過解析網頁信息抽取任務來自動進行信息抽取。所述界面交互的方式實現了簡單的人機互動,對於非專業人員而言,也可以按照界面的提示進行任務配置,極大地降低了信息抽取的門檻。而且,調度器依據網頁信息抽取任務執行的一套自動抽取方式,可以實現大批量網頁高度自動化的信息抽取。其次,本申請的任務配置過程中不僅可以標註出網頁中要抽取的文本信息,還可以模擬用戶的點擊行為進行配置,例如標註出網頁中要抽取的連結進而下載該連結的內容,從而完成批量網頁的抽取。而且,本申請還可以將網頁DOM樹中類似的兄弟節點配置為列表元素,實現對列表元素的自動化抽取。再次,本申請還支持網頁DOM樹中多個節點內容的信息抽取,因此可以精準地抽
取信息。當然,實施本申請的任一產品不一定需要同時達到以上所述的所有優點。


圖I是本申請實施例所述一種網頁信息抽取方法的流程圖;圖2是本申請實施例中頁面節點的示意圖;圖3. I至3. 4是本申請實施例中通過界面交互方式配置網頁信息抽取任務的示意圖;圖4是本申請實施例中通過界面交互方式配置網頁信息抽取任務的流程圖;圖5是本申請實施例中抽取配置的示意圖6是本申請實施例中點擊行為配置的示意圖;圖7是本申請實施例中列表元素配置的示意圖;圖8是本申請實施例中網頁信息抽取的示意圖;圖9是本申請實施例所述一種網頁信息抽取系統的結構圖。
具體實施例方式為使本申請的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式
對本申請作進一步詳細的說明。本申請提供了一種網頁信息抽取方法及系統,可通過界面交互方式配置網頁信息抽取任務,系統中的調度器通過解析網頁信息抽取任務來自動進行信息抽取。本申請通過簡單的人機互動,可實現針對網際網路站點的信息抽取。
下面通過實施例對本申請所述方法的實現流程進行詳細說明。參照圖I,是本申請實施例所述一種網頁信息抽取方法的流程圖。步驟101,通過界面交互方式配置網頁信息抽取任務,並存入資料庫;配置網頁信息抽取任務目的是為了批量的抽取頁面中有價值的內容。一方面,需要對抓取器(spider)進行配置,使其抓取指定的頁面集合。例如,需要抓取某站點的商品信息,其中http://www. 360buy. com/product/342890. html 這類頁面是要進行抽取的頁面;http://help. 360buy. com/help/question-65, html 這類頁面是無意義的頁面。另一方面,還需要配置每個頁面上具體要抽取的內容。例如,要抽取某段文字,或者抽取某個新聞標題,等等。具體的配置方法將在下面的圖2至圖7中進行詳細說明。需要說明的是,本申請實施例中,所述配置是通過界面交互的方式完成,即用戶可以根據界面的提示進行一步步地輸入選擇,無需手動輸入正則表達式,因此操作起來十分簡便,而且配置的自動化程度較高,可以快速完成配置。步驟102,監控資料庫,當發現資料庫中存入新的網頁信息抽取任務後,將所述新的網頁信息抽取任務發送給調度器;可設置一監控程序實時監控資料庫的變化,並及時將放入資料庫的新任務發送給調度器。所述調度器用於按照網頁信息抽取任務自動化抽取所配置的頁面信息。步驟103,調度器解析網頁信息抽取任務,並依據解析結果自動執行所述網頁信息抽取任務。所述調度器主要通過調度各種處理器執行抽取任務,所述處理器包括抓取器(spider)、javascrpit渲染引擎(簡稱JS渲染引擎)和抽取器(extractor)。其中,抓取器(spider)主要用於抓取指定的頁面,JS渲染引擎主要用於對抓取的頁面進行javascrpit處理,抽取器(extractor)主要用於根據配置進行信息抽取。整個調度執行過程將在下面的圖中8進行詳細說明。為了使本領域技術人員更加了解本申請的內容,下面通過圖2至圖8對上述內容進行更詳細的解釋說明。I.網頁信息抽取任務的配置首先,介紹網頁的頁面結構。
目前,通常採用DOM樹來描述網頁的頁面結構。DOM全稱是Document ObjectModel,即文檔對象模型。DOM是一種用於HTML和XML文檔的編程接口,它給文檔提供了一種結構化的表示方法,可以改變文檔的內容和呈現方式。例如,參照圖2,是本申請實施例中頁面節點的示意圖。頁面http://news. sina.com. cn/c/2011-06-13/133822631625. shtml中的新聞由多個節點的內容組成,其中一個節點及其對應的內容如圖所示。本申請實施例可支持多個節點內容的信息抽取,這樣可以更加精準地抽取信息。下面先通過一個簡單的例子說明對某個節點進行配置的過程。本申請實施例採用標註方式完成配置,標註就是在瀏覽頁面的過程中,將需要抽取的內容標記出來。參照圖3. I至3. 4,是本申請實施例中通過界面交互方式配置網頁信息抽取任務的示意圖。對網頁中某個節點的配置過程如下I)提交入口 URL進入標註頁面; 參照圖3. 1,輸入URL進入該URL指向的頁面;2)打開了新的頁面後,點擊要進行標註的信息;參照圖3. 2,點擊圖中用框線框起來的連結,該連結的標題是「陝西關中-天水經濟區生產總值高出全國平均水平」;3)彈出窗口選擇動作;參照圖3. 3,選擇是抽取該連結的文字,還是點擊該連結;4)之後對指定的動作進行配置。參照圖3. 4,若選擇的動作是抽取該連結的文字,則對文字抽取進行配置,如配置名稱是「新聞標題」等。從上述例子的配置過程可以看出,通過界面交互方式配置網頁信息抽取任務的過程主要包括以下幾步第一,提交標註頁面;第二,在所述標註頁面上標註頁面信息的點擊行為和/或抽取行為;其中,所述「和」是指可以在同一個頁面上既標註點擊行為,又標註抽取行為;所述「或」是指在同一個頁面上或者標註點擊行為,或者標註抽取行為。在實際應用中,一般的標註是對網頁中的一些文本或連結的標題等信息標註為抽取行為。而本申請實施例優選的,不僅可以標註出網頁中要抽取的文本信息,還可以模擬用戶的點擊行為進行配置。所述點擊行為包括I)下載行為,即按照用戶瀏覽的行為標註出網頁中要點擊的連結,進而下載該連結的內容;2)其他點擊行為,如發生在一些按鈕或選擇框中的點擊操作,通過模擬這些用戶行為,就可以提交表單登錄、上傳文件或觸發javascrpit。上述點擊行為和抽取行為都稱為標註行為,每一個標註行為在頁面DOM樹中都能找到與之對應的節點。例如,圖3. 2中選擇配置的連結就對應一個DOM節點,對這個連結配置的是抽取連結的文字,當然,也可以配置下載這個連結的內容。配置過程中,可以從預覽的窗口中查看當前的抽取結果和爬取的路徑,如果發現結果不準確,還可以隨時調整配置。第三,對所述點擊行為或抽取行為進行細化配置,如配置細化的點擊屬性或配置細化的抽取規則等。此外,本申請實施例優選的,還可以將網頁DOM樹中類似的兄弟節點配置為列表元素,實現對列表元素的自動化抽取。例如,參照圖3. 2所示,在框線的下方還列出了多條連結,這些連結相互之間都是兄弟節點,因此在配置過程中可以將這些連結設為列表元素。基於上述配置方法,下面通過圖4說明具體的配置過程。參照圖4,是本申請實施例中通過界面交互方式配置網頁信息抽取任務的流程圖。步驟401,提交標註頁面;如以圖3. I的方式提交標註頁面。步驟402,通過點擊或劃選的方式與界面進行交互; 通常,對於連結可進行點擊交互,如圖3. 2就是點擊該連結然後彈出配置窗口。而對於文本內容可進行劃選,所述劃選相當於按住並拖動滑鼠進行文本的選中操作。通過以上點擊或劃選的操作,界面會根據這些操作彈出相應的配置窗口,供用戶進行下一步的配置。步驟403,選擇是進行抽取操作還是動作操作;所述抽取操作是指抽取文本信息或抽取連結,所述動作操作是指模擬用戶的點擊行為,如前所述,點擊行為包括下載行為和點擊按鈕或選擇框等其他點擊行為。需要說明的是,如果步驟402中通過點擊方式進行交互,則在步驟403中可以選擇抽取操作也可以選擇動作操作;如果步驟402中通過劃選方式進行交互,則在步驟403中只能選擇抽取操作。例如,對於頁面中的一條連結,通過點擊該連結彈出配置窗口,用戶在該窗口中可以選擇抽取該連結的文字,也可以選擇下載該連結的內容。而對於一篇網頁文本信息,通用戶只能通過劃選的方式選中某段內容進行抽取配置。步驟404,選擇操作單一元素還是列表元素;無論是抽取操作還是點擊操作,都可以選擇元素類型。所述元素類型包括單一元素(也稱為單一信息)和列表元素(也稱為列表信息),如前所述,列表元素對應著網頁DOM樹中類似的兄弟節點,而單一元素對應著DOM樹中的一個節點。按照步驟404配置點擊行為或抽取行為的操作對象是單一元素還是列表元素之後,如果是單一元素,則進入步驟405進行細化配置;如果是列表信息,則可以先配置列表屬性,然後再進入步驟405進行細化配置。此外,選擇列表元素還允許標註位於同一列表中的多個樣例,後臺利用這些樣例的集合可以自動識別列表的範圍,之後可以進行針對列表屬性的相關配置。步驟405,配置針對單一元素的規則。如果選擇單一元素,則針對該單一元素進行點擊行為或抽取行為的配置;如果選擇列表元素,則針對列表中的樣例進行點擊行為或抽取行為的配置。對於抽取行為,細化配置具體的抽取規則;對於點擊行為,細化配置點擊動作的屬性。下面通過5至圖7舉例說明細化的抽取配置、點擊行為配置和列表元素配置。參照圖5,是本申請實施例中抽取配置的示意圖。抽取配置如下抽取連結
是否抓取連結連結內容加工alt屬性抽取抽取文本文本加工地址識別日期識別抽取的內容可以是文本,也可以是連結。在進行抽取配置時 如果選擇抽取連結,則進入抽取連結配置頁面,進一步配置「是否抓取連結」選項和「alt屬性抽取」選項,其中配置「是否抓取連結」時如果選擇「是」,則還需要配置「連結內容加工」選項;如果選擇抽取文本,則進入抽取文本配置頁面,進一步配置「文本加工」、「地址識另IJ」和「日期識別」三個選項。參照圖6,是本申請實施例中點擊行為配置的示意圖。點擊行為配置如下點擊對象文本框輸入文本或上傳批量輸入按鈕觸發表單提交事件選擇框選取操作連結產生新的頁面其他通用行為點擊操作滑鼠停留滾輪操作滑鼠離開滑鼠雙擊首先選擇點擊對象,點擊對象可以是文本框、按鈕、選擇框、連結、其他對象和通用行為,然後對所選擇的點擊對象進行具體配置。如果選擇「文本框」,則進一步配置「輸入文本或上傳批量輸入」選項;如果選擇「按鈕」,則進一步配置「觸發表單提交事件」選項;如果選擇「選擇框」,則進一步配置「選取操作」選項;如果選擇「連結」,則進一步配置「產生新的頁面」選項;如果選擇「通用行為」,則進一步配置「點擊操作」、「滑鼠停留」、「滾輪操作」、「滑鼠離開」、「滑鼠雙擊」這幾個選項。
參照圖7,是本申請實施例中列表元素配置的示意圖。以抽取列表配置為例如下制定偏移起始偏移結束偏移間隔制定條件指定字符序列開頭 指定字符序列結尾抽取列表配置包括兩個選項「制定偏移」和「制定條件」,對於「制定偏移」選項,進一步配置「起始偏移」、「結束偏移」和「間隔」的具體數值;對於「制定條件」選項,進一步配置「指定字符序列開頭」和「指定字符序列結尾」。綜上所述,基於上述對標註頁面的配置,頁面上的每一個標註行為(抽取、點擊),在該頁面的DOM樹中都能找到與之對應的節點。頁面上的每個標註動作,除了記錄配置信息外,還記錄了定位的信息。此外,由於每個點擊行為在觸發頁面跳轉時都會產生一個新的標註頁面,因此可以把最初的標註頁面稱為起始頁面,基於起始頁面產生的所有標註頁面的集合構成一棵以該起始頁面為根的標註樹,所有的起始頁面代表的標註樹構成一個標註森林。因此,一個標註森林包含多個標註樹,一棵標註樹中的每個節點對應一個標註頁面,而每個標註頁面都對應一個DOM樹,DOM樹中的節點都有對應的標註行為。通常,選擇對一棵標註樹的根節點即起始頁面,按照上述的方法進行配置,由於這顆樹上的其他節點對應的標註頁面都是基於該起始頁面產生的標註頁面,因此在配置起始頁面的過程中,通過配置上述的點擊行為和列表元素,就可以完成對其他標註頁面的抽取配置。換而言之,通過配置起始頁面就可以對基於該起始頁面生成的標註樹進行網頁信息的自動抽取。配置一個網頁信息抽取任務,可以選擇多個起始頁面,將包含這些起始頁面的一個標註森林作為一個任務;也可以選擇一個起始頁面,將基於該起始頁面生成的一棵標註樹作為一個任務;甚至還可以簡單地將一個標註頁面作為一個任務。2.網頁信息抽取任務的調度執行下面通過圖8詳細說明調度執行過程。參照圖8,是本申請實施例中網頁信息抽取的示意圖。圖8所示的完整的信息抽取過程如下I)用戶通過web界面交互,配置網頁信息抽取任務;2)將配置的網頁信息抽取任務存入資料庫;3)監控程序發現新任務,初始化任務相關環境,之後將任務信息發送給調度器;4)調度器解析並調用相關的處理器完成信息抽取工作;5)將最終抽取結果存入資料庫,等待用戶提交下載請求。如圖所示,調度器調用的處理器包括 抓取器(spider)主要任務是根據URL請求和附加的cookie、表單等信息,抓取相應的頁面數據。其輸入、輸出如下輸入要抓取的網頁URL和表單數據,所述表單數據指登錄用戶名、密碼等信息;輸出抓取到的資源,如頁面、圖片、pdf等文檔、cookie、URL所引用的javascrpit
坐寸ο· javascrpit 宣染引擎主要任務是根據用戶的行為,調用相應的javascrpit,改變DOM樹的結構或者跳轉到新的頁面。其輸入、輸出如下輸入頁面、頁面引用的javascrpit,這些輸入信息是通過抓取器抓取得到; 輸出渲染後的頁面,其中可能包括javascrpit執行過的動作,如點擊行為。 抽取器(extractor)主要任務根據抽取的配置信息與抽取對象的位置信息,獲取最終的抽取結果。其輸入、輸出如下輸入頁面內容、圖片等資源,其輸入可以是抽取器輸出的內容,也可以是javascrpit渲染引擎輸出的內容;輸出結構化文本,需要抽取的連結的URL。以網頁信息抽取是一個標註森林為例,所述調度器的處理流程如下調度器遍歷任務的標註樹森林遍歷每顆樹中的節點判斷當前節點的行為根據行為進行調度如前所述,每棵樹是以起始頁面為根、以點擊產生的標註頁面為節點的標註樹,因此標註樹中的每個節點對應一個標註頁面。調度器根據每個標註頁面上的抽取行為配置或點擊行為配置,調度抓取器(spider)、javascrpit渲染引擎或抽取器(extractor)。調度器調度相應處理器的過程如下I)調度器解析網頁信息抽取任務,並獲得起始頁面的配置;調度器加載新任務的所有起始頁面的URL ;2)依據起始頁面的URL調度抓取起始頁面;調度器將起始頁面URL傳給spider, spider抓取完頁面,並返回給調度器;3)調度渲染起始頁面,並獲得起始頁面的DOM樹結構;調度器獲得頁面之後,調用javascript渲染引擎,獲取經過javascript處理的DOM 樹;4)遍歷起始頁面的DOM樹結構中對應節點的配置,並依據所述節點的配置進行如下操作如果是抽取行為,則依據抽取行為的配置調度抽取文本信息;如果是點擊行為,並且如果是下載行為,則依據點擊行為的配置調度抓取下載內容;如果是涉及渲染的點擊行為,則依據點擊行為的配置進行調度渲染。具體的對於抽取行為,將DOM結構與抽取行為配置傳遞給抽取器(extractor),抽取器返回抽取到的文本結果;
對於點擊行為,如果觸發下載行為,則調用spider下載內容,如果下載內容為新的頁面,則將新的頁面添加至調度器的處理序列中;如果觸發其他點擊行為,如果涉及到javascrpit的調用,則請求javascrpit渲染引擎返回。如果javascrpit的執行過程中,觸發了 ajax (Asynchronous JavaScript And XML,異步 JavaScript 及 XML)操作,則javascrpit渲染引擎通過調度器,請求spider下載對應的數據,之後繼續javascrpit的渲染過程。此外,對於網頁信息抽取任務中的其他標註頁面,也同樣按照調度處理流程進行抽取,詳細的調度過程不再詳述。由上可知,調度器對每個行為的調度處理並不一定按照抓取器(spider)、javascrpit渲染引擎、抽取器(extractor)的順序進行調度,而是根據具體的行為配置可能調度抓取器(spider),可能調度javascrpit渲染引擎,或者可能調度抽取器(extractor)。
需要說明的是,對於前述的方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本申請並不受所描述的動作順序的限制,因為依據本申請,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於優選實施例,所涉及的動作並不一定是本申請所必須的。綜上所述,本申請實施例提供的網頁信息抽取方法可通過簡單的人機互動對信息抽取進行配置,並可以依據所述配置,在調度器的調度下自動化進行信息抽取,提高了信息抽取的自動化程度,可實現大批量網頁高度自動化的信息抽取。而且,這種人機互動方式對於非專業人員而言,也可以按照界面的提示進行任務配置,極大地降低了信息抽取的門檻。進一步,本申請與現有的各種信息抽取方法相比,還具有以下特點和優勢第一,配置過程中不僅可以標註出網頁中要抽取的文本信息,還可以模擬用戶的點擊行為進行配置,例如標註出網頁中要抽取的連結進而下載該連結的內容;第二,本申請還可以將網頁DOM樹中類似的兄弟節點配置為列表元素,實現對列表元素的自動化抽取;第三,本申請還支持網頁DOM樹中多個節點內容的信息抽取,因此可以精準地抽
取信息。基於上述方法實施例的說明,本申請還提供了相應的網頁信息抽取系統實施例,來實現上述方法實施例所述的內容。參照圖9,是本申請實施例所述一種網頁信息抽取系統的結構圖。所述抽取系統可以包括抽取配置模塊91、資料庫92、監控模塊93和調度器94,其中,抽取配置模塊91,用於通過界面交互方式配置網頁信息抽取任務,並存入資料庫;資料庫92,用於存儲網頁信息抽取任務;監控模塊93,用於監控資料庫,當發現資料庫中存入新的網頁信息抽取任務後,將所述新的網頁信息抽取任務發送給調度器;調度器94,用於解析網頁信息抽取任務,並依據解析結果自動執行所述網頁信息抽取任務。
進一步優選的,所述抽取配置模塊91具體可以包括配置入口子模塊,用於提交標註頁面;行為標註子模塊,用於在所述標註頁面上標註頁面信息的點擊行為和/或抽取行為;細化配置子模塊,用於對所述點擊行為或抽取行為進行細化配置。優選的,所述抽取系統還可以將網頁DOM樹中類似的兄弟節點配置為列表元素,實現對列表元素的自動化抽取,因此所述抽取配置模塊91還可以包括元素類型選擇子模塊,用於配置所述點擊行為或抽取行為的操作對象是單一信息還是列表 目息;如果是單一信息,則觸發所述細化配置子模塊針對該單一信息進行點擊行為或抽取行為的細化配置;如果是列表信息,則配置列表屬性,並觸發所述細化配置子模塊從列表中選取樣例進行點擊行為或抽取行為的細化配置。·
此外,需要說明的是,每個點擊行為在觸發頁面跳轉時都會產生一個新的標註頁面;最初的標註頁面為起始頁面,基於起始頁面產生的所有標註頁面的集合構成一棵以該起始頁面為根的標註樹,所有的起始頁面代表的標註樹構成一個標註森林;所述網頁信息抽取任務為一個標註森林或一棵標註樹或一個標註頁面。進一步優選的,所述抽取系統還可以包括 抓取器95,用於根據調度器94的調度,依據標註頁面的URL抓取頁面數據,並返回給所述調度器94 ;渲染引擎96,用於根據調度器94的調度,渲染抓取回來的標註頁面,並獲得標註頁面的DOM樹結構,返回給所述調度器94 ;抽取器97,用於根據調度器94的調度,依據網頁信息抽取任務的配置抽取相應的網頁信息;所述調度器94通過解析網頁信息抽取任務獲得每個標註頁面的配置;所述調度器94依據標註頁面的URL調度抓取器95抓取頁面數據;所述調度器94調度渲染引擎96渲染標註頁面,並獲得標註頁面的DOM樹結構;所述調度器94遍歷標註頁面的DOM樹結構中對應節點的配置,並依據所述節點的配置進行如下操作如果是抽取行為,則依據抽取行為的配置調度抽取器97抽取文本信息;如果是點擊行為,並且如果是下載行為,則依據點擊行為的配置調度抓取器95抓取下載內容;如果是涉及渲染的點擊行為,則依據點擊行為的配置調度渲染引擎96進行渲染。進一步的,在渲染引擎96的執行過程中,如果觸發了 ajax (AsynchronousJavaScript And XML,異步JavaScript及XML)操作,則渲染引擎96通過調度器94,請求抓取器95下載對應的數據,之後繼續渲染引擎96的渲染過程。綜上所述,所述網頁信息抽取系統實現了高度自動化的信息抽取,並且通過界面交互方式完成配置,實現了簡單的人機互動,極大地降低了信息抽取的門檻。對於上述抽取系統實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見圖I至圖8所示方法實施例的部分說明即可。本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。以上對本申請所提供的一種網頁信息抽取方法及抽取系統,進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本申請的方法及其核心思想;同時,對於本領域的一般技術人員,依據本申請的思 想,在具體實施方式
及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。
權利要求
1.一種網頁信息抽取方法,其特徵在於,包括 通過界面交互方式配置網頁信息抽取任務,並存入資料庫; 監控資料庫,當發現資料庫中存入新的網頁信息抽取任務後,將所述新的網頁信息抽取任務發送給調度器; 調度器解析網頁信息抽取任務,並依據解析結果自動執行所述網頁信息抽取任務。
2.根據權利要求I所述的方法,其特徵在於,所述通過界面交互方式配置網頁信息抽取任務,包括 通過界面交互方式執行以下操作 提交標註頁面; 在所述標註頁面上標註頁面信息的點擊行為和/或抽取行為; 對所述點擊行為或抽取行為進行細化配置。
3.根據權利要求2所述的方法,其特徵在於,對所述點擊行為或抽取行為進行細化配置之前,還包括 配置所述點擊行為或抽取行為的操作對象是單一信息還是列表信息, 如果是單一信息,則針對該單一信息進行點擊行為或抽取行為的細化配置; 如果是列表信息,則配置列表屬性,並從列表中選取樣例進行點擊行為或抽取行為的細化配置。
4.根據權利要求2所述的方法,其特徵在於 每個點擊行為在觸發頁面跳轉時都會產生一個新的標註頁面; 最初的標註頁面為起始頁面,基於起始頁面產生的所有標註頁面的集合構成一棵以該起始頁面為根的標註樹,所有的起始頁面代表的標註樹構成一個標註森林; 所述網頁信息抽取任務為一個標註森林或一棵標註樹或一個標註頁面。
5.根據權利要求I至4任一所述的方法,其特徵在於,所述調度器解析網頁信息抽取任務,並依據解析結果自動執行所述網頁信息抽取任務,包括 所述調度器解析網頁信息抽取任務,並依據解析結果調度進行網頁抓取,和/或頁面渲染,和/或頁面信息抽取。
6.根據權利要求4所述的方法,其特徵在於,所述調度器解析網頁信息抽取任務,並依據解析結果自動執行所述網頁信息抽取任務,包括 調度器解析網頁信息抽取任務,並獲得每個標註頁面的配置; 依據標註頁面的URL調度抓取頁面數據; 調度渲染標註頁面,並獲得標註頁面的DOM樹結構; 遍歷標註頁面的DOM樹結構中對應節點的配置,並依據所述節點的配置進行如下操作 如果是抽取行為,則依據抽取行為的配置調度抽取文本信息; 如果是點擊行為,並且如果是下載行為,則依據點擊行為的配置調度抓取下載內容;如果是涉及渲染的點擊行為,則依據點擊行為的配置進行調度渲染。
7.—種網頁信息抽取系統,其特徵在於,包括 抽取配置模塊,用於通過界面交互方式配置網頁信息抽取任務,並存入資料庫; 資料庫,用於存儲網頁信息抽取任務;監控模塊,用於監控資料庫,當發現資料庫中存入新的網頁信息抽取任務後,將所述新的網頁信息抽取任務發送給調度器; 調度器,用於解析網頁信息抽取任務,並依據解析結果自動執行所述網頁信息抽取任務。
8.根據權利要求7所述的系統,其特徵在於,所述抽取配置模塊包括 配置入口子模塊,用於提交標註頁面; 行為標註子模塊,用於在所述標註頁面上標註頁面信息的點擊行為和/或抽取行為; 細化配置子模塊,用於對所述點擊行為或抽取行為進行細化配置。
9.根據權利要求8所述的系統,其特徵在於,所述抽取配置模塊還包括 元素類型選擇子模塊,用於配置所述點擊行為或抽取行為的操作對象是單一信息還是列表信息; 如果是單一信息,則觸發所述細化配置子模塊針對該單一信息進行點擊行為或抽取行為的細化配置; 如果是列表信息,則配置列表屬性,並觸發所述細化配置子模塊從列表中選取樣例進行點擊行為或抽取行為的細化配置。
10.根據權利要求8所述的系統,其特徵在於 每個點擊行為在觸發頁面跳轉時都會產生一個新的標註頁面; 最初的標註頁面為起始頁面,基於起始頁面產生的所有標註頁面的集合構成一棵以該起始頁面為根的標註樹,所有的起始頁面代表的標註樹構成一個標註森林; 所述網頁信息抽取任務為一個標註森林或一棵標註樹或一個標註頁面。
11.根據權利要求10所述的系統,其特徵在於,還包括 抓取器,用於根據調度器的調度,依據標註頁面的URL抓取頁面數據,並返回給所述調度器; 渲染引擎,用於根據調度器的調度,渲染抓取回來的標註頁面,並獲得標註頁面的DOM樹結構,返回給所述調度器; 抽取器,用於根據調度器的調度,依據網頁信息抽取任務的配置抽取相應的網頁信息; 所述調度器通過解析網頁信息抽取任務獲得每個標註頁面的配置; 所述調度器依據標註頁面的URL調度抓取器抓取頁面數據; 所述調度器調度渲染引擎渲染標註頁面,並獲得標註頁面的DOM樹結構; 所述調度器遍歷標註頁面的DOM樹結構中對應節點的配置,並依據所述節點的配置進行如下操作 如果是抽取行為,則依據抽取行為的配置調度抽取器抽取文本信息; 如果是點擊行為,並且如果是下載行為,則依據點擊行為的配置調度抓取器抓取下載內容;如果是涉及渲染的點擊行為,則依據點擊行為的配置調度渲染引擎進行渲染。
全文摘要
本申請提供了一種網頁信息抽取方法及抽取系統,以解決現有的信息抽取方法自動化程度不高並且技術門檻較高的問題。所述方法包括通過界面交互方式配置網頁信息抽取任務,並存入資料庫;監控資料庫,當發現資料庫中存入新的網頁信息抽取任務後,將所述新的網頁信息抽取任務發送給調度器;調度器解析網頁信息抽取任務,並依據解析結果自動執行所述網頁信息抽取任務。所述界面交互的方式實現了簡單的人機互動,對於非專業人員而言,也可以按照界面的提示進行任務配置,極大地降低了信息抽取的門檻。而且,調度器依據網頁信息抽取任務執行的一套自動抽取方式,可以實現大批量網頁高度自動化的信息抽取。
文檔編號G06F17/30GK102890692SQ20111020789
公開日2013年1月23日 申請日期2011年7月22日 優先權日2011年7月22日
發明者孫一鳴, 強琦, 蔡波洋, 金曉軍, 吳宗遠 申請人:阿里巴巴集團控股有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀