新四季網

網頁信息提取方法和裝置的製作方法

2023-05-24 18:54:11 2

專利名稱:網頁信息提取方法和裝置的製作方法
技術領域:
本發明涉及信息提取,具體地,涉及一種網絡網頁信息提取方法和裝置。
背景技術:
隨著網際網路和電子技術的飛速發展,人們不再受地域的限制,可以方便的在網上 交換各種各樣的信息。在大量用戶的參與之下,網站的網頁中(比如論壇)存在大量的有 用信息,這些信息不管對於個人,而且對於企業都有很好的使用價值。但是這些信息的發布 存在很大的隨意性。網站的網頁中既包含有用信息,也包含大量的幹擾信息,例如廣告等。 真正有用的信息往往會淹沒在這些幹擾信息中。目前,一種提取網頁信息的方法是通用的自動文本搜索技術。這種技術對網頁的 具體內容進行分類,然後利用文本匹配的方式來判斷是否包含有用內容。但這種文本搜索 方法無法精確地查找到提取諸如發帖人、發帖標題和發帖人等信息。另一種常見的提取網 頁信息的方法是採用人工的方式去挑選、查找有用或相關信息。

發明內容
在下文中給出關於本發明的簡要概述,以便提供關於本發明的某些方面的基本理 解。應當理解,這個概述並不是關於本發明的窮舉性概述。它並不是意圖確定本發明的關 鍵或重要部分,也不是意圖限定本發明的範圍。其目的僅僅是以簡化的形式給出某些概念, 以此作為稍後論述的更詳細描述的前序。根據本發明的一個方面,提供了一種網頁信息提取方法。所述方法包括網頁獲 取步驟獲取網站中的網頁的原始碼;網頁樹結構建立步驟根據所獲取的原始碼來建立 所述網頁的文檔對象模型樹結構,所述網頁的文檔對象模型樹結構包括一個或多個節點; 論壇模板獲取步驟獲取所述網站的至少一個文檔對象模型樹結構模板;路徑選擇步驟 從所述文檔對象模型樹結構模板中選擇要抽取內容的路徑信息;路徑匹配步驟將所述要 抽取內容的路徑信息與所述網頁的文檔對象模型樹結構中的各節點進行匹配,如果匹配成 功,則根據所述路徑信息來提取所述網頁中的相應的內容信息。根據本發明的另一方面,提供了一種網頁信息提取裝置,該裝置包括網頁獲取模 塊被配置用於獲取網站中的網頁的原始碼;網頁樹結構建立模塊,被配置用於根據所述 網頁獲取模塊所獲取的網頁的原始碼來建立所述網頁的文檔對象模型樹結構,所述網頁的 文檔對象模型樹結構包括一個或多個節點;模板獲取模塊,被配置用於獲取至少一個文檔 對象模型樹結構模板;路徑選擇模塊,被配置用於從所述文檔對象模型樹結構模板中選擇 要抽取內容的路徑信息;及路徑匹配模塊,被配置用於將所述路徑信息與所述網頁的文檔 對象模型樹結構中的各節點進行匹配,如果匹配成功,則根據所述路徑信息來提取所述網 頁中的相應的內容信息。另外,本發明的實施例還提供了用於實現上述檢測視頻圖像中的目標的方法的計 算機程序。
4
此外,本發明的實施例還提供了至少計算機可讀介質形式的電腦程式產品,其 上記錄有用於實現上述檢測視頻圖像中的目標的方法的電腦程式代碼。


參照下面結合附圖對本發明實施例的說明,會更加容易地理解本發明的以上和其 它目的、特點和優點。附圖中的部件只是為了示出本發明的原理。在附圖中,相同的或類似 的技術特徵或部件將採用相同或類似的附圖標記來表示。圖1是示出了根據本發明的一個實施例的網頁信息提取方法的示意性流程圖;圖2是示出了根據本發明另一實施例的網頁信息提取方法的示意性流程圖;圖3示出了建立網站的文檔對象模型(DOM)樹結構模板的一個示例;圖4是示出了根據本發明另一實施例的網頁信息提取方法的示意性流程圖;圖5是示出了根據本發明另一實施例的網頁信息提取方法的示意性流程圖;圖6是示出了路徑信息絕對匹配的示例性流程圖;圖7是示出了根據本發明另一實施例的網頁信息提取方法的示意性流程圖;圖8是示出了路徑信息相似匹配的一個應用示例的示意性流程圖;圖9是示出了公共路徑信息匹配的一個應用示例的示意性流程圖;圖10-13是示出了根據本發明實施例的網頁信息提取裝置的示意性框圖;圖14是示出了根據本發明實施例的網頁信息提取裝置中的模板生成模塊的示意 性框圖;圖15是示出了可用於實施根據本發明實施例的計算機的示意性框圖;以及圖16是示出了用於網頁的DOM樹結構中的節點選擇的界面的一個示例。
具體實施例方式下面參照附圖來說明本發明的實施例。在本發明的一個附圖或一種實施方式中描 述的元素和特徵可以與一個或更多個其它附圖或實施方式中示出的元素和特徵相結合。應 當注意,為了清楚的目的,附圖和說明中省略了與本發明無關的、本領域普通技術人員已知 的部件和處理的表示和描述。圖1是示出了根據本發明的一個實施例的網頁信息提取方法的示意性流程圖。如圖1所示,該網頁信息提取方法可包括以下步驟102-110。在步驟102中,獲取網站中的網頁的原始碼。在步驟104中,根據所獲取網頁的源 代碼來建立所述網頁的文檔對象模型(Document ObjectModel,DOM)樹結構。在一個示例中,所述網站中的網頁可以指網站中論壇的網頁。在獲取論壇的某個 網頁的原始碼之後,對所述網頁進行解析從而建立其DOM樹。在另一示例中,所述網站中的 網頁還可以是其他具有大量結構化信息的網頁,比如包括產品目錄等信息的網頁。在一個示例中,可以根據論壇的編號,從與網站相關的資料庫中獲取論壇中的網 頁的編號,然後根據該網頁的編號來獲取網頁的原始碼(如HTML格式的原始碼)。所述的 網頁的編號可以唯一地標識該網頁,例如可以是一個64位整數。網頁的編號中的不同的二 進位位組合可以用於表示該網頁所屬的論壇、網頁在論壇中的主題號、網頁在當前主題下 的頁號等等信息。
在一個示例中,可以通過網頁下載程序實時地下載網頁的原始碼。在另一示例中, 還可以將下載的網頁的原始碼形成一個臨時的網頁文件(例如HTML格式的)預存在存儲 裝置(例如計算機硬碟)中。在一個示例中,還可以對所獲取的網頁進行過濾,以濾除無用 圖片等幹擾信息,從而只保留網頁主體部分,網頁的主體部分的原始碼。所述網頁的原始碼可以是HTML格式的。通過解析網頁的原始碼,可以利用DOM技 術來建立網頁的DOM樹結構,這裡不對其具體過程作詳細描述。網頁的DOM樹結構中可以 包括一個或多個節點。在步驟106中,獲取所述網站的至少一個DOM樹結構模板。由於網站中某種類型的網頁(比如論壇網頁、包括產品目錄等信息的網頁等等) 具有相似的結構,因此可以針對這一類型的網頁建立相應的一個或多個模板。在一個示例中,可以利用DOM技術來建立某種類型的網頁的DOM樹結構,從而形成 針對該類型的網頁的模板。所述模板中可以包括相應的DOM樹結構中一個或多個節點的路 徑信息。節點的路徑信息可以包括有關從相應的DOM樹結構的根節點到該節點的路徑的信 息,具體而言,包括從所述根節點到達該節點要經過的各節點的屬性信息。在一個示例中, 節點的屬性信息可以包括節點的名稱(如標籤)、順序號等。所述順序號指示該節點在相應 的DOM樹結構中的位置。在一個示例中,所述順序號可以指示該節點在相應的DOM樹結構 的所屬層中的位置。在一個示例中,所述模板可以是針對網站的論壇而建立的,可以包括該論壇中以 下內容的路徑信息主帖區、發帖人、發帖日期、發帖題目、發帖內容和發帖標題、第一個回 帖的回帖區、回帖人、回帖日期、回帖題目、回帖內容和回帖標題等。在實際應用中,這些內 容可以根據需要來選擇,此處不一一列舉。在一個示例中,針對論壇而建立的模板還可以包括兩種與包含主貼和回貼的網 頁對應的模板以及與僅包含回貼的網頁對應的模板。在抽取論壇網頁中的信息時,可以根 據網頁的內容來選擇不同的模板。在一個示例中,所建立的模板可以是XML (Extensible MarkupLanguage,可擴展標 記語言)文件格式的。模板中的每個要抽取內容的路徑信息可以一個字符串,該字符串由 標識DOM樹層次結構的結構數組組成,所述結構數組可以包括節點的名稱(如標籤)和順 序號等屬性信息。在一個示例中,各節點的順序號可以從零開始,依次指向順序號的值加一 後所對應的節點。在步驟108中,從所獲取的DOM樹結構模板中選擇要抽取內容的路徑信息。在步 驟110中,將所述要抽取內容的路徑信息與所述網頁的文檔對象模型樹結構中的各節點進 行匹配。如果匹配成功,則根據所述路徑信息來提取所述網頁中的相應的內容信息。在上述的網頁信息提取方法中,使用專門形成的模板來提取某類網頁中的信息。 這種方法可以有針對性地準確提取網頁中的有用信息,從而減少幹擾信息的影響。在一個示例中,網站的模板可以存儲在資料庫中,可以從該資料庫中獲取相應網 站的模板。在一個實施例中,所述網頁信息提取方法還可以包括一個模板生成步驟。圖2示 出了根據該實施例的方法的示意性流程圖。圖2所示的步驟202-210與圖1中所示的步驟 102-110相似,這裡不再贅述。圖2中所示的方法中還包括模板生成步驟201。在步驟201中,建立網站的DOM樹結構模板。圖3是示出了模板生成步驟201的一個示例性流程圖。如圖3所示,步驟201可以包括如下步驟在步驟201-1中,獲取所述網站的一個或多個網頁的原始碼。這裡所謂的「一個或多個網頁」可以是網站中具有某種類似結構的網頁,例如論壇 網頁、包括產品目錄的網頁以及其他結構化的網頁等。為了所建立模板的準確性,通常要使 用多個網頁的原始碼。可以對所獲取的網頁進行過濾,以濾除無用圖片等幹擾信息,從而只 保留網頁主體中的文本信息。在步驟201-2中,建立各網頁的DOM樹結構。具體而言,利用DOM技術來解析每個 所獲取的網頁,從而建立每個網頁的DOM樹結構。在步驟201-3中,選擇各網頁的DOM樹結 構中的一個或多個節點。具體而言,在各網頁的DOM樹結構中選擇要抽取的內容所對應的 節點。在一個示例中,可以按照一定的算法自動地在DOM樹中選擇節點。在另一示例中, 還可以利用人機界面由用戶來選擇節點。圖16示出了一個由用戶來選擇節點的示例性界 面。用戶可以通過輸入裝置(例如鍵盤、滑鼠等)來在界面上輸入選擇。根據用戶所選擇 的內容來選擇DOM樹結構中的對應的一個或多個節點。選擇節點的原則可以包括路徑儘可能短,能夠包括完整的節點內容,並且不包括 太多的幹擾信息。在步驟201-4中,從相應的DOM樹結構中提取所選擇的節點的路徑信息。在一個 示例中,節點的路徑信息可以是字符串形式的。在步驟201-5中,保存所選擇各節點的路徑信息,從而生成所述模板。當生成了所 有所選擇節點的路徑信息後,根據這些節點的路徑信息即可生成所述模板。圖4示出了根據本發明另一實施例的網頁信息提取方法的示意性流程圖。如圖4 所示,該方法包括步驟402、404、406、408和410。這些步驟402、404、406、408和410與圖1 所示的步驟102、104、106、108和110相似,這裡不再重複。除上述步驟之外,圖4所示的方 法還包括一個節點數據結構建立步驟409。在步驟409中,從在步驟404中建立的所述網頁 的DOM樹結構中獲取每個節點及其相關信息,並按照一定的數據結構進行存儲,供後面的 路徑匹配步驟410使用。所述數據結構可以包括節點的屬性信息、父節點的屬性信息、第 一個子節點的屬性信息、下一兄弟節點的屬性信息等。利用這樣的數據結構,可以方便地得到一個節點的父親節點、兄弟節點和子節點, 有利於後續的路徑匹配和/或遍歷等。在一個實施例中,所述路徑匹配步驟還可以包括一個絕對匹配步驟。圖5示出了 根據該實施例的網頁信息提取方法的示例性流程圖。在圖5中,步驟502-508與圖1所示 的步驟102-108相似,這裡不再重複。在步驟510中,遍歷所述網頁的DOM樹結構,將要抽 取內容的路徑信息與所述網頁的DOM樹結構中的各個節點進行匹配,並返回所述路徑信息 中最後的匹配節點在所述網頁的DOM樹結構中的位置。如果最後的匹配節點是所述路徑信 息中的最後一個節點,則絕對匹配成功,可以根據該路徑信息來提取網頁中相應的內容。否 則說明絕對匹配不成功。在一個示例中,可以根據要抽取內容的路徑信息中的每個節點的屬性信息(如名 稱與順序號等)來搜索所述網頁的DOM樹結構中相應的節點。圖6示出了利用節點的名稱和順序號來進行絕對路徑匹配的一個示例。如圖6所示,在步驟610-1中,獲取要抽取內容 的路徑信息中的第一個節點。在步驟610-2中,將第一個節點與網頁的DOM樹結構中的相 應層中的各節點進行比較。在步驟610-3和步驟610-4中,分別比較第一個節點的名稱和 順序號是否與各節點的名稱和順序號相同。如果二者均相同,則說明第一個節點的匹配成 功,在步驟610-5中,判斷路徑信息中是否還有下一節點,如果有,則在步驟610-6中對下一 節點進行匹配。否則,說明絕對匹配不成功。在路徑信息中的所有節點匹配成功後,可以根 據該路徑信息來提取網頁中相應的內容。在一個示例中,當對路徑信息中某個節點的名稱和順序號進行絕對匹配時,還可 以首先利用該節點的名稱來找出所述網頁的DOM樹結構中相應層中所有名稱相同的節點, 然後在所有名稱相同的節點中找出與該節點的順序號相同的節點。依次類推,直到完成路 徑信息中所有節點的匹配。在一個實施例中,所述路徑匹配步驟還可以包括一個相似匹配步驟。圖7示出了 根據該實施例的網頁信息提取方法的示例性流程圖。在圖7中,步驟702-708與圖5所示 的步驟602-608相似,這裡不再重複。在步驟710中,遍歷所述網頁的DOM樹結構,將要抽 取內容的路徑信息與所述網頁的DOM樹結構中的各個節點進行絕對匹配,並返回所述路徑 信息中最後的匹配節點在所述網頁的DOM樹結構中的位置。在步驟712中,判斷最後的匹 配節點是否所述路徑信息中的最後一個節點,如果是,則說明絕對匹配成功,可以根據該路 徑信息來提取網頁中相應的內容。否則說明絕對匹配不成功,可以執行下一步驟714。在 步驟714中,判斷所述最後的匹配節點是否存在適用的相鄰兄弟節點,如果沒有,則結束匹 配。如果有,則在步驟716中,將所述最後的匹配節點修改為其某個相鄰兄弟節點,然後重 復執行步驟710對所述網頁的DOM樹結構進行遍歷,尋找與該兄弟節點匹配的節點。如果 找到,則說明匹配成功,可以進行路徑信息中下一節點的匹配。否則,再次執行步驟712和 716對路徑信息中的節點進行修改,並再次重複執行步驟710。當路徑信息中的所有節點匹 配成功後,可以根據修改後的路徑信息(其中包括修改的節點)來提取所述網頁中的相應 內容。在一個示例中,可以通過比較要抽取內容的路徑信息中的每個節點的屬性信息 (如名稱與順序號等)來進行路徑的相似匹配。圖8示出了利用節點的名稱和順序號來進 行路徑相似匹配的一個具體示例。如圖8所示,步驟810即絕對匹配步驟,與圖7中的步驟 710相似,這裡不再重複。在步驟812中,判斷最後的匹配節點是否所述路徑信息中的最後 一個節點,如果是,則說明絕對匹配成功,可以根據該路徑信息來提取網頁中相應的內容。 否則說明絕對匹配不成功,可以執行下一步驟814。在步驟814中,計算探測步長Step。例 如,可以根據所述最後的匹配節點的下一節點的順序號及其相鄰的各兄弟節點中與其同名 的兄弟節點的順序號來計算所述探測步長Step。例如,設所述最後的匹配節點的下一節點 的順序號為i,與其同名的一個相鄰兄弟節點的順序號為j,則探測步長可以取i和j的差 值的3倍,即Step = 3X I i-j I。當然,這裡給出的探測步長的計算方法僅僅是一個示例,在 實際應用中,可以選擇其他的探測步長。例如,可以選擇i和j的差值的N倍(N≥1)。本 發明不對此作任何限制。在步驟816中,將所述最後的匹配節點的下一節點(設順序號為 i)修改為某個兄弟節點(設順序號為k)。在步驟817中,判斷該兄弟節點的順序號k與i 的差是否超過所述探測步長,即判斷|i_k| > St印是否成立。如果超過,則結束匹配。如果沒有超過,則執行步驟810,根據該兄弟節點的名稱和順序號,在所述網頁的DOM樹結構 中尋找與其名稱和順序號完全相同的節點。如果找到,則匹配成功,可以進行路徑信息中下 一節點的匹配。當路徑信息中的所有節點匹配成功後,可以根據修改後的路徑信息(其中 包括修改的節點)來提取所述網頁中的相應內容。否則,說明相似匹配不成功。在一個示例中,在DOM樹結構的某些特定層中,節點(標籤)的順序號可能不用來 指示節點的位置。假設路徑信息中的節點A對應某個特定層,當在這些特定層中進行匹配 時,可以用路徑信息中的節點A的名稱(標籤)與所述網頁的DOM樹結構的同一層中的各 節點的名稱(標籤)進行比較,找到該層中所有名稱(標籤)相同的節點。將所有這些名 稱相同的節點中的每個節點作為候選節點,相應的路徑作為候選路徑,之後再對要抽取內 容的路徑信息中的節點A的下一節點進行匹配,依此類推,直到從多個候選路徑中找到正 確的路徑。而在DOM樹結構的其他層中,可以首先利用要抽取內容的路徑信息中的對應節 點的名稱來找出所述網頁的DOM樹結構中相應層中所有名稱相同的節點,然後在所有名稱 相同的節點中找出與該相應節點的順序號相同的節點。依次類推,直到完成路徑信息中所 有節點的匹配。在一個示例中,所述特定層可以是指論壇網頁的主貼區與回帖區所擁有的相同節 點中最後一個節點的下一層。這一層用來區分不同的回帖區,在不同的回帖區中,路徑結構 是相同的。在一個實施例中,所述要抽取內容的路徑信息可以包括公共路徑信息。例如,在 所獲取的網頁是論壇網頁的情況下,所述公共路徑信息可以包括所述論壇的發帖區的路徑 (即模板的從根節點到發帖區的各個節點)和所述論壇的回貼區的路徑(即模板的從根節 點到回帖區的各個節點)。在一個示例中,在進行路徑匹配時,可以首先進行公共路徑的匹配。圖9示出了進 行公共路徑匹配的一個示例。如圖9所示,在步驟902中,從要抽取內容的路徑信息中獲取 公共路徑信息。在步驟904,對公共路徑信息中的各個節點進行絕對匹配(與前述實施例中 的絕對匹配方法相似,這裡不再重複)。在步驟906中,判斷絕對匹配是否成功,例如判斷 最後的匹配節點是否公共路徑信息中的最後一個節點。如果是,則說明絕對匹配成功,當前 的公共路徑信息是正確的。否則,絕對匹配不成功,執行步驟908。在步驟908中,對公共 路徑信息進行相似匹配(與前述實施例中的相似匹配方法相似,這裡不再重複)。在步驟 910中,判斷相似匹配是否成功,例如判斷最後的匹配節點是否公共路徑信息中的最後一個 節點。如果是,則說明相似匹配成功,當前的公共路徑信息是正確的。否則,相似匹配不成 功,說明公共路徑匹配失敗,當前公共路徑信息不正確,可以選擇新的模板或者修改模板。在一個示例中,可以首先對路徑信息中的公共路徑進行匹配。如果公共路徑匹配 成功,則在進行後續的其他要抽取內容的路徑信息匹配時,可以跳過該公共路徑,而直接進 行公共路徑後面各節點的匹配,這樣可以加快匹配的速度。圖10示出了根據本發明一實施例的網頁信息提取裝置的示意性框圖。如圖10所 示,該網頁信息提取裝置可以包括網頁獲取模塊1001、網頁樹結構建立模塊1002、模板獲 取模塊1003、路徑選擇模塊1004和路徑匹配模塊1005。網頁獲取模塊1001可以被配置用於獲取網站中的網頁的原始碼。在一個示例中,還可以對所獲取的網頁進行過濾,以濾除無用圖片等幹擾信息,從而只保留網頁主體部分,網頁的主體部分的原始碼。在一個示例中,所述網站中的網頁可以 指網站中論壇的網頁。在另一示例中,所述網站中的網頁還可以是其他具有大量結構化信 息的網頁,比如包括產品目錄等信息的網頁。上文中已描述了獲取網頁原始碼的各種示例,這裡不再重複。應理解,所描述的各 個示例均是示例性的,本發明不限於此。網頁樹結構建立模塊1002可以被配置用於根據所述網頁獲取模塊所獲取的網頁 的原始碼來建立所述網頁的DOM樹結構。所述網頁的原始碼可以是HTML格式的。通過解析網頁的原始碼,可以利用DOM技 術來建立網頁的DOM樹結構,這裡不對其具體過程作詳細描述。網頁的DOM樹結構中可以 包括一個或多個節點。模板獲取模塊1003可以被配置用於獲取網站的至少一個DOM樹結構模板。路徑 選擇模塊1004可以被配置用於從所述DOM樹結構模板中選擇要抽取內容的路徑信息。在一個示例中,模板獲取模塊所獲取的模板中可以包括相應的DOM樹結構中一個 或多個節點的路徑信息。節點的路徑信息可以包括有關從相應的DOM樹結構的根節點到該 節點的路徑的信息,具體而言,包括從所述根節點到達該節點要經過的各節點的屬性信息。 在一個示例中,節點的屬性信息可以包括節點的名稱(如標籤)、順序號等。所述順序號指 示該節點在相應的DOM樹結構中的位置。路徑選擇模塊1004所獲取的要抽取內容的路徑 信息可以包括從所述文檔對象模型樹結構模板的根節點到達所述要抽取內容所對應的節 點要經過的各節點的屬性信息。路徑匹配模塊1005可以被配置用於將所述路徑信息與所述網頁的文檔對象模型 樹結構中的各節點進行匹配,如果匹配成功,則根據所述路徑信息來提取所述網頁中的相 應的內容信息。上述的網頁信息提取裝置使用專門形成的模板來提取某類網頁中的信息。這樣可 以有針對性地準確提取網頁中的有用信息,從而減少幹擾信息的影響。圖11示出了根據另一實施例的網頁信息提取裝置的示意性框圖。在圖11所示的 裝置包括網頁獲取模塊1101、網頁樹結構建立模塊1102、模板獲取模塊1103、路徑選擇模 塊1104和路徑匹配模塊1105。這些模塊1101-1105與圖10中的模塊1001-1005功能相 似,這裡不再重複。除此之外,該網頁信息提取裝置還包括模板生成模塊1106,用於生成網 站的DOM樹結構模板。如圖14所示,模板生成模塊1106可以包括樹結構建立單元110601、節點選擇單元 110602和路徑生成單元110603。樹結構建立單元110601被配置用於根據所述網站的一個或多個網頁的原始碼來 建立各相關聯的網頁的文檔對象模型樹結構。這裡所謂的「一個或多個網頁」可以是網站中具有某種類似結構的網頁,例如論壇 網頁、包括產品目錄的網頁以及其他結構化的網頁等。為了所建立模板的準確性,通常要使 用多個網頁的原始碼。可以對所獲取的網頁進行過濾,以濾除無用圖片等幹擾信息,從而只 保留網頁主體中的文本信息。網頁的DOM樹結構可以利用DOM技術來建立,這裡不再詳細 描述。節點選擇單元110602可以被配置用於選擇各相關聯的網頁的文檔對象模型樹結構中的一個或多個節點。在一個示例中,節點選擇單元110602可以按照一定的算法自動地在DOM樹中選擇 節點。在另一示例中,節點選擇單元110602還可以利用用戶輸入的信息(例如用戶利用圖 16所示的界面來輸入的信息)來選擇節點。選擇節點的原則可以包括路徑儘可能短,能 夠包括完整的節點內容,並且不包括太多的幹擾信息。路徑生成單元110603可以被配置用於從相應的文檔對象模型樹結構中提取所選 擇的節點的路徑信息,並保存各節點的路徑信息,從而生成所述模板。在一個示例中,節點 的路徑信息可以是字符串形式的。在一個示例中,模板生成模塊1106還可以針對論壇而建立至少兩種模板與包含 主貼和回貼的網頁對應的模板以及與僅包含回貼的網頁對應的模板。這樣,在抽取論壇網 頁中的信息時,可以根據網頁的內容來選擇不同的模板。在一個示例中,所建立的模板可以是XML (Extensible MarkupLanguage,可擴展標 記語言)文件格式的。模板中的每個要抽取內容的路徑信息可以一個字符串,該字符串由 標識DOM樹層次結構的結構數組組成,所述結構數組可以包括節點的名稱(如標籤)和順 序號等屬性信息。。在一個示例中,各節點的順序號可以從零開始,依次指向順序號的值加 一後所對應的節點。圖12示出了根據另一實施例的網頁信息提取裝置的示意性框圖。在圖12所示的 裝置包括網頁獲取模塊1201、網頁樹結構建立模塊1202、模板獲取模塊1203、路徑選擇模 塊1204和路徑匹配模塊1205。這些模塊1201-1205與圖10中的模塊1001-1005功能相 似,這裡不再重複。除此之外,該網頁信息提取裝置還包括節點數據結構建立模塊1207。節點數據結構建立模塊1207可以被配置用於從網頁樹結構建立模塊1202所建立 的網頁的文檔對象模型樹結構中獲取每個節點及其相關信息,並按照一定的數據結構進行 存儲,供路徑匹配模塊1205使用。所述數據結構包括節點的屬性信息、父節點的屬性信 息、第一個子節點的屬性信息、下一兄弟節點的屬性信息等。利用節點數據結構建立模塊1207所建立的數據結構,路徑匹配模塊1205在進行 路徑信息匹配時,可以方便地得到所述網頁的DOM樹結構中的各個節點的父親節點、兄弟 節點和子節點,有利於後需的路徑匹配和/或遍歷等。圖13示出了根據另一實施例的網頁信息提取裝置的示意性框圖。在圖13所示的 裝置包括網頁獲取模塊1301、網頁樹結構建立模塊1302、模板獲取模塊1303、路徑選擇模 塊1304和路徑匹配模塊1305。模塊1301-1304與圖10中的模塊1001-1004功能相似。路 徑匹配模塊1305可以利用絕對匹配的方法進行路徑匹配。具體地,所述路徑匹配模塊可以 包括絕對匹配單元130501。絕對匹配單元130501被配置用於遍歷所述網頁的文檔對象模型樹結構,將所述 路徑信息與所述網頁的文檔對象模型樹結構中的各節點進行匹配,返回所述路徑信息中最 後的匹配節點在所述網頁的文檔對象模型樹結構的位置。絕對匹配單元130501可以採用上述方法實施例和/或方法示例中的絕對匹配方 法進行路徑信息的匹配,這裡不再重複。另外,應理解,本文所所述的各種示例和實施例均 是示例性的,本發明不限於此。在一個示例中,路徑匹配模塊1305還可以包括相似匹配單元130502。相似匹配單元130502被配置用於在絕對匹配不成功時將絕對匹配單元130501返回的所述路徑信息中 所述最後的匹配節點的下一節點改變為該下一節點的某個兄弟節點,並反饋給所述絕對匹 配單元進行絕對匹配。相似匹配單元130502可以採用上述方法實施例和/或方法示例中的相似匹配方 法進行路徑信息的匹配,這裡不再重複。另外,應理解,本文所所述的各種示例和實施例均 是示例性的,本發明不限於此。上述裝置中各個組成模塊、單元可通過軟體、固件、硬體或其組合的方式進行配 置。配置可使用的具體手段或方式為本領域技術人員所熟知,在此不再贅述。在通過軟體 或固件實現的情況下,從存儲介質或網絡向具有專用硬體結構的計算機(例如圖15所示的 通用計算機1500)安裝構成該軟體的程序,該計算機在安裝有各種程序時,能夠執行各種 功能等。在圖15中,中央處理單元(CPU) 1501根據只讀存儲器(ROM) 1502中存儲的程序或 從存儲部分1508加載到隨機存取存儲器(RAM) 1503的程序執行各種處理。在RAM 1503中, 也根據需要存儲當CPU 1501執行各種處理等等時所需的數據。CPU 150UR0M 1502和RAM 1503經由總線1504彼此連接。輸入/輸出接口 1505也連接到總線1504。下述部件連接到輸入/輸出接口 1505 輸入部分1506 (包括鍵盤、滑鼠等等)、輸 出部分1507(包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚聲器等)、存 儲部分1508 (包括硬碟等)、通信部分1509 (包括網絡接口卡比如LAN卡、數據機等)。 通信部分1509經由網絡比如網際網路執行通信處理。根據需要,驅動器1510也可連接到輸 入/輸出接口 1505。可拆卸介質1511比如磁碟、光碟、磁光碟、半導體存儲器等等根據需要 被安裝在驅動器1510上,使得從中讀出的電腦程式根據需要被安裝到存儲部分1508中。在通過軟體實現上述系列處理的情況下,從網絡比如網際網路或存儲介質比如可拆 卸介質1511安裝構成軟體的程序。本領域的技術人員應當理解,這種存儲介質不局限於圖15所示的其中存儲有程 序、與設備相分離地分發以向用戶提供程序的可拆卸介質1511。可拆卸介質1511的例子 包含磁碟(包含軟盤(註冊商標))、光碟(包含光碟只讀存儲器(⑶-ROM)和數字通用盤 (DVD))、磁光碟(包含迷你盤(MD)(註冊商標))和半導體存儲器。或者,存儲介質可以是 ROM 1502、存儲部分1508中包含的硬碟等等,其中存有程序,並且與包含它們的設備一起 被分發給用戶。本發明還提出一種存儲有機器可讀取的指令代碼的程序產品。所述指令代碼由機 器讀取並執行時,可執行上述根據本發明實施例的方法。相應地,用於承載上述存儲有機器可讀取的指令代碼的程序產品的存儲介質也包 括在本發明的公開中。所述存儲介質包括但不限於軟盤、光碟、磁光碟、存儲卡、存儲棒等寸。在上面對本發明具體實施例的描述中,針對一種實施方式描述和/或示出的特徵 可以以相同或類似的方式在一個或更多個其它實施方式中使用,與其它實施方式中的特徵 相組合,或替代其它實施方式中的特徵。應該強調,術語「包括/包含」在本文使用時指特徵、要素、步驟或組件的存在,但 並不排除一個或更多個其它特徵、要素、步驟或組件的存在或附加。
12
此外,本發明的方法不限於按照說明書中描述的時間順序來執行,也可以按照其 他的時間順序地、並行地或獨立地執行。因此,本說明書中描述的方法的執行順序不對本發 明的技術範圍構成限制。儘管上面已經通過對本發明的具體實施例的描述對本發明進行了披露,但是,應 該理解,上述的所有實施例和示例均是示例性的,而非限制性的。本領域的技術人員可在所 附權利要求的精神和範圍內設計對本發明的各種修改、改進或者等同物。這些修改、改進或 者等同物也應當被認為包括在本發明的保護範圍內。
權利要求
一種網頁信息提取方法,包括網頁獲取步驟獲取網站中的網頁的原始碼;網頁樹結構建立步驟根據所獲取的原始碼來建立所述網頁的文檔對象模型樹結構,所述網頁的文檔對象模型樹結構包括一個或多個節點;模板獲取步驟獲取所述網站的至少一個模板,所述模板是文檔對象模型樹結構的;路徑選擇步驟從所述模板中選擇要抽取內容的路徑信息;及路徑匹配步驟將所述要抽取內容的路徑信息與所述網頁的文檔對象模型樹結構中的各節點進行匹配,如果匹配成功,則提取所述網頁中的與所述路徑信息對應的內容信息。
2.如權利要求1所述的網頁信息提取方法,還包括模板生成步驟,所述模板生成步驟 包括獲取所述網站的一個或多個網頁的原始碼;建立各網頁的文檔對象模型樹結構;選擇各網頁的文檔對象模型樹結構中的一個或多個節點;從相應的文檔對象模型樹結構中提取所選擇的節點的路徑信息;及保存各節點的路徑信息,從而形成所述模板。
3.如權利要求1所述的網頁信息提取方法,其中所述要抽取內容的路徑信息包括從所述模板的根節點到達所述要抽取內容所對應的 節點要經過的路徑中的各節點的屬性信息。
4.如權利要求1所述的網頁信息提取方法,還包括節點數據結構建立步驟從所述網 頁樹結構建立步驟中所建立的所述網頁的文檔對象模型樹結構中獲取每個節點的相關信 息,並按照下列數據結構進行存儲供所述路徑匹配步驟使用節點的屬性信息、父節點的屬 性信息、第一個子節點的屬性信息、下一兄弟節點的屬性信息。
5.如權利要求1所述的網頁信息提取方法,其中所述路徑匹配步驟包括絕對匹配步驟遍歷所述網頁的文檔對象模型樹結構,以將所述路徑信息與所述網頁 的文檔對象模型樹結構中的各節點進行匹配,找到所述路徑信息中與所述網頁的文檔對象 模型樹結構中的某個節點相匹配的最後的匹配節點。
6.如權利要求5所述的網頁信息提取方法,其中所述路徑匹配步驟還包括相似匹配步驟將所述路徑信息中所述最後的匹配節點的下一節點改變為該下一節點 的某個兄弟節點,重複執行所述絕對匹配步驟。
7.如權利要求3所述的網頁信息提取方法,其中所述各節點的屬性信息包括所述各節 點的名稱和順序號,所述順序號指示節點在所述模板中的位置。
8.如權利要求4所述的網頁信息提取方法,其中節點的屬性信息包括該節點的名稱和 順序號,所述順序號指示該節點在所述網頁的文檔對象模型樹結構中的位置。
9.如權利要求1所述的網頁信息提取方法,其中所述網頁為論壇網頁,所述模板包括以下內容的路徑信息發帖區、發帖人、發帖日期、 發帖題目、發帖內容和發帖標題、第一個回帖的回帖區、回帖人、回帖日期、回帖題目、回帖 內容和回帖標題。
10.如權利要求9所述的網頁信息提取方法,其中所述路徑信息包括公共路徑信息,所 述公共路徑信息包括所述論壇的發帖區的路徑和所述論壇的回貼區的路徑。
11.如權利要求9所述的網頁信息提取方法,其中所述至少一個模板包括與包含主貼 和回貼的網頁對應的模板以及與僅包含回貼的網頁對應的模板。
12.如權利要求1所述的網頁信息提取方法,其中所述模板是可擴展標記語言格式的 文件。
13.—種網頁信息提取裝置,包括網頁獲取模塊被配置用於獲取網站中的網頁的原始碼;網頁樹結構建立模塊,被配置用於根據所述網頁獲取模塊所獲取的網頁的原始碼來 建立所述網頁的文檔對象模型樹結構,所述網頁的文檔對象模型樹結構包括一個或多個節點。模板獲取模塊,被配置用於獲取所述網站的至少一個模板,所述模板是文檔對象模型 樹結構的;路徑選擇模塊,被配置用於從所述文檔對象模型樹結構模板中選擇要抽取內容的路徑 信息;及路徑匹配模塊,被配置用於將所述路徑選擇模塊所選擇的路徑信息與所述網頁的文檔 對象模型樹結構中的各節點進行匹配,如果匹配成功,則提取所述網頁中的與所述路徑信 息對應的內容信息。
14.如權利要求13所述的網頁信息提取裝置,還包括模板生成模塊,所述模板生成模 塊包括樹結構建立單元,被配置用於根據所述網站的一個或多個網頁的原始碼來建立各網頁 的文檔對象模型樹結構;節點選擇單元,被配置用於選擇各網頁的文檔對象模型樹結構中的一個或多個節點; 路徑生成單元,被配置用於從相應的文檔對象模型樹結構中提取所選擇的節點的路徑 信息,並保存各節點的路徑信息,從而形成所述模板。
15.如權利要求13所述的網頁信息提取裝置,其中所述路徑選擇模塊所選擇的要抽取內容的路徑信息包括從所述文檔對象模型樹結構 模板的根節點到達所述要抽取內容所對應的節點要經過的路徑中的各節點的屬性信息。
16.如權利要求13所述的網頁信息提取裝置,還包括節點數據結構建立模塊,被配置 用於從所述網頁樹結構建立模塊建立的所述網頁的文檔對象模型樹結構中獲取每個節點 的相關信息,並按照下列數據結構進行存儲,供所述路徑匹配模塊使用節點的屬性信息、 父節點的屬性信息、第一個子節點的屬性信息、下一兄弟節點的屬性信息。
17.如權利要求13所述的網頁信息提取裝置,其中所述路徑匹配模塊包括絕對匹配單元,被配置用於遍歷所述網頁的文檔對象模型樹結構,以將所述路徑信息 與所述網頁的文檔對象模型樹結構中的各節點進行匹配,找到所述路徑信息中與所述網頁 的文檔對象模型樹結構中的某個節點相匹配的最後的匹配節點。
18.如權利要求17所述的網頁信息提取裝置,其中所述路徑匹配模塊還包括相似匹配單元,被配置用於將所述路徑信息中所述最後的匹配節點的下一節點改變為 該下一節點的某個兄弟節點,並輸出給所述絕對匹配單元進行絕對匹配。
全文摘要
本發明提供了網頁信息提取方法和裝置。所述方法包括獲取網站中的網頁的原始碼;根據所獲取的原始碼來建立所述網頁的文檔對象模型樹結構,所述網頁的文檔對象模型樹結構包括一個或多個節點;獲取所述網站的至少一個模板,所述模板是文檔對象模型樹結構的;從所述模板中選擇要抽取內容的路徑信息;以及將所述要抽取內容的路徑信息與所述網頁的文檔對象模型樹結構中的各節點進行匹配,如果匹配成功,則提取所述網頁中的與所述路徑信息對應的內容信息。
文檔編號G06F17/30GK101944094SQ20091015880
公開日2011年1月12日 申請日期2009年7月6日 優先權日2009年7月6日
發明者於浩, 孟遙, 王主龍, 王新文 申請人:富士通株式會社

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀