延伸標記語言文件的數據擷取方法及裝置的製作方法
2023-06-06 06:38:11 1
專利名稱:延伸標記語言文件的數據擷取方法及裝置的製作方法
技術領域:
本發明涉及一種延伸標記語言文件的數據擷取方法及裝置,尤其涉及一種可重複 使用並大幅提升使用效率的延伸標記語言文件的數據擷取方法及裝置。
背景技術:
近年來,由於網際網路的興盛,幾乎所有數據都必須通過網絡傳遞。其中,基於延伸 標記語言文件優越的跨平臺特性及信息涵意表達能力,大部分的傳輸皆經由延伸標記語言 文件完成。然而,即便各個網站皆使用延伸標記語言文件存儲數據,對於具有相同意義的元 素,不同網站所使用的標籤卻不盡相同。舉例而言,請參考圖1及圖2,圖1及圖2分別為 一延伸標記語言文件10及一延伸標記語言文件20的內容示意圖。延伸標記語言文件10 與延伸標記語言文件20所具有的元素及架構完全相同,但前者將標示書籍列表的標籤命 名為〈Books〉,後者命名為〈Booklist〉。當使用者試圖從延伸標記語言文件10擷取出XML guidelines 及 HTML guidelines 這兩個元素時,使用者必須沿 \\ 的路徑擷取;相對地,當使用者試圖從延伸標記語言文件20擷取出XML guidelines及 HTMLguidelines這兩個元素時,則必須沿\\的路徑擷取。也就是 說,為求正確地擷取延伸標記語言文件的內容,對於延伸標記語言文件10及延伸標記語言 文件20必須採取兩套不同的作法。除了標籤命名的不同外,一般而言,不同網站所提供的延伸標記語言文件的 結構也有很大的差異。舉例而言,請同時參考圖1及圖3,圖3為一延伸標記語言文 件30的示意圖。其中,標示書籍列表的標籤,在延伸標記語言文件10及延伸標記語 言文件30中皆為〈Books〉,延伸標記語言文件10及延伸標記語言文件30的書籍部 分所具有的元素亦完全相同,但兩份文件的結構有所不同。當使用者試圖從延伸標 記語言文件10擷取出XMLguidelines及HTML guidelines這兩個元素時,使用者同 樣必須沿\\的路徑擷取;相對地,當使用者試圖從延伸標記 語言文件30擷取出XML guidelines及HTML guidelines這兩個元素時,則必須沿 \\\的路徑擷取。也就是說,為求正確地擷取延伸標記語言文 件的內容,對於延伸標記語言文件10及延伸標記語言文件30,使用者亦須採取兩套不同的 作法。換句話說,為求正確地擷取延伸標記語言文件的內容,使用者必須針對使用不同標籤 的網站採取不同的作法,因而造成許多資源的浪費、以及效率的低落,實有改進的必要。
發明內容
因此,本發明的主要目的即在於提供一可重複使用的延伸標記語言文件的數據擷 取方法及裝置。本發明公開一種數據擷取方法,用來通過網際網路取得數據,該數據擷取方法包含 有根據一使用者指令,自一伺服器端取得一延伸標記語言文件,該延伸標記語言文件包含 多個元素(Element)對應於多個標籤(Tag),該使用者指令用來取得該延伸標記語言文件中一特定元素;對該延伸標記語言文件進行格式分析,以產生一格式分析結果;根據該格 式分析結果,由多個模板(template)中選取一模板,該模板用來指示該多個標籤的內容; 以及通過該模板,由該延伸標記語言文件中取得該特定元素。本發明另公開一種數據擷取裝置,用來通過網際網路取得數據,該數據擷取裝置包 含有一微處理器;以及一存儲器,用來存儲一程序,該程序用來指示該微處理器執行以下步 驟根據一使用者指令,自一伺服器端取得一延伸標記語言文件,該延伸標記語言文件包含 多個元素對應於多個標籤,該使用者指令用來取得該延伸標記語言文件中一特定元素;對 該延伸標記語言文件進行格式分析,以產生一格式分析結果;根據該格式分析結果,由多個 模板中選取一模板,該模板用來指示該多個標籤的內容;以及通過該模板,由該延伸標記語 言文件中取得該特定元素。
圖1為已知一延伸標記語言文件的示意圖。圖2為已知一延伸標記語言文件的示意圖。圖3為已知一延伸標記語言文件的示意圖。圖4為本發明實施例一數據擷取流程的示意圖。圖5為本發明實施例一格式分析結果的示意圖。圖6為本發明實施例一模板的功能示意圖。主要元件符號說明10、20、30延伸標記語言文件40數據擷取流程50格式分析結果60模板、 、 > > 、 〈Booklist〉、 <2009〉、 、 標籤
具體實施例方式為改善已知延伸標記語言文件的數據擷取程序,本發明通過一特定模板指示標籤 內容,使得用來取得該延伸標記語言文件中一特定元素的一使用者指令與一標籤產生關 聯,以由該延伸標記語言文件中取得對應於該標籤的該特定元素。首先,請參考圖4,圖4為 本發明實施例一數據擷取流程40的示意圖。數據擷取流程40用來擷取一延伸標記語言文 件中一特定元素,其包含以下步驟步驟400:開始。步驟402 根據一使用者指令,自一伺服器端取得該延伸標記語言文件。步驟404 對該延伸標記語言文件進行格式分析,以產生一格式分析結果。步驟406 根據該格式分析結果,由多個模板中選取一模板。步驟408 通過該模板,由該延伸標記語言文件中取得一特定元素。步驟410:結束。根據數據擷取流程40,本發明根據使用者指令,自一伺服器端取得延伸標記語言文件,再通過格式分析,選取對應的模板,進而取得延伸標記語言文件中一特定元素。在數據擷取流程40中,使用者指令包含兩部分,一為延伸標記語言文件的名稱, 另一為使用者欲取得的元素的名稱。依據使用者指令取得延伸標記語言文件後,本發明 (步驟404)進一步對延伸標記語言文件進行格式分析,以產生格式分析結果。此格式分析 步驟可將延伸標記語言文件中的所有標籤轉換為一樹狀結構,其運作方式系業界所熟知, 以下僅簡述之。首先,將延伸標記語言文件內每一標籤作為一節點(Node),以初始的標籤作 為根節點(Root),依循將文件內夾於同一標籤內的多個標籤視為同一階層,並以後者為前 者之下一階層的規則,逐一將延伸標記語言文件的標籤轉換為具有多個階層化節點的樹狀 結構。換句話說,樹狀結構包含多個節點,每一節點對應於一標籤。舉例來說,請參考圖5,圖 5為本發明實施例一格式分析結果50的示意圖。格式分析結果50根據本發明對圖1的延 伸標記語言文件10進行格式轉換而得;其中,格式分析結果50的根節點為標籤〈Books〉, 下一階層包含兩個具有相同標籤的節點,再下一階層則包含六個分別具有、 ,標籤的節點。也就是說,格式分析結果50為一三層式的樹狀結構,亦即 延伸標記語言文件10具有三層式的結構。接著,根據格式分析結果,可得知該延伸標記語言文件的結構。據此,本發明(步 驟406)由多個預設模板中選取適當模板,用以指示延伸標記語言文件中標籤的內容。舉 例來說,前述格式分析結果50為三層式的樹狀結構,延伸標記語言文件10具有三層式的 結構,則應自預設模板中,選取一三層式的模板。同時,就延伸標記語言文件10而言,應選 擇預設為擷取書籍數據,並具有能力判斷類似於、,〈Author〉、〈Price〉等標 籤的模板,如具有能力判斷類似於、,〈Author〉、〈Price〉等標籤,以及類似於 、、Ofriter>、等標籤之一三層式模板60,如圖6所示,使得延伸 標記語言文件10中任一標籤及其對應的任一節點皆可被適當地定義。詳言之,就延伸標記 語言文件10中的標籤而言,模板60根據其對應的節點位於樹狀結構的第二層,以 及的標籤命名,確認延伸標記語言文件10中的標籤系用於標示個別書籍, 其下層應具有類似於 、〈Author〉、 或〈Title〉、, 等標籤; 同理,就延伸標記語言文件10中的標籤而言,模板60根據其對應的節點位於樹狀 結構的第三層,以及的標籤命名,確認延伸標記語言文件10中的標籤系用 於標示個別書籍的名稱,同一層應具有類似於〈Author〉、或OVriter〉、等 標籤。也就是說,本發明根據延伸標記語言文件的結構以及文件內容的分類選取模板60,而 模板60則通過延伸標記語言文件中標籤的命名及標籤所對應的節點位置,綜合判斷標籤 及其對應的元素在延伸標記語言文件中所代表的意義。進一步地,通過模板60,本發明可由延伸標記語言文件中取得使用者指令所要求 的特定元素,其運作方式系先判斷元素名稱,再通過模板60,取得所有節點中對應於該元素 的節點,據此,可判斷該節點所對應的標籤,以由延伸標記語言文件中取得對應的元素,即 使用者指令所要求的特定元素。由此可知,在本發明中,模板不僅可定義延伸標記語言文件中任一標籤及其對應 的任一節點,尚可定義前述使用者指令所要求的特定元素的名稱,並將之對應至格式分析 結果的一特定節點。舉例而言,模板60得將類似於〈Title〉的特定元素名稱,對應至格式 分析結果50中具有標籤的特定節點以及延伸標記語言文件10中的標籤。在此,模板60僅根據特定元素名稱的命名,即可指向前述已定義好的格式分析結果50的特 定節點。此目的可通過額外的特定元素名稱表等方法達成,為本領域技術人員所熟知,而不 限於此。進一步地,本發明判斷該節點所對應的一標籤,以由延伸標記語言文件中取得對 應於該標籤的元素。也就是說,前述格式分析結果50中的特定節點對應於標籤,則 可由延伸標記語言文件10中,取得具有標籤的元素。需注意的是,模板60及其判斷各標籤及對應元素的方法僅為本發明的一實施例, 不以此為限。同時,本發明的精神在於通過模板定義延伸標記語言文件的標籤及對應的元 素。本領域技術人員可進一步依不同需求,得出適當的模板及判斷各標籤及對應的元素的 方法。如此一來,通過不同模板的選取,本發明可重複用於不同延伸標記語言文件的數據 擷取。也就是說,本發明也可擷取前述延伸標記語言文件20及延伸標記語言文件30中的 特定數據。例如,如果使用者欲取得延伸標記語言文件20中有關書籍作者的數據,而輸入 包含延伸標記語言文件20的文件名稱及的特定元素名稱的使用者指令,本發明 首先通過格式分析認定延伸標記語言文件20為一具有三層式的結構,則應自預設模板中, 選取一三層式的模板。同時,就延伸標記語言文件20而言,應選擇預設為擷取書籍數據, 並具有能力判斷類似於、,〈Author〉、〈Price〉等標籤的模板,如具有能力判 斷類似於 、、〈Author〉、 等標籤,以及類似於〈Booklist〉、〈Title〉、 , 等標籤之一三層式模板,即前述的模板60,並產生一格式分析結果。接 著,模板60將使用者指令中的〈Writer〉,對應至該格式分析結果中具有〈Author〉標籤的 特定節點以及延伸標記語言文件20中的〈Author〉標籤。也就是說,除了本發明,模板60 也可用於不同延伸標記語言文件的數據擷取,顯然有助於使用效率的增進。至於延伸標記 語言文件30,應選取一四層式的模板,其亦預設為擷取書籍數據,並具有判斷相關標籤的能 力。其餘部分的運作以此類推。此種衍生應為本領域技術人員可輕易完成,且本領域技術 人員可進一步依不同需求,得出各式不同的模板。另一方面,在硬體實現方面,可以軟體、固件等方式,將數據擷取流程40轉換為一 程序,並存儲於一存儲器中,以指示一微處理器執行數據擷取流程40的步驟。此等將數據 擷取流程40轉換為適當程序以實現對應的數據擷取裝置,應為本領域技術人員所熟習的 技藝。如前所述,已知技術為因應延伸標記語言文件的標籤名稱及結構的不同,使用者 必須針對使用不同標籤的網站採取不同的作法以正確地擷取延伸標記語言文件的內容。相 較之下,本發明通過格式分析選擇適當的模板,並建立延伸標記語言文件標籤及使用者輸 入欲取得的特定元素名稱間的連結,使得本發明得重複用於不同延伸標記語言文件的數據 擷取,不受瀏覽器及開發環境的限制。綜上所述,本發明通過選擇適當的模板,定義延伸標記語言文件的標籤及對應的 元素,並建立延伸標記語言文件標籤及使用者輸入欲取得的特定元素名稱間的連結,使得 使用者得以在不知該延伸標記語言文件的標籤的狀況下,取得該延伸標記語言文件的特定 元素。因此,本發明得重複用於不同延伸標記語言文件的數據擷取,不受瀏覽器及開發環境 的限制,並大幅增進使用效率。以上所述僅為本發明的優選實施例,凡依本發明權利要求書所做的均等變化與修飾,皆應屬本發明的涵蓋範圍。
權利要求
1.一種數據擷取方法,用來通過網際網路取得數據,該數據擷取方法包含有根據一使用者指令,自一伺服器端取得一延伸標記語言文件,該延伸標記語言文件包 含多個元素對應於多個標籤,該使用者指令用來取得該延伸標記語言文件中一特定元素; 對該延伸標記語言文件進行格式分析,以產生一格式分析結果; 根據該格式分析結果,由多個模板中選取一模板,該模板用來指示該多個標籤的內容;以及通過該模板,由該延伸標記語言文件中取得該特定元素。
2.如權利要求1所述的數據擷取方法,其中對該延伸標記語言文件進行格式分析,以 產生該格式分析結果的步驟,包含有將該延伸標記語言文件的該多個標籤轉換為一樹狀結構,作為該格式分析結果,該樹 狀結構包含多個節點,每一節點對應於該多個標籤的一標籤。
3.如權利要求2所述的網站數據解析方法,其中通過該模板,由該延伸標記語言文件 中取得該特定元素的步驟,包含有根據該使用者指令,判斷該特定元素的名稱;根據該特定元素的名稱,通過該模板,取得該多個節點中對應於該特定元素的一節點;以及判斷該節點所對應的一標籤,以由該延伸標記語言文件中取得對應於該標籤的該特定 元素。
4.如權利要求2所述的數據擷取方法,其還包含存儲該樹狀結構。
5.一種數據擷取裝置,用來通過網際網路取得數據,該數據擷取裝置包含有 一微處理器;以及一存儲器,用來存儲一程序,該程序用來指示該微處理器執行以下步驟 根據一使用者指令,自一伺服器端取得一延伸標記語言文件,該延伸標記語言文件包 含多個元素對應於多個標籤,該使用者指令用來取得該延伸標記語言文件中一特定元素; 對該延伸標記語言文件進行格式分析,以產生一格式分析結果; 根據該格式分析結果,由多個模板中選取一模板,該模板用來指示該多個標籤的內容;以及通過該模板,由該延伸標記語言文件中取得該特定元素。
6.如權利要求5所述的數據擷取裝置,其中對該延伸標記語言文件進行格式分析,以 產生該格式分析結果的步驟,包含有將該延伸標記語言文件的該多個標籤轉換為一樹狀結構,作為該格式分析結果,該樹 狀結構包含多個節點,每一節點對應於該多個標籤的一標籤。
7.如權利要求6所述的數據擷取裝置,其中通過該模板,由該延伸標記語言文件中取 得該特定數據的步驟,包含有根據該使用者指令,判斷該特定元素的名稱;根據該特定元素的名稱,通過該模板,取得該多個節點中對應於該特定元素的一節點;以及判斷該節點所對應的一標籤,以由該延伸標記語言文件中取得對應於該標籤的該特定 元素。
8.如權利要求6所述的數據擷取裝置,其還包含存儲該樹狀結構。
全文摘要
延伸標記語言文件的數據擷取方法及裝置。該數據擷取方法用來通過網際網路取得數據,其包含有根據一使用者指令,自一伺服器端取得一延伸標記語言文件,該延伸標記語言文件包含多個元素(Element)對應於多個標籤(Tag),該使用者指令用來取得該延伸標記語言文件中一特定元素;對該延伸標記語言文件進行格式分析,以產生一格式分析結果;根據該格式分析結果,由多個模板(Template)中選取一模板,該模板用來指示該多個標籤的內容;以及通過該模板,由該延伸標記語言文件中取得該特定元素。
文檔編號G06F17/27GK102147801SQ201010117010
公開日2011年8月10日 申請日期2010年2月9日 優先權日2010年2月9日
發明者黃偉倫 申請人:緯創資通股份有限公司