一種面向網頁內容無障礙訪問的頁內導航生成方法
2023-05-11 03:38:56 1
專利名稱:一種面向網頁內容無障礙訪問的頁內導航生成方法
技術領域:
本發明涉及無障礙網頁頁內導航生成的技術領域,特別是基於網頁數據條目抽取和網頁分塊的頁內導航生成方法。
背景技術:
根據2006年全國第二次殘疾人抽樣調查結果,我國現有視力殘疾1233萬人,他們是社會上特殊困難的群體。隨著網際網路的高度普及和網際網路在日常生活中重要性的不斷上升,視力殘疾人的網頁信息無障礙訪問問題成為了我國信息無障礙建設工作的重要內容。視力殘疾人由於身體障礙,無法正常閱讀網頁上的內容,所以其上網問題特別突出。視力殘疾人通常使用讀屏軟體訪問網頁內容。讀屏軟體通過將網頁上的文本信息轉化為語音來幫助視力殘疾人獲取信息。而現今網頁的內容變得越來越充實,網站首頁包 含更多的連結,內容頁面包含更多的相關信息和評論內容,對於讀屏軟體來說,讀完整個網頁所需的時間也變得更長,有調查表明「網易新聞」首頁共包含16000多個可讀字詞,讀屏軟體需要34分鐘才能從頭到尾讀完。視力殘疾人需要花費大量的時間聽讀屏軟體讀網頁,以尋找自己感興趣的內容,這樣瀏覽網頁的效率是極其低下的。目前網際網路上許多網頁內容都根據不同視覺效果的區塊進行劃分。比如「網易新聞」根據視覺區塊將新聞劃分為「國內」、「社會」、「國際」等區塊。這樣視力正常的用戶在瀏覽網頁時,就可以按照區塊對網頁內容進行瀏覽。在瀏覽時,若對某個區塊的內容不感興趣,可以直接跳至下一個區塊。另外有些網站會包含一組或多組結構一致的數據條目,比如商品列表,這些條目並不是簡單的連結或文字,而通常包含圖片、名稱、價格、說明等。但是視力殘疾人通過讀屏軟體訪問網頁內容。讀屏軟體將網頁內容轉化為順序文本並進行語音朗讀,無法對網頁中的區塊進行有效區分。區塊和數據條目都是網頁中結構化的信息,對視力殘疾人來說,將網頁中的區塊信息和數據條目抽取出來,構建兩級頁內索引,有助於快速鎖定網頁中自己感興趣的話題,提高網頁瀏覽效率。
發明內容
為了幫助用戶能夠快速鎖定網頁中的特定內容,以提高瀏覽網頁的體驗度,本發明提出了一種面向網頁內容無障礙訪問的頁內導航生成方法,該方法包括以下步驟I、從網際網路抓取網頁後,針對每個網頁進行以下操作I)使用數據條目抽取算法抽取網頁的數據條目,即網頁中通過一致的結構呈現的數據。2)使用頁面區塊劃分算法將頁面進行區塊劃分,區塊劃分時並列的數據條目分入同一區塊;3)利用數據條目和劃分區塊建立兩級導航索引樹,第一層級是網頁的區塊,第二層級是每個區塊中的數據條目。2、步驟I)中所述的數據條目抽取算法如下
I)建立當前頁面的HTML標籤樹,也就是DOM樹;2)遍歷DOM樹的所有節點,對當前節點的所有子節點進行下面的操作。遍歷起始子節點的位置i和節點的個數k,將第f + ri k、; + ; ; ^ I; ^ - i的k個子節點構成的廣義節點與第『 —Oi 4 i: k、i * r. -f :.; -A - i的k個子節點構成的廣義節點進行比較,計算兩個廣義節點的相對距離。其中n大於零且i+(n+2) k_l小於等於當前節點所有子節點的個數。廣義節點i與j之間的相對距離distance由以下公式計算得到
權利要求
1.面向網頁內容無障礙訪問的頁內導航索引生成方法,該方法的特徵在於從網際網路抓取網頁後,針對每個網頁進行以下操作 1)使用數據條目抽取算法抽取網頁的數據條目,即網頁中通過一致的結構呈現的數據。
2)使用頁面區塊劃分算法將頁面進行區塊劃分,區塊劃分時並列的數據條目分入同一區塊; 3)利用數據條目和劃分區塊建立兩級導航索引樹,第一層級是網頁的區塊,第二層級是每個區塊中的數據條目。
2.如權利要求I所述的面向網頁內容無障礙訪問的頁內導航生成方法,其特徵在於所述的步驟I)中所述的數據條目抽取算法如下 1)建立當前頁面的HTML標籤樹,也就是DOM樹; 2)遍歷DOM樹的所有節點,對當前節點的所有子節點進行下面的操作;遍歷起始子節點的位置i和節點的個數k,將第今x'w +.K,' k - i.的k個子節點構成的廣義節點與第 -*■ * 1; ;、i ■¥ + 2; k - i的k個子節點構成的廣義節點進行比較,計算兩個廣義節點的相對距離;其中n大於零且i+(n+2) *k-l小於等於當前節點所有子節點的個數。
廣義節點i與j之間的相對距離distance由以下公式計算得到
3.如權利要求I所述的面向網頁內容無障礙訪問的頁內導航生成方法,其特徵在於所述的步驟2)中所述的頁面區塊劃分算法從DOM樹根節點遞歸進行如下操作 I)對當前節點進行區塊的初步分割,若被分割的區塊不包含任何內容,則捨棄它,否則根據下表中的規則判斷是否可以分割;
全文摘要
面向網頁內容無障礙訪問的頁內導航生成方法,從網際網路上抓取網頁後,針對每個網頁進行如下操作通過HTML解析器將網頁解析為DOM樹結構,根據DOM樹之間的編輯距離對網頁進行數據條目抽取。根據一些規則對網頁進行初步劃分,檢測初步劃分的區塊之間的分隔符,根據最大分隔符計算區塊內部的不一致程度,根據區塊內部的不一致程度對網頁進行實際區塊劃分。最後將網頁區塊和數據條目組織成兩級頁內導航。本方法的優點在於為網頁提供了兩級頁內導航,有助於用戶,尤其是通過讀屏軟體訪問網頁內容的視力殘疾用戶,快速了解網頁各個部分的內容,以快速鎖定自己感興趣的內容,提高用戶上網體驗。
文檔編號G06F17/30GK102799638SQ201210216109
公開日2012年11月28日 申請日期2012年6月25日 優先權日2012年6月25日
發明者王燦, 卜佳俊, 周逸倫, 何佔盈, 陳純 申請人:浙江大學