新四季網

一種面向網頁內容無障礙訪問的頁內導航生成方法

2023-05-11 03:38:56 1

專利名稱:一種面向網頁內容無障礙訪問的頁內導航生成方法
技術領域:
本發明涉及無障礙網頁頁內導航生成的技術領域,特別是基於網頁數據條目抽取和網頁分塊的頁內導航生成方法。
背景技術:
根據2006年全國第二次殘疾人抽樣調查結果,我國現有視力殘疾1233萬人,他們是社會上特殊困難的群體。隨著網際網路的高度普及和網際網路在日常生活中重要性的不斷上升,視力殘疾人的網頁信息無障礙訪問問題成為了我國信息無障礙建設工作的重要內容。視力殘疾人由於身體障礙,無法正常閱讀網頁上的內容,所以其上網問題特別突出。視力殘疾人通常使用讀屏軟體訪問網頁內容。讀屏軟體通過將網頁上的文本信息轉化為語音來幫助視力殘疾人獲取信息。而現今網頁的內容變得越來越充實,網站首頁包 含更多的連結,內容頁面包含更多的相關信息和評論內容,對於讀屏軟體來說,讀完整個網頁所需的時間也變得更長,有調查表明「網易新聞」首頁共包含16000多個可讀字詞,讀屏軟體需要34分鐘才能從頭到尾讀完。視力殘疾人需要花費大量的時間聽讀屏軟體讀網頁,以尋找自己感興趣的內容,這樣瀏覽網頁的效率是極其低下的。目前網際網路上許多網頁內容都根據不同視覺效果的區塊進行劃分。比如「網易新聞」根據視覺區塊將新聞劃分為「國內」、「社會」、「國際」等區塊。這樣視力正常的用戶在瀏覽網頁時,就可以按照區塊對網頁內容進行瀏覽。在瀏覽時,若對某個區塊的內容不感興趣,可以直接跳至下一個區塊。另外有些網站會包含一組或多組結構一致的數據條目,比如商品列表,這些條目並不是簡單的連結或文字,而通常包含圖片、名稱、價格、說明等。但是視力殘疾人通過讀屏軟體訪問網頁內容。讀屏軟體將網頁內容轉化為順序文本並進行語音朗讀,無法對網頁中的區塊進行有效區分。區塊和數據條目都是網頁中結構化的信息,對視力殘疾人來說,將網頁中的區塊信息和數據條目抽取出來,構建兩級頁內索引,有助於快速鎖定網頁中自己感興趣的話題,提高網頁瀏覽效率。

發明內容
為了幫助用戶能夠快速鎖定網頁中的特定內容,以提高瀏覽網頁的體驗度,本發明提出了一種面向網頁內容無障礙訪問的頁內導航生成方法,該方法包括以下步驟I、從網際網路抓取網頁後,針對每個網頁進行以下操作I)使用數據條目抽取算法抽取網頁的數據條目,即網頁中通過一致的結構呈現的數據。2)使用頁面區塊劃分算法將頁面進行區塊劃分,區塊劃分時並列的數據條目分入同一區塊;3)利用數據條目和劃分區塊建立兩級導航索引樹,第一層級是網頁的區塊,第二層級是每個區塊中的數據條目。2、步驟I)中所述的數據條目抽取算法如下
I)建立當前頁面的HTML標籤樹,也就是DOM樹;2)遍歷DOM樹的所有節點,對當前節點的所有子節點進行下面的操作。遍歷起始子節點的位置i和節點的個數k,將第f + ri k、; + ; ; ^ I; ^ - i的k個子節點構成的廣義節點與第『 —Oi 4 i: k、i * r. -f :.; -A - i的k個子節點構成的廣義節點進行比較,計算兩個廣義節點的相對距離。其中n大於零且i+(n+2) k_l小於等於當前節點所有子節點的個數。廣義節點i與j之間的相對距離distance由以下公式計算得到
權利要求
1.面向網頁內容無障礙訪問的頁內導航索引生成方法,該方法的特徵在於從網際網路抓取網頁後,針對每個網頁進行以下操作 1)使用數據條目抽取算法抽取網頁的數據條目,即網頁中通過一致的結構呈現的數據。
2)使用頁面區塊劃分算法將頁面進行區塊劃分,區塊劃分時並列的數據條目分入同一區塊; 3)利用數據條目和劃分區塊建立兩級導航索引樹,第一層級是網頁的區塊,第二層級是每個區塊中的數據條目。
2.如權利要求I所述的面向網頁內容無障礙訪問的頁內導航生成方法,其特徵在於所述的步驟I)中所述的數據條目抽取算法如下 1)建立當前頁面的HTML標籤樹,也就是DOM樹; 2)遍歷DOM樹的所有節點,對當前節點的所有子節點進行下面的操作;遍歷起始子節點的位置i和節點的個數k,將第今x'w +.K,' k - i.的k個子節點構成的廣義節點與第 -*■ * 1; ;、i ■¥ + 2; k - i的k個子節點構成的廣義節點進行比較,計算兩個廣義節點的相對距離;其中n大於零且i+(n+2) *k-l小於等於當前節點所有子節點的個數。
廣義節點i與j之間的相對距離distance由以下公式計算得到
3.如權利要求I所述的面向網頁內容無障礙訪問的頁內導航生成方法,其特徵在於所述的步驟2)中所述的頁面區塊劃分算法從DOM樹根節點遞歸進行如下操作 I)對當前節點進行區塊的初步分割,若被分割的區塊不包含任何內容,則捨棄它,否則根據下表中的規則判斷是否可以分割;
全文摘要
面向網頁內容無障礙訪問的頁內導航生成方法,從網際網路上抓取網頁後,針對每個網頁進行如下操作通過HTML解析器將網頁解析為DOM樹結構,根據DOM樹之間的編輯距離對網頁進行數據條目抽取。根據一些規則對網頁進行初步劃分,檢測初步劃分的區塊之間的分隔符,根據最大分隔符計算區塊內部的不一致程度,根據區塊內部的不一致程度對網頁進行實際區塊劃分。最後將網頁區塊和數據條目組織成兩級頁內導航。本方法的優點在於為網頁提供了兩級頁內導航,有助於用戶,尤其是通過讀屏軟體訪問網頁內容的視力殘疾用戶,快速了解網頁各個部分的內容,以快速鎖定自己感興趣的內容,提高用戶上網體驗。
文檔編號G06F17/30GK102799638SQ201210216109
公開日2012年11月28日 申請日期2012年6月25日 優先權日2012年6月25日
發明者王燦, 卜佳俊, 周逸倫, 何佔盈, 陳純 申請人:浙江大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀