新四季網

一種智能Web表單自動填充方法及系統的製作方法

2023-05-01 19:25:56 1

專利名稱:一種智能Web表單自動填充方法及系統的製作方法
技術領域:
本發明涉及一種表單填充方法及系統,特別涉及以前填寫過的內容在新表單中不需再次錄入的自動填充方法及系統。
背景技術:
隨著網際網路的普及,電子政務、電子商務和各種辦公自動化取得了蓬勃的發展,很多用戶都需要通過填寫大量表單來進行各類事務處理,如填報計劃、匯報業務、數據採集等。表單的內容通常由提示要輸入內容的標籤和緊隨其後需要用戶輸入的表單域組成。如文本框、複選框、單選框、下拉選擇框等。用戶把數據輸入表單域以後,再提交伺服器處理。而這些表單往往包含很多重複的內容,用戶需要反覆填寫自己的單位信息和個人信息等重複內容。例如,求職人員儘管已經有Word文檔等形式的簡歷,但招聘網站填寫個人信息時需要進行大量的複製、粘貼等手工操作,來填充姓名,性別,家庭住址,教育經歷等數十項內容。用戶需要在不同的招聘網站重複同樣的工作,費時費力,容易出錯。有一些產品和技術可以減少網際網路上填報中重複的工作。例如,Autoformer能收集註冊、登錄簡單表單中用戶名、地址、電話等基本信息,用戶在下次遇到類似的表單時進行自動填充。其中新表單與歷史表單標籤相同時,同名標籤對應的數據被記憶和重用。當標籤不同時,例如,「郵編」和「郵政編碼」需要填充相同,這種情況無法自動填充。在基於網際網路的實際的事務處理系統中,表單非常普及,並且數據複雜,這些簡單的自動填充技術無法解決。

發明內容
本發明的目的是提供一種能自動識別出語義相同的重複部分,解決填寫表單中重複內容問題智能Web表單自動填充方法及系統。本發明的技術方案是
一種智能Web表單自動填充方法,包括語義庫和資源庫,該方法包括以下步驟
1)提取表單中的標籤名,歸一化為所述語義庫的標準名;
2)根據所述標準名查找所述資源庫,選擇所述候選值進行填表;
3)選擇所述候選值進行填表。進一步,所述語義庫存儲帶概率的所述標籤名到所述標準名的映射概率。進一步,所述資源庫的建立步驟為
21)從參考文檔或歷史表單填充數據中提取「標籤名-候選值」對;
22)根據所述語義庫將「標籤名-候選值」對歸一化為「標準名-候選值」對;
23)將所述「標準名-候選值」對存儲於所述資源庫。更進一步,所述資源庫的建立步驟為
201)從參考文檔或歷史表單填充數據中提取「標籤名-候選值」對;202)根據所述語義庫將「標籤名-候選值」對歸一化為「標準名-候選值-可信度」對;
203)將所述「標準名-候選值-可信度」對存儲於所述資源庫。進一步,所述步驟20 和步驟20 之間設有步驟204),用於刪除可信度小於過濾閾值的「標準名-候選值-可信度」對。一種智能Web表單自動填充系統,其特徵在於,包括 語義庫,用於存儲的標籤名到標準名的映射集合; 資源庫,用於存儲「標準名-候選值」對的集合;
歸一化模塊,用於提取表單中的標籤名,歸一化為所述語義庫的標準名; 檢索模塊,用於根據所述標準名查找資源庫,選取候選值; 填表模塊,用於根據選擇的所述候選值進行填表。進一步,所述語義庫存儲所述標籤名到所述標準名的映射概率。進一步,所述資源庫存儲「標準名-候選值-可信度」對的集合,設有可信度的過濾閾值。本發明的有益效果是通過語義庫的映射關係,對表格中的標籤名進行歸一化處理,並從資源庫中選取候選值進行自動填表,通過該系統和方法,使用戶的輸入最小化,減輕了用戶重複輸入的負擔,增強了用戶體驗效果。資源庫的可信度的設置也使該系統能夠學習用戶的偏好,使自動填表的結果更符合用戶的需求。


圖1為本發明表單智能自動填充方法示意圖; 圖2為本發明實施例的實施流程圖3為本發明實施案例新表單樣圖; 圖4為本發明實施案例新表單自動填充效果圖。
具體實施例方式下面結合附圖對本發明的具體實施方式
進行詳細的說明。如圖1所示,一種智能Web表單自動填充方法,包括語義庫和資源庫,該方法包括以下步驟
1)提取表單中的標籤名,歸一化為所述語義庫的標準名;
2)根據所述標準名查找所述資源庫,選擇所述候選值進行填表;
3)選擇所述候選值進行填表。一種智能Web表單自動填充系統,其特徵在於,包括 語義庫,用於存儲的標籤名到標準名的映射集合; 資源庫,用於存儲「標準名-候選值」對的集合;
歸一化模塊,用於提取表單中的標籤名,歸一化為所述語義庫的標準名; 檢索模塊,用於根據所述標準名查找資源庫,選取候選值; 填表模塊,用於根據選擇的所述候選值進行填表。圖2為本發明實施例的實施流程圖,具體說明如下
定義語義庫S0,用來解決表單中內容相同,但標籤名所用詞彙不同產生的問題,例如新表單要求填寫標籤名為「郵編」的表單域,而歷史填報記錄中只有「郵政編碼」的數據,語義庫用來實現兩者的歸一,即將標籤名「郵編」映射到標準名「郵政編碼」之上。本發明採用語義庫來存儲標籤名到標準名的映射的集合。語義庫具備如下特徵
1) 標籤名到標準名的映射結構,可以是「標準名β標籤名11標籤名2|……」,如 「手機號碼」 β 「手機I行動電話(Mobile Phone」;也可以是「標準名β標籤名1」,「標準名 β標籤名2」,「標準名β……」的集合。2) 標籤名到標準名的映射是可以帶概率的。例如「辦公電話β聯繫電話_[40%] 」,「手機β聯繫電話_[30%] 」表示歷史填報記錄中,「聯繫電話」分別有40%、30% 的情形是「辦公電話」和「手機」。3) 標籤名是支持正規表達式格式的。例如「郵*[1_3]編」表示郵編之間可出現1-3個空格。4) 語義庫中標籤名到標準名的映射可以手工的方式建立和維護,也可以使用決策樹、貝葉斯、SVM、隱馬爾可夫模型等機器學習的方法從歷史填充記錄中學習得到。資源庫構造Sl的最終結果為資源庫S3,其目的是為填寫新表單S2做數據準備。 並非每次填寫新表單S2之前都要執行資源庫構造Si。只有當新的參考文檔或者新的填報數據加入時,才有必要重新構造資源庫,用來構造資源庫的參考文檔和歷史填報記錄必須是關於當前用戶的,因為他人的數據對當前用戶沒有參考價值。Sl的具體實施步驟為
選擇參考文檔Sll或歷史表單填充數據S12。復用數據源可以是歷史填報表單記錄 S12,也可以是Word、Excel、Text等格式的參考文檔S11。例如,招聘網站註冊登記個人信息時,就可以使用自己的簡歷文檔作為復用數據源,以便實現自動填寫,本發明的該模塊將請求用戶上傳簡歷作為復用數據源。又如在月報等事務處理系統中,歷史月報數據就是復用數據源,其中,單位信息等重複部分將被在今後的填報中自動填寫,本發明的模塊將選擇當前用戶的歷史填報記錄作為復用數據源。「標籤名-數據值」對的提取S13 ;其具體步驟為
當選擇的復用數據源為歷史填報表單時,根據當前用戶的身份信息或當前表單所屬的項目標識,處理表單對應的後臺資料庫,選擇當前用戶填表的欄位名和欄位值,作為「標籤名-數據值」對。當選擇的復用數據源為Word文檔表格數據或Excel文檔表格數據時,首先,根據語義庫中的標籤名檢測參考文檔中標籤名出現的位置,判斷標籤在表格中的分布情況。其次,歸納出標籤分布是成行或者成列分布,成行分布是指表格中整行的內容50%以上是標籤名;成列分布是指表格中一整列的內容50%以上是標籤名。再次,將成行的標籤名的下一行對應的數據作為值。如表格中上一行為「姓名I性別I年齡」,下一行為「張三I男I 25」 (其中「 I 」為表中單元格分隔符),則構造「姓名-張三」、「性別-男」、「年齡-25」的三個「標籤名-數據值」對。對成列的標籤,下一列的數據作為值。如表格中上一行為「姓名I張三I性別I男」,下一行為「年齡|25|民族I漢」的情形,發現其中第一列和第三列為標籤名,則構造「姓名-張三」、「性別-男」、「年齡-25」、「民族-漢」的四個「標籤名-數據值」 對。如果復用數據源為自由文本的word文檔或text文檔,則利用自然語言處理中信息抽取技術獲得一組「標籤名-數據值」對。語義標籤歸一化S14。根據語義庫S0,將步驟S13獲得的「標籤名-數據值」對中的標籤名歸一化成標準名,並將語義庫中的概率傳播到「標準名-候選值」對中。例如, 設語義庫中有語義映射「辦公電話β聯繫電話-[40%]」,「手機β聯繫電話-[20%]」,「手機β行動電話_[30%] 」三個語義知識。通過步驟S13學習到的「標籤名-數據值」對有「手機-1111」,「聯繫電話-2222」,「行動電話-1111」,進行歸一化處理有「手機_1111_[1. 0],,, 「辦公電話-2222-
」,「手機-2222-
」,「手機_1111_
」四個「標準名-候選值-[概率]」對。按歸一化標籤統計「標準值-候選值」 S15。統計實施步驟S14之後的所有「標準名-候選值-[概率]」對,按「標準名」與候選值分組進行統計。統計後將「標準名-候選值-[概率]」對重組為「標準名-候選值-可信度」(可信度描述為當前「標準名-候選值」 對佔所有同名「標準名-候選值」對總數的百分比,其中可信度定義為加權頻率的對數值)。 例如設步驟S103獲得的「標準名-候選值-[概率],,三元組有「手機-1111-[1· 0] 」,「辦公電話-2222-W. 4] 」,「手機-2222-
」,「手機-1111_
」。貝Ij「手機-1111」 的加權頻率為1. 3,「辦公電話-2222」的加權頻率為0. 4,「手機-2222」的加權頻率為0. 2。因此, 它們的可信度分別為 In (1+1. 3)、In (1+0. 4)、In (1+0. 2)。篩選部分「標準值-候選值」,構造資源庫S16。將實施步驟S15所得結果根據可信度進行篩選,構成本發明的資料庫。篩選原則是對每一個歸一化後的標準名,取可信度大於用戶規定的部分,或者可信度最大的N個(如N取值為1-3)。為了避免噪音和偶然性, 建議頻率多過一次的候選值才存入資源庫。上述「標籤-值-可信度」的三元組,存儲在資源庫中備查,為提高檢索速度,可考慮建立哈希表之類索引。如圖2填寫新表單S2的基本原理是檢索資源庫S3,獲得新表單中各標籤名的候選值,如果這樣的值存在,則選擇可信度最大的值預填對應的表單域,完成智能自動填表。具體實施步驟描述為
逐一提取新表單的標籤名S22 ;圖3為本發明實施案例新表單樣圖,可以抽取的標籤名有「姓名」、「性別」、「個人愛好」。為新表單標籤名歸一化S23,獲得每個標籤名對應的標準名。根據語義資源庫S0, 將新表單的標籤歸一化,其目的就是使新表單中的「標籤名」名與S3資料庫中「標準名-候選值」對的「標準名」 一致。為下一步SM檢索資源庫S3時,關鍵字能準確匹配,這也保證了本發明在自動識別「標籤名」上的準確性。例如假定語義資源庫中標籤「愛好」是標籤名「個人愛好」的標準名,那麼,要將新表單中的「個人愛好」歸一化為標準名「愛好」。利用標準名檢索資源庫S24,為新表單獲得一組候選值。以歸一化後的新表單標準名作為關鍵字,檢索資源庫S3,發現該標準名可供使用的候選值,在此,用戶可再次設定選候選值的個數來預填表單,保證只取更高可信度的「標準名-候選值」對作為候選值。例如設置閾值取可信度最高的3個,即使某標籤在S3中有多個候選值時,也只有可信度最高的3個作為參考值。將可信度最大的候選值,自動預填表S25,其他候選值可以用文本方式列在後面, 供用戶參考預填的表單域,並補充那些未填的部分。根據步驟SM獲得的新表單的候選值, 自動預填表單。如圖4,在選擇候選值自動填寫表單的時候,分以下情形處理
如表單域是文本框,將可信度最大的直接填入,其他候選值用文本標籤顯示在後面; 如果表單域是單選框或下拉式列表,則將所有選項按照資源庫S3提供的可信度排序,選擇其中可信度最大的作為選取值;
如果表單域是多選框,則將出現在候選值中的所有選項都選中。用戶修正新表單S26 ;用戶修正自動預填表單標籤域,並補充那些不能實現自動預填的部分。提交新表單S27和普通填寫表單類似地提交表單給伺服器程序處理。新表單數據可以作為新數據存入資源庫,可作為後續智能填充的復用數據源。
權利要求
1.一種智能Web表單自動填充方法,包括語義庫和資源庫;其特徵在於,包括以下步驟1)提取表單中的標籤名,歸一化為所述語義庫的標準名;2)根據所述標準名查找所述資源庫,選擇所述候選值進行填表;3)選擇所述候選值進行填表。
2.根據權利要求1所述的一種智能Web表單自動填充方法,其特徵在於所述語義庫存儲帶概率的所述標籤名到所述標準名的映射集合。
3.根據權利要求1所述的一種智能Web表單自動填充方法,其特徵在於所述資源庫的建立步驟為21)從參考文檔或歷史表單填充數據中提取「標籤名-候選值」對;22)根據所述語義庫將「標籤名-候選值」對歸一化為「標準名-候選值」對;23)將所述「標準名-候選值」對存儲於所述資源庫。
4.根據權利要求2所述的一種智能Web表單自動填充方法,其特徵在於所述資源庫的建立步驟為201)從參考文檔或歷史表單填充數據中提取「標籤名-候選值」對;202)根據所述語義庫將「標籤名-候選值」對歸一化為「標準名-候選值-可信度」對;203)將所述「標準名-候選值-可信度」對存儲於所述資源庫。
5.根據權利要求4所述的一種智能Web表單自動填充方法,其特徵在於所述步驟 202)和步驟20 之間設有步驟204),用於刪除可信度小於過濾閾值的「標準名-候選值-可信度」對。
6.一種智能Web表單自動填充系統,其特徵在於,包括 語義庫,用於存儲的標籤名到標準名的映射集合;資源庫,用於存儲「標準名-候選值」對的集合; 歸一化模塊,用於提取表單中的標籤名,歸一化為所述語義庫的標準名; 檢索模塊,用於根據所述標準名查找資源庫,選取候選值; 填表模塊,用於根據選擇的所述候選值進行填表。
7.根據權利要求5的一種智能Web表單自動填充系統,其特徵在於所述語義庫存儲所述標籤名到所述標準名的映射概率。
8.根據權利要求5或6的一種智能Web表單自動填充系統,其特徵在於所述資源庫存儲「標準名-候選值-可信度」對的集合。
9.根據權利要求7的一種智能Web表單自動填充系統,其特徵在於所述資源庫設定有可信度的過濾閾值。
全文摘要
本發明公開一種智能Web表單自動填充方法及系統。該方法包括步驟1)提取表單中的標籤名,歸一化為所述語義庫的標準名;2)根據所述標準名查找所述資源庫,選擇所述候選值進行填表;3)選擇所述候選值進行填表。該系統包括用於存儲的標籤名到標準名的映射集合的語義庫;用於存儲「標準名-候選值」對的集合的資源庫;用於提取表單中的標籤名,歸一化為所述語義庫的標準名的歸一化模塊;用於根據所述標準名查找資源庫,選取候選值的檢索模塊;以及用於根據選擇的所述候選值進行填表的填表模塊。本發明能減少用戶在填報表單中錄入信息的工作量,減輕用戶負擔,提升用戶體驗。
文檔編號G06F17/30GK102184204SQ20111010733
公開日2011年9月14日 申請日期2011年4月28日 優先權日2011年4月28日
發明者單延平, 葉施仁, 周葉, 周建龍, 姚平安, 廖定安, 楊長春 申請人:常州大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀