新四季網

格式文檔中的信息的抽取裝置及抽取方法

2023-10-09 19:09:09

專利名稱:格式文檔中的信息的抽取裝置及抽取方法
技術領域:
本發明涉及從輸入的文檔,例如進行網上銷售的網頁中自動地抽取出特殊字符串的文檔中的信息的抽取裝置及抽取方法。
在現有技術中,因為是利用位於特殊字符串之前的屬性名(「商品名」等)的字符串來判別特殊字符串並將其抽出的,因而在像『商品名モノグラムアクセサリ一ポ一チ』那樣的、齊備了作為屬性名的『商品名』和作為屬性值的商品名稱的場合是有效的。但是,像網際網路的網頁那樣的文檔有各種各樣的格式,存在著沒有屬性名的情況。例如,存在著只有『モノダラムアクセサリ一ポ一チ』的情況。在沒有屬性名的情況下,採用上述技術就不能抽出特殊字符串。另外,在現有技術中需要人工提供樣本供機器學習,不能自動地抽取出特殊字符串。
本發明是為了解決上述問題而作出的,其目的在於提供一種能夠從輸入的格式文檔中自動地抽取出特殊字符串的文檔中的信息的抽取裝置及抽取方法。

發明內容
為了解決上述問題,本發明的格式文檔中的信息的抽取裝置,包括輸入格式文檔的輸入單元;對輸入的格式文檔進行分析,並保持特殊排印信息的排印信息保持單元;對於分析的結果,利用字號、字體、顏色等排印信息來識別特殊字符串的特殊字符串判定單元;抽取識別出來的特殊字符串的特殊字符串抽取單元;以及輸出抽取出來的字符串的輸出單元。
本發明的格式文檔中的信息的抽取方法,包括以下步驟輸入格式文檔的步驟;對輸入的格式文檔進行分析,並保持特殊排印信息的步驟;對於分析的結果,利用字號、字體、顏色等排印信息來識別特殊字符串的步驟;抽取識別出來的特殊字符串的步驟;以及輸出抽取出來的字符串的步驟。
若採用本發明,因為對輸入的格式文檔進行分析,利用字號、字體、顏色等排印信息來判斷出特殊字符串信息並抽取特殊字符串,故能夠從輸入的格式文檔中自動地抽取出特殊字符串,並能夠大幅度提高抽取準確度。另外,在現有技術中需要人工提供樣本供機器學習,而本發明不需要學習樣本,能夠對於不同類型的格式文檔自動地進行判斷和抽取。
圖2為說明本發明的實施例1的文檔數據和流程圖。
圖3為說明本發明的實施例2的文檔數據和流程圖。
圖4為說明本發明的實施例3的文檔數據和流程圖。
圖5為說明本發明的實施例4的文檔數據和流程圖。
具體實施例方式


圖1為本發明的格式文檔中的信息的抽取裝置的結構框圖。
在圖1的格式文檔中的信息的抽取裝置中,1為輸入格式文檔的輸入單元;2為利用某種方法對輸入的格式文檔進行分析,並保持特殊排印信息的排印信息保持單元;3為對於分析的結果,利用字號、字體、顏色等排印信息來識別特殊字符串的特殊字符串判定單元;4為抽取識別出來的特殊字符串的特殊字符串抽取單元;5為輸出抽取出來的字符串的輸出單元。
下面,參照圖2-圖5,以從HTML(超文本標誌語言)文檔中抽取出特殊字符串為例來說明本發明的格式文檔中的信息的抽取裝置的動作。
(實施例1)圖2為說明本發明的實施例1的文檔數據和流程圖。其中,圖2(a)為某個網上銷售信息(HTML形式的文檔);圖2(b)為圖2(a)中的信息的HTML源文件;圖2(c)為實施例1的信息抽取動作的流程圖。
下面說明實施例1的信息抽取動作的流程。在步驟101中,輸入圖2(b)所示的HTML源文件。在步驟102中對在步驟101中輸入的HTML源文件進行分析,發現排印信息。接著在步驟103-107中進行特殊字符串的抽取。
首先,在步驟103中根據步驟102的分析結果確定字符串判斷對象。在步驟104中判斷在步驟103中確定的字符串的字號與周圍相比是否為最大。若判斷為否則進入步驟106。在步驟106判斷該字符串的排印信息是否超出了預先設定的範圍,如果超出了預先設定的範圍則進到步驟107,結束信息抽取動作。在步驟106中如果判斷為沒有超出預先設定的範圍則返回步驟103,在步驟103確定下一個判斷對象。
若在步驟104中判斷為是,具體說在本例中字符串「Windows操作及應用技術(第二版)」的排印信息為(FONT size=5),與周圍相比為最大,因而判斷為特殊排印信息。於是,進到步驟105,在步驟105中將字符串「Windows操作及應用技術(第二版)」判定為特殊字符串(商品名)。
採用本實施例的信息抽取裝置,利用字號這樣的排印信息來判斷出特殊字符串,故能夠從輸入的格式文檔中自動地抽取出特殊字符串。
(實施例2)圖3為說明本發明的實施例2的文檔數據和流程圖。其中,圖3(a)為某個網上銷售信息(HTML形式的文檔);圖3(b)為圖3(a)中的信息的HTML源文件;圖3(c)為實施例2的信息抽取動作的流程圖。
下面說明實施例2的信息抽取動作的流程。與上述實施例1相同的動作在此省略重複的說明,僅對不同的動作進行說明。
在步驟204中判斷在步驟203中確定的字符串的字體等是否與其他不同,與周圍相比是否為特殊。若在步驟204中判斷為是,具體說在本例中字符串「Windows操作及應用技術(第二版)」的排印信息為(字體「華文行楷」,且顏色為紅(color=#ff0000)),與周圍相比為特殊,因而判斷為特殊排印信息。於是,進到步驟205,在步驟205中將字符串「Windows操作及應用技術(第二版)」判定為特殊字符串(商品名)。
採用本實施例的信息抽取裝置,利用字體和顏色這樣的排印信息來判斷出特殊字符串,故能夠從輸入的格式文檔中自動地抽取出特殊字符串。
(實施例3)圖4為說明本發明的實施例3的文檔數據和流程圖。其中,圖4(a)為某個網上銷售信息(HTML形式的文檔);圖4(b)為圖4(a)中的信息的HTML源文件;圖4(c)為實施例3的信息抽取動作的流程圖。
下面說明實施例3的信息抽取動作的流程。與上述實施例1相同的動作在此省略重複的說明,僅對不同的動作進行說明。
在步驟304中判斷在步驟303中確定的字符串的字體等是否與其他不同,與周圍相比是否為特殊。若在步驟304中判斷為是,具體說在本例中字符串「Windows操作及應用技術(第二版)」的排印信息為(字體「華文行楷」,且為粗字(BFONT …/B)),與周圍相比為特殊,因而判斷為特殊排印信息。於是,進到步驟305,在步驟305中將字符串「Windows操作及應用技術(第二版)」判定為特殊字符串(商品名)。
採用本實施例的信息抽取裝置,利用字體和粗字這樣的排印信息來判斷出特殊字符串,故能夠從輸入的格式文檔中自動地抽取出特殊字符串。
(實施例4)圖5為說明本發明的實施例4的文檔數據和流程圖。其中,圖5(a)為某個網上銷售信息(HTML形式的文檔);圖5(b)為圖5(a)中的信息的HTML源文件;圖5(c)為實施例4的信息抽取動作的流程圖。
下面說明實施例4的信息抽取動作的流程。與上述實施例1相同的動作在此省略重複的說明,僅對不同的動作進行說明。
在步驟404中判斷在步驟403中確定的字符串的字體等是否與其他不同,與周圍相比是否為特殊。若在步驟404中判斷為是,具體說在本例中字符串「Windows操作及應用技術(第二版)」的排印信息為(顏色為紅(color=#ff0000),且為粗字),與周圍相比為特殊,因而判斷為特殊排印信息。於是,進到步驟405,在步驟405中將字符串「Windows操作及應用技術(第二版)」判定為特殊字符串(商品名)。
採用本實施例的信息抽取裝置,利用顏色和粗字這樣的排印信息來判斷出特殊字符串,故能夠從輸入的格式文檔中自動地抽取出特殊字符串。
以上的實施例1-4僅僅是用來說明本發明的,而不是限定本發明的。在不脫離本發明的精神實質的範圍內的變更應包含在本發明中。例如,將上述實施例1-4進行適當組合和變更,同樣可以達到本發明自動地抽取出特殊字符串的效果。
權利要求
1.格式文檔中的信息的抽取裝置,包括輸入格式文檔的輸入單元(1);對輸入的格式文檔進行分析,並保持特殊排印信息的排印信息保持單元(2);對於分析的結果,利用字號、字體、顏色等排印信息來識別特殊字符串的特殊字符串判定單元(3);抽取識別出來的特殊字符串的特殊字符串抽取單元(4);以及輸出抽取出來的字符串的輸出單元(5)。
2.權利要求1所述的格式文檔中的信息的抽取裝置,其特徵在於,上述特殊字符串判定單元(3)利用格式文檔的排印信息,當判斷出某個字符串的排印信息為特殊排印信息時,將其判斷為特殊字符串。
3.權利要求1或2所述的格式文檔中的信息的抽取裝置,其特徵在於,上述格式文檔為HTML文檔,上述特殊字符串判定單元(3)根據對HTML文檔的分析結果,當判斷出某個字符串的字號與周圍相比為最大時將該字符串判斷為特殊字符串。
4.權利要求1或2所述的格式文檔中的信息的抽取裝置,其特徵在於,上述格式文檔為HTML文檔,上述特殊字符串判定單元(3)根據對HTML文檔的分析結果,當判斷出某個字符串的顏色和字體與周圍相比為特殊時將該字符串判斷為特殊字符串。
5.權利要求1或2所述的格式文檔中的信息的抽取裝置,其特徵在於,上述格式文檔為HTML文檔,上述特殊字符串判定單元(3)根據對HTML文檔的分析結果,當判斷出某個字符串的字體與其他不同且為粗字,與周圍相比為特殊時將該字符串判斷為特殊字符串。
6.權利要求1或2所述的格式文檔中的信息的抽取裝置,其特徵在於,上述格式文檔為HTML文檔,上述特殊字符串判定單元(3)根據對HTML文檔的分析結果,當判斷出某個字符串的顏色與其他不同且為粗字,與周圍相比為特殊時將該字符串判斷為特殊字符串。
7.格式文檔中的信息的抽取方法,包括以下步驟輸入格式文檔的步驟;對輸入的格式文檔進行分析,並保持特殊排印信息的步驟;對於分析的結果,利用字號、字體、顏色等排印信息來識別特殊字符串的步驟;抽取識別出來的特殊字符串的步驟;以及輸出抽取出來的字符串的步驟。
8.權利要求7所述的格式文檔中的信息的抽取方法,其特徵在於,在上述識別特殊字符串的步驟中利用格式文檔的排印信息,當判斷出某個字符串的排印信息為特殊排印信息時,將其判斷為特殊字符串。
9.權利要求7或8所述的格式文檔中的信息的抽取方法,其特徵在於,上述格式文檔為HTML文檔,在上述識別特殊字符串的步驟中根據對HTML文檔的分析結果,當判斷出某個字符串的字號與周圍相比為最大時將該字符串判斷為特殊字符串。
10.權利要求7或8所述的格式文檔中的信息的抽取方法,其特徵在於,上述格式文檔為HTML文檔,在上述識別特殊字符串的步驟中根據對HTML文檔的分析結果,當判斷出某個字符串的顏色和字體與周圍相比為特殊時將該字符串判斷為特殊字符串。
11.權利要求7或8所述的格式文檔中的信息的抽取方法,其特徵在於,上述格式文檔為HTML文檔,在上述識別特殊字符串的步驟中根據對HTML文檔的分析結果,當判斷出某個字符串的字體與其他不同且為粗字,與周圍相比為特殊時將該字符串判斷為特殊字符串。
12.權利要求7或8所述的格式文檔中的信息的抽取方法,其特徵在於,上述格式文檔為HTML文檔,根據對HTML文檔的分析結果,當判斷出某個字符串的顏色與其他不同且為粗字,與周圍相比為特殊時將該字符串判斷為特殊字符串。
全文摘要
格式文檔中的信息的抽取裝置,包括輸入格式文檔的輸入單元(1);對輸入的格式文檔進行分析,並保持特殊排印信息的排印信息保持單元(2);對於分析的結果,利用字號、字體、顏色等排印信息來識別特殊字符串的特殊字符串判定單元(3);抽取識別出來的特殊字符串的特殊字符串抽取單元(4);以及輸出抽取出來的字符串的輸出單元(5)。當判斷出某個字符串的排印信息為特殊排印信息時,將其判斷為特殊字符串。由此,能夠對於不同類型的格式文檔自動地進行信息的抽取。
文檔編號G06F17/27GK1400547SQ0112384
公開日2003年3月5日 申請日期2001年8月3日 優先權日2001年8月3日
發明者黃曉宏, 徐國偉 申請人:富士通株式會社

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀