格式文檔中的信息的抽取裝置及抽取方法
2023-10-09 19:09:09
專利名稱:格式文檔中的信息的抽取裝置及抽取方法
技術領域:
本發明涉及從輸入的文檔,例如進行網上銷售的網頁中自動地抽取出特殊字符串的文檔中的信息的抽取裝置及抽取方法。
在現有技術中,因為是利用位於特殊字符串之前的屬性名(「商品名」等)的字符串來判別特殊字符串並將其抽出的,因而在像『商品名モノグラムアクセサリ一ポ一チ』那樣的、齊備了作為屬性名的『商品名』和作為屬性值的商品名稱的場合是有效的。但是,像網際網路的網頁那樣的文檔有各種各樣的格式,存在著沒有屬性名的情況。例如,存在著只有『モノダラムアクセサリ一ポ一チ』的情況。在沒有屬性名的情況下,採用上述技術就不能抽出特殊字符串。另外,在現有技術中需要人工提供樣本供機器學習,不能自動地抽取出特殊字符串。
本發明是為了解決上述問題而作出的,其目的在於提供一種能夠從輸入的格式文檔中自動地抽取出特殊字符串的文檔中的信息的抽取裝置及抽取方法。
發明內容
為了解決上述問題,本發明的格式文檔中的信息的抽取裝置,包括輸入格式文檔的輸入單元;對輸入的格式文檔進行分析,並保持特殊排印信息的排印信息保持單元;對於分析的結果,利用字號、字體、顏色等排印信息來識別特殊字符串的特殊字符串判定單元;抽取識別出來的特殊字符串的特殊字符串抽取單元;以及輸出抽取出來的字符串的輸出單元。
本發明的格式文檔中的信息的抽取方法,包括以下步驟輸入格式文檔的步驟;對輸入的格式文檔進行分析,並保持特殊排印信息的步驟;對於分析的結果,利用字號、字體、顏色等排印信息來識別特殊字符串的步驟;抽取識別出來的特殊字符串的步驟;以及輸出抽取出來的字符串的步驟。
若採用本發明,因為對輸入的格式文檔進行分析,利用字號、字體、顏色等排印信息來判斷出特殊字符串信息並抽取特殊字符串,故能夠從輸入的格式文檔中自動地抽取出特殊字符串,並能夠大幅度提高抽取準確度。另外,在現有技術中需要人工提供樣本供機器學習,而本發明不需要學習樣本,能夠對於不同類型的格式文檔自動地進行判斷和抽取。
圖2為說明本發明的實施例1的文檔數據和流程圖。
圖3為說明本發明的實施例2的文檔數據和流程圖。
圖4為說明本發明的實施例3的文檔數據和流程圖。
圖5為說明本發明的實施例4的文檔數據和流程圖。
具體實施例方式
圖1為本發明的格式文檔中的信息的抽取裝置的結構框圖。
在圖1的格式文檔中的信息的抽取裝置中,1為輸入格式文檔的輸入單元;2為利用某種方法對輸入的格式文檔進行分析,並保持特殊排印信息的排印信息保持單元;3為對於分析的結果,利用字號、字體、顏色等排印信息來識別特殊字符串的特殊字符串判定單元;4為抽取識別出來的特殊字符串的特殊字符串抽取單元;5為輸出抽取出來的字符串的輸出單元。
下面,參照圖2-圖5,以從HTML(超文本標誌語言)文檔中抽取出特殊字符串為例來說明本發明的格式文檔中的信息的抽取裝置的動作。
(實施例1)圖2為說明本發明的實施例1的文檔數據和流程圖。其中,圖2(a)為某個網上銷售信息(HTML形式的文檔);圖2(b)為圖2(a)中的信息的HTML源文件;圖2(c)為實施例1的信息抽取動作的流程圖。
下面說明實施例1的信息抽取動作的流程。在步驟101中,輸入圖2(b)所示的HTML源文件。在步驟102中對在步驟101中輸入的HTML源文件進行分析,發現排印信息。接著在步驟103-107中進行特殊字符串的抽取。
首先,在步驟103中根據步驟102的分析結果確定字符串判斷對象。在步驟104中判斷在步驟103中確定的字符串的字號與周圍相比是否為最大。若判斷為否則進入步驟106。在步驟106判斷該字符串的排印信息是否超出了預先設定的範圍,如果超出了預先設定的範圍則進到步驟107,結束信息抽取動作。在步驟106中如果判斷為沒有超出預先設定的範圍則返回步驟103,在步驟103確定下一個判斷對象。
若在步驟104中判斷為是,具體說在本例中字符串「Windows操作及應用技術(第二版)」的排印信息為(FONT size=5),與周圍相比為最大,因而判斷為特殊排印信息。於是,進到步驟105,在步驟105中將字符串「Windows操作及應用技術(第二版)」判定為特殊字符串(商品名)。
採用本實施例的信息抽取裝置,利用字號這樣的排印信息來判斷出特殊字符串,故能夠從輸入的格式文檔中自動地抽取出特殊字符串。
(實施例2)圖3為說明本發明的實施例2的文檔數據和流程圖。其中,圖3(a)為某個網上銷售信息(HTML形式的文檔);圖3(b)為圖3(a)中的信息的HTML源文件;圖3(c)為實施例2的信息抽取動作的流程圖。
下面說明實施例2的信息抽取動作的流程。與上述實施例1相同的動作在此省略重複的說明,僅對不同的動作進行說明。
在步驟204中判斷在步驟203中確定的字符串的字體等是否與其他不同,與周圍相比是否為特殊。若在步驟204中判斷為是,具體說在本例中字符串「Windows操作及應用技術(第二版)」的排印信息為(字體「華文行楷」,且顏色為紅(color=#ff0000)),與周圍相比為特殊,因而判斷為特殊排印信息。於是,進到步驟205,在步驟205中將字符串「Windows操作及應用技術(第二版)」判定為特殊字符串(商品名)。
採用本實施例的信息抽取裝置,利用字體和顏色這樣的排印信息來判斷出特殊字符串,故能夠從輸入的格式文檔中自動地抽取出特殊字符串。
(實施例3)圖4為說明本發明的實施例3的文檔數據和流程圖。其中,圖4(a)為某個網上銷售信息(HTML形式的文檔);圖4(b)為圖4(a)中的信息的HTML源文件;圖4(c)為實施例3的信息抽取動作的流程圖。
下面說明實施例3的信息抽取動作的流程。與上述實施例1相同的動作在此省略重複的說明,僅對不同的動作進行說明。
在步驟304中判斷在步驟303中確定的字符串的字體等是否與其他不同,與周圍相比是否為特殊。若在步驟304中判斷為是,具體說在本例中字符串「Windows操作及應用技術(第二版)」的排印信息為(字體「華文行楷」,且為粗字(BFONT …/B)),與周圍相比為特殊,因而判斷為特殊排印信息。於是,進到步驟305,在步驟305中將字符串「Windows操作及應用技術(第二版)」判定為特殊字符串(商品名)。
採用本實施例的信息抽取裝置,利用字體和粗字這樣的排印信息來判斷出特殊字符串,故能夠從輸入的格式文檔中自動地抽取出特殊字符串。
(實施例4)圖5為說明本發明的實施例4的文檔數據和流程圖。其中,圖5(a)為某個網上銷售信息(HTML形式的文檔);圖5(b)為圖5(a)中的信息的HTML源文件;圖5(c)為實施例4的信息抽取動作的流程圖。
下面說明實施例4的信息抽取動作的流程。與上述實施例1相同的動作在此省略重複的說明,僅對不同的動作進行說明。
在步驟404中判斷在步驟403中確定的字符串的字體等是否與其他不同,與周圍相比是否為特殊。若在步驟404中判斷為是,具體說在本例中字符串「Windows操作及應用技術(第二版)」的排印信息為(顏色為紅(color=#ff0000),且為粗字),與周圍相比為特殊,因而判斷為特殊排印信息。於是,進到步驟405,在步驟405中將字符串「Windows操作及應用技術(第二版)」判定為特殊字符串(商品名)。
採用本實施例的信息抽取裝置,利用顏色和粗字這樣的排印信息來判斷出特殊字符串,故能夠從輸入的格式文檔中自動地抽取出特殊字符串。
以上的實施例1-4僅僅是用來說明本發明的,而不是限定本發明的。在不脫離本發明的精神實質的範圍內的變更應包含在本發明中。例如,將上述實施例1-4進行適當組合和變更,同樣可以達到本發明自動地抽取出特殊字符串的效果。
權利要求
1.格式文檔中的信息的抽取裝置,包括輸入格式文檔的輸入單元(1);對輸入的格式文檔進行分析,並保持特殊排印信息的排印信息保持單元(2);對於分析的結果,利用字號、字體、顏色等排印信息來識別特殊字符串的特殊字符串判定單元(3);抽取識別出來的特殊字符串的特殊字符串抽取單元(4);以及輸出抽取出來的字符串的輸出單元(5)。
2.權利要求1所述的格式文檔中的信息的抽取裝置,其特徵在於,上述特殊字符串判定單元(3)利用格式文檔的排印信息,當判斷出某個字符串的排印信息為特殊排印信息時,將其判斷為特殊字符串。
3.權利要求1或2所述的格式文檔中的信息的抽取裝置,其特徵在於,上述格式文檔為HTML文檔,上述特殊字符串判定單元(3)根據對HTML文檔的分析結果,當判斷出某個字符串的字號與周圍相比為最大時將該字符串判斷為特殊字符串。
4.權利要求1或2所述的格式文檔中的信息的抽取裝置,其特徵在於,上述格式文檔為HTML文檔,上述特殊字符串判定單元(3)根據對HTML文檔的分析結果,當判斷出某個字符串的顏色和字體與周圍相比為特殊時將該字符串判斷為特殊字符串。
5.權利要求1或2所述的格式文檔中的信息的抽取裝置,其特徵在於,上述格式文檔為HTML文檔,上述特殊字符串判定單元(3)根據對HTML文檔的分析結果,當判斷出某個字符串的字體與其他不同且為粗字,與周圍相比為特殊時將該字符串判斷為特殊字符串。
6.權利要求1或2所述的格式文檔中的信息的抽取裝置,其特徵在於,上述格式文檔為HTML文檔,上述特殊字符串判定單元(3)根據對HTML文檔的分析結果,當判斷出某個字符串的顏色與其他不同且為粗字,與周圍相比為特殊時將該字符串判斷為特殊字符串。
7.格式文檔中的信息的抽取方法,包括以下步驟輸入格式文檔的步驟;對輸入的格式文檔進行分析,並保持特殊排印信息的步驟;對於分析的結果,利用字號、字體、顏色等排印信息來識別特殊字符串的步驟;抽取識別出來的特殊字符串的步驟;以及輸出抽取出來的字符串的步驟。
8.權利要求7所述的格式文檔中的信息的抽取方法,其特徵在於,在上述識別特殊字符串的步驟中利用格式文檔的排印信息,當判斷出某個字符串的排印信息為特殊排印信息時,將其判斷為特殊字符串。
9.權利要求7或8所述的格式文檔中的信息的抽取方法,其特徵在於,上述格式文檔為HTML文檔,在上述識別特殊字符串的步驟中根據對HTML文檔的分析結果,當判斷出某個字符串的字號與周圍相比為最大時將該字符串判斷為特殊字符串。
10.權利要求7或8所述的格式文檔中的信息的抽取方法,其特徵在於,上述格式文檔為HTML文檔,在上述識別特殊字符串的步驟中根據對HTML文檔的分析結果,當判斷出某個字符串的顏色和字體與周圍相比為特殊時將該字符串判斷為特殊字符串。
11.權利要求7或8所述的格式文檔中的信息的抽取方法,其特徵在於,上述格式文檔為HTML文檔,在上述識別特殊字符串的步驟中根據對HTML文檔的分析結果,當判斷出某個字符串的字體與其他不同且為粗字,與周圍相比為特殊時將該字符串判斷為特殊字符串。
12.權利要求7或8所述的格式文檔中的信息的抽取方法,其特徵在於,上述格式文檔為HTML文檔,根據對HTML文檔的分析結果,當判斷出某個字符串的顏色與其他不同且為粗字,與周圍相比為特殊時將該字符串判斷為特殊字符串。
全文摘要
格式文檔中的信息的抽取裝置,包括輸入格式文檔的輸入單元(1);對輸入的格式文檔進行分析,並保持特殊排印信息的排印信息保持單元(2);對於分析的結果,利用字號、字體、顏色等排印信息來識別特殊字符串的特殊字符串判定單元(3);抽取識別出來的特殊字符串的特殊字符串抽取單元(4);以及輸出抽取出來的字符串的輸出單元(5)。當判斷出某個字符串的排印信息為特殊排印信息時,將其判斷為特殊字符串。由此,能夠對於不同類型的格式文檔自動地進行信息的抽取。
文檔編號G06F17/27GK1400547SQ0112384
公開日2003年3月5日 申請日期2001年8月3日 優先權日2001年8月3日
發明者黃曉宏, 徐國偉 申請人:富士通株式會社