文檔圖像處理裝置以及文檔圖像處理方法
2023-08-02 14:58:06 2
專利名稱:文檔圖像處理裝置以及文檔圖像處理方法
技術領域:
本發明涉及將文檔作為圖像進行輸入並存儲的文檔圖像處理裝置以 及文檔圖像處理方法,特別是涉及具有對於所存儲的文檔圖像的檢索功能 的文檔圖像處理裝置以及文檔圖像處理方法。
背景技術:
一種利用圖像掃描儀等圖像輸入裝置將文檔轉換成圖像,並以電子形 式存儲,且在之後可以檢索的文檔歸檔裝置已經步入實用化。為了對作為圖像數據而讀取的文檔圖像進行檢索,需要進行對各個文 檔圖像人工附加用於檢索的索引信息的作業,非常消耗勞力。另夕卜,還提出有一種定位文檔圖像的文字區域(文本區域),進行OCR (Optical Character Reader )識別,並可利用文本內容來進行全文檢索的 裝置。作為利用了 OCR識別的以往技術,例如有日本國公開專利公報"特 開平7-152774號7>才艮"。但是,在OCR識別中,需要大量的計算,而存在消耗時間的問題。 並且,由於文字識別率也不高,所以存在著因錯誤識別而不能4皮檢索到的 可能性,從而造成檢索精度上的問題。另 一方面,在日本國公開專利公報"特開平10-74250號公報,,中,公開 了一種不釆用OCR識別即可自動進行全文檢索的技術。上述公報的構成中,準備好將預先利用圖像特徵對文字按照類似的每 一個文字分類到類似文字類別中的類別字典。然後,在登記文檔圖像時, 對文本區域(文字區域)的各文字不進行文字識別,而抽出圖像特徵,並 根據圖像特徵分類到文字類別中,將對按照每一個文字識別出來的類別列 與輸入圖像一同儲存。在進行檢索時,將檢索關鍵詞的各文字轉換為對應 的類別,且將在一部分中包含被轉換的類別列的文檔圖像作為檢索結果取 出。而且,作為基於該構成的效果,記載了可提供一種在文檔登記時能夠 以少的計算機能力高速地進行登記處理,並且在檢索時可實現遺漏少的檢索的文檔歸檔裝置。但是,上述特開平10-74250號公報的構成中存在以下的問題。即,根據上述公報的構成,對各類似文字類別,決定屬子該類似文字 類別的文字的特徵矢量的平均,即代表矢量,並且將屬於該類似文字類別 的文字的文字代碼中的任意一個決定為代表文字代碼。而且,在登記文檔圖像時,將位於文檔圖像的文本區域中的各個文字 圖像的特徵矢量與上述類似文字類別的代表矢量進行匹配,而識別出屬於 每個文字的類似文字類別。位於文本區域中的文字圖傳4皮置換為所識別出 的類似文字類別的代表文字的文字代碼,並作為代表文字代碼列來儲存。但是,在這樣的與代表矢量之間進行匹配的方法中,雖然可多少減少 計算量,但是不如對各文字的特徵矢量直接進行匹配的構成那樣,能得到 正確的匹配結果。因此,存在著漏檢索的可能性。另外,這樣的進行匹配 作業以及接下來的製作索引的作業,由於一般是脫機作業,所以對於用戶 而言不起多大效果,而優選為能夠實現正確的匹配。另外,在檢索中也存在著問題。即,在檢索時,參照文字代碼、類別 對應表,並將檢索關鍵詞轉換成包含其文字的類別的代表文字代碼列。然 後,從由所登記的文檔圖像中得到的代表文字代碼列中,具體是採用利用 代表文字代碼列製作的索引,來檢索從關鍵詞轉換的代表文字代碼列。但是,在將檢索關鍵詞轉換成代表文字代碼列來進行的檢索中,不能 分析到類似文字類別中的位置。因此,屬於相同類似文字類別內的各文字, 類似度高的和類似度低的都呈現相同的相關程度,因此不能從相關性高的 文檔圖像開始按順序正確地進行提示。發明內容本發明的目的是,提供一種不採用OCR識別即可實現不經用戶的手 動操作的索引製作功能,並且可進行高精度檢索的文檔圖像處理裝置和文 檔圖像處理方法。為了達到上述目的,本發明提供一種文檔圖像處理裝置,其特徵在於, 具有字形特徵字典,其以單個文字為單位儲存有文字圖像的圖像特徵; 文字列抽出部,其以由多個文字構成的文字列為單位,抽取出所輸入的文 檔圖像中存在的文字圖像;圖像特徵抽出部,其將由上述文字列抽出部抽取出的文字列的文字圖像按單個文字進行分割,並抽出各個文字圖像的圖像特徵;特徵匹配部,其基於由上述圖像特徵抽出部抽出的文字圖像的圖 像特徵,從上述字形特徵字典中,按圖像特徵匹配度從高到低的順序,選 擇出N個(N>1的整數)文字圖像作為候補文字,且將上述文字列的文字 數設為M個(M>1的整數),在該場合下,製作MxN維索引矩陣;索引 信息儲存部,其將由上述特徵匹配部製作的索引矩陣與上述所輸入的文檔 圖像相對應地進行儲存;檢索部,其在檢索時,以所輸入的檢索式中的構 成檢索關鍵詞的單個檢索文字為單位,檢索上述索引信息儲存部,並取出 具有包含檢索文字的索引矩陣的文檔圖像。根據上述構成,圖像特徵抽出部將由文字列抽出部定位並抽取出的文 檔圖像的文字列的圖像按單個文字進行分割,並抽出各文字圖像的圖像特 徵。然後,圖像特徵部基於該圖像特徵,從以單個文字為單位儲存有文字 圖像的圖像特徵的字形特徵字典中,按照圖像特徵匹配度從高到低的順 序,選擇出N個(N>1的整數)的文字圖像作為候補文字,並製作抽取出 的文字列的文字數MxN維的索引矩陣。製作的索引矩陣與所輸入的文檔圖像相對應地儲存到索引信息儲存 部中,在進行檢索時,該索引矩陣被作為用於檢索文檔圖像的索引信息加 以利用。由此,不需要用戶的手動操作,而且也不需要採用OCR識別,即可 自動地定位文檔圖像的文字區域中存在的文字列,且利用定位的文字列的 圖像特徵來生成文檔圖#^的索引信息。而且,由於抽出各文字圖像的圖像特徵,並選擇多個與圖像特徵用相 近似的候補文字,所以通過適當地設定選擇的候補文字數,可以進行無識 別遺漏的正確的檢索,且不會像OCR識別那樣在文字識別中消耗時間。另外,由於字形特徵字典是以全部的單個文字的文字圖像的圖像特徵 為單位製作成的,且特徵匹配部將所抽取出的文字列的圖像分割成單個文 字的文字圖像,並採取圖像特徵的匹配,所以所生成的索引矩陣的精度高。在檢索時,檢索部以所輸入的檢索式中的構成檢索關鍵詞的l個檢索文字為單位,檢索索引信息儲存部,並取出具有包含檢索文字的索引矩陣 的文檔圖4象。這樣,通過以構成檢索關鍵詞的檢索文字為單位來分析索引矩陣,並檢索出包含檢索關鍵詞的索引矩陣,可以保證基於單個文字檢索的全面性 的檢索。關於本發明的其他目的,特徵以及優點,可以通過以下的說明得到充 分的理解。另外,通過參照附圖的以下說明,可以了解本發明的優點。
圖l是表示本發明的一個實施方式的圖,是表示文檔圖像處理裝置的 功能的功能方框圖。圖2是本實施方式的文檔圖像處理裝置的構成圖。 圖3是表示製作字形樣板資料庫的處理的說明圖。 圖4是文字圖像外圍特徵的說明圖。 圖5 ( a )和圖5 ( b )是網格方向特徵的說明圖。 圖6是表示製作字形特徵字典的處理的說明圖。 圖7是表示製作索引信息資料庫的處理的說明圖。 圖8是採用具體例來表示製作索引矩陣的處理的說明圖。 圖9是表示文檔圖像例、和索引信息資料庫中的該文檔圖像的索引信 息的數據配置例的說明圖。圖IO是表示檢索部的功能和檢索處理的說明圖。 圖11是表示檢索部中的檢索順序的流程圖。圖12是表示計算出檢索關鍵詞與索引矩陣之間的相關度的方法的說明圖。圖13是採用具體例來表示檢索關鍵詞與索引矩陣之間的相關度的計 算的說明圖。圖14是表示附帶詞彙分析功能的檢索處理的說明圖。
具體實施方式
本發明涉及基於圖像的特徵識別和匹配技術的文檔圖像的索引生成 和檢索。而且,作為更好的實施方式,在此,對根據文檔圖像的重要文字 區域而生成文檔圖像的索引信息,並對所生成的索引信息進行檢索的方法 以及裝置進行說明。下面,基於圖1~圖14,對本發明涉及的一個實施方式進行說明。另 外,本發明不限於此。圖2是本實施方式的文檔圖像處理裝置的構成圖。在圖2中,l是鍵 盤,其用於檢索關鍵詞的輸入,以及後述的候補文字數、相關值、行的相 關度加權因數Q等的設定值變更。2是圖像掃描儀,且用於取得文檔圖像。另外,文檔圖像的取得不限 於圖像掃描儀2,也可以通過網絡等進行通信來取得。另外,也可以進行 採用了圖像掃描儀2的檢索關鍵詞的輸入。3是輸出檢索到的文檔圖像並進行顯示的顯示裝置。在所顯示的內容 中,還包含相關度的信息和圖像名稱等信息。4是處理器,其實際進行如下處理從文檔圖像中抽取出成為檢索要 點的重要區域的文檔圖像特徵抽出處理;製作能夠對文檔圖像進行檢索的 索引信息的索引信息生成處理;採用所製作的索引信息的檢索處理。5是 儲存有用於使處理器4進行實際的處理的軟體等的外部存儲裝置。上述處理器4中的實際的處理是根據儲存在外部存儲裝置5中的軟體 來執行。處理器4例如由通常的計算機主體等構成。在本實施方式中,處 理器4還實施字形特徵字典製作處理,該處理用於製作在索引信息生成處 理中釆用的後述的字形特徵字典15 (參照圖1)。外部存儲裝置5例如可以由能夠高速存取的硬碟等構成。外部存儲裝 置5為了保存大量的文檔圖像,也可以構成為採用光碟等大容量設備的構成。利用該外部存儲裝置5,來構成後述的字形特徵字典15、索引信息數 據庫17、文檔圖像資料庫19、字形樣板資料庫13等。圖1是表示本發明的一個實施方式的圖,是表示文檔圖像處理裝置的 功能的功能方^f匡圖。如圖l所示,本實施方式的文檔圖像處理裝置包含文字資料庫輸入 部(文字DB輸入部)11、字體正規化處理部12、字形樣板資料庫(字形 樣板13、文字圖像特徵抽出部(圖像特徵抽出部)14、字形特徵字 典15、特徵匹配部16、索引信息資料庫(索引信息DB:索引信息儲存部) 17、重要區域初始處理部(文字列抽出部)18、文檔圖像資料庫(文檔圖 像1)B) 19、文檔圖像特徵資料庫(文檔圖像特徵DB) 20、文檔圖像輸入 部21、檢索部22、詞彙解析部23、關鍵詞輸入部24、和檢索結果顯示部 25。其中,由文字DB輸入部ll、字體正規化處理部12、字形樣板DB13、 文字圖像特徵抽出部14、字形特徵字典15來構成上述的實施字形特徵字 典製作處理的字形特徵字典生成部30。首先,對構成字形特徵字典生成部30的上述功能框11、 12、 13、 14、 15進行說明。文字DB輸入部11是用於輸入為製作字形特徵字典所必要的、成為基 礎的文字資料庫的輸入部。如果本裝置例如是對應於中文的裝置,則輸入 中華人民共和國的GB2312的6763個的全部文字。另外,如果本裝置是對 應於日語的裝置,則輸入JIS第一標準的約3000字種等。這樣的文字DB 輸入部ll由處理器4構成,並通過記錄媒體或網絡等來提供文字資料庫。字體正規化處理部12是對由文字DB輸入部11輸入的文字資料庫中 所包含的全部文字,製作不同字體和大小的文字圖像的部分。將不同字體 和大小的文字圖像儲存在字形樣板DB13中。圖3表示字體正規化處理部12製作字形樣板DB13的處理。在字體正 規化處理部12中,如果本裝置是對應於中文的裝置,則具有例如宋體、仿 宋體、黑體、楷體等的字形樣板12a。另外,如果本裝置是對應於日語的 裝置,則具有MSMincho、 MS Gothic…等字形樣板。字體正規化處理部12中的變形處理部12b,對文字資料庫的文字進行 圖《象化,並對文字圖4象進^f亍標準化處理。然後,變形處理部12b參照字形 樣板12a,對標準化處理後的文字圖像實施變形處理,並進一步改變為不 同字體和大小的文字圖像。變形處理中,包括例如模糊化處理、擴大/縮小 化處理、細微化處理等。字體基準部12c將這樣變形處理後的文字圖像作 為基準文字圖像儲存到字形樣板DB13中。在字形樣板DB13中,針對文字資料庫的所有文字,即使是相同的文 字,也儲存有對應每個由字體、大小決定的字形的基準文字圖像。如果舉 例說明,則,即使文字種類都是"中",也存在僅相當於所決定的字體的數 量的不同形狀的基準文字圖像的"中",另外,還儲存有僅相當於所決定的 大小的數量的不同大小的基準文字圖像的"中"。文字圖像特徵抽出部14是抽出文字圖像的特徵(圖像特徵),並儲存 到字形特徵字典15中的部分。在本實施方式中,文字圖像特徵抽出部14 根據文字圖像外圍特徵與網格方向的組合,來抽出文字圖像的特徵,並設 為特徵矢量。另外,文字圖像的特徵不限於這些,也可以抽出其他特徵來形成特徵矢量。這裡,預先對文字圖像外圍特徵和網格方向特徵進行說明。圖4是文 字圖像外圍特徵的說明圖。所謂文字囝像外圍特徵是指從文字囝像的外部 觀察的輪廓的特徵。如圖4所示,從文字圖像的外接矩形的4邊進行掃描, 並將從白像素變化為黑像素時的點為止的距離作為特徵,取出最初變化的 位置和第二次變化的位置。例如,在將外接矩形分割成X行Y列的場合下,以行為單位分別從左 方向和右方向掃描圖像,以列為單位分別從上方向和下方向掃描圖像。另 外,圖4是表示以行為單位從左進行掃描的圖。另外,在圖4中,用實線箭頭l表示最初從白像素變化為黑像素時的 點為止的掃描軌跡。虛線箭頭2表示第二次從白像素變化為黑像素時的點 為止的掃描軌跡。實線箭頭3表示最終也未能檢測到從白像素變化為黑像 素的點的情況下的掃描軌跡,在此場合下,距離值為0。另一方面,圖5 (a)、 (b)是網格方向特徵的說明圖。將文字圖像分 割成粗網格,對各格子區域內的黑像素,向預先確定的多個方向延伸觸手。 然後,對在各個方向上連接的黑像素的像素數進行計數,並將表示該黑像 素按各方向成分的分布狀況的方向影響度,作為識別函數採用歐幾裡得距 離,並利用與黑像素數之差相應的值,對距離值進行除法運算,而計算出 距離值。在圖5(a)中,將文字圖像分割成4x4共16個格子,且以在X軸方 向上最接近于格子交點的從黑像素變化為白像素的點為中心,向X軸方向 (0° )、 45°方向、Y軸方向(90。)的3個方向延伸觸手。在本實施例中,將文字圖像分割成8x8的4角的網格,並如圖5(b) 所示,向0° 、 45° 、 90° 、 135° 、 180° 、 225° 、 270° 、 315°這8個方向延伸觸手。另外,作為網格方向的特徵的抽出方法,有設置觸手的延伸方向、延 伸觸手的中心點的方法等各種方法,例如記栽在日本國公開專利公報"特開 2000-181994號7/^艮,,等中。文字圖像特徵抽出部14,對儲存在文字形狀樣板DB13中的所有的基 準文字圖像進行這樣的文字圖像的特徵的抽出。然後,文字圖像特徵抽出 部14將儲存在字形樣板DB13中的基準文字圖像的抽出結果儲存到字形特 徵字典15中,而生成字形特徵字典15。圖6表示製作基於文字圖像特徵抽出部14的字形特徵字典15的處理。 文字圖像特徵抽出部14中的字形標準化部14a從字形樣板DB13中取出基 準文字圖像,文字圖像特徵取出部14b從由字形標準化部14a取出的基準 文字圖像中取出其特徵。然後,特徵分類部14c參照字形樣板DB13,對 從按每個基準文字圖像抽出的特徵進行分類並儲存到字形特徵字典15中。在文字圖像特徵取出部14b中,如上述那樣,按每個單個文字,求出 基於帶加權的不同基準文字圖像的特徵的適應值,並取得基準文字圖像的標準特徵。文字圖像特徵取出部14b通過對不同字體字號進行加權,可製作不同 的字形特徵字典。通過融合多字體的圖像特徵,且以單個文字圖像特徵為 單位來製作字形特徵字典,可滿足多字體/字號文檔圖像的自動檢索和管理。下面,說明構成實施文檔圖像特徵抽出處理的文檔圖像特徵抽出部31 的文檔圖像DB19、文檔圖像特徵DB20、重要區域初始處理部18、文字 圖像特徵抽出部14。文檔圖像DB19是在由文檔圖像輸入部21輸入文檔圖像時,對其附加 用於識別的文檔ID並進行保存的資料庫。重要區域初始處理部18是在文檔圖像DB19中保存了新的文檔圖像 時,根據其圖像數據來定位並抽出文檔圖像中的重要區域,然後將文字圖 像送到上述的文字圖像特徵抽出部14的。圖9表示對文檔圖像50以Tl、 T2、 T3這3個區域定位為重要區域的 狀態。根據該圖9也可以看出,將文檔圖像50中的標題部分作為重要區域 T抽出。由重要區域初始處理部18抽出並送到文字圖像特徵抽出部14的文字 圖像,通常是包含多個文字的文字列的圖像。從而,在以下的說明中,將 由重要區域初始處理部18送來的文字圖像設為文字列的圖像。在本實施方式中,重要區域初始處理部18利用投影法和連通區域統計 分析來進行重要區域T的定位和抽出。另外,這樣的重要區域T主要相當 於標題部分,例如可以採用在日本國公開專利公報"特開平9-319747號公 報"、日本國公開專利公報"特開平8-153110"等所記栽的方法等各種以往的方法。由於不是將文檔圖像的全部文字區域(文本區域)作為對象,而是如上所述僅將標題部分等的重要區域T定位並抽出,所以可減少成為檢索對 象的信息量,並縮短檢索時間。其中,不是對全部的文本區域進行定位而僅對標題部等的重要區域進 行定位的事項,並不是必須的構成要素。即,也可以對全文的文本區域進 行定位並抽出。文字圖像特徵抽出部14,對於從重要區域初始處理部18輸入的文字 列的圖像,分割成單個文字的文字圖像,然後與字形特徵字典15的製作時 同樣,抽出各文字圖像的特徵。然後,將抽出的特徵,在文檔圖像特徵DB20 中掩爭個文檔圖像進行儲存。在文檔圖像特徵DB20中,由重要區域初始處理部18抽出的重要區域 T中所包含的文字列的圖像的特徵信息,作為構成文字列的各文字的各自 的特徵(特徵矢量)而被儲存。如圖9所示,對於1個文檔圖像50,將在所抽出的全部重要區域T1、 T2、 T3…中所包含的文字列的文字圖像的特徵,即構成文字列的各文字的 文字圖像的特徵,與文檔圖像50的文檔ID—同儲存。下面,說明構成實施索引信息製作處理的索引信息生成部32的文字圖 像特徵抽出部14、字形特徵字典15、特徵匹配部16、索引信息DB17、文 檔圖^象特徵DB20。文字圖像特徵抽出部14、字形特徵字典15、文檔圖像特徵DB20的功 能,與上述的說明相同。特徵匹配部16是從文檔圖像特徵DB20中讀出在文檔圖像的重要區域 T中所包含的文字圖像的特徵,基於該讀出的特徵,參照字形特徵字典15, 如後述那樣製作索引矩陣,並生成文檔圖^^的索引信息的部分。這裡,對應l個文檔圖像生成l個索引信息,並按每個重要區域T制 作索引信息中所包含的索引矩陣。從而,在l個文檔圖像內存在多個重要 區域的場合下,在該文檔圖像的索引信息中包含多個索引矩陣。圖7表示製作索引信息DB17的處理。如上所述,當某個文檔圖像被 輸入並被儲存到文檔圖像DB19中時,文字圖像特徵取出部14b抽出在各 個重要區域T中所包含的文字列的文字圖像的特徵,並儲存到文檔圖像特 徵DB20中。特徵匹配部16從文檔圖像特徵DB20中讀出各個重要區域T中所包 含的文字列的圖像的特徵,且M個單個文字與字形特徵字典15內的基準 文字圖像進行匹配,而製作重要區域T各自的索引矩陣。然後,特徵匹配部16將該文檔圖像的其他信息,即文檔ID和文檔圖 像DB19內的該當的文檔圖像的保存位置的信息等包含在這些索引矩陣 中,而作為索引信息儲存到索引信息DB17中。圖8表示基於特徵匹配部16的製作索引矩陣的處理的一例。圖8是說 明針對圖9中的重要區域T3中所包含的文字列"去神仙居住的地方"這8 個文字圖像,製作索引矩陣的說明圖。文字列"去神仙居住的地方"被分割成單個文字圖像"去""神""仙" "居""住""的""地""方"。將這樣的文字列的圖像分割成單個文字的圖像的處理,可利用以往的方法。在"去"..."方"這8個文字中,按照排列順序附加1 8的編號,即 對"去"附加l、對"神"附加2、…對"方"附加8。該編號相當於索引 矩陣的行編號。對這樣的所有的8個文字圖像,實施如下的處理,即取出針對被儲 存在圖8中參照符號A所示的文檔圖像特徵DB20中的文字圖像"去"的 特徵(Sl ),並參照字形特徵字典15,按照特徵相近(匹配度高)的順序, 選擇N個候補文字(S2 )。對按照匹配度從高到低的順序抽出的N個候補文字,附加與抽出順序 相應的編號,該編號相當於索引矩陣的列編號。然後,才艮據該列編號,來文字相關值(相關值)。在圖8中,由參照符號IOO所表示的表表示文字列"去神仙居住的地方" 的索引矩陣的內容。例如,對於第5個文字的"住"的文字圖像,在行編 號為5的行中,從匹配度高的第1列,順序地抽出"任"、"佳"、"住"、…、 "仁,,的候補文字。在表100中,例如候補文字"去"的索引矩陣內的位 置是[l, l],候補文字"屑"的位置是[4, 2],候補文字"仁"的位置是 [5, N]。另外,在圖8的表100中,為了有助於理解,對於與文字列的各文字 對應的候補文字附加 進行表示。對於這樣的索引矩陣的行數M,根據由重要區域初始處理部18作為 重要區域T而抽出的文字列的圖像的文字數來決定。另外,列數N是根據 針對1個文字所選擇出的候補文字數來決定。從而,根據本發明,可通過 改變索引矩陣的維數(列數),來靈活地設定索引矩陣內的要素數,即候 補文字數量。因此,在文檔圖像的檢索中,可以進行正確且幾乎無遺漏的 檢索。
在索引矩陣中,可以與檢索關鍵詞的輸入方法相應地適當設定所選擇 的候補文字的信息賦予方式。例如,如果是由鍵盤l來輸入檢索關鍵詞的 構成,則以文字代碼等信息的形式儲存候補文字,從而能夠對從鍵盤輸入 的檢索關鍵詞進行檢索。
另外,如果是採用圖像掃描儀2等以圖像數據的形式輸入檢索關鍵詞 的構成,則也可以抽出檢索關鍵詞的特徵(特徵矢量),以特徵(特徵矢 量)信息的形式儲存候補文字,從而能夠對特徵矢量彼此進行比較。
圖9表示索引信息DB17中的索引信息的數據配置例。在存在多個重 要區域T1、 T2、 T3、…、Tn的文檔圖像50的索引信息中,針對多個重 要區域T1、 T2、 T3、…、Tn製作的索引矩陣配置成線形。在圖9的例中, 文檔ID被配置在先頭,接下來配置多個索引矩陣,最後配置保存位置的 信息。這裡,5xN表示索引矩陣的大小,表示5行N列的情況。
通過預先將索引信息進行這樣的數據配置,可以迅速地定位文檔圖像 DB19內的文檔圖像的儲存位置、和文檔圖像中的重要區域T的位置,並 用於檢索結果的顯示。
另外,也可以根據實際要求,在索引信息中追加文檔圖像的其他屬性。
下面,對實施採用了索引信息的檢索處理的檢索部22進行說明。圖 10是表示檢索部22的功能和檢索處理的說明圖。檢索部22包含索引矩 陣檢索處理部22a、文字相關值保存部(保存部)22b、相關度計算部22c、 顯示順序決定部(順序決定部)22d、以及文檔圖像抽出部22e。
對於索引矩陣檢索處理部22a,由關鍵詞輸入部24輸入檢索關鍵詞。 作為關鍵詞輸入部24,相當於上述的鍵盤1或圖像掃描儀2等。
索引矩陣檢索處理部22a是對索引信息DB17進行檢索,而檢索出包 含所輸入的檢索關鍵詞的索引矩陣的部分。索引矩陣檢索處理部22a將檢 索關鍵詞分割成單個文字,搜索包含各檢索文字的索引矩陣,在包含檢索 文字的場合下,取得該檢索文字在索引矩陣內的匹配位置的信息。另外,關於索引矩陣的抽出順序例,將在下面採用圖11的流程圖來進行說明。
文字相關值保存部22b是保存由索引矩陣檢索處理部22a取得的匹配 位置的信息、和與該匹配位置的列編號相應的文字相關值的部分。
相關度計算部22c是在索引矩陣檢索處理部22a中完成了對全部索引 矩陣的檢索時,計算出所檢索出的索引矩陣與檢索關鍵詞之間的相關度的 部分。
相關度的計算,是採用被保存在文字相關值保存部22b中的匹配位置 和文字相關值的信息,並按照預先設定的相關度計算方法來進行計算的。 關於相關度的計算,將在下面採用圖12、圖13來進行說明。
另外,這裡,構成為文字相關值保存部22b保存匹配位置的信息、和 與該匹配位置的列編號相應的文字相關值,但也可以構成為文字相關值 保存部22b只保存匹配位置,相關度計算部22c由匹配位置的信息取得文 字相關值。
顯示順序決定部22d是基於由相關度計算部22c計算出的相關度的信 息來決定顯示順序的部分。顯示順序決定部22d按如下方式決定顯示順序, 即從包含相關度高的索引矩陣的文檔圖像開始,依次在檢索結果顯示部 25中顯示文檔圖像的內容。
文檔圖像抽出部22e是,以按照由顯示順序決定部22d所決定的順序 顯示文檔圖像的方式,從文檔圖像DB19中讀出文檔圖像的圖像數據,並 輸出到檢索結果顯示部25來進行顯示。
檢索結果顯示部25按照顯示順序來顯示文檔圖4象。也可以採用縮略圖 顯示等的方式。作為檢索結果顯示部25,相當於上述的顯示裝置3等。
這裡,說明檢索順序。圖11是表示檢索部22中的檢索順序的流程圖。 當輸入了由R個文字列構成的檢索關鍵詞,並指示進行檢索時,索引矩陣 檢索處理部22a首先取出檢索關鍵詞的第1個檢索文字(Sll )。
然後,索引矩陣檢索處理部22a對索引信息DB17內的全部索引矩陣 進行第1個檢索文字的檢索(S12)。
在完成了對全部索引矩陣的檢索時,判斷是否檢索到笫1個檢索文字, 在l個也沒有檢索到的場合下,轉移到S19,在檢索到的場合下進入S14。
在S14中,索引矩陣檢索處理部22a將包含第l個檢索文字的索引矩 陣中的匹配位置和文字相關值保存到文字相關值保存部22b中。接著,索引矩陣檢索處理部22a取出包含有第l個檢索文字的全部的 索引矩陣(S15)。然後,取出作為檢索關鍵詞的下一個文字的第2個檢索 文字,並對在S15中取出的包含有第1個檢索文字的索引矩陣進行檢索 (S16)。
在完成對在S15中取出的全部索引矩陣的檢索時,判斷是否檢索到第 2個檢索文字(S17)。在1個也沒有檢索到的場合下,與上述同樣地轉移 到S19,在檢索到的場合下進入S18。
在S18中,索引矩陣檢索處理部22a將包含有第2個檢索文字的索引 矩陣中的匹配位置和文字相關值保存到文字相關值保存部22b中。
接下來,索引矩陣檢索處理部22a再次返回到S16,取出作為檢索關 鍵詞中的再下一個文字的第3個檢索文字,並對在S15中取出的包含有第 1個檢索文字的索引矩陣進行檢索。
然後,在這裡,也在完成檢索時,索引矩陣檢索處理部22a判斷是否 檢索到第3個檢索文字(S17),在1個也沒有檢索到的場合下,轉移到S19, 在檢索到的場合下,再次itX S18,進行關於檢索關鍵詞的再下一個檢索 文字的檢索。
索引矩陣檢索處理部22a, —直進行這樣的S16 S18的處理,即以在 S15中抽出的包含有第1個檢索文字的索引矩陣為對象的、第2個以後的 各檢索文字的收縮檢索,直到在S17中判斷為l個也沒有檢索到、或完成 了對檢索關鍵詞內的全部檢索文字的檢索為止,然後轉移到S19。
在S19中,取出作為檢索關鍵詞中的下一個文字的第2個檢索文字。 然後,判斷檢索文字是否都已被檢索,即,是否完成了對全部的檢索文字 的檢索(S20),在未完成的場合下,返回到S12。
然後,與上述同樣,索引矩陣檢索處理部22a對索引信息DB17內的 全部索引矩陣進行第2個檢索文字的檢索。在檢索到的場合下,保存索引 矩陣的匹配位置和文字相關值,然後iiXS15,對包含有第2個檢索文字 的全部索引矩陣,針對檢索關鍵詞的下一個文字,即作為第2個之後的第 3個以後的各個檢索文字,反覆進行S16 S18,從而進行收縮檢索。
索引矩陣檢索處理部22a,對第3個以後的各檢索文字依次進行如下 處理,即在S19中進行對一個檢索文字的如上述的檢索,並取出包含進 行檢索的檢索文字的索引矩陣,且用其以後的檢索文字來進行收縮檢索。然後,在由S19取出了檢索關鍵詞內的全部檢索文字,並且由S20判 斷為完成了對全部檢索文字的檢索的場合下,進入S21。
在S21中,相關度計算部22c如後述那樣根據相關度基準,來計算出 檢索關鍵詞與各索引矩陣的相關度。
然後,顯示順序決定部22d以從包含相關度高的索引矩陣的文檔圖像 開始進行顯示的方式決定顯示順序,文檔圖像抽出部22e從文檔圖像DB19 中取得文檔圖像的圖像數據,檢索結果顯示部25按相關度高的順序來顯示 文檔圖像(S22)。
接下來,採用圖12、圖13,對相關度計算部22c中的根據相關度基準 來計算索引矩陣與檢索關鍵詞的相關度計算方法進行說明。
在圖12的參照符號101的方框中,記栽有檢索條件。而且,在參照符 號102的方框中,記栽有用於計算相關度的某個假設的檢索關鍵詞與索引 矩陣的相對關係。在方框101所示的檢索條件下,在檢索關鍵詞與索引矩 陣為如方框102所示的相對關係的場合下,可以通過由方框103所示的計 算式來計算出檢索關鍵詞與索引矩陣的相關度。
首先,對方框101的檢索條件進行說明。檢索關鍵詞的文字數為R個, 第1個檢索文字為C1、第2個為C2、、第R個為Cr。
成為檢索對象的索引矩陣為MxN維矩陣。即,作為重要區域T而抽 取出的文字列圖像的文字數為M個,作為文字列的各文字的各個候補而選 擇出的候補文字數為N個。
由於作為檢索文字與^^類補文字的相關值的文字相關值,是相應於索 引矩陣的各位置來決定的,所以成為與索引矩陣相同維數的矩陣。即,文 字相關值矩陣的權重為MxN維矩陣。例如,權重[i] [j]表示位於索引矩陣 中的位置[i, j] ( = Index[i, j])上的候補文字匹配的場合下的文字相關值。 在本實施方式中,如果索引矩陣的列編號[j]相同,則與行編號[i]無關, 文字相關值相同。
行的相關度加權因數Q是在索引矩陣中相鄰的2行中檢索文字匹配的 場合下,對這些2行的文字相關值附加的加權。在相鄰的2行中檢索文字 匹配的場合下,包含檢索關鍵詞的連續的2個文字的可能性大。
在將行的相關度加權因數Q設定得高時,對於相關度計算部計算 出的相關度的影響度,在連續匹配的2行的文字相關值中變大,但是在不相鄰的各行的文字相關值中變小。即,通過將行的相關度加權因數Q設定 得高,接近以詞彙為單位進行檢索的結果,反之,通過將行的相關度加權 因數Q設定得小,接近以單字為單位進行檢索的結果。
將檢索文字Cl匹配的文字相關值表示為Wl,將檢索文字C2匹配的 文字相關值表示為W2,…,將檢索文字Cr匹配的文字相關值表示為Wr。
接下來,對方框圖102所示的為了計算相關度而假設的檢索關鍵詞與 索引矩陣之間的相對關係進行說明。
檢索關鍵詞與索引矩陣之間具有全部的檢索文字C1, C2,…,Cr與 索引矩陣內的任意候補文字相匹配的關係。將檢索文字Cl, C2,…,Cr 匹配的^l^矣補文字在索引矩陣內的位置,即匹配位置表示為[Cli, Clj]、 [C2i, C2j],…,[Cri, Crj]。
而且,作為進一步的相對關係,具有方框102所示的式(1)的關係,
即
C (k+l ) i = Cki+l, C (m+l) i = Cmi+l (m>k)
在該式中,k、 m表示構成檢索關鍵詞的各檢索文字的相對位置。另 外,C (k+l ) i表示與檢索關鍵詞的第k+l個檢索文字匹配的候補文字的 索引矩陣內的行編號,Cki表示與檢索關鍵詞的第k個檢索文字匹配的候 補文字的索引矩陣內的行編號。
從而,C (k+l ) i = Cki+1表示與檢索關鍵詞的第k+l個檢索文字匹 配的候補文字在索引矩陣內的行編號,和在與檢索關鍵詞的第k個檢索文 字匹配的候補文字在索引矩陣內的行編號上加1的編號相同。換言之,C (k+l) i = Cki+1表示檢索關鍵詞的第k+l個檢索文字和第k個檢索文字 具有分別與索引矩陣中的相鄰的2行相匹配的關係。
C ( m+l ) i = Cmi+l也同樣,表示檢索關鍵詞的第m+l個檢索文字和 第m個檢索文字具有分別與索引矩陣中的相鄰的2行相匹配的關係。
在檢索關鍵詞與索引矩陣具有這樣的相對關係的場合下,可以通過方 框103所示的式(2)來計算出檢索關鍵詞與索引矩陣的相關度。
SimDegree = Wl+W2+…+W ( k-l) + Q * (Wk+W (k+l)) +…
+W ( m-l) +Q * (Wm + W ( m+l)) +…十Wr
在該式中,Wl是第1個檢索文字Cl匹配的文字相關值,W2是第2個檢索文字C2匹配的文字相關值,W (k-l)是第(k-l)個檢索文字C (k-l)匹配的文字相關值。同樣,W (k)是第k個檢索文字Ck匹配的 文字相關值,W (k+l)是第(k+l)個檢索文字C (k+l)匹配的文字相 關值。另外,W (m-l)是第(m-l)個檢索文字C (m-l)匹配的文字相 關值。同樣,W (m)是第(m)個檢索文字C (m)匹配的文字相關值, W (m+l)是第(m+l)個檢索文字C (m+l)匹配的文字相關值,另夕卜, 最後的Wr是第r個的最後的檢索文字Cl匹配的文字相關值。這樣,在相關度的計算中,構成檢索關鍵詞的全部檢索文字的文字相 關值W被累加(累計)計算。而且,在式(2)中的Q * (Wk+W (k+l))表示由於檢索關鍵詞 中的第k個檢索文字Ck和第(k+l)個檢索文字C (k+l)分別與索引矩 陣中的相鄰的2行相匹配,所以對文字相關值Wk和文字相關值W(k+1 ) 乘以行的相關度加權因數Q。關於0* (Wm + W (m+l))也同樣。另外,檢索關鍵詞的第k-l個檢索文字與第k個檢索文字,由於不具 有與相鄰的2 4亍相匹配的關係,所以對W (k-l )和Wk雙方不乘以相關 度加權因數Q。關於W (m-l)和Wm也同樣。另夕卜,由於圖12的方框102所示的檢索關鍵詞與索引矩陣的相對關係 中,具有全部的檢索文字C1、 C2、…、Cr與索引矩陣內的任意候補文字 相匹配的關係,所以在式(2)中,將Wl Wr的全部的檢索文字的文字相 關值累計計算。但是,這只是一例,例如,在雖然具有式(1)的相對關係,但檢索文 字Cl和檢索文字Cr不與索引矩陣內的任意候補文字相匹配的場合下,計 算相關度的計算式為如下計算式,相應於累積項的減少,當然其相關度會 降低。formula see original document page 20另外,在具有全部檢索文字C1、 C2、…、Cr與索引矩陣內的任意候 補文字相匹配的關係,並且,具有檢索關鍵詞的第k+l個檢索文字和第k 個檢索文字、以及第k+2個檢索文字和第k+l個檢索文字分別與相鄰的2 行相匹配的關係的場合下,計算相關度的計算式為如下計算式。formula see original document page 20+ Q * (Wk+W (k+l) +W (k + 2))…+WR在該場合下,由於檢索關鍵詞的第k-l個檢索文字和第k個檢索文字 不具有與相鄰的2 ^f亍相匹配的關係,所以對W (k-l)和Wk雙方不乘以 相關度加權因數Q。下面,採用圖13,對相關度計算的具體例進行說明。這裡,求出圖8 所示的文字列"去神仙居住的地方"的索引矩陣(參照表100)與檢索關鍵 詞"神仙"的相關度。圖13的方框104表示檢索條件。相關值矩陣Weight是MxN維,文 字相關值是Weight[i] = [1, l-l/N, l-2/N,…,1/N] (i = 0, 1,…,M-l ), 行的相關度加權因數Q。檢索關鍵詞"神仙,,分別被分割成第1個檢索文字"神"和第2個檢索文 字"仙",對於這兩個字,分別在索引矩陣內的候補文字中進行檢索。參照圖8的表100可看出,檢索文字"神"與索引矩陣中的位置[i、 j] 的[2、 2]相匹配,檢索文字"仙,,與索引矩陣中的[3、 l]相匹配。從而,如方框105所示,檢索文字"神"的文字相關值為(l-l/N),檢 索文字"仙"的文字相關值為1。而且,檢索文字"神,,的行編號為[2],檢索文字"仙"的行編號為[3], 如圖8的表100所示,這2個檢索文字分別與索引矩陣中的相鄰的2行相匹配。從而,如方框106所示那樣,對檢索文字"神"的文字相關值(l-l/N) 和檢索文字"仙"的文字相關值1乘以行的相關度加權因數Q,檢索關鍵詞 的"神仙,,與文字列"去神仙居住的地方"的索引矩陣之間的相關度為 SimDegree = Q * ((l-l/N) +1 )。檢索關鍵詞與索引矩陣之間的相關度,通過按照用戶的要求靈活地調 整相關值矩陣中的加權(文字相關值)和行的相關度加權因數Q等的參數, 可以獲得更理想的檢索結果。用戶可採用鍵盤1等,相應於需要而適當設定相關值矩陣中的加權(文 字相關值)和行的相關度加權因數Q等的參數。而且,基於這樣的圖像特徵的索引和匹配方式,可以滿足多種語言的 文檔圖像的索引和檢索。不需要進行文字識別,計算量少。本發明不限於 中文,可以應用於各種語言的文檔圖像。最後,對具備詞彙分析功能的檢索處理進行說明。如圖l所示那樣,在本實施方式的文檔圖像處理裝置中,在檢索關鍵詞輸入部24與檢索部 22之間,設有詞彙解析部23。圖14中表示具備詞彙分析功能的檢索處理。詞彙解析部23由詞彙分析處理部23a和概念詞典23b構成。詞彙分 析處理部23a在從檢索關鍵詞輸入部24輸入檢索關鍵詞時,參照概念詞典 23b,對檢索關鍵詞的詞彙進行分析。例如,在作為檢索關鍵詞輸入"中日關係"時,詞彙分析處理部23a 作為與"中日關係"相關的單詞,將例如"中國"、"曰本"、"關係"這3 個輸入到檢索部22。這些"中國"、"日本"、"關係"具有或的關係,檢索 式為"中國"或"日本"或"關係"。將該檢索式"中國"或"日本"或"關係"輸入到檢索部22,檢索部 22對索引信息DB17進行檢索,抽出包含"中國,,的文檔圖像、包含"曰 本"的文檔圖1象、和包含"關係"的文檔圖像。由此,不僅能夠檢索出直接包含所輸入的檢索關鍵詞的文檔圖像,而 且還能夠檢索出相關的文檔圖像。最後,文檔圖^Jt理裝置的各方框,特別是字體正規化處理部12、文 字圖像特徵抽出部14、特徵匹配部16、重要區域初始處理部18、檢索部 22、詞彙解析部23等也可以由硬體邏輯電路構成,也可以如下那樣採用 CPU由軟體來實現。即,文檔圖像處理裝置10具有執行用於實現各功能的控制程序的命令 的CPU (central processing unit)、儲存有上述禾呈序的ROM (read only memory )、展開上述程序的RAM ( random access memory )、儲存上述程 序和各種數據的存儲器等存儲裝置(記錄媒體)等。而且,本發明的目的 可通過如下過程來達到,即將記錄有計算機可讀取的、實現上述的功能 的軟體即文檔圖像處理裝置的控制程序的程序代碼(執行形式程序、中間 代碼程序、源程序)的記錄媒體,提供給上述文檔圖^^處理裝置,且由該 計算機(或CPU、 MPU)讀出記錄在記錄媒體上的程序代碼並執行。作為上述的記錄媒體,例如可以採用磁帶或盒式磁帶等的磁帶類、包 括軟(註冊商標)盤/硬碟等磁碟和CD-ROM/MO/MD/DVD/CD-R等光碟 的盤類、IC卡(包括存儲卡)/光卡等的卡類、或掩模ROM/EPROM /EEPROM/快閃記憶體ROM等的半導體存儲器類等。另外,也可以將文檔圖像處理裝置構成為能夠與通信網絡連接,通過通信網絡來供給上述程序代碼。作為該通信網絡,沒有特別的限定,例如可以利用網際網路、內部網、外聯網、LAN、 ISDN、 VAN、 CATV通信網、 虛擬專用網(virtual private network )、電話線路網、移動體通4言網、衛星 通信網等。另外,作為構成通信網絡的傳送媒體,沒有特別的限定,例如 既可以利用IEEE1394、 USB、電力線輸送、有線TV線路、電話線、ADSL 線路等的有線,也可以利用IrDA、遠程控制那樣的紅外線、Bluetooth (注 冊商標)、802.11無線、HDR、行動電話網、衛星線路、地面波數字網等 的無線。另外,本發明也能夠以上述程序代碼通過電子傳送而具體化的被 疊加在載波中的計算機數據信號的形式來實現。如上所述,本發明的文檔圖像處理裝置的特徵是,具有字形特徵字 典,其以單個文字為單位儲存有文字圖像的圖像特徵;文字列抽出部,其 以由多個文字構成的文字列為單位抽取出所輸入的文檔圖像中存在的文 字圖像;圖像特徵抽出部,其將由上述文字列抽出部抽取出的文字列的文 字圖像分割成單個文字,並抽出各文字圖像的圖像特徵;特徵匹配部,其 以由上述圖像特徵抽出部抽出的文字圖像的圖像特徵為^,從上述字形 特徵字典中,按照圖4象特徵的匹配度的從高到低的順序,選擇出N個(NH 的整數)的文字圖^象作為候補文字,且將上述文字列的文字數設為M個 (M>1的整數)的場合下,製作成MxN維索引矩陣;索引信息儲存部, 其將由上述特徵匹配部製作成的索引矩陣與上述所輸入的文檔圖像相對 應地進行儲存;檢索部,其在檢索時,以構成所輸入的檢索式中的檢索關 鍵詞的單個檢索文字為單位,檢索上述索引信息儲存部,並取出具有包含檢索文字的索引矩陣的文檔圖像。根據上述構成,圖像特徵抽出部,將由文字列抽出部定位並抽取出的 文檔圖像中的文字列的圖像,按單個文字進行分割,並抽出各文字圖像的 圖像特徵。然後,圖像特徵部基於該圖像特徵,從以單個文字為單位儲存 有文字圖像的圖像特徵的字形特徵字典中,按照圖像特徵匹配度從高到低 的順序,選擇出N個(N>1的整數)的文字圖像作為候補文字,並製作成 抽取出的文字列的文字數MxN維的索引矩陣。製作成的索引矩陣與所輸入的文檔圖像相對應地儲存到索引信息儲 存部中,在進行檢索時,該索引矩陣被用作用於檢索文檔圖像的索引信息。由此,不需要用戶的手動操作,即可自動地定位文檔圖像的文字區域 中的文字列,利用定位的文字列的圖像特徵來生成文檔圖像的索引信息。而且,由於抽出各文字圖像的圖像特徵,並選擇多個與圖像特徵用近 似的候補文字,所以通過適當地設定選擇的候補文字數,可以進行無識別遺漏的正確的檢索,且不會像OCR識別那樣在文字識別中消耗時間。另外,由於字形特徵字典是以全部的單個文字的文字圖像的圖像特徵 為單位製作成的,且特徵匹配部將所抽取出的文字列的圖像分割成單個文 字的文字圖像,並進行圖像特徵的匹配,所以所生成的索引矩陣的精度高。在檢索時,檢索部以所輸入的檢索式中的構成檢索關鍵詞的單個檢索 文字為單位,檢索索引信息儲存部,並取出具有包含檢索文字的索引矩陣 的文檔圖4象。這樣,通過以構成檢索關鍵詞的檢索文字單位來分析索引矩陣,並檢 索出包含檢索關鍵詞的索引矩陣,可以保證基於單個文字檢索的全面性的 檢索。並且,本發明的文檔圖〗象處理裝置也可以具有如下特徵,即上述文 字列抽出部抽取出上述所輸入的文檔圖像中的標題區域。根據上述構成,由於上述文字列抽出部抽取出文檔圖像中的標題區 域,所以是針對文檔圖像的標題製作索引矩陣。從而,相比於以文檔圖像的文本區域全區域為對照製作索引矩陣的情 況,可縮減針對l個文檔圖像製作的索引矩陣數,可以以標題為對象進行 文檔圖^f綠索,可以進行高效率的關鍵詞檢索。並且,本發明的文檔圖像處理裝置也可以具有如下特徵,即上述文 字列抽出部利用投影法和連通區域統計分析法來抽取出文檔圖像中的重 要區域。由此,能夠容易實現上述文字列抽出部抽取出文檔圖像中的標題區域 的處理。並且,本發明的文檔圖像處理裝置也可以具有如下特徵,即上述圖 像特徵抽出部利用網格方向特徵和文字圖像外圍特徵之間的組合,來抽出 文字圖像的圖像特徵。由此,可以基於字形的不同高效率地抽出圖像特徵。並且,本發明的文檔圖像處理裝置也可以具有如下特徵,即上述特 徵匹配部將所抽出的文字圖像的圖像特徵與儲存在上述字形特徵字典中 的全部文字圖像進行匹配,並選擇出候補文字。由此,能夠按照最正確的順序選擇候補文字,並製作索引矩陣。並且,本發明的文檔圖像處理裝置也可以具有如下特徵,即可以改 變上述特徵匹配部選擇的候補文字數N。通過能夠改變候補文字數N,可以製作成相應於用戶要求的索引矩陣。 例如,通過減少^疾補文字數N,可以減少索引矩陣的維數,縮短檢索時間, 提高檢索精度和查準率。反之,通過增加候補文字數N,可以增加索引矩 陣的維數,防止檢索遺漏,提高查全率。並且,本發明的文檔圖像處理裝置也可以具有如下特徵,即上述檢 索部,從具有構成檢索關鍵詞的各檢索文字在索引矩陣內的匹配位置高的 索引矩陣的文檔圖像中,按順序取出。根據上述的日本國公開專利公報"特開平10-74259號公報,,的構成,由 於是將檢索關鍵詞轉換成代表文字代碼列來進行的檢索,所以不能分析到 類似文字類別中的位置。因此,屬於相同類似文字類別內的各文字,無論 類似度高還是類似度低,都呈現相同的相關程度,不能從相關性高的文檔 圖像,按順序正確提示。但是,根據上述構成,由於從具有構成檢索關鍵詞的各檢索文字在索 引矩陣內的匹配位置高的索引矩陣的文檔圖像中按順序取出,所以可從相 關性高的文檔圖像,按順序提示檢索結果。並且,本發明的文檔圖像處理裝置也可以具有如下特徵,即對上述 索引矩陣的^素設有與位置相應的相關值,且上述檢索部具有索引矩陣檢索處理部,其以構成檢索關鍵詞的單個檢索文字為單位,檢索索引矩 陣,並檢索出包含檢索文字的索引矩陣,且將該索引矩陣內的檢索文字的 匹配位置的信息,與具有索引矩陣的文檔圖像的信息一同儲存在保存部 中;相關度計算部,其從儲存在上述保存部中的匹配位置的信息中,累積 各檢索文字的相關值,並計算出檢索關鍵詞與索引矩陣的相關度;順序決 定部,其基於上述相關度計算部的計算結果,來決定文檔圖像的取出順序。根據上述構成,對索引矩陣的M素設定與位置相應的相關值。該相 關值是檢索文字與索引矩陣內的候補文字之間的相關值,且根據特徵匹配 部所選擇的候補文字的順序來設定,通常將列編號越小的要素設定為越大的值。檢索部的索引矩陣檢索處理部,以構成檢索關鍵詞的單個檢索文字單 位,檢索索引矩陣,並檢索出包含檢索文字的索引矩陣,並且將該索引矩陣內的檢索文字的匹配位置的信息,與具有索引矩陣的文檔圖像的信息一 同儲存在保存部中。而且,相關度計算部從儲存在該保存部中的匹配位置的信息中,累積 各檢索文字的相關值,並計算出檢索關鍵詞與索引矩陣的相關度,順序決 定部按相關度高的順序,依次取出文檔圖像。由此,從具有構成檢索關鍵詞的各檢索文字在索引矩陣內的匹配位置 高的索引矩陣的文檔圖像中,按順序取出,可以簡單地從相關性高的文檔 圖像開始,按順序提示檢索結果。並且,本發明的文檔圖像處理裝置也可以具有如下特徵,即上述相 關度計算部,在才艮據上述匹配位置的信息,判斷為與索引矩陣中的相鄰行 匹配的情況下,在對相鄰的各行的相關值利用行的相關度加權因數進行了 加權的^上,進行累積。由此,上述相關度計算部在判斷為與索引矩陣中的相鄰行匹配時,對 於對應的行的相關值加權行的相關度加權因數。即,在進行以文字單位的 檢索,且連續包含檢索關鍵詞的各檢索文字的場合下,具有該索引矩陣的 文檔圖像的檢索結果成為上位。由此,可以通過簡單的計算來實施有效的檢索。在本發明的文檔圖像處理裝置中,還可以具有如下特徵,即可以改 變對上述索引矩陣的M素所設定的相關值。通過可改變相關值,可以實現與用戶要求相應的檢索。例如,即使候 補文字數N相同,但將與N個候補文字的列編號相應的相關值,在第A 個之前設定為高,而在之後設定為低,通過賦予這樣的變化,使檢索結果 變化,因此,可以與用戶的要求相應地採取靈活的對應。在本發明的文檔圖像處理裝置中,還可以具有如下特徵,即可改變 上述行的相關度加權因數。通過可改變行的相關度加權因數,可以實現與用戶的要求相應的檢 索。例如,通過增大行的相關度加權因數,使對計算出的相關度的影響度, 在連續匹配的2行的相關值中增大,接近於以詞彙為單位進行檢索的結果。 反之,通過減小行的相關度加權因數,接近於以字為單位進行檢索的結果。 由此,可以靈活地與用戶的要求相應地進行檢索。並且,本發明的文檔圖像處理裝置也可以具有如下特徵,即具有採用上述圖像特徵抽出部來製作上述字形特徵字典的字形特徵字典製作部。這樣,由於字形特徵字典製作部兼用作圖4象特徵抽出部,並製作字形 特徵像詞典,所以用戶對不同的字體、字號、字形,可以簡羊地抽出字形 的特徵,並製作字形特徵字典。另外,不僅對字體等,即使對於不同語言 的文字,對各種字體、字號、字形,也可以簡單地製作字形特徵字典。本發明的範圍包括用於將計算機用作上述的本發明的文檔圖像處理 裝置中的各個部分的程序、和記錄有該程序的計算機可讀取的記錄媒體。並且,本發明提供一種文檔圖像處理方法,其特徵在於,包括文字 列抽出步驟,其以由多個文字構成的文字列為單位,抽出所輸入的文檔圖 像中存在的文字圖像;圖像特徵抽出步驟,其將在上述文字列抽出步驟中 抽出的文字列的文字圖像按單個文字進行分割,並抽出各文字圖像的圖像 特徵;特徵匹配步驟,其基於在上述圖像特徵抽出步驟中抽出的文字圖像 的圖像特徵,從以單個文字為單位儲存有文字圖像的圖像特徵的字形特徵 字典中,按照圖像特徵匹配度從高到低的順序,選擇出N個(NM的整數) 文字圖像作為候補文字,並且在將上述文字列的文字數設為M個(M〉1 的整數)的場合下,製作成MxN維索引矩陣;索引信息儲存步驟,其將 在上述特徵匹配步驟中製作的索引矩陣,與上述所輸入的文檔圖像相對應 地進行儲存;檢索步驟,其在檢索時,以所輸入的檢索式中的構成檢索關 鍵詞的單個檢索文字為單位,檢索在上述索引信息儲存步驟中所儲存的索 引信息,並取出具有包含檢索文字的索引矩陣的文檔圖像。即,上述文檔圖# 處理裝置既可以利用*更件來實現,也可以通過使計 算機執行程序來實現。具體是,本發明涉及的程序是使計算機作為上述的 各個部分動作的程序,本發明涉及的記錄媒體中記錄有該程序。在由計算機執行這些程序時,該計算機作為上述文檔圖像處理裝置進 行動作。從而,可以起到與上述文檔圖像處理裝置相同的效果。在本發明的具體實施方式
中的各項列舉的具體的實施方式或實施例, 僅僅是用於清楚地說明本發明的技術內容的,本發明不受這樣的具體例的 限定,且不應被解釋成狹義的範圍,在本發明的精神和本發明的權利要求 書所記載的範圍內,可以進行各種變形來實施。
權利要求
1. 一種文檔圖像處理裝置,其特徵在於,具有字形特徵字典,其以單個文字為單位儲存有文字圖像的圖像特徵;文字列抽出部,其以由多個文字構成的文字列為單位,抽取出所輸入的文檔圖像中存在的文字圖像;圖像特徵抽出部,其將由上述文字列抽出部抽取出的文字列的文字圖像按單個文字進行分割,並抽出各個文字圖像的圖像特徵;特徵匹配部,其基於由上述圖像特徵抽出部抽出的文字圖像的圖像特徵,從上述字形特徵字典中,按圖像特徵匹配度從高到低的順序,選擇出N個文字圖像作為候補文字,其中N為N>1的整數,且將上述文字列的文字數設為M個,其中M為M>1的整數,在該場合下,製作M×N維索引矩陣;索引信息儲存部,其將由上述特徵匹配部製作的索引矩陣與上述所輸入的文檔圖像相對應地進行儲存;檢索部,其在檢索時,以所輸入的檢索式中的構成檢索關鍵詞的單個檢索文字為單位,檢索上述索引信息儲存部,並取出具有包含檢索文字的索引矩陣的文檔圖像。
2. 根據權利要求l所述的文檔圖像處理裝置,其特徵在於,上述文字 列抽出部抽取出上述所輸入的文檔圖像中的標題區域。
3. 根據權利要求l所述的文檔圖像處理裝置,其特徵在於,上述文字 列抽出部利用投影法和連通區域統計分析法來抽取出文檔圖像中的重要 區域。
4. 根據權利要求l所述的文檔圖像處理裝置,其特徵在於,上述圖像 特徵抽出部通過網格方向特徵和文字圖像外圍特徵之間的組合,來抽出文 字圖像的圖像特徵。
5. 根據權利要求l所述的文檔圖像處理裝置,其特徵在於,上述特徵 匹配部將所抽出的文字圖像的圖像特徵與儲存在上述字形特徵字典中的 全部文字圖像進行匹配,並選擇候補文字。
6. 根據權利要求l所述的文檔圖像處理裝置,其特徵在於,上述特徵 匹配部選擇的候補文字數N是可變更的。
7. 根據權利要求l所述的文檔圖像處理裝置,其特徵在於,上述檢索部,從具有構成檢索關鍵詞的各個檢索文字在索引矩陣內的匹配位置高的 索引矩陣的文檔圖像中,按順序取出。
8.根據權利要求l所述的文檔圖像處理裝置,其特徵在於, 對上述索引矩陣的M素,設有與位置相應的相關值, 上述檢索部具有索引矩陣檢索處理部,其以構成檢索關鍵詞的單個檢索文字為單位檢 索索引矩陣,並檢索出包^^檢索文字的索引矩陣,並且將該索引矩陣內的 檢索文字的匹配位置的信息,與具有索引矩陣的文檔圖像的信息一同儲存 在保存部中;相關度計算部,其從儲存在上述保存部中的匹配位置的信息中,累積 各檢索文字的相關值,並計算出檢索關鍵詞與索引矩陣的相關度;順序決定部,其基於上述相關度計算部的計算結果,來決定文檔圖像 的取出順序。
9. 根據權利要求8所述的文檔圖像處理裝置,其特徵在於,上述相關 度計算部,在從上述匹配位置的信息中,判斷出與索引矩陣中的相鄰行匹 配的情況下,對相鄰的各行的相關值,利用行的相關度加權因數進行了加 權之後,進行累積。
10. 根據權利要求8所述的文檔圖像處理裝置,其特徵在於,對上述 索引矩陣的各要素設定的相關值是可變更的。
11. 根據權利要求9所述的文檔圖像處理裝置,其特徵在於,上述行 的相關度加權因數是可變更的。
12. 根據權利要求1所述的文檔圖像處理裝置,其特徵在於,具有字 形特徵字典製作部,該字形特徵字典製作部採用上述圖4象特徵抽出部來制 作上述字形特徵字典。
13. —種文檔圖像處理方法,其特徵在於,包括 文字列抽出步驟,其以由多個文字構成的文字列為單位,抽出所輸入的文檔圖像中存在的文字圖像;圖像特徵抽出步驟,其將在上述文字列抽出步驟中抽出的文字列的文字圖像按單個文字進行分割,並抽出各文字圖像的圖像特徵;特徵匹配步驟,其基於在上述圖像特徵抽出步驟中抽出的文字圖像的 圖像特徵,從以單個文字為單位儲存有文字圖像的圖像特徵的字形特徵字典中,按照圖像特徵匹配度從高到低的順序,選擇出N個文字圖像作為候 補文字,其中,N為N〉1的整數,且將上述文字列的文字數設為M個, 其中M為MH的整數,在該場合下,製作成MxN維索引矩陣;索引信息儲存步驟,其將在上述特徵匹配步驟中製作的索引矩陣與上 述所輸入的文檔圖像相對應地進行儲存;檢索步驟,其在檢索時,以所輸入的檢索式中的構成檢索關鍵詞的單 個檢索文字為單位,檢索在上述索引信息儲存步驟中儲存的索引信息,並 取出具有包含檢索文字的索引矩陣的文檔圖像。
全文摘要
本發明的文檔圖像處理裝置,抽取出文檔圖像中的文字數為M的文字列的圖像,將其按單個文字進行分割圖像,並抽出各文字圖像的圖像特徵,基於該圖像特徵,從以單個文字為單位的儲存有字庫中所有文字圖像的圖像特徵的字形特徵字典中,按照匹配度從高到低的順序,選擇出N個文字圖像作為候補文字,其中N為N>1的整數,並製作成抽取出的文字列的文字數M×N維索引矩陣。在檢索時,以所輸入的檢索式中的構成檢索關鍵詞的單個檢索文字為單位,檢索索引信息儲存部,並取出具有包含檢索文字的索引矩陣的文檔圖像。由此,可提供一種具有不需要用戶的手動操作的索引製作功能,且不需要採用OCR識別即可進行高精度檢索的文檔圖像處理裝置以及方法。
文檔編號G06K9/62GK101226596SQ20071000096
公開日2008年7月23日 申請日期2007年1月15日 優先權日2007年1月15日
發明者寧 樂, 波 吳, 吳亞棟, 竇建軍, 靖 賈 申請人:夏普株式會社