原稿提取方法和原稿提取裝置的製作方法
2023-06-01 08:26:01 2
專利名稱:原稿提取方法和原稿提取裝置的製作方法
技術領域:
本發明涉及從原稿的資料庫中檢索特定的原稿的技術,更詳細地說,涉 及基於由掃描儀讀取原稿後的圖像等原稿數據,從資料庫中檢索與讀取了的 原稿對應的原稿數據的原稿提取方法和原稿提取裝置。
背景技術:
以往,利用將使用掃描儀讀取文本或照片等構成的原稿而得的數據,或 使用個人計算機(PC)等電子式生成的原稿數據存儲在資料庫中,新讀取原 稿,並從資料庫中提取與讀取了的原稿對應的原稿數據的技術。作為提取原
稿數據的方法,例如提出使用OCR ( Optical Character Reader,光學字符識別) 從讀取的原稿中提取關鍵字(keyword)並基於關鍵字判定原稿的類似度的方 法、將原稿限定於有格線的票據原稿並提取格線的特徵來判定原稿的類似度 的方法等。
在(日本)特開平7-282088號公報中,公開了將對原稿(文本)賦予特 徵的描述符(descriptor)和由描述符賦予特徵的原稿的列表相關聯,從讀取 了的原稿(輸入文本)生成描述符,並使用生成了的描述符進行原稿的核對 的技術。原稿的描述符被規定為相對於伴隨原稿的讀取而產生的失真等不變。 對一個原稿生成多個描述符,對與從讀取了的原稿生成的描述符分別相關聯 的原稿進行投票,選擇得到最高得票數的原稿或得票數超過規定的閾值的原牙咼。
特開平5-37748號公報中公開了預先存儲原稿的圖像數據,在讀取的原 稿的位圖數據(bitmap data)和預先存儲的原稿的位圖數據之間,以1比特為 單位進行圖形匹配,從而進行原稿的檢索的技術。此外,特開平5-37748號 公報中,記載了在由多頁構成的原稿的情況下,也可以為檢索用而僅讀取封 面的頁,通過對讀取的頁的圖像數據和存儲的各原稿的第一頁的圖像數據進 行比較,從而糹全索原稿。
在特開2006-31181號公報中,公開了預先存儲文本圖像,對讀取的原稿
圖像的特徵量和存儲的文本圖像的全部頁的特徵量進行比較,從而求類似度, 提取類似度比闊值高的文本圖像,從而檢索文本圖像的技術。在該技術中, 在多個文本圖像成為候選的情況下,顯示文本圖像從而接受用戶選擇,而且 在文本圖像中包含的頁的類似度的平均低於閾值的情況下,將該文本圖像從 候選中刪除從而縮小範圍。
通常,文本等原稿由多頁構成的情況較多。以特開平7-282088號公報所 公開的技術為首的以往的技術能夠進行與掃描儀所讀取的原稿的核對從而從 資料庫中提取所需的原稿數據,但對於由多頁構成的原稿需要對每頁進行核 對從而提取原稿數據。從而,在因丟失或汙濁等而在核對基礎的原稿中產生 了缺失的情況下,存在不能在全部頁中提取由多頁構成的原稿相關的原稿數 據的問題。在特開平7-282088號公報中關於該問題的解決手段沒有任何公開。
而且如特開平5-37748號公報中記載的這樣的對由多頁構成的原稿的位 圖數據進行比較的技術中,由於對每頁進行比較,所以存在原稿中包含的頁 數和原稿數越多,則比較處理越花費時間的問題。此外,在進行位圖數據的 比較的情況下,需要高精度地進行比較的兩個圖像數據的定位。但是,實際 上難以準確地進行定位,其結果,存在難以高精度地^r索原稿的問題。
此外,在特開2006-31181號公報所記載的技術中,作為文本圖像的字符 區域中的特徵量,由於使用OCR提取字符碼,所以根據提取的字符碼,產生 類似判定的精度降低的問題。為了彌補該精度降低,考慮提取多個字符碼, 但在該情況下,存在存儲字符碼的存儲器容量增大,而且由於使用很多數據 進行檢索,所以處理消耗時間的問題。此外,.在特開平5-37748號公報和特 開2006-31181號公報中,由於沒有考慮包含秘密信息的原稿被檢索的情況, 所以存在包含秘密信息的原稿被容易地輸出的擔心。
發明內容
本發明鑑於這樣的情況而完成,其目的在於提供一種通過使得基於原稿 的 一部分也能夠提取原稿的其它部分的數據,從而能夠容易地從資料庫中提 取與由多頁構成的原稿相關的原稿數據的原稿提取方法和原稿提取裝置。
本發明的其它目的在於提供一種在提取原稿數據時,能夠避免錯誤地提 取與目的不同的原稿數據的情況的原稿提取方法和原稿提取裝置。
此外本發明的其它目的在於通過規定用於輸出原稿的條件從而能夠保護 秘密信息的原稿4是取方法和原稿提取裝置。
本發明的原稿提取裝置包括用於存儲原稿數據的原稿存儲部件,從原稿
存儲單元所存儲的原稿數據中提取特定的原稿數據,其特徵在於,包括將
表示由多頁構成的原稿的原稿索引與對應於包含在原稿中的各頁的原稿數據
相關聯地存儲的部件;特徵數據存儲部件,將基於從原稿數據中提取的特徵
點計算的、表示所述原稿數據的特徵的特徵數據與原稿數據相關聯地存儲;
取得部件,取得作為新的原稿數據的輸入原稿數據;從取得部件所取得了的
輸入原稿數據中提取特徵點的部件;生成部件,基於該部件所提取出的特徵
點生成表示輸入原稿數據的特徵的特徵數據;判定部件,通過將生成部件所
生成了的特徵數據和特徵數據存儲單元所存儲的特徵數據進行比較,從而判 定與特徵數據存儲單元所存儲的特徵數據相關聯的原稿數據和輸入原稿數據
的類似度;取得與被判定部件判定為是與輸入原稿數據的類似度高的原稿數 據的原稿數據相關聯的原稿索引的部件;以及提取部件,提取與該部件所取 得了的原稿索引所表示的原稿中包含的多頁對應的多個原稿數據。
在本發明中,預先存儲與原稿中包含的各頁對應的原稿數據,進而將基 於從原稿數據中提取的特徵點計算的、表示原稿數據的特徵的特徵數據,和 表示原稿的原稿索引與原稿數據相關聯地存儲。原稿提取裝置在取得了輸入 原稿數據的情況下,從輸入原稿數據生成特徵數據,基於特徵數據判定與原 稿數據的類似度,取得與輸入原稿數據的類似度高的原稿數據相關聯的原稿 索引,提取與取得了的原稿索引相關聯的多個原稿數據。由此,包含與被判 定為類似於輸入原稿數據的原稿數據對應的頁的原稿被確定,而且與被確定 了的原稿中包含的全部頁對應的原稿數據被提取。
本發明中,基於對應於由多頁構成的原稿的一部分的輸入原稿數據,能 夠提取與原稿的全部頁對應的原稿數據。從而,即使在由多頁構成的原稿中 因丟失或汙染等而產生了缺失的情況下,也能夠從預先存儲了原稿數據的數 據庫中容易地提取全部頁中的原稿數據。
本發明的原稿提取裝置中,特徵數據存儲部件構成為與一個原稿數據相 關聯地存儲表示該原稿數據的特徵的多個特徵數據,生成部件被構成為生成 表示輸入原稿數據的特徵的多個特徵數據,判定部件具有對於生成部件所 生成了的多個特徵數據的每一個,對與該特徵數據一致的特徵數據相關聯的 原稿數據進行投票的部件;以及將原稿存儲部件所存儲的原稿的數據內、得
票數最大的原稿數據或得票數為規定量以上的原稿數據判斷為與輸入原稿數 據的類似度高的原稿數據的部件。
本發明中,原稿提取裝置為了判定原稿數據的類似度,對一個原稿數據 預先存儲多個特徵數據,對輸入原稿數據生成的每個特徵數據,對同一特徵 數據相關聯的原稿數據進行投票,並將得到最大得票數或規定量以上的得票 數的原稿數據作為與輸入原稿數據的類似度高的原稿數據。由於將多個特徵 數據內多個特徵數據一致的原稿數據判定為類似度高,所以能夠進行更精確 的類似度判定。在進行原稿數據的類似度判定時,由於能夠基於多個特徵數 據進行更精確的類似度判定,所以能夠抑制將不類似於輸入原稿數據的原稿 數據錯誤地判定為類似度高的原稿數據。
本發明的原稿4是取裝置中,取得部件具有取得多個輸入原稿數據的部件, 判定部件具有對於多個輸入原稿數據的每一個,判定原稿存儲部件所存儲的 原稿數據和輸入原稿數據的類似度的部件,提取部件具有在與多個輸入原稿 數據的每一個的類似度高的原稿數據相關聯的原稿索引互相 一致的情況下, 提取與該原稿索引所表示的原稿中包含的多頁對應的多個原稿數據的部件。
在本發明中,原稿提取裝置取得多個輸入原稿數據,在與各輸入原稿數 據的類似度高的原稿數據相關聯的原稿索引 一致的情況下,提取與 一致的原 稿索引相關聯的多個原稿數據。由此,能夠基於多頁提取一個原稿。從而, 能夠進一步降低錯誤地提取與目的不同的原稿數據的可能性。例如,即^f吏存 在互相類似的原稿的情況下,也能夠提取目的的原稿數據。
本發明的原稿提取裝置中,還具有在取得了多個與輸入原稿數據的類似 度高的原稿數據相關聯的原稿索引的情況下,或者在與多個輸入原稿數據的 每一個的類似度高的原稿數據相關聯的原稿索引內,取得了多個對多個輸入 原稿數據共同的原稿索引的情況下,請求更多的輸入原稿數據的部件。
在本發明中,原稿提取裝置在存在多個與輸入原稿數據的類似度高的原 稿數據相關聯的原稿索引的情況下,進一 步請求與原稿的其它頁對應的輸入 原稿數據。由此,進一步取得與原稿的其它頁對應的輸入原稿數據,並且也 利用原稿的其它頁縮小原稿索引的範圍。通過利用多頁能夠進行更精確的類 似度判定,並且能夠高精度地提取所需的原稿數據。
本發明的原稿提取裝置中,取得部件被構成為通過光學式讀取原稿從而 取得輸入原稿數據。
在本發明中,原稿提取裝置作為取得輸入原稿數據的取得部件,具有光 學式讀取原稿的掃描儀,從而通過用掃描儀讀取原稿的一部分從而進行原稿 數據的提取。通過用掃描儀讀取原稿的一部分,從而例如能夠提取存儲在經 由通信網絡連接的伺服器裝置中的原稿數據,並且能夠從照片或文本等構成 的原稿的 一部分輕鬆地取得原稿整體的數據。
本發明的原稿提取裝置還包括與原稿索引相關聯地存儲用於輸出該原 稿索引所表示的原稿中包含的各頁所對應的原稿數據所需的規定的輸出條件 的部件;判定與原稿索引相關聯的輸出條件是否被滿足,所述原稿索引與原 稿數據提取單元所提取出的原稿數據相關聯的部件;在判定為輸出條件被滿 足了的情況下,輸出與原稿索引所表示的原稿中包含的多頁對應的多個原稿 數據的部件;以及在判定為輸出條件未被滿足了的情況,禁止輸出與原稿索 引所表示的原稿中包含的多頁對應的多個原稿數據的部件。
在本發明中,原稿提取裝置對各原稿索引預先決定輸出條件,在輸出條 件被滿足了的情況下輸出原稿數據,在數據條件未被滿足的情況下禁止輸出 原稿數據,從而僅輸出對應於滿足輸出條件的原稿索引的原稿。在輸出條件 被滿足了的情況下能夠輸出原稿,所以通過對重要度高的原稿確定輸出條件, 從而能夠防止重要度高的原稿被容易地輸出的情況下,能夠保護原稿中含有 的秘密信息。
本發明的原稿提取裝置還包括形成基於提取部件所提取了的多個原稿數 據的多個圖像的部件。
在本發明中,原稿提取裝置包括基於原稿數據形成圖像的部件,從而能 夠形成基於提取了的原稿數據的圖像。使用包括數字複印機或掃描儀的複合 機等圖像形成裝置,能夠形成基於存儲在圖像形成裝置中的原稿數據或經由 通信網絡連接到圖像形成裝置的伺服器裝置中存儲的原稿數據中提取出的原 稿數據的圖像,所以通過圖像形成而能夠輕易地取得由照片或文本等構成的 原稿。
本發明的電腦程式是用於通過計算機實現上述原稿提取裝置的控制程序。
本發明的計算機可讀取的記錄介質記錄了上述電腦程式。
圖1是表示原稿提取裝置的內部的功能結構的方框圖。 圖2是表示原稿提取處理單元的結構的方框圖。 圖3是表示特徵點提取單元的結構的方框圖。
圖4是表示濾波處理單元所利用的空間濾波器的例子的說明圖。
圖5是表示連接區域的特徵點的例子的說明圖。
圖6是表示對於字符串的特徵點的提取結果的例子的說明圖。
圖7是表示關注特徵點和提取出的特徵點的說明圖。
圖8A -圖8D是表示對關注特徵點Pl提取3個周邊特徵點,並計算特 徵數據的例子的說明圖。
圖9A-圖9D是表示對關注特徵點P2提取3個周邊特徵點,並計算特 徵數據的例子的說明圖。
圖IO是表示存儲單元所存儲的原稿數據的概念圖。
圖11是表示將存儲單元所存儲的原稿數據和原稿相對應的原稿表的內 容例子的概念圖。
圖12是表示將存儲單元所存儲的原稿數據和特徵數據相對應的原稿表 的內容例子的概念圖。
圖13是表示註冊原稿數據的處理的步驟的流程圖。
圖14是表示提取原稿數據的處理的步驟的流程圖。
圖15是表示提取原稿數據的處理的步驟的流程圖。
圖16是表示提取原稿數據的處理的步驟的流程圖。
圖17是表示將存儲單元所存儲的原稿數據和原稿相對應的原稿表的內 容例子的概念圖。
圖18是表示原稿輸出處理的步驟的流程圖。
圖19是表示原稿提取裝置的內部的功能結構的方框圖。
圖20是表示原稿提取裝置的內部結構的方框圖。
具體實施例方式
以下,對於本發明,基於表示其實施方式的附圖來具體進行說明。 (實施方式1 )
在實施方式1中,表示本發明的原稿提取裝置為形成彩色圖像的圖像形 成裝置的方式。圖1是表示實施方式1的本發明的原稿提取裝置100的內部
的功能結構的方框圖。本發明的原稿提取裝置100包括控制構成原稿提取裝
置100的各部分的動作的控制單元11、由半導體存儲器或硬碟等構成的存儲 單元12、以及光學讀取彩色圖像的彩色圖像輸入單元13。彩色圖像輸入單元 13上連接有彩色圖像處理單元2,用於進行生成與讀取的彩色圖像對應的圖 像數據的處理。彩色圖像輸入單元13讀取由照片或文本等構成的原稿作為彩 色圖像,存儲單元12存儲由彩色圖像輸入單元13讀取原稿後由彩色圖形處 理單元2生成的圖像數據即原稿數據。存儲單元12作為本發明中的原稿存儲 單元起作用,彩色圖像輸入單元13作為本發明中的原稿數據取得單元起作 用。此外,彩色圖形處理單元2上連接有彩色圖像形成單元14,用於根據由 彩色圖形處理單元2生成的圖像數據來形成彩色圖像。彩色圖像輸入單元13、 彩色圖形處理單元2以及彩色圖像形成單元14上連接有用於接受來自使用者 的操作的操作面板15。
彩色圖像輸入單元13由具有CCD ( Charge Coupled Device,電荷耦合元 件)的掃描儀構成,將來自形成於紙等記錄介質上的彩色圖像即原稿的反射 光像分解為R (紅)G (綠)B (藍)並由CCD讀取,變換為RGB的模擬信 號之後輸出到彩色圖形處理單元2。彩色圖形處理單元2對從彩色圖像輸入 單元13輸入的RGB的模擬信號進行後述的圖像處理從而生成數字的圖像數 據,進而生成由數字的C (青)M (品紅)Y (黃)K (黑)信號構成的圖像 數據後輸出到彩色圖像形成單元14。彩色圖像形成單元14基於從彩色圖形 處理單元2輸入的圖像數據,通過熱轉印、電子照片或噴墨等方式形成彩色 圖像。操作面板15包含顯示原稿提取裝置100的操作所需的信息的液晶顯示 器等顯示單元、通過使用者的操作而接受用於控制原稿提取裝置100的動作 的指示的觸摸面板或數字鍵盤等接受單元。
彩色圖形處理單元2通過A/D變換單元20將從彩色圖像輸入單元13輸 入的模擬信號變換為數位訊號,按照黑斑(shading)校正單元21、輸入色階 校正單元22、區域分離處理單元23、原稿提取處理單元24、顏色校正單元 25、 黑X反生成底色除去(black generation and under color removal)單元26、 空間濾波處理單元27、輸出色階校正單元28、色階再現處理單元29的順序 傳送,並對彩色圖像形成單元14輸出由數字的CMYK信號構成的圖像數據。
A/D變換單元20接受從彩色圖像輸入單元13輸入到彩色圖形處理單元 2的RGB的模擬信號,將RGB的模擬信號變換為數字的RGB信號,並將RGB信號輸出到黑斑校正單元21。黑斑校正單元21對從A/D變換單元20 輸入的RGB信號進行用於消除彩色圖像輸入單元13的照明系統、成像系統、 攝像系統中產生的各種失真的處理。黑斑校正單元21將除去了失真之後的 RGB信號輸出到輸入色階校正單元22。
輸入色階校正單元22對從黑斑校正單元21輸入的RGB信號調整色彩平 衡。進而,從黑斑校正單元21輸入到輸入色階校正單元22的RGB信號為 RGB的反射率信號,輸入色階校正單元22將從黑斑校正單元21輸入的RGB 信號變換為彩色圖形處理單元2容易處理的濃度(像素值)信號等信號。輸 入色階校正單元22將進行了處理的RGB信號輸出到區域分離處理單元23。
區域分離處理單元23將從輸入色階;f交正單元22輸入的RGB信號所表示 的圖像中的各像素分離為字符區域、網點區域、或照片(連續色階)區域的 任一個,基於分離結果,將用於表示各像素屬於哪個區域的區域識別信號輸 出到黑版生成底色除去單元26、空間濾波處理單元27、色階再現處理單元 29。區域分離處理單元23再將從輸入色階校正單元22輸入的RGB信號輸出 到原稿提取處理單元24。
原稿提取處理單元24與存儲單元12連接並執行以下處理在與存儲單 元12之間輸入輸出由RGB信號構成的圖像數據即原稿數據的處理、以及後 述的本發明的原稿提取方法相關的處理。原稿提取處理單元24再將從區域分 離處理單元23輸入的RGB信號構成的圖像數據或從存儲單元12輸入的原稿 數據即圖像數據輸出到顏色校正單元25。另外,原稿提取裝置IOO也可以是 不將原稿提取處理單元24設置在區域分離處理單元23的後級,而與輸入色 階校正單元22並行設置的形式。
顏色校正單元25將從原稿提取處理單元24輸入的RGB信號變換為CMY 信號,為了實現色再現的忠實性,而進行將基於包含不需要吸收分量的CMY 色材的分光特性的色濁從CMY信號中除去的處理。顏色校正單元25接著將 進行了顏色校正的CMY信號輸出到黑版生成底色除去單元26。
黑版生成底色除去單元26進行從顏色校正單元25輸入的CMY的三色 信號生成K信號的黑版生成處理,從原來的CMY信號中減去由黑版生成處 理得到的K信號從而將CMY的三色信號變換為CMYK的四色信號。作為黑 版生成處理的一例,有通過骨架黑版(skeleton black)進行黑版生成的方法。 在該方法中,將骨架曲線的輸入輸出特性設為y = f (x),將變換前的數據設 為C、 M、 Y,將UCR ( Under Color Removal)率設為oc (0<oc<l),則通過 下述式子表示變換後的數據C,、 M,、 Y,、 K,。
K, = f(min(C, M, Y))
C, = CiK,
M, =M - aK,
Y, = Y - ccK'
這裡,UCR率a (0<a<l )表示將CMY重疊的部分置換為K後將CMY 削減多大程度。上述第一式表示根據CMY的各信號強度內的最小的信號強 度生成K信號。黑版生成底色除去單元26將CMY信號變換後的CMYK信 號輸出到空間濾波處理單元27。
空間濾波處理單元27對從黑版生成底色除去單元26輸入的CMYK信號 所表示的圖像,根據從區域分離處理單元23輸入的區域識別信號,進行基於 數字濾波器的空間濾波處理,從而改善圖像的模糊或粒狀劣化。例如,空間 濾波處理單元27對於在區域分離處理單元23中分離為字符的區域,為了提 高字符的再現性,使用高頻分量的強調量大的濾波器進行空間濾波處理。此 外,空間濾波處理單元27對由區域分離處理單元23分離為網點的區域進行 用於除去輸入網點分量的低通濾波處理。空間濾波處理單元27接著將處理後 的CMYK信號輸出到輸出色階校正單元28。
輸出色階校正單元28對從空間濾波處理單元27輸入的CMYK信號進行 變換為彩色圖像形成單元14的特性值即網點面積率的輸出色階校正處理,並 將輸出色階^f交正處理後的CMYK信號輸出到色階再現處理單元29。
色階再現處理單元29基於從區域分離處理單元23輸入的區域識別信號, 對從輸出色階校正單元28輸入的CMYK信號進行處理,以^更能夠表現對應 於區域的色階。例如,色階再現處理單元29對於在區域分離處理單元23中 分離為字符的區域,進行基於適於高頻分量的再現的高解析度的網板(screen ) 的二值化或多電平振動(lever dither)處理。此外,色階再現處理單元29對 於由區域分離處理單元23分離為網點的區域,最終將圖像分離為像素,從而 進行色階再現處理,以便能夠再現各個色階。色階再現處理單元29將處理後 的圖像數據輸出到彩色圖像形成單元14。
彩色圖像形成單元14基於從彩色圖形處理單元2輸入的CMYK信號構 成的圖像數據,在紙等記錄介質上形成CMYK的彩色圖像。通過基於原稿數
據即圖像數據來形成圖像,從而彩色圖像形成單元14輸出由照片或文本等構 成的原稿。
接著,說明原稿提取處理單元24的結構以及原稿提取處理單元24所進 行的處理。圖2是表示原稿提取處理單元24的結構的方框圖。原稿提取處理 單元24包括提取輸入的原稿數據所表示的原稿上的字符或圖形等所對應的 特徵點的特徵點提取單元241、由特徵點計算表示原稿數據的特徵的特徵數 據的特徵(特徵向量)數據計算單元242、基於特徵數據對存儲單元12所存 儲的原稿數據進行投票的投票處理單元243、基於投票結果判定原稿數據的
原稿提取單元245。
圖3是表示特徵點提取單元241的結構的方框圖。特徵點提取單元241 包括將原稿lt據無色化的信號變換處理單元2410、將原稿lt據的解析度變換 為規定的解析度的解析度變換單元2411 、對原稿數據的空間頻率特性進行校 正的濾波處理單元2412、將原稿數據進行二值化的二值化處理單元2413、以 及提取字符等的重心的重心提取單元2414。
在輸入的原稿數據為彩色圖像數據的情況下,信號變換處理單元2410將 彩色圖像無色化,變換為亮度信號或明度信號,並將變換後的原稿數據輸出 到解析度變換單元2411。例如,將各像素RGB的顏色分量的強度分別設為 Rj、 Gj、 Bj,並將各像素的亮度信號設為Yj,從而亮度信號Y可表示為Yj =0.30 xRj +0.59 xQj +0.11 xBj。另夕卜,作為其它的方法,也可以利用通過 將RGB信號變換為C正(Commission International de 1, Eclairage ) 1976L*a*b* 信號,從而使彩色圖像無色化的方法。
解析度變換單元2411為了使輸入的原稿數據的解析度成為規定的分辨 率而對原稿數據進行變倍,從而變換原稿數據的解析度,並將原稿數據輸出 到濾波處理單元2412。由此,即使在由彩色圖像輸入裝置13將原稿進行光 學變倍而使原稿數據的解析度變化的情況下,也可以進行特徵點的提取而不 會受到其影響。此外,解析度變換單元2411變換為比彩色圖像輸入裝置13 以等倍時讀入的解析度小的解析度。例如,將在彩色圖像輸入裝置13中以 600dpi (dot per inch)讀入的原稿數據變換為300dpi。由此,可以減輕後級的 處理量。
濾波處理單元2412通過圖像的強調化處理和平滑化處理等對輸入的原
稿數據的空間頻率特性進行校正,並將校正後的圖像輸出到二值化處理單元
2413。為了吸收彩色圖像輸入單元13的空間頻率特性在每個機種中的不同而 進行濾波處理單元2412中的處理。彩色圖像輸入單元13所包括的CCD輸出 的圖像信號中產生由於透鏡或鏡子等光學類部件、CCD的光接收面的孔徑、 傳送效率、殘像、物理掃描的積分效果以及掃描不均等而產生圖像模糊的裂 化。濾波處理單元2412通過進行邊界或邊緣等的強調處理,從而修復原稿數 據中產生的裂化。此外,濾波處理單元2412進行平滑處理,以抑制在後級處 理的特徵點的提取處理中所不需要的高頻分量。
圖4是表示濾波處理單元2412所利用的空間濾波器的例子的說明圖。如 圖所示,空間濾波器例如具有7x7的大小,是用於進行強調處理和平滑化處 理的混合濾波器。掃描輸入的原稿數據的像素,並對所有像素進行通過空間 濾波器的運算處理。另外,空間濾波器的大小不限定於7x7的大小,也可以 3x3、 5x5等大小。此外,濾波係數的數值為一例,不應限定於此,可以根 據彩色圖像輸入單元13的機種或特性來適當設定。
二值化處理單元2413通過將輸入的原稿數據中包含的各像素的亮度值 或明度值與規定的閾值進行比較從而將原稿數據二值化,並將二值化後的原 稿數據輸出到重心提取單元2414。
重心提取單元2414對從二值化處理單元2413輸入的原稿數據的各像素 進行附加與二值化後的像素值對應的標籤(label)的標示(labeling)。即,標 籤中有兩種標籤,在像素值以0或1表示的情況下,對0的像素附加一種標 籤,對1的像素附加另一種標籤。重心提取單元2414接著確定被附加了同一 標籤的像素連接的連接區域,並提取確定的連接區域的重心作為特徵點,將 提取的特徵點輸出到特徵數據計算單元242。另外,特徵點可以由原稿數據 所表示的二值圖像上的坐標值來表示。
圖5是表示連接區域的特徵點的例子的說明圖。在圖5中,確定了的連 接區域為字符'A,,並且被確定為被附加了同一標籤的像素的集合。該字符 "A"的重心的位置為圖5中黑點所示的位置,該重心為特徵點。圖6是表 示對於字符串的特徵點的提取結果的例子的說明圖。在由多個字符構成的字 符串的情況下,根據字符的種類而分別在不同的位置提取特徵點。特徵點不 僅可以對字符提取,同樣也可以對圖形或照片部分提取。另外,這裡所示的 特徵點的4是取方法為一例,也可以^使用其它方法4是取特4i點。例如,也可以
進行將字符串分解為單詞,並提取各單詞的重心作為特徵點的處理。
特徵數據計算單元242進行基於從特徵點提取單元241輸入的特徵點, 計算表示輸入的原稿數據的特徵的特徵數據的處理。這裡,表示特徵數據的
計算例子。特徵數據計算單元242將從特徵點提取單元241輸入的各個特徵 點按順序作為關注特徵點,並提取接近關注特徵點的四個其它的特徵點。
圖7是表示關注特徵點和提取出的特徵點的說明圖。特徵數據計算單元 242如圖7所示,將一個特徵點作為關注特徵點,將接近該關注特徵點周邊 的特徵點從離關注特徵點的距離近的特徵點開始,依次提取規定數(這裡為 4點)作為周邊特徵點。在圖7所示的例子中,在以特徵點a作為關注特徵點 P的情況下,由圖中的閉曲線Cl包圍的特徵點b、 c、 d、 e的4點被作為周 邊特徵點提取,在以特徵點b作為關注特徵點P2的情況下,由圖中的閉曲線 C2包圍的特徵點a、 c、 e、 f的4點被作為周邊特徵點提取。
此外,特徵數據計算單元242從提取出的周邊特徵點4點中提取3點的 組合。圖8A-圖8D是表示對關注特徵點Pl提取3點的周邊特徵點並計算 特徵數據的例子的說明圖。如圖8A-圖8D所示,在以圖7所示的特徵點a 作為關注特徵點Pl的情況下,提取從周邊特徵點b、 c、 d、 e中選擇了3點 的全部組合,即,周邊特徵點b、 c、 d、周邊特徵點b、 c、 e、周邊特徵點b、 d、 e、周邊特徵點c、 d、 e的各組合。
接著,特徵數據計算單元242對於提取出的各組合,計算對於幾何學變 形的不變量(特徵量之一)Hij。這裡,i為表示關注特徵點的數(i為1以上 的整數),j為表示周邊特徵點3點的組合的數(j為1以上的整數)。在本實 施方式中,將連接周邊特徵點之間的線段的長度中的兩個長度之比設為不變 量Hij。另外,上述線段的長度只要基於各個周邊特徵點的坐標值來計算即可。
例如,圖8A所示的例子中,設連接特徵點b和特徵點c的線段長度為 Al 1 、連接特徵點b和特徵點d的線段長度為B11時,不變量Hl 1由Hl 1=Al 1/ Bll求出。此外,在圖8B所示的例子中,設連接特徵點b和特徵點c的線段 長度為A12、連接特徵點b和特徵點e的線段長度為B12時,不變量H12由 H12=A12/B12求出。此外,在圖8C所示的例子中,設連接特徵點b和特徵 點d的線段長度為A13、連接特徵點b和特徵點e的線段長度為B13時,不 變量H13由H13= A13/B13求出。此外,在圖8D所示的例子中,設連接特 徵點c和特徵點d的線段長度為A14、連接特徵點c和特徵點e的線段長度為B14時,不變量H14由H14-A14/B14求出。
這樣,在圖8A-圖8D的例子中,不變量Hll、 H12、 H13、 H14被計算 出。在以上的例子中,將離關注特徵點第l近、第2近、第3近的周邊特徵 點3點的組合設為j = 1,將離關注特徵點第1近、第2近、第4近的周邊特 徵點3點的組合設為j = 2,將離關注特徵點第l近、第3近、第4近的周邊 特徵點3點的組合設為j = 3,將離關注特徵點第2近、第3近、第4近的周 邊特徵點3點的組合設為j = 4。此外,將3點的周邊特徵點中離關注特徵點 最近的周邊特徵點和第2近的周邊特徵點連接的線賴:設為Aij,將離關注特徵 點最近的周邊特徵點和第3近的周邊特徵點連接的線段設為Bij。另外,為了 決定周邊特徵點3點的組合的順序或不變量Hij的計算所使用的線段,不限 於以上例子所使用的方法,也可以使用以連接周邊特徵點之間的線段的長度 為基準而決定的方法等任意的方法來決定。
接著,特徵數據計算單元242計算下述式子的餘數的值作為散列(hash) 值(特徵數據)Hi,並存儲在存儲單元12中。另外,下述式子的D是根據 將餘數能夠取的值的範圍設定為什麼程度而預先設定的常數。 (Hi 1 x 103+ Hi2x 102+Hi3x 10'+ Hi4x 10。 ) /D
此外,特徵數據計算單元242在對於一個關注特徵點的周邊特徵點的提 取以及散列值Hi的計算結束之後,將其它的特徵點作為下一個關注特徵點, 對下一個關注特徵點進行周邊特徵點的計算以及散列值的計算,並計算以各 特徵點作為關注特徵點的散列值。
在圖7所示的例子中,特徵數據計算單元242在以特徵點a作為關注特 徵點P1的周邊特徵點的提取以及散列值H1的計算結束之後,進行以特徵點 b作為關注特徵點P2的周邊特徵點的提取以及散列值H2的計算。如圖7所 示,在以特徵點b作為關注特徵點P2的情況下,特徵點a、 c、 e、 f的4點 被作為周邊特徵點而提取。
圖9A-圖9D是表示對關注特徵點P2提取3點的周邊特徵點並計算特 徵數據的例子的說明圖。如圖9A -圖9D所示,特徵數據計算單元242提取 周邊特徵點a、 c、 e、 f內的3點的組合,即,周邊特徵點a、 e、 f、周邊特徵 點a、 c、 e、周邊特徵點a、 f、 c、周邊特徵點e、 f、 c的各組合,並對各組 合計算不變量Hij。
與圖8A -圖8D所示的關注特徵點Pl的情況同樣,在關注特徵點P2的
情況下,如圖9A所示,通過H21二A21/B21計算不變量H21,如圖9B所示, 通過H22-A22/B22計算不變量H22,如圖9C所示,通過H23= A23/B23計 算不變量H23,如圖9D所示,通過H24二A24/B24計算不變量H24。此外, 特徵數據計算單元242由不變量H21、 H22、 H23、 H24計算散列值H2,並 存儲在存儲單元12中。進而,特徵數據計算單元242以各特徵點作為關注特 徵點而重複同樣的處理,並分別求以各特徵點作為關注特徵點的情況下的散 列值Hi,並且存儲在存儲單元12中。
如以上這樣,特徵數據計算單元242對各個特徵點計算作為散列值Hi 的特徵數據,並將計算出的多個特徵數據作為原稿數據的特徵數據。特徵數 據計算單元242作為本發明中的生成單元起作用。
另外,這裡所示的特徵數據的計算方法為一例,也可以使用其它方法計 算特徵數據。例如,也可以使用其它的規定的散列函數計算特徵數據。此外, 在提取接近關注特徵點的特徵點時,也可以提取5點或6點等4點以外的數 的特徵點來計算特徵數據。此外,也可以進行從提取出的5個特徵點中再提 取3個特徵點,基於3點之間的距離來計算特徵數據,相應於從5個特徵點 中能夠再提取3個特徵點的組合數來計算特徵數據等,對一個關注特徵點計 算多個特徵數據的處理。
特徵數據計算單元242所計算的特徵數據與原稿數據相關聯由存儲單元 12存儲。存儲單元12分別對由多頁構成的每個原稿,存儲與各頁對應的原 稿數據,進而存儲將原稿數據和原稿對應的原稿表、以及將原稿數據和特徵 數據對應的特徵表。存儲單元12作為本發明中的特徵數據存儲單元起作用。
圖IO是表示存儲單元12所存儲的原稿數據的概念圖。存儲了原稿中包 含的各頁所對應的多個原稿數據,對各原稿數據附加了單獨表示原稿數據的 ID1、 ID2、...的頁索引。圖11是表示存儲單元12所存儲的將原稿數據和原 稿對應的原稿表的內容例子的概念圖。記錄了單獨表示原稿的Docl、Doc2、... 的原稿索引,表示原稿中包含的各頁所對應的原稿數據的頁索引與原稿索引 相關聯記錄。表中還記錄了各原稿頁數,與頁數相同數的頁索引被與原稿索 引相關聯。通過頁索引與原稿索引相關聯,從而如圖10所示,存儲單元12 將原稿索引和原稿數據相互關聯地存儲。
圖12是表示存儲單元12所存儲的將原稿數據和特徵數據相對應的特徵 表的內容例子的概念圖。在圖中,表示將作為散列值的特徵數據作為E= 127 計算的情況下的例子。記錄了 0 126的各個特徵數據,原稿數據的頁索引與 對該原稿數據計算出的特徵數據相關聯記錄。由於有時在多個原稿數據中計 算出同一特徵數據,所以對各特徵數據關聯了多個頁索引。此外,由於對一 個原稿數據計算多個特徵數據,所以一個原稿數據的頁索引與多個特徵數據 相關聯。通過將頁索引與特徵數據相關聯,從而存儲單元12將特徵數據以及 原稿數據互相關聯地存儲。
投票處理單元243基於特徵數據計算單元242計算出的特徵數據,;險索 存儲單元12所存儲的特徵表,對與計算出的特徵數據一致的特徵數據相關聯 的頁索引所表示的原稿數據進行投票。在對一個特徵數據關聯了多個頁索引 的情況下,對與該特徵數據相關聯的全部原稿數據進行投票。由於特徵數據 計算單元242對輸入的原稿數據計算多個特徵數據,所以對各特徵數據進行 投票,並對與輸入的原稿數據類似的原稿數據進行多次投票。投票處理單元 243將對特徵數據計算單元242計算出的多個特徵數據進行投票的結果輸出 到類似度判定處理單元244。
類似度判定處理單元244基於從投票處理單元243輸入的投票結果,判 定輸入的原稿數據與存儲在存儲單元12中的原稿數據的哪個類似,並將判定 結果輸出到原稿提取單元245。具體來說,類似度判定處理單元244檢查存 儲單元12中存儲的各原稿數據的得票數,將得票數最大的原稿數據判定為與 輸入的原稿數據類似的原稿數據。或者,類似度判定處理單元244也可以將 各原稿數據的得票數除以特徵數據計算單元242計算出的特徵數據的數即最 大可能得票數而將得票數歸 一化,將歸 一化後的得票數為規定的閾值以上的 原稿數據判定為與輸入的原稿數據類似的原稿數據。在存在與輸入的原稿數 據類似的原稿數據的情況下,類似度判定處理單元244輸出的判定結果中含 有類似的原稿數據的頁索引。投票處理單元243和類似度判定處理單元244 作為本發明中的判定單元起作用。
原稿提取單元245基於從類似度判定處理單元244輸入的判定結果中包 含的頁索引,檢索存儲單元12所存儲的原稿表,並取得與頁索引相關聯的原 稿索引。由此,確定含有被判定為與輸入的原稿數據類似的原稿數據所對應 的頁的原稿。原稿提取單元245接著提取與取得了的原稿索引相關聯的多個 頁索引所表示的多個原稿數據,並將提取出的多個原稿數據輸出到顏色校正 單元25。由此,與確定了的原稿中包含的全部頁對應的原稿數據被提取。原
稿提取單元245作為本發明中的提取單元起作用。
接著,說明以上的結構所構成的本發明的原稿提取裝置100所執行的處 理。原稿提取裝置100執行讀取由多頁構成的原稿從而註冊原稿數據的處理、 讀取原稿的 一部分從而提取與原稿的全部頁對應的原稿數據的處理。從原稿
的 一部分中提取與原稿的全部頁對應的原稿數據的處理是有關本發明的原稿 提取方法的處理。圖13是表示註冊原稿數據的處理的步驟的流程圖。
原稿提取裝置100的控制單元11隨時等待接受用戶操作操作面板15而 產生的原稿悽t據的註冊指示(S11 )。在沒有收到註冊指示情況下(Sll:否), 控制單元11繼續等待註冊指示的接受。在接受了原稿數據的註冊指示的情況 下(Sll:是),使用者將多頁構成的原稿設置到原稿提取裝置100中,彩色 圖像輸入單元13通過光學讀取各頁,從而取得由RGB信號構成的圖像數據 即多個原稿數據(S12 )。彩色圖像輸入單元13將原稿數據輸出到彩色圖像處 理單元2,在彩色圖像處理單元2中,按照A/D變換單元20、黑斑4交正單元 21、輸入色階校正單元22以及區域分離處理單元23的順序來處理原稿數據, 控制單元11在存儲單元12中存儲原稿數據(S13 )。
在原稿提取處理單元24中,特徵點提取單元241通過前述的處理對一個 原稿數據提取多個特徵點(S14),特徵數據計算單元242通過前述的處理對 各個特徵點計算特徵數據,從而計算表示一個原稿數據的特徵的多個特徵數 據(S15 )。控制單元11接著生成表示一個原稿數據的頁索引,通過對存儲單 元12中存儲的原稿數據附加頁索引,從而設定頁索引(S16)。此時,控制單 元11根據原稿數據被輸入的順序或日期時間等,生成唯一的頁索引。控制單 元11接著通過將特徵數據計算單元242所計算的特徵數據和原稿數據的頁索 引相關聯,從而如圖12所示這樣來更新特徵表(S17)。
控制單元11接著判定對輸入了的全部原稿數據關聯特徵數據的處理是 否結束(S18)。在還存在未進行關聯特徵數據的處理的原稿數據的情況下 (S18:否),控制單元11將處理返回到步驟S14,特徵點提取單元241對還 未進行特徵點的提取的原稿數據提取特徵點。在對全部的原稿數據結束了處 理的情況下(S18:是),通過生成用於表示由與取得了的多個原稿數據對應 的多頁所構成的原稿的原稿索引,從而設定原稿索引(S19)。這裡,控制單 元11由日期時間等生成原稿索引。另外,控制單元11也可以進行通過操作 面板15接受使用者所希望的原稿索引的處理。
控制單元ll接著通過將生成的原稿索引和原稿數據的頁索引相關聯,從
而更新存儲單元12所存儲的原稿表(S20),並結束處理。通過以上的處理, 由多頁構成的原稿的原稿數據4皮存儲在存儲單元12中。
圖14是表示用於提取原稿數據的處理的步驟的流程圖。原稿提取裝置 100的控制單元11隨時等待接受用戶操作操作面板15而產生的原稿數據的 提取指示(S31 )。在沒有收到提取指示的情況下(S31:否),控制單元11繼 續等待收到提取指示。在接受了圖像數據的提取指示的情況下(S31:是), 使用者將多頁構成的原稿中包含的一部分頁設置到原稿提取裝置100中,彩 色圖像輸入單元13通過光學讀取設置的頁,從而取得由RGB信號構成的圖 像數據即輸入原稿數據(S32)。
彩色圖像輸入單元13將輸入原稿數據輸出到彩色圖像處理單元2,在彩 色圖像處理單元2中,按照A/D變換單元20、黑斑校正單元21、輸入色階 才交正單元22以及區域分離處理單元23的順序來處理輸入原稿數據,在原稿 提取處理單元24中,特徵點提取單元241對輸入原稿數據提取多個特徵點 (S33 )。特徵數據計算單元242通過對特徵點提取單元241提取出的各特徵 點計算特徵數據,從而計算表示輸入原稿數據的特徵的多個特徵數據(S34 )。
投票處理單元243接著對特徵數據計算單元242計算出的各特徵數據, 檢索存儲單元12所存儲的特徵表,並進行對與計算出的特徵數據相關聯的頁 索引所表示的原稿數據投票的投票處理(S35)。類似度判定處理單元244基 於投票處理單元243中的投票結果,判定輸入原稿數據與存儲單元12中存儲 的原稿數據的哪一個類似(S36)。此時,類似度判定處理單元244將得到最 低限的得票數的原稿數據內得票數最大的原稿數據,或歸一化後的得票數為 規定的閾值以上原稿數據判定為與輸入原稿數據的類似度高的原稿數據。
在類似度高的原稿數據(S37)。在判定結果表示沒有類似度高的原稿數據的 情況下(S37:否),控制單元ll輸出表示沒有與使用者使彩色圖像輸入單元 13讀取的原稿類似的原稿的信息(S38)。具體來說,控制單元11在操作面 板15的顯示單元中顯示表示沒有類似的原稿的字符信息,或者在彩色圖像形 成單元14中形成以字符表示沒有類似的原稿的圖像。在步驟S38結束之後, 原稿提取裝置100結束提取原稿數據的處理。
在步驟S37中,在判定結果表示存在類似度高的原稿數據的情況下(S37: 是),原稿提取單元245檢索存儲單元12所存儲的原稿表,並取得由類似度 判定處理單元244判定為與輸入原稿數據的類似度高的原稿數據的頁索引相 關聯的原稿索引(S39)。控制單元ll接著判定是否取得了與多頁對應的多個 輸入原稿數據(S40 )。在取得了的輸入原稿數據是與一頁對應的輸入原稿數 據的情況下(S40:否),原稿提取單元245提取通過原稿表與取得了的原稿 索引相關聯的多個頁索引所表示的多個原稿數據(S43)。由此,含有與輸入 原稿數據的類似度高的原稿數據所對應的頁的原稿相關的原稿數據全部被提 取。
原稿提取單元245將提取出的原稿數據輸出到顏色校正單元25,按照顏 色校正單元25、黑版生成底色除去單元26、空間濾波處理單元27、輸出色 階校正單元28、色階再現處理單元29的順序處理原稿數據,彩色圖像處理 單元2對彩色圖像形成單元14輸出原稿數據。彩色圖像形成單元14通過形 成基於作為圖像數據的多個原稿數據的圖像,從而進行原稿輸出處理,即輸 出由與多個原稿數據對應的多頁構成的原稿(S44)。在步驟S44結束之後, 原稿提取裝置100結束提取原稿數據的處理。
在步驟S40中取得了與多頁對應的多個輸入原稿數據的情況下(S40: 是),控制單元11判定對各輸入原稿數據取得了的原稿索引是否一致(S41 )。 在原稿索引不一致的情況下(S41:否),控制單元11將處理進至步驟S38, 並輸出沒有類似的原稿的情況。
在步驟S41中原稿索引一致的情況下(S41:是),控制單元ll判定對於 全部輸入原稿數據判定類似度的處理是否結束(S42)。在還存在未進行判定 類似度的處理的輸入原稿數據的情況下(S42:否),控制單元ll將處理返回 到步驟S33,特徵點提取單元241對還未進行特徵點的提取的輸入原稿數據 提取特徵點。在對全部輸入原稿數據結束了處理的情況下(S42:是),原稿 提取裝置100將處理進至步驟S43,提取含有與輸入原稿數據的類似度高的 原稿數據對應的頁的原稿相關的原稿數據並輸出原稿。
另外,在以上的處理中,假設與輸入原稿數據的類似度高的原稿數據為 一個,但原稿提取裝置100也可以在歸一化後的得票數為規定的閾值以上的 原稿數據存在多個的情況下,進行判定多個原稿數據是與輸入原稿數據的類 似度高的原稿數據的處理。在該情況下,也可以進行將與多個原稿數據的每 個相關的原稿一同輸出的處理,或者也可以進行在操作面板15的顯示單元中
顯示與被判定為類似度高的各原稿數據對應的頁的圖像,並讓使用者選擇正 當的原稿數據的處理。
如以上詳細敘述的,在本發明中,原稿提取裝置100將與原稿中包含的
各頁對應的原稿數據存儲在存儲單元12中,進而,將表示原稿數據的特徵的
特徵數據以及表示原稿的原稿索引與原稿數據相關聯地存儲。原稿提取裝置
100在取得了輸入原稿數據的情況下,由輸入原稿數據生成特徵數據,基於 特徵數據判定與原稿數據的類似度,取得與輸入原稿數據的類似度高的原稿 數據相關聯的原稿索引,並提取與取得了的原稿索引相關聯的多個原稿數據。 由此,含有與被判定為與輸入原稿數據類似的原稿數據對應的頁的原稿被確
定,此外,與確定了的原稿中包含的所有頁對應的原稿數據被提取。即,可 以基於由多頁構成的原稿的一部分對應的輸入原稿數據,提取與原稿的全部 頁對應的原稿數據。從而,即使在由多頁構成的原稿中因丟失或汙染等而產 生了缺失的情況下,也能夠從預先存儲了原稿數據的資料庫中容易地提取原 稿全部頁中的原稿數據。
此外,本發明的原稿提取裝置100為了判定原稿數據的類似度,預先對 一個原稿數據存儲多個特徵數據,對於對輸入原稿數據生成的各特徵數據, 對與同 一特徵數據相關聯的原稿數據進行投票,並將得到最大得票數或規定 量以上的投票數的原稿數據作為與輸入原稿數據的類似度高的原稿數據。由 於將多個特徵數據內大部分特徵數據一致的原稿悽t據判定為類似度高,所以 能夠進行更精確的類似度判定。從而,能夠儘可能地避免由於錯誤地將與輸 入原稿數據不類似的原稿數據判定為類似度高的原稿數據而提取出與目的不 同的原稿數據的情況。
此外,本發明的原稿提取裝置取得多個輸入原稿數據,在與各輸入原稿 數據的類似度高的原稿數據相關聯的原稿索引 一致的情況下,提取與 一致的 原稿索引相關聯的多個原稿數據。由此,能夠基於多頁來提取原稿,並且能 夠進一步降低錯誤地提取與目的不同的原稿數據的可能性。例如,即使在存 在互相類似的原稿的情況下也能夠可靠地提取目的的原稿數據。
此外,在本發明中,從原稿數據中提取與原稿數據所表示的原稿上的字 符、圖形以及照片等的重心對應的特徵點,基於提取出的多個特徵點的相對 的位置關係計算由數值表示的特徵數據。由於通過在原稿數據之間比較這樣 計算出的特徵數據從而進行原稿數據的檢索,所以與以往的通過比較位圖數
據來進行的^r索、或者通過比較從原稿提取出的多個字符碼即特徵量從而進 行的檢索相比,大幅地削減了進行原稿數據的4企索處理所需的數據量。從而, 在本發明中,與以往技術相比,削減了檢索原稿數據的處理所需的時間。此 外,在本發明中,由於通過比較基於多個特徵點的相對的位置關係求出的特 徵數據,從而進行原稿數據的檢索,所以不必在原稿數據之間進行圖像的定 位。從而,在本發明中,與以往技術相比能夠高精度地檢索原稿數據。
另外,在本實施方式中,示出了處理彩色圖像數據即原稿數據的方式, 但不限於此,本發明的原稿提取裝置100也可以是處理單色的原稿數據的方 式。
此外,在本實施方式中,示出了作為本發明中的原稿數據取得單元而使 用了掃描儀即彩色圖像輸入單元13的方式,但不限於此,本發明的原稿提取 裝置100也可以是包括從外部掃描儀或PC接收原稿數據的接口來作為原稿 數據取得單元的方式。此外,本發明的原稿數據不限於光學讀取原稿的圖像 數據,也可以是由利用應用程式的PC生成的文本數據等應用數據。在該情 況下,原稿提取裝置100通過作為原稿數據取得單元的接口接受作為應用數 據的原稿數據,並執行本發明的處理。
此外,在本實施方式中,示出了進行註冊取得了的原稿數據,並從註冊 了的原稿數據中提取必要的原稿數據的處理的方式,但不限於此,本發明的 原稿提取裝置IOO也可以是通過安裝預先存儲了原稿數據的存儲單元12等方 法,從而不進行註冊處理而進行提取原稿數據的處理的方式。此外在本實施 方式中,示出了進行從原稿提取裝置100中內置的存儲單元12中存儲的原稿 數據中提取必要的原稿數據的處理的方式,但不限於此,本發明的原稿提取 裝置100也可以是進行從由通信網絡連接的存儲裝置或伺服器裝置等外部的 原稿存儲單元中存儲的原稿數據中提取必要的原稿數據的處理的方式。 (實施方式2)
在實施方式2中,表示在存在多個與輸入圖像數據的類似度高的原稿的 情況下,還取得輸入圖像數據從而進行圖像數據的範圍縮小(絞込&)的形 式。本實施方式的原稿提取裝置的內部結構與使用圖1~圖3說明的實施方 式1的情況同樣。此外,本實施方式的存儲單元12中的存儲內容與使用圖 11和圖12說明的實施方式1的情況相同。此外,本實施方式的原稿」提取裝 置註冊原稿數據的處理與使用圖13的流程圖說明的實施方式1的情況相同。
圖15以及圖16是表示由實施方式2的原稿提取裝置進行的提取原稿數 據的處理的步驟的流程圖。原稿提取裝置100的控制單元11隨時等待接受用 戶操作操作面板15而產生的原稿數據的提取指示(S501)。在沒有收到提取 指示情況下(S501:否),控制單元11繼續等待收到提取指示。在接受了圖 像數據的提取指示的情況下(S501:是),使用者將多頁構成的原稿中包含的 一部分頁設置到原稿提取裝置100中,彩色圖像輸入單元13通過光學讀取設 置的一頁,從而取得由RGB信號構成的圖像數據即輸入原稿數據(S502)。
彩色圖像輸入裝置13將輸入原稿數據輸出到彩色圖像處理單元2,在彩 色圖像處理單元2中,按照A/D變換單元20、黑斑校正單元21、輸入色階 -艮正單元22以及區域分離處理單元23的順序處理輸入原稿it據,在原稿提 取處理單元24中,特徵點提取單元241對輸入原稿數據4是取多個特徵點 (S503 )。特徵數據計算單元242通過對特徵點提取單元241提取出的各特徵 點計算特徵數據,從而計算表示輸入原稿數據的特徵的多個特徵數據(S504 )。
投票處理單元243接著對特徵數據計算單元242計算出的各特徵數據, ^f企索存儲單元12存儲的特徵表,進行對與計算出的特徵數據相關聯的頁索引 所表示的原稿數據進行投票的投票處理(S505 )。類似度判定處理單元244基 於投票處理單元243中的投票結果,判定輸入原稿數據與存儲單元12中存儲 的原稿數據的哪一個類似(S506)。步驟S506中,類似度判定處理單元244 將被歸一化後的得票數為規定的閾值以上的原稿數據判定為與輸入原稿數據 的類似度高的原稿數據。
控制單元11接著判定類似度判定處理單元244中的判定結果是否表示存 在與輸入原稿數據的類似度高的原稿數據(S507 )。在判定結果表示沒有類似 度高的原稿數據的情況下(S507:否),控制單元11輸出表示沒有與使用者 使彩色圖像輸入單元13讀取的原稿類似的原稿的信息(S508 )。在步驟S508 結束之後,原稿提取裝置100結束提取原稿數據的處理。
在步驟S507中,在判定結果表示存在與輸入原稿數據的類似度高的原稿 數據的情況下(S507:是),原稿提取單元245檢索存儲單元12所存儲的原 稿表,並取得由類似度判定處理單元244判定為與輸入原稿數據的類似度高 的原稿數據的頁索引相關聯的原稿索引(S509)。在存在多個與輸入原稿數據 的類似度高的原稿數據的情況下,在步驟S509中取得多個原稿索引。控制單 元11接著判定當前處理中的輸入原稿數據是否是讀取了由多頁構成的原稿
內第2頁以後的頁而得的輸入原稿數據(S510)。在當前處理中的輸入原稿數 據為讀取原稿的第1頁而得的輸入原稿數據的情況下(S510:否),控制單元 11判定在步驟S509中取得的原稿索引是否存在多個(S515)。在步驟S509 中取得的原稿索引為一個的情況下(S515:否),原稿提取單元245提取通過 原稿表與取得了的原稿索引相關聯的多個頁索引所表示的多個原稿數據 (S516)。
原稿提取單元245將提取出的原稿數據輸出到顏色校正單元25,按照顏 色校正單元25、黑版生成底色除去單元26、空間濾波處理單元27、輸出色 階校正單元28、色階再現處理單元29的順序處理原稿數據,彩色圖像處理 單元2對彩色圖像形成單元14輸出原稿數據。彩色圖像形成單元14通過形 成基於作為圖像數據的多個原稿數據的圖像,從而進行原稿輸出處理,即輸 出由與多個原稿數據對應的多頁構成的原稿(S517 )。在步驟S517結束之後, 原稿提取裝置100結束提取原稿數據的處理。
在步驟S510中,在當前處理中的輸入原稿數據為讀取原稿的第2頁以後 的頁所得的輸入原稿數據的情況下(S510:是),控制單元11判定關於目前 為止從原稿讀取的頁所對應的輸入原稿數據取得的原稿索引內是否存在目前 為止讀取的全頁相同的原稿索引(S511)。在沒有對全頁相同的原稿索引的情 況下(S511:否),控制單元11將處理進至步驟S508,輸出沒有類似的原稿 的情況。
在存在目前為止讀取的全頁相同的原稿索引的情況下(S511:是),控制 單元11判定是否存在多個全頁相同的原稿索引(S512)。在對全頁相同的原 稿索引為一個的情況下(S512:否),控制單元11將處理進至步驟S516,原 稿提取單元245提取與取得了的原稿索引相關聯的多個頁索引所表示的多個 原稿數據(S516),彩色圖像形成單元14進行將與多個原稿數據對應的多頁 所構成的原稿進行輸出的原稿輸出處理(S517 ),原稿提取裝置100結束處理。
在步驟S515中,在存在多個取得了的原稿索引的情況下(S515:是), 或者在步驟S512中,存在多個到目前為止讀取的全頁相同的原稿索引的情況 下(S512:是),控制單元11進行將表示提供原稿的其它頁的信息輸出的處 理(S513 )。具體來說,控制單元11在操作面板15的顯示單元中顯示請求讀 取原稿中包含的新的頁的字符信息。
控制單元11接著判定用戶是否將原稿中包含的其它頁設置在原稿提取
裝置100中(S514)。在原稿中包含的其它頁被設置在原稿提取裝置100中的 情況下(S514:是),控制單元11將處理返回到步驟S502,彩色圖像輸入單 元13取得與原稿中包含的其它頁對應的輸入原稿數據。
在原稿中包含的其它頁未被設置在原稿提取裝置100中的情況下(S514: 否),控制單元11將處理進至步驟S516。另外,在步驟S514中,也可以在 步驟S513的處理結束後,即使經過規定時間,原稿的其它頁也未被設置的情 況下,或者通過用戶操作操作面板15而接受了原稿讀取的結束指示的情況 下,控制單元11進行判定為未設置原稿的其它頁的處理。控制單元11通過 將處理進至步驟S516,從而原稿提取單元245提取與對目前為止讀取的全頁 相同的多個原稿索引分別相關聯的各頁索引所示的原稿數據(S516),彩色圖 像形成裝置14進行將與提取出的原稿數據對應的原稿輸出的原稿輸出處理 (S517)。由此,原稿提取裝置IOO輸出與多個原稿索引對應的多個原稿。步 驟S517結束之後,原稿提取裝置100結束處理。
如上面詳細所述的,本實施方式的原稿提取裝置中,在與對應於原稿內 讀取的頁的輸入原稿數據的類似度高的原稿數據相關聯的原稿索引存在多個 的情況下,請求與原稿的其它頁對應的輸入原稿數據,並取得讀取原稿的其 它頁所得的輸入圖像數據。進而,本實施方式的原稿提取裝置取得對讀取的 全部頁共同地取得與輸入原稿數據的類似度高的原稿數據相關聯的原稿索 引,並提取與取得了的原稿索引相關聯的多個原稿數據。由此,在被判定為 與輸入原稿數據類似的原稿數據的原稿索引存在多個的情況下,也利用原稿 的其它頁進行原稿索引的範圍壓縮,並重複進行範圍壓縮直到確定與輸入原 稿數據類似的原稿數據的原稿索引為止。從而,通過利用多頁從而能夠進行 更精確的類似度判定,並且能夠高精度地提取所需的原稿數據。 (實施方式3 )
在實施方式1和2中,示出了基於與一頁對應的輸入原稿數據能夠輸出 任何一個原稿的方式,但在實施方式3中,示出對特定的原稿使輸出條件更 加嚴格的方式。本實施方式的原稿提取裝置的內部結構與使用圖1~圖3說 明的實施方式1的情況相同。
圖17是表示實施方式3的存儲單元12所存儲的、將原稿數據和原稿對 應的原稿表的內容例子的概念圖。與單獨表示原稿的Docl、 Doc2、...的原稿 索引相關聯地記錄了頁索引和頁數,而且為了輸出原稿所需的輸出條件與原
稿索引相關聯地被記錄。在圖17所示的例子中,對於Docl Doc4的原稿索 引沒有關聯輸出條件,對於Doc21以及Doc51的原稿索引關聯了輸出條件。 對於Doc21的原稿索引,作為輸出條件,關聯了與原稿索引相關聯的ID21 ~ ID28的頁索引內ID21以及ID25對應的原稿數據都與輸入原稿數據類似的情 況。而且,對於Doc51的原稿索引,作為輸出條件,關聯了與原稿索引相關 聯的ID51-ID55的頁索引內三個以上的頁索引對應的原稿數據與輸入原稿 數據類似的情況。此外,本實施方式的存儲單元12存儲的將原稿數據和特徵 數據相對應的特徵表的內容與使用圖12說明的實施方式1的情況相同。
此外,本實施方式的原稿提取裝置註冊原稿數據的處理與使用圖13的流 程圖說明的實施方式1的情況同樣。此外,本實施方式的原稿提取裝置進行 的提取原稿數據的處理與使用圖14的流程圖說明的實施方式1的情況,或者 使用圖15和圖16說明的實施方式2的情況大致同樣,但是步驟S44或步驟 S517的原稿輸出處理的內容與實施方式1或2不同。
圖18是表示實施方式3的原稿提取裝置所進行的原稿輸出處理的步驟的 流程圖。本實施方式的原稿提取裝置100在提取原稿數據的處理中,執行圖 14所示的步驟S31 ~S43、或者圖15以及圖16所示的步驟S501 S516的處 理。在步驟S44或步驟S517的原稿輸出處理中,控制單元11首先選擇與原 稿提取單元245在步驟S43或步驟S516中提取的原稿數據內 一個原稿數據相 關聯的原稿索引(S61 )。控制單元11接著檢索存儲單元12中存儲的原稿表, 判定選擇了的原稿索引上是否關聯有輸出條件(S62)。在選擇了的原稿索引 上關聯有輸出條件的情況下(S62:是),控制單元11判定與原稿索引相關聯 的輸出條件是否被滿足(S63)。
例如,在圖17所示的Doc21的原稿索引被選擇了的情況下,在步驟S37 或步驟S507中,與ID21以及ID25對應的原稿數據都被判定為與輸入原稿數 據類似的原稿數據時,判定為輸出條件被滿足。在與ID21以及ID25的任何 一個對應的原稿數據未被判定為與輸入原稿數據類似的原稿數據時,判定為 輸出條件未被滿足。此外,在Doc51的原稿索引被選擇了的情況下,在步驟 S37或步驟S507中,與ID51 -ID55的頁索引內三個以上的頁索引對應的原 稿數據都被判定為與輸入原稿數據類似的原稿數據時,判定為輸出條件被滿 足。在僅小於三個的頁索引所對應的原稿數據被判定為與輸入原稿數據類似 的原稿數據時,判定為輸出條件未被滿足。
在步驟S62中,在原稿索引上未關聯輸出條件的情況下(S62:否),或 者在步驟S63中在原稿索引上關聯的輸出條件被滿足的情況下(S63:是), 彩色圖像形成單元14通過形成基於與選擇了的原稿索引相關聯的各頁索引 所表示的原稿數據的圖像,從而輸出與選擇了的原稿索引對應的原稿(S64)。 例如,與圖17所示的Docl -Doc4的原稿索引對應的原稿未被決定輸出條件, 所以被無條件輸出。此外,與Doc21以及Doc51的原稿索引對應的原稿在滿 足了輸出條件的情況下被輸出。在步驟S64結束之後,控制單元ll將處理進 至下一步驟S65。在步驟S63中,在與原稿索引相關聯的輸出條件未被滿足 的情況下(S63:否),不輸出與選擇了的原稿索引對應的原稿,而由控制單 元11將處理進至下一步驟S65。這樣,控制單元11禁止輸出未滿足輸出條 件的原稿數據。
控制單元11接著判定對步驟S43或步驟S516中提取的全部原稿數據的 處理是否結束(S65)。在還有尚未結束處理的原稿lt據的情況下(S65:否), 控制單元11將處理返回至步驟S61,並選"t奪在與步驟S43或步驟S516中提 取的原稿數據相關聯的原稿索引內尚未被選擇的原稿索引。在對步驟S43或 步驟S516中提取的全部原稿數據的處理結束了的情況下(S65:是),控制單 元11結束原稿輸出處理並將處理返回到提取原稿數據的處理。在原稿輸出處 理結束之後,原稿提取裝置100結束提取原稿數據的處理。
如以上所詳細敘述的,本實施方式的原稿提取裝置對各原稿索引預先決 定輸出條件,在進行原稿輸出處理時,僅輸出滿足輸出條件的原稿索引所對 應的原稿。在實施方式1和2中,由於能夠基於與一頁對應的輸入原稿數據 輸出原稿,所以即使是包含秘密信息這樣的重要度高的原稿,也可能根據原 稿的一頁而容易地輸出全部原稿頁。在本實施方式中,原稿提取裝置對於被 決定了輸出條件的原稿,在滿足輸出條件的情況下進行輸出,所以通過對重 要度高的原稿決定輸出條件,從而能夠防止重要度高的原稿被容易地輸出。
例如,作為輸出條件,需要在多頁中判定為輸入原稿數據和原稿數據類 似,從而能夠防止基於原稿的一頁輸出重要度高的原稿的全部頁。此外,作 為輸出條件,需要判定為輸入原稿數據和特定原稿數據類似,從而未具有原 稿的特定頁的使用者不能從原稿提取裝置中提取原稿。作為特定的原稿數據, 註冊用於表示與由多頁構成的原稿的主要內容沒有關聯性的用於核對的內容 的原稿數據即可。作為用於核對的內容,在原稿的主要內容為日文的情況下,
最好將用於核對的內容設為英文等,與原稿的主要內容完全不同的格式。
通過以上,本實施方式的原稿提取裝置對於具有用於核對的特定的原稿 數據的特定的使用者能夠提取被決定了輸出條件的原稿,不具有用於核對的 特定的原稿數據的其它使用者不能輸出重要度高的原稿。從而,在本實施方 式中,通過對含有秘密信息的重要度高的原稿預先決定輸出條件,從而能夠 保護原稿中包含的秘密信息。 (實施方式4)
在實施方式1-3中,示出了本發明的原稿提取裝置為圖像形成裝置的方 式,但在實施方式4中,示出本發明的原稿提取裝置為掃描儀裝置的方式。 圖19是表示實施方式4的本發明的原稿提取裝置300的內部功能結構的方框 圖。本發明的原稿提取裝置300包括控制構成原稿提取裝置300的各部分的 動作的控制單元31、由半導體存儲器或硬碟等構成的存儲單元32、以及光學 讀取彩色圖像的彩色圖像輸入單元33。彩色圖像輸入單元33上連接有A/D 變換單元34, A/D變換單元34上連接有黑斑校正單元35,黑斑校正單元35 上連接有原稿提取處理單元36。原稿提取處理單元36上連接有將原稿數據 發送到外部的發送單元37。存儲單元32、彩色圖像輸入單元33、 A/D變換 單元34、黑斑校正單元35、原稿提取處理單元36以及發送單元37連接到控 制單元31,而且控制單元31上連接有用於接受來自使用者的操:作的操作單 元38。
存儲單元32與實施方式1 ~3中說明的原稿提取裝置100所包括的存儲 單元12同樣,對分別由多頁構成的每個原稿存儲與各頁對應的原稿數據,而 且存儲了將原稿數據和原稿對應的原稿表,以及將原稿數據和特徵數據對應 的特徵表。此外,發送單元37上連接有外部的PC或圖像形成裝置等。
彩色圖像輸入單元33由具有CCD的掃描儀構成,將來自原稿的反射光 像分解為RGB並由CCD讀取,變換為RGB的模擬信號之後輸出到A/D變 換單元34。 A/D變換單元34將RGB的模擬信號變換為數字的RGB信號, 並將RGB信號輸出到黑斑校正單元35。
黑斑校正單元35對從A/D變換單元34輸入的RGB信號進行用於消除 彩色圖像輸入單元33的照明系統、成像系統、攝像系統中產生的各種失真的 處理。黑斑校正單元35進行調整RGB信號的色彩平衡的處理,並進行將RGB 的反射率信號變換為濃度信號的處理。黑斑校正單元35接著將處理後的RGB
信號構成的圖像數據即原稿數據輸出到原稿提取處理單元36。
原稿提取處理單元36被構成為與實施方式1 ~ 3所說明的原稿提取裝置 100所包括的原稿提取處理單元24相同,並且與原稿提取處理單元24執行 同樣的處理。即,原稿提取處理單元36將從黑斑校正單元35輸入的原稿數 據作為輸入原稿數據,進行與圖14或圖15和圖16的流程圖所示的處理同樣 的處理,從存儲單元32提取包含與輸入原稿數據類似度高的原稿數據對應的 頁的原稿相關的多個原稿數據。
控制單元31通過將原稿提取處理單元36提取出的多個原稿數據通過發 送單元37發送到外部,從而輸出提取出的原稿數據。發送單元37對外部的 PC或圖像形成裝置等裝置發送多個原稿數據,外部的裝置執行基於多個原稿 數據形成圖像等處理。
如上面所詳細敘述的,在本實施方式中,也與實施方式l-3同樣,基於 與多頁所構成的原稿的一部分對應的輸入原稿數據,能夠提取與原稿的全部 頁對應的原稿數據。從而,在本實施方式中,即使在由多頁構成的原稿中因 丟失或汙染等而產生缺失的情況下,也能夠從預先存儲了原稿數據的資料庫 中容易地提取原稿的全部頁中的原稿數據。 (實施方式5)
在實施方式5中,示出使用通用的計算機實現本發明的原稿提取裝置的 方式。圖20是表示實施方式5的本發明的原稿提取裝置400的內部結構的方 框圖。本實施方式的本發明的原稿提取裝置400使用PC等通用計算機構成, 包括進行運算的CPU41、存儲伴隨運算而產生的臨時信息的RAM42、從光 盤等本發明的記錄介質5中讀取信息的CD-ROM驅動器等驅動單元43、硬 盤等存儲單元44。 CPU41使驅動單元43從本發明的存4諸介質5讀出本發明 的電腦程式51 ,並將讀取的電腦程式51存儲在存儲單元44中。計算機 程序51根據需要而從存儲單元44被加載到RAM42, CPU41基於加載的計 算機程序51對原稿提取裝置400執行必要的處理。
此外,原稿提取裝置400包括輸入由用戶操作而產生的各種處理指示等 信息的鍵盤或指示裝置等輸入單元45、顯示各種信息的液晶顯示器等顯示單 元46。而且,原稿提取裝置400包括與圖像形成裝置等輸出原稿的外部的輸 出裝置61連接的發送單元47、與掃描器裝置等輸入原稿數據的外部的輸入 裝置62連接的接收單元48。發送單元47將原稿數據發送到輸出裝置61,輸 出裝置61基於原稿數據輸出原稿。輸入裝置62光學讀取原稿並生成原稿數 據,將生成的原稿數據發送到原稿提取裝置400,接收單元48接收從輸入裝 置62發送的原稿數據。接收單元48作為本發明中的原稿數據取得單元而起 作用。
存儲單元44與實施方式1-3中說明的原稿提取裝置100所包括的存儲 單元12同樣,對分別由多頁構成的每個原稿存儲與各頁對應的原稿數據,而 且,存儲了將原稿數據和原稿對應的原稿表,以及將原稿數據和特徵數據對 應的特徵表。
CPU41將本發明的電腦程式51載入RAM42中,並按照載入了的計算 機程序51執行本發明的原稿提取方法的處理。即,在通過接收單元48從輸 入裝置62輸入了原稿數據的情況下,將輸入的原稿數據作為輸入原稿數據, CPU41進行與圖14、或圖15和圖16的流程圖所示的處理同樣的處理,並從 存儲單元44中提取含有與輸入原稿數據類似度高的原稿數據對應的頁的原 稿相關的多個原稿數據。CPU41將提取出的多個原稿數據從發送單元47發送 到輸出裝置61,輸出裝置61基於原稿數據輸出由多頁構成的原稿。另外, CPU41也可以進行作為原稿數據來處理利用應用程式而生成的文本數據等應 用數據的處理。
如以上所詳細敘述的,在本實施方式中,也與實施方式1 4同樣,基於 與由多頁構成的原稿的一部分對應的輸入原稿數據,能夠提取與原稿的全部 頁對應的原稿數據。從而,在本實施方式中,即使在由多頁構成的原稿中因 丟失或汙染等而產生缺失的情況下,也能夠從預先存儲了原稿數據的資料庫 中容易地提取原稿的全部頁中的原稿數據。
另外,在本實施方式中,示出了進行從原稿提取裝置400中內置的存儲 單元44中存儲的原稿數據中提取必要的原稿數據的處理的方式,但不限於 此,本發明的原稿提取裝置400也可以是從由通信網絡連接的存儲裝置或服 務器裝置等未圖示的外部的原稿存儲單元中存儲的原稿數據中提取必要的原 稿數據的處理的方式。
另夕卜,記錄了本發明的電腦程式51的本發明的記錄介質5可以是磁帶、 磁碟、移動型硬碟、CD - ROM/MO/MD/DVD等光碟、或IC卡(包含存儲卡) /光卡等卡型記錄介質的任何一種方式。此外,本發明的記錄介質5也可以是 安裝在原稿提取裝置400中,CPU41能夠讀出記錄介質5的記錄內容的半導
體存儲器、即掩才莫ROM、EPROM( Erasable Programmable Read Only Memory )、 EEPROM ( Electrically Erasable Programmable Read Only Memory )、快閃記憶體ROM等。
此外,本發明的電腦程式51也可以是從經由網際網路或LAN等通信網 絡連接到原稿提取裝置400的未圖示的外部的伺服器裝置下載到原稿提取裝 置400並存儲在存儲單元44中的方式。在該方式的情況下,下載計算^L程序 51所需的程序預先存儲在存儲單元44中,或者從規定的記錄介質使用驅動 單元43讀出後存儲在存儲單元44中,並根據需要而載入到RAM42中即可。
權利要求
1.一種原稿提取方法,從存儲的原稿數據中提取特定的原稿數據,其特徵在於,具有將表示由多頁構成的原稿的原稿索引與對應於包含在所述原稿中的各頁的原稿數據相關聯地存儲的步驟;將基於從原稿數據中提取的特徵點計算的、表示所述原稿數據的特徵的特徵數據,與所述原稿數據相關聯地存儲的步驟;取得作為新的原稿數據的輸入原稿數據的步驟;從取得了的輸入原稿數據中提取特徵點的步驟;基於提取出的特徵點生成表示輸入原稿數據的特徵的特徵數據的步驟;通過將生成了的特徵數據和存儲的特徵數據進行比較,從而判定與存儲的特徵數據相關聯的原稿數據和輸入原稿數據的類似度的步驟;取得與被判定為是與輸入原稿數據的類似度高的原稿數據的原稿數據相關聯的原稿索引的步驟;以及提取與取得了的原稿索引所表示的原稿中包含的多頁對應的多個原稿數據的步驟。
2. —種原稿提取裝置,包括用於存儲原稿數據的原稿存儲單元,從該原稿 存儲單元所存儲的原稿數據中提取特定的原稿數據,其特徵在於,包括原稿索引存儲單元,將表示由多頁構成的原稿的原稿索引與對應於包含 在所述原稿中的各頁的原稿數據相關聯地存儲;特徵數據存儲單元,將基於從原稿數據中提取的特徵點計算的、表示所 述原稿數據的特徵的特徵數據,與所述原稿數據相關聯地存儲;原稿數據取得單元,取得作為新的原稿數據的輸入原稿數據;特徵點提取單元,從該原稿數據取得單元所取得了的輸入原稿數據中提 取特徵點;生成單元,基於該特徵點提取單元所提取出的特徵點生成表示輸入原稿 數據的特徵的特徵數據;判定單元,通過將該生成單元所生成了的特徵數據和所述特徵數據存儲 單元所存儲的特徵數據進行比較,從而判定與所述特徵數據存儲單元所存儲 的特徵數據相關^:的原稿數據和輸入原稿數據的類似度; 原稿索引取得單元,取得與被所述判定單元判定為是與輸入原稿數據的類似度高的原稿數據的原稿數據相關聯的原稿索引;以及原稿數據提取單元,提取與該原稿索引取得單元所取得了的原稿索引所 表示的原稿中包含的多頁對應的多個原稿數據。
3. 如權利要求2所述的原稿提取裝置,其特徵在於, 所述特徵數據存儲單元與一個原稿數據相關聯地存儲表示該原稿數據的特徵的多個特徵數據,所述生成單元生成表示輸入原稿數據的特徵的多個特徵數據, 所述判定單元具有投票單元,對於所述生成單元所生成了的多個特徵數據的每一個,對與 該特徵數據一致的特徵數據相關聯的原稿數據進行投票;以及判斷單元,將所述原稿存儲單元所存儲的原稿數據內、得票數最大的原 稿數據或得票數為規定量以上的原稿數據判斷為與輸入原稿數據的類似度高 的原稿數據。
4. 如權利要求2或3所述的原稿提取裝置,其特徵在於, 所述原稿數據取得單元取得多個輸入原稿數據,所述判定單元對於多個輸入原稿數據的每一個,判定所述原稿存儲單元 所存儲的原稿數據和輸入原稿數據的類似度,在與多個輸入原稿數據的每一個的類似度高的原稿數據相關聯的原稿索 引互相一致的情況下,所述原稿數據提取單元提取與該原稿索引所表示的原 稿中包含的多頁對應的多個原稿數據。
5. 如權利要求4所述的原稿提取裝置,其特徵在於, 還包括請求單元,在取得了多個與輸入原稿數據的類似度高的原稿數據相關聯的原稿索引的情況下,或者在與多個輸入原稿數據的每一個的類似度 高的原稿數據相關聯的原稿索引內,取得了多個對所述多個輸入原稿數據共 同的原稿索引的情況下,請求更多的輸入原稿凝:據。
6. 如權利要求2或3所述的原稿提取裝置,其特徵在於, 所述原稿數據取得單元通過光學讀取原稿從而取得輸入原稿數據。
7. 如權利要求2所述的原稿提取裝置,其特徵在於,還包括輸出條件存儲單元,與原稿索引相關聯地存儲用於輸出該原稿索引所表 示的原稿中包含的各頁所對應的原稿數據所需的規定的輸出條件;輸出條件判定單元,判定與原稿索引相關聯的輸出條件是否被滿足,所述原稿索引與所述原稿數據提取單元所提取出的原稿數據相關聯;輸出單元,在判定為所述輸出條件被滿足了的情況下,輸出與原稿索引 所表示的原稿中包含的多頁對應的多個原稿數據;以及禁止單元,在判定為所述輸出條件未被滿足了的情況下,禁止輸出與原 稿索引所表示的原稿中包含的多頁對應的多個原稿數據。
8.如權利要求2所述的原稿提取裝置,其特徵在於,還包括圖像形成單元,形成基於所述原稿數據提取單元所提取出的多個 原稿數據的多個圖像。
全文摘要
存儲與原稿中包含的各頁對應的原稿數據,進而將表示原稿數據的特徵的特徵數據以及表示原稿的原稿索引與原稿數據相關聯。原稿提取裝置取得輸入原稿數據,從輸入原稿數據計算特徵數據,基於特徵數據判定與原稿數據的類似度,取得與輸入原稿數據類似的原稿數據相關聯的原稿索引,並提取與原稿索引相關聯的多個原稿數據。在多頁中提取原稿有關的原稿數據,所述原稿包含對應於與輸入原稿數據類似的原稿數據的頁。
文檔編號G06K9/20GK101354717SQ20081013169
公開日2009年1月28日 申請日期2008年7月23日 優先權日2007年7月24日
發明者廣畑仁志 申請人:夏普株式會社