掃描方法
2023-08-03 15:29:51
專利名稱:掃描方法
技術領域:
本發明涉及通過包含文本的文檔的光學掃描所獲得的數字圖像或錄製品的計算 機執行的處理,上述文本例如為,印刷好的報紙頁或其他顯示形式的文本,其中,可以在法 律上防止對該文本進行未授權的拷貝。
背景技術:
在協調歐盟國家的版權法的基礎上,歐洲議會和歐盟理事會在2001年5月22日 的指令2001/29/EC中確定了針對拷貝和掃描的規定。等效的美國法規是數字千年版權法 (DMCA)。可通過傳統的掃描儀來執行掃描和拷貝,但是,由於對受版權保護的文檔的傳統 掃描違反版權法,所以需要有解決此問題的解決方案。歐盟版權指令第2條提供了最基本的「拷貝」權。其對表演者、錄音片製造商、電 影製片人、廣播組織和作者提供作品的「直接或間接、臨時或永久」拷貝的複製專有權。歐盟版權指令中的第5條確定了可能應用於第2條中提供的權利的限制和例外情 況。第5條第1款中的複製權的強制性例外情況提供「暫時的和附帶的」複製(該複製是 由媒介進行的網絡傳輸的「本質的和完整的」部分),或允許作品的沒有「獨立經濟意義」的 合法使用。其還防止權利持有者通過數位技術控制所有對作品的訪問,該技術通過其特別的 設計,當將作品從諸如DVD的媒介傳遞到播放器的用於處理的存儲器,然後傳遞到顯示器 或揚聲器時,製作作品的臨時「拷貝」。受版權保護的公開物(例如,報紙、雜誌、行業雜誌、科學期刊,和其他期刊)的 監控,例如由媒體監控行業中的公司來有系統地執行,這些公司通過識別有重要性的(of interest)文章或其他文本部分來服務於他們的客戶。執行監測,以幫助客戶公司和個人掌 握在新聞媒體中提到他們的頻率和程度。傳統監控以人工閱讀例如報紙為基礎。當例如在媒體監控公司收到報紙時,將報 紙移交至合格的閱讀人,其快速通讀報紙,尋找相關文章,例如,提到其客戶的文章。閱讀人 尋找類似公司名稱的詞、人名,和/或其他代表某些主題、話題或主旨的關鍵詞,以確定哪 些文章是相關文章。當在報紙的一頁上發現關鍵詞時,閱讀人標記這些關鍵詞。當已經閱讀整頁並且 已經標記所有關鍵詞時,閱讀人一個關鍵詞一個關鍵詞地進行評測,以確定該文章對於客 戶來說是不是相關的。如果發現該文章是相關的,那麼閱讀人或助手將關於客戶的文章物 理切割下來,並將其發送給客戶。該過程的耗時部分是花費在尋找關鍵詞上的時間。在左上角開始並在右下角結束 的每頁的閱讀時間相對於一頁上的關鍵詞的數量是不變的。這就導致如果一份報紙中只有 幾篇相關文章,那麼每次切割都非常耗時。因此,大部分時間花費在閱讀上是低效率的。通過使用傳統的掃描儀可能在一定程度上進行自動處理,該掃描儀一頁一頁地掃描整份報紙,並且生成報紙頁面的數字圖像,以儲存電子版本(例如,以JPG、TIFF或PDF 格式),從而儲存在文件系統或資料庫中。然後,檢索每個文件,以進行光學字符識別,以便 生成這樣的文件在這些文件中,根據一定的編碼方案(例如,ASCII)代表各個所識別的 字符。也將這些文件儲存在文件系統或資料庫中。此外,對所謂的搜尋引擎裝載一組關鍵 詞,搜尋引擎進而檢索字符和字符順序編碼在其中的這些文件,以提供切割列表的形式的 輸出。切割列表為從報紙切割文章的人提供引導其到物理報紙中的該頁面的信息——其規 定待切割的文章的名稱和其大致位置。此自動處理使得生產率相對於人工處理大幅增加。然而,由於數字圖像代表了原始材料的電子拷貝,所以認為此處理在很多法規下 侵犯了作者的版權。在某些法規下,即使在顯示屏上顯示所掃描的圖像,也會被認為是侵犯 作者的版權的行為。對於文本而言,無法直接搜索數字圖像,而是需要通過光學字符識別 (OCR)將數字圖像轉換成編碼數字形式。然而,從此轉換的輸出,即,編碼數字形式的輸出, 也將被認為是對版權的侵犯。在一些國家中,如果電子拷貝是搜索過程或概要文字的「暫時的和附帶的」以及 「本質的和整體的」部分,那麼可能不會將其認為是對作者版權的侵犯。如果通過人工閱讀文本媒體來進行的傳統媒體監控過程是自動的,那麼將會製作 文本媒體的拷貝。這些文本媒體的拷貝的產生是一個與版權法相關的問題。因此,版權法 可能是對自動媒體監控的障礙。因此,文本媒體的自動監控和防止違反版權法是仍待解決 的問題。因此,需要有一種技術方案來解決文本媒體(例如,報紙、書)的自動監控的問題 和避免違反版權法的問題。US 6,904,183 B2公開了一種包括電子攝像機的電子圖像捕捉設備,電子攝像機 具有檢測器和鏡頭,該鏡頭具有適於限制入射在檢測器上的輻射的視場(view of field)。 提供一致動器,以將攝像機及其視場在文檔上移動經過,並提供一控制器,以獲得與文檔的 不同區域相對應的一組重疊子圖像。提供處理裝置,以形成被這組子圖像覆蓋的文檔部分 的複合圖像。產生一組子圖像,子圖像各自包括與出現在相應子圖像中的字符相對應的字 符數據集。將每個子圖像的內容拼合(stitch,縫合)在空白文本文檔中,以產生包含了所 掃描的文檔的文本內容的完整複合文本文檔。在拼合之前,子圖像首先經過光學字符識別 (OCR)例程,因此,拼合在字符級別執行。這種掃描儀可能具有比所謂的平臺式掃描儀佔據 更少的桌面空間的優點。以上應用解決了文檔的文本掃描的自動化的問題。但是,關於版權法,則是以上應 用或其他應用沒有提出也沒有解決的問題,因為以上應用中的文檔以數字形式被複製了。由於拷貝違反版權法,所以,當在印刷的文本媒體(例如,報紙或書)上進行文檔 掃描時,或當在電子顯示的文本文檔(例如,電子書)上進行掃描時,需要解決此問題。因此,在現有技術中沒有解決新聞媒體的自動監控和避免違反版權法的問題。
發明內容
公開了一種掃描文檔的計算機執行的方法,包括以下步驟-將限於覆蓋文檔的界定區域(delimited,分隔區域)的視域(field,視區)的至 少一個記錄獲取至存儲器;-處理所述至少一個記錄,以執行字符識別;
-當識別出字符時,將其記錄在存儲器中;並且,在移動的位置進行記錄的同時, 重複執行以上步驟,以逐漸獲得字符串;其特徵在於,-對照預定條件評測字符串;-如果不滿足條件,則確定是否從存儲器中清除至少一個記錄的至少一部分;-如果滿足條件,則提供輸出,並從存儲器中清除字符串的至少一部分和至少一個 記錄的至少一部分。這是一個優點當滿足條件時,則提供輸出,並清除字符串的至少一部分和至少一 個記錄的一部分(輸出由此產生),以避免製作文檔的拷貝,並避免危及版權法。如果不滿 足條件,則確定是否清除記錄的至少一部分,以避免超過閾值的溢出。可以避免存儲過多 關於文檔的信息,並且可以確保會注意到,並確保在達到記錄數量的上限或閾值之前可以 清除記錄的至少一部分。將關於字符的信息存儲在存儲器中,並且,當掃描進行時,例如,當 識別並輸出詞(word)時,可以清除此信息。可以將通過此方法的掃描表示為窺視孔掃描 (peephole scanning)0因此,調節執行文檔掃描的計算機和相關設備、器材和/或機器的硬體或軟體,使 得其以相對於版權法來說在法律上正確的方式起作用。如果沒有從存儲器清除任何表示文 檔內容的信息,那麼違反版權法。相反,如果清除所有表示文檔內容的信息,則將沒有可用 於文本媒體的監控測的信息。本發明提供的上述方法在不清除任何信息和清除所有信息之 間,因為,在本發明中,當提供輸出時,所選擇的清除動作使得可能執行文本媒體的自動監 控,同時避免違反版權法。因此,本發明通過上述計算機執行的掃描方法解決了將監控文本媒體的過程自動 化的問題,並且,本發明通過從存儲器清除表示文檔內容的信息的一部分,使得在存儲器中 將不存在文檔的完整拷貝,而解決了避免違反版權法的問題。窺視孔掃描可通過將像場(image filed,像域)移動至移動位置並用攝像機獲取 記錄來執行。然而,窺視孔掃描也可通過在文檔頁上方安裝多個攝像機並依次使用這些攝 像機來獲取記錄。此外,窺視孔掃描也可以通過(例如)顯示文檔的屏幕或其他形式的連 續文檔表示的視頻記錄來執行。當評測字符串並進行輸出時,從存儲器清除一部分字符串和一部分記錄,以排除 在掃描過程中生成文檔或部分文檔的拷貝。本實施方式的另一優點是,如果在字符串中發現整個詞或詞的一部分,那麼在提 供輸出之前可以不清除此信息。因此,在此情況中,期望的信息可以是整個詞或詞的一部 分。如果在字符串中沒有詞的指示,那麼也可以清除記錄的至少一部分,以使得最終將沒有 表示文檔內容的內容或信息會被存儲。另一優點是,從存儲器清除信息的技術效果是,與如果存儲所有信息相比,減少了 所存儲的信息的量,因此可減小存儲裝置和/或存儲器使用的規格,和/或佔據更少的空 間。除了上述優點以外,本發明包括已知技術的自動化效果和優點,例如快速且可靠, 降低人工執行的人力工作的成本,減少人們可能犯的錯誤和不規則性等。此外,有利的是,與現有技術相比,對於數據存儲可能需要更小的存儲器或更少的存儲容量,因為在文檔的掃描過程中從存儲器中連續地且規則地清除並刪除數據。字符可能是文字、符號、標記和/或字素(grapheme),例如字母、漢字、數字、標點 符號,以及世界上任何文字系統(writing system)中的所有單獨符號。在一個實施方式中,如果不滿足預定條件,那麼確定是否從存儲器清除至少一個 記錄的至少一部分,包括確定所評測的字符的數量;以及-如果少於預定數量的字符被評測,那麼,不清除至少一個記錄的至少一部分;以 及-如果多於或等於預定數量的字符被評測,那麼,清除至少一個記錄的至少一部 分。本實施方式的一個優點是,如果已經評測了多於或等於預定數量的字符,那麼從 存儲器清除至少一個記錄的至少一部分。因此,本實施方式確保不超過表示文檔內容的信 息的上限或閾值。然而,如果少於預定數量的字符被評測,那麼不清除至少一個記錄的至少 一部分,因為在清除之前可以存儲更多表示文檔內容的信息。在一個實施方式中,本方法進一步包括,如果不滿足條件,則確定是否從存儲器清 除字符串的至少一部分。有利的是,如果不滿足條件,則從存儲器清除字符串的至少一部分,因為這可以減 少表示文檔內容的信息。在一個實施方式中,預定條件包括,字符串包括或被確認為至少一個詞。本實施方 式的一個優點是,當字符串包括一個詞時,將記錄該詞,並清除字符串和記錄(該詞來自其 中)的至少一部分,以避免產生文檔的拷貝,從而避免違反版權法。在一個實施方式中,提供包括至少一個詞的索引列表。本實施方式的一個優點是, 將識別的詞記錄在索引列表中,從而,此信息表示文檔內容並可被訪問,以便(例如)在之 後與關鍵詞列表進行匹配。在一個實施方式中,本方法包括,如果至少一個詞與其中一個預定的中止詞 (stop-word)匹配,那麼從索引列表清除、省去或省略此至少一個詞。本實施方式的一個優點是,並不是所有詞都在索引列表中提供,因為可能一些詞 或詞組從未定義為關鍵詞。通過從索引列表省去leaving out這些所謂的中止詞,與如果所 有詞均包括在索引列表中相比,該索引列表可以更短,並且,當索引列表不包含不希望的詞 和信息時,可以更易於訪問信息。這些中止詞或中止詞組可以是,例如,諸如「例如」、「和」、 「等等」、「其中」、「或」、「這個」、「一個」、「等」等的詞。中止詞的定義可以是,中止詞或中止詞 組不代表關於文檔內容的有意義的、有價值的或重要的信息。可以將與中止詞相對的詞定 義為吻合詞(hit-word,命中詞),例如,包含關於文檔內容的信息的詞。因此,可以將索引 列表定義為包含這樣的詞的列表,這些詞包含關於文檔內容的有意義的信息。替代地,甚至可以在將中止詞作為詞輸出之前,就從存儲器清除這些中止詞,即, 本方法包括,如果至少一個詞與其中一個預定中止詞匹配,那麼清除、省去或省略該至少一 個詞。此外,本方法可以包括,提供索引列表,該索引列表包括來自字符串的沒有被清 除、省去或省略的至少一個詞。
在一個實施方式中,在詞之前和之後具有空格(space,間隔)的情況下,識別該 詞。本實施方式的一個優點是,可以通過本方法輕鬆地識別詞。空格可以是一個句子 中的詞之間的間隔。該間隔可以是空白或間隙,此處沒有字符,因此文檔在這些位置中不包 含信息。可以將措辭「之前」和「之後」定義為表示緊接地在之前和之後和/或直接在之前 或之後,即,間隔可以是緊跟詞的相鄰的地方、地點、位置或區域。如果一個詞是文本中的第一個詞,或行間隔或行移動(line shift)之後的第一個 詞,那麼在該詞之前可能沒有間隔,而是僅在該詞之後有間隔。在一個實施方式中,在一詞之前有間隔並且在該詞之後有和字母不同的字符的情 況下,識別該詞。本實施方式的一個優點是,通過本方法,可以識別一個句子中的最後一個詞。在一 個句子中的最後一個詞之後,可能沒有間隔,但是,可能有句號、逗號、感嘆號、問號等。替代地和/或附加地,詞可以包括上標和/或下標文本,詞可以用引號框起來,詞 可以存在於圖片中,詞可以通過連字號分成兩行或更多行,詞可以是帶有連字號的等。在一個實施方式中,通過包括一種或多種語言中的每一個詞的資料庫來識別詞, 並且,如果在字符串與資料庫中的詞之間存在匹配或趨同(convergence),或者如果字符串 被識別為資料庫中的其中一個詞,那麼將所述字符串定義為詞。本實施方式的一個優點是,可以通過在包括書寫文檔的文本所用的語言的詞的數 據庫中識別詞,從而來識別這些詞。可以將語言定義為書面語和/或口語。在一個實施方式中,輸出是所識別的至少一個詞。本實施方式的一個優點是,通過 輸出至少一個詞,有可能檢測表示文檔內容的信息。在一個實施方式中,輸出是文檔中的位置的參考,至少一個詞位於該位置處。本實施方式的一個優點是,將輸出作為參考文檔中的詞的地點、位置或區域,因 此,後來會發現,當從存儲器清除記錄和詞時,由此給出了對於記錄的位置的參考,上述記 錄包含了關於詞位置的信息。該位置可以是,例如,記錄的大致位置。利用位置確定來獲取 記錄是有利的,這將使得在後面更易於給出對於文檔中的詞的位置的參考。在一個實施方式中,產生並存儲關於至少一個詞在文檔中的位置或地點的信息。在一個實施方式中,至少一個詞被代表為一代碼。本實施方式的一個優點是,可通 過任何適當的代碼(例如,字符、字母、符號、標記、參考標號、對關鍵詞列表的索引等)來代 表被識別為詞的字符串的輸出。在一個實施方式中,輸出包括索引列表和對於如下地點的參考,該地點代表受到 掃描的文檔中相應詞的位置。本實施方式的一個優點是,輸出索引列表和位置參考,因為,由此有可能檢測表示 文檔內容的信息和詞在文檔中的位置。在一個實施方式中,生成的關鍵詞列表包括多個預定的關鍵詞。本實施方式的一個優點是,通過生成關鍵詞列表,有可能檢測文檔中的關鍵詞。這 些關鍵詞可以是這樣的詞,它們被選擇成是在文檔中進行搜索的詞,因為這些詞對於,例如 希望知道在報紙等中如何提及一名稱、公司等的客戶來說,可能是重要的。關鍵詞可能是人 名、公司名、產品名等。
9
在一個實施方式中,將關鍵詞列表與索引列表進行比較,如果關鍵詞列表中的一 關鍵詞與索引列表中的一詞匹配,那麼提取、記錄或記下此詞。本實施方式的一個優點是,當將索引列表與預定的關鍵詞列表進行比較時,可以 發現兩個列表之間的匹配,進而提取同時出現在索引列表和關鍵詞列表中的詞。有利的是,可以執行電子輸入的基於內容的評測,以發現相關的文檔信息片段, 即,關鍵詞。可以將此定義為過濾,因此可以執行內容的過濾,或表示內容的信息的過濾。可 以過濾文檔內容,以提取某人希望獲得的信息並過濾掉剩下的信息。為了執行內容的過濾,可能定義過濾器特性。可通過預定條件定義過濾器特性。預 定條件可以是,例如,詞的識別、關鍵詞的識別、字符串的最大長度等。如果關鍵詞的識別是 過濾器特性,那麼,根據這一點,僅有關鍵詞通過過濾器,而將文檔中剩下的信息留在後面。 通過過濾文檔的內容,不會得到文檔的完整拷貝,並且僅從文檔中提取期望的信息。期望的信息可以是比文檔中的所有信息少的信息,從而使得僅提取文檔內容的一 部分,因此,文檔的一部分可以不作為輸出而提供。實際上,當過濾器識別一詞或關鍵詞時,可以存儲該詞或關鍵詞及其在文檔中的 位置。一旦存儲了該詞或關鍵詞及其位置,便可刪除包含該詞或關鍵詞的記錄,例如圖像, 因為該詞或關鍵詞需要的所有信息都被register 了。這樣,不會產生文檔的任何拷貝,因 為掃描涉及過濾處理而不涉及拷貝生成。本實施方式的另一優點是,可相繼地布置並連續地重新發現詞或關鍵詞,以在從 文檔中切割文本、列表生成、摘要書寫等中使用。可以提供示出了詞或關鍵詞在文檔中的位 置的文檔模板,進而該文檔模板可以用來在不製作文檔拷貝的情況下給出詞或關鍵詞在原 始文檔中的物理位置的概覽。除了關鍵詞以外的所有其他詞都可以例如用文檔模板中的灰 色區域指明。還可以在文檔模板中表示詞或關鍵詞的字體大小以及例如灰度顏色,使得可能確 定詞或關鍵詞是否位於標題中,是否位於主體文本中等。本實施方式的另一優點是,可在掃描之後找出詞或關鍵詞在文檔中的位置,並且, 可用此信息來比較詞或關鍵詞相對於彼此的位置,以確定某些詞或關鍵詞是否位於彼此附 近。當與其他詞或關鍵詞結合時,詞或關鍵詞可能具有特殊意義,並且,它們相對於彼此的 位置可能包含對於客戶來說重要的信息。可通過不同方式來確認關於詞或關鍵詞的位置的信息,例如-通過詞或關鍵詞的坐標;-通過詞或關鍵詞所處的行的位置;-通過詞或關鍵詞在所處的文檔中是哪一編號的詞;_通過印刷符號,其中,印刷符號包括句號、逗號等;-通過詞或關鍵詞在所處的文檔的哪一編號的句子中;-通過詞或關鍵詞在哪一編號的區段或段落中。在一個實施方式中,本方法包括將所選擇的記錄拼合在一起而成為一複合記錄。本實施方式的一個優點是,有可能將所選擇的記錄拼合在一起而成為更大的記錄 或圖像。這是有利的,因為,如果對包含許多不同字體大小的字符(即,標題的大字符字體 大小和主體內容、說明文字等的較小的字符字體大小)的報紙進行掃描,視域尺寸有時將比字符(小的記錄或圖像尺寸)的字體大小小很多。並且,由於優選地,視域尺寸可以比經 受字符識別的最小的字符對象的字體大小的(例如)5倍小,所以較大的字符將通常延伸經 過不止一個記錄,因此,需要將所選擇的記錄拼合在一起。可以將文檔頁上的字符的字體大小作為輸入提供給窺視孔掃描儀,例如,由操作 員等鍵入。在一個實施方式中,處理複合記錄,以執行對延伸經過多個所選擇的記錄的字符 的識別。本實施方式的一個優點是,在將記錄拼合在一起之後,可執行延伸經過多個所選 擇的記錄的字符的字符識別,因為複合記錄將提供完整字符的圖像或記錄。在一個實施方式中,當處理至少一個記錄以識別字符未導致字符的識別時,執行 將所選擇的記錄結合在一起而成為複合記錄的步驟。本實施方式的一個優點是,當不可以 從至少一個記錄的處理識別字符時,執行複合記錄的拼合和處理。這樣,即使字符延伸經過 不止一個記錄,也可確定這些字符。在一個實施方式中,預定條件包括,當已經拼合預定數量的記錄時,所拼合的複合 記錄是否導致字符的識別。本實施方式的一個優點是,加以注意,並且,如果複合記錄與字符不相似,那麼可 以停止處理。然後,複合記錄可以是圖片的一部分。預定數量的所拼合的複合記錄可以確 保,不會由於掃描儀處在字符搜索的過程中而無意地處理了完整的圖像。通過本方法,確保 適當的預定最大數量的拼合記錄被選擇,從而不會違反版權法。本實施方式的另一優點是,確保將在達到記錄數量的上限或閾值之前加以注意。 如果在停止之前過多的記錄被評測,那麼掃描可能違反版權法,但是,本實施方式確保這將 不會發生。在一個實施方式中,預定條件包括,在相鄰記錄中出現相同的顏色。本實施方式的一個優點是,如果相鄰記錄(即,彼此緊鄰的記錄)包含相同的顏 色,那麼這些記錄將可能是字符而不是圖片。另一方面,如果相鄰記錄不包含相同的顏色, 那麼其可能是圖片、照片、圖畫等的記錄。為了避免掃描圖片,將清除文檔的此部分的掃描。在一個實施方式中,當滿足預定條件時,清除複合記錄。本實施方式的一個優點是,當滿足條件時,例如,進行輸出並從文檔獲得所有期望 的信息時,可清除記錄的拼合。這樣,某人將避免製作文檔的拷貝,進而避免違反版權法。在一個實施方式中,預定條件包括,評測比預定數量少的字符。本實施方式的一個優點是,確保如果所評測的字符的數量超過預定上限或閾值, 那麼將停止字符識別處理。如果評測過多字符,那麼可能違反版權法,但是,本實施方式確 保這將不會發生。在一個實施方式中,預定條件包括,字符字體大小小於預定字體大小。本實施方式的一個優點是,如果字符字體大小大於最大的預定字體大小,那麼將 停止字符識別處理,以避免掃描大字符,否則這可能將是非常耗時的過程,而這可能並不是 所希望的。在一個實施方式中,將視域構造為具有彼此相鄰地布置在連續文本(即,完整文 本)中的11個詞的尺寸。替代地,將視域構造為具有在連續文本中彼此相鄰的5個詞的尺寸、在連續文本中彼此相鄰的15個詞的尺寸、在連續文本中彼此相鄰的20個詞的尺寸、在 連續文本中彼此相鄰的25個詞的尺寸等。如果視域包括被彼此相鄰地布置在連續文本中 的11個詞,那麼視域可以覆蓋書的一頁的寬度或A4文檔尺寸的文檔的寬度,同時,視域的 高度可以是字體的尺寸。如果掃描多欄目頁面,例如報紙頁面,那麼每個欄目行可以包含比 在連續文本中彼此相鄰的11個詞少的詞,並且,多欄目頁面的寬度由此也可以包含比在連 續文本中彼此相鄰的11個詞少的詞。多欄目頁面的寬度可以包含多於11個詞,但是,這11 個詞在連續文本中可能不是彼此相鄰的。因此,在一個實施方式中,將視域構造為具有與文 檔的寬度和字符的字體大小的高度相對應的尺寸。在一個實施方式中,將視域構造成具有比經受字符識別的最小字符的尺寸的5倍 小的尺寸。替代地,將視域構造為具有如下定義的尺寸-具有10mm、20mm、30mm 等的尺寸;-每個文檔頁面的視域對應預定的數量,例如,100或200;-與最大的字符字體大小相關;-與最小的字符字體大小相關;-與文檔頁面尺寸相關。這些實施方式的優點是,確保在一個記錄中不掃描過多字符,因為這會導致掃描 過多文本,由此會無意地違反版權法。通過確保視域具有例如比最小字符的字體大小的5 倍小的尺寸,一次不可能無意地掃描過多字符。視域的尺寸還可能比最小字符的字體大小的4倍小,或比最小字符的字體大小的 6倍小。優選地,在清除圖像和字符串之前掃描並識別全部詞。但是,如果掃描了許多字符 而沒有識別出詞,那麼可以在沒有識別出詞的情況下清除這些字符串和圖像。這可能是這 樣的情況,如果文本包括字符識別系統/軟體不知道的語言或詞,那麼因此可以在製作預 定數量的記錄之後清除字符和圖像,以避免存儲文檔的過多內容,這可能違反版權法。在一個實施方式中,同時獲取至少兩個記錄。本實施方式的一個優點是,通過例如同時垂直地獲取多個記錄,掃描處理可以變 得明顯更快。同時,記錄過多文本(其可能會違反版權法)的危險將不存在,因為,通過垂 直地獲得多個記錄,將不同時記錄水平地書寫在文檔頁面上的詞和句子。當已經處理記錄以執行光學字符識別,並且出現的詞被識別出時,每個記錄最終 都被清除,因此,不會製作出文檔的拷貝。此外,在一些語言中以及在一些國家中,在頁面上可能是從右向左閱讀,而不是從 左向右閱讀,和/或垂直地閱讀而不是水平地閱讀,和/或從頁面底部向頁面頂部閱讀,而 不是從頁面頂部向頁面底部閱讀,等等。因此,也可以在頁面上從右向左而不是從左向右地 執行掃描,和/或垂直地而不是水平地執行掃描,和/或從頁面底部向頁面頂部而不是從頁 面頂部向頁面底部地執行掃描,等等。在一些實施方式中,在所掃描的文檔上的文本的處理可以包括機器翻譯(MT),其 是計算語言學的領域,其中,用計算機軟體將文本從一種語言翻譯成另一種語言。基本上, 機器翻譯執行一種語言中的詞向另一種語言中的詞的簡單替代。機器翻譯可以是基於規則的機器翻譯、基於實例的機器翻譯、統計機器翻譯(SMT)等。在一些實施方式中,在所掃描的文檔上的文本的處理可以包括重述或改述,S卩,可 以將文本的詞或句子重述或改述成相同語言的具有與原始詞或句子相同意義的不同詞或 句子。當使用根據本發明的方法時,例如,掃描三個詞,將其存儲在存儲器中,然後進行處 理。通過軟體程序產生三個詞的意義或意思,並且,針對三個原始詞生成一個或多個同義詞 或同義句。因此,生成了原始詞、句子或文本的等同詞、句子或文本,具有與原始詞、句子或 文本相同的意義或意思,但不違反版權法。應理解,可以處理多於或少於三個詞,以重述或 改述原始文本或部分文本。在窺視孔掃描處理的一些實施方式中,在掃描之前,利用某種覆蓋物在第一區域 中部分地隱藏或覆蓋待掃描的文檔,並且,當已經掃描所覆蓋的文檔,且已經處理並刪除內 容和圖像時,隨之在掃描之前利用某種覆蓋物再次部分地隱藏或覆蓋文檔,但是,現在是在 相對的第二區域中。有利的是,掃描可這樣執行,部分地覆蓋待掃描文檔,然後在相對區域中部分地覆 蓋該文檔,因為這使得掃描可快速且有效地執行。本發明涉及不同方面,包括上述和下述的方法,以及相應的方法、裝置、使用和/ 或產品裝置,每個均產生一個或多個結合第一所述方面描述的好處和優點,並且,每個均具 有與結合第一所述方面描述的和/或在所附權利要求中公開的實施方式相應的一個或多 個實施方式。特別地,這裡公開的是計算機可讀的介質,其編碼有當在計算機上運行時執行根 據以上任一實施方式的方法的程序。另一方面是包括掃描裝置和裝載有程序的計算機的系統,當上述程序在計算機上 運行時,該程序執行根據以上任一實施方式的方法。又一方面是文檔掃描儀,包括-掃描頭,用於獲取至少一個限於覆蓋文檔的界定區域的視域的記錄;-處理器,適於識別記錄中的字符;_數據存儲器,用於存儲至少一個記錄並用於存儲所識別的字符;-程序存儲器,在處理器上存儲一組可執行程序指令,以執行根據任一實施方式的 方法。
下面將參考附圖給出實施方式的詳細描述,附圖中圖1示出了掃描方法的流程圖;圖2示出了窺視孔掃描儀的全部處理過程;圖3示出了窺視孔掃描處理的一個實例;圖4示出了與閱讀頭運動重疊的報紙頁面的區段;圖5示出了窺視孔掃描處理的一個實例。
具體實施例方式本發明的數字掃描儀掃描文檔,而不會生成文檔的數字拷貝。在掃描操作的任何
13給定時間,所謂的窺視孔掃描儀可以在其存儲器中僅包含幾個詞或部分詞,之後清除或重 寫這些詞或部分詞。可通過包含文檔的詞的索引列表來保存文檔中的信息。通過此掃描和 搜索方法,使用者不應侵犯相應作者的版權。圖1示出了掃描方法的流程圖。可以通過移動記錄的位置101來執行掃描,例如,通過掃描儀在文檔(例如,報紙) 的表面上方以連續方式移動來進行,並且,對於每個步驟,掃描儀都獲取在文檔的視域中的 記錄(例如,圖像)102。視域優選地是小的,並且,可以不同方式定義視域的尺寸-視域可構造成具有比經受字符識別的最小字符的字體大小的5倍小的尺寸;-視域可構造成具有IOmm的尺寸;-視域可構造成具有與預定數量的記錄或每個文檔頁面的像域相對應的尺寸;-視域可構造成具有與最大字符字體大小相關的尺寸;-視域可構造成具有與最小字符字體大小相關的尺寸;
-視域可構造成具有與文檔頁面尺寸相關的尺寸。如上所述,可通過將像域移動至移動位置並用攝像機獲取記錄來執行窺視孔掃 描。替代地,也可通過在文檔頁面上方安裝多個攝像機並依次使用這些攝像機獲取記錄來 執行窺視孔掃描。例如,可以在文檔上方成正方形地安裝100個攝像機,並且,右上角的第 一攝像機可以獲取第一記錄,與第一攝像機相鄰的第二攝像機可以獲取第二記錄等,直到 已經掃描整個文檔。也可通過(例如)顯示電子文檔(例如,電紙書(electronic book)或電子書 (e-book))的顯示屏的視頻記錄來執行窺視孔掃描。可通過在位於固定窺視孔掃描儀(例 如,視頻攝像機)的前面的顯示屏上向上或向下滾動文檔來記錄顯示屏上的文檔,或者可 通過將窺視孔掃描儀移動經過屏幕來記錄顯示屏上的文檔。在所有情況中,例如,可水平地 或垂直地執行掃描。此外,可以通過使用來自計算機的監視器輸出(例如,視頻圖形陣列 (VGA)監視器信號等)來執行視頻放映。監視器信號攜帶將在監視器上顯示的連貫的電子 文檔。窺視孔掃描儀可以從連貫的監視器信號提取窺視孔窗口,例如,40個連續掃描行的每 一行中的40個像素,從而,可以從監視器信號中取出與窺視孔窗口對應的圖片。然後,可以 向下或向上或向左或向右或對角地等移動窺視孔窗口,並且,可以用窺視孔掃描儀掃描新 的窺視孔窗口。在每次掃描時,均獲取與窺視孔窗口對應的圖片。然後,所記錄的數據可以 通過字符識別在計算機中轉化,並進行如上所述的處理。在掃描處理中的每個步驟之後,窺視孔掃描儀都將包含文檔表面的區段的小的記 錄103,例如,圖像。該記錄可以是灰度的、黑/白的(即二元的),或彩色的。用光學字符識別(OCR)分析每個記錄或圖像區段,以確定其是否包含字符、部分 字符、圖片的一部分、空白視域或其組合104。如果記錄區段包含字符,那麼該記錄區段被登記並被轉移至所謂的詞構造器105, 見下文。如果記錄區段包含字符的一部分且字符因此未被識別,那麼進行下一次記錄106, 並且,OCR等候確定是否可將這些記錄區段拼在一起,以形成一字符,該字符可被轉移至詞 構造器。如果記錄區段包含圖片或圖片的一部分,那麼可以清除該圖片部分,以避免拷貝受版權保護的圖片、照片等。記錄區段的剩餘部分將用來確定,是否可將其與後續的記錄區 段拼在一起以形成字符。在連續處理中,詞構造器將收集所掃描的字符,並形成其詞。當形成一詞時,滿足 了預定條件107,並提供輸出108。然後,這些記錄可以繼續搜索整個文檔。如果字符串與預定條件不匹配,那麼確定是否應從存儲器清除至少一個記錄的至 少一部分109。清除的確定109可以以所評測的字符的數量為基礎。在一個實施方式中,如 果所評測的字符的數量小於預定數量,那麼不清除至少一個記錄的至少一部分,並且,如果 所評測的字符的數量大於或等於預定數量,那麼清除至少一個記錄的至少一部分。不管在 步驟110中是否清除至少一個記錄的至少一部分,記錄和掃描都可以繼續106。當從字符串中發現詞時,檢查整個字符串,而且,當字符串形成了在例如兩行上延 展的詞且該詞通過連字號分隔時,也是如此。因此,如果連字號作為當前行上的最後一個字 符標記出現,那麼窺視孔掃描儀將繼續掃描下一行。窺視孔掃描儀可像傳統的掃描儀一樣發揮作用。傳統的掃描儀通過設置像域、獲 得圖像,並將圖像存儲在存儲器中來起作用。此外,傳統的掃描儀可執行OCR和搜尋引擎(SE)處理(例如,尋找關鍵詞)的任 務。當傳統的掃描儀執行這些步驟時,所獲得的信息被存儲,從而製作出所掃描的文檔的拷 貝。掃描儀可以是平臺式掃描儀、滾筒式掃描儀、進給式掃描儀等。窺視孔掃描儀可以執行這些相同的三個任務掃描、字符識別和可能的關鍵詞匹 配。但是,窺視孔掃描儀在一個連續操作中執行這些任務,且不會生成文檔的任何拷貝。傳 統的掃描儀典型地同時獲取整個文檔的圖像,而窺視孔掃描儀每次僅獲得文檔的界定區域 的圖像。圖2示出了窺視孔掃描儀的整個處理過程,而圖1示出了其詳細的處理過程。窺 視孔掃描儀「閱讀」文檔301,執行光學字符識別(OCR) 302,並搜索詞303,如圖1中的那樣。 產生的輸出是所掃描的文檔包含的詞的某種表示。此表示可用於不同的目的,例如,用於產 生切割列表,用於產生索引列表,用於製作可能的摘要書面文字等304。窺視孔掃描儀可以結合硬體、固件和軟體部件。圖3示出了窺視孔掃描處理的一個實例,其整體上與圖1的作用類似。在圖3a) 中,將文檔頁面401放在掃描儀402下方。將掃描儀的閱讀頭403布置在軌道(一個或多 個)405上,上述軌道可在導軌(一個或多個)406上移動,以在文檔的整個表面上方移動。 閱讀頭403通過扁平電纜、USB連接、紅外線通信等與閱讀頭運動控制器408和掃描定序器 (SS)407連接,見圖3b)。在一個實例中,閱讀頭是具有8位灰度解析度的100X 100像素的CXD陣列。因 此,窺視孔在物理窗口視域中包含10000個像素,相當於IcmX Icm,其等於小型頁面尺寸的 千分之一。雖然這裡提到閱讀頭的一個實例,但是應理解,閱讀頭可具有任何規格。在圖3b中,掃描定序器(SS) 407控制閱讀頭運動408。通常,閱讀頭的運動是從左向右往復循環。如果光學字符識別(0CR)409和拼合 (jigsaw)OCR 410(見下文)針對以另一方式移動閱讀頭的請求設置了進程(stage,步驟),例如,水平向左、垂直向下或沿對角線向上,那麼會改變此順序。閱讀頭運動408可能由TWAIN接口控制,TWAIN接口是針對圖像獲取裝置的標準。 TWAIN接口可以控制掃描儀閱讀頭的位置(即,閱讀頭的χ、y坐標),並控制坐標的增加 (即,Δχ、Δγ)等。OCR 409執行一系列任務。它可以搜索窺視孔視域的內部區域,以定位一個或多個 完整字符,然後,它可以搜索邊界,以定位可形成部分字符的形狀。此OCR尋找垂直和水平 邊界線的片段。此OCR可以尋找行空間並評測對準。此OCR可以尋找連續的標記和欄目分 隔間隔。此OCR可以尋找是較大字符的一部分的單灰色色調形狀。此OCR可以尋找具有變 化的灰色色調的區域,該區域可以是圖片的一部分。將所識別的字符(例如,帶有其字體大 小和在文檔中的位置)轉移至詞構造器411。雖然這裡提到了 OCR任務的實例,但是應理解,可以任何適當的方式執行OCR掃描。拼合OCR 410使相鄰的窺視孔圖像或記錄(例如,2、4、9或16個窺視孔圖像)結 合以形成窗口,然後,這些窗口在重複處理中經受OCR處理。拼合OCR 410與掃描定序器 407相互作用,並請求其需要哪個相鄰窺視孔來製造字符的完整圖像。每個掃描與達到8個 的相鄰掃描相結合,分析每個掃描以識別字符或部分字符、行和圖片。詞構造器411從OCR 409和拼合OCR 410 一個接一個地接收例如包括其字體大小 和位置的字符。這些字符串包括相等的間隔/空白字符和換行。詞構造器411將字符組成 詞,並提供包含來自文檔的詞的索引列表。可以將索引列表與關鍵詞列表進行比較,以發現 文檔中的任何關鍵詞。可以清空/清除或用特殊字符代替在文檔中發現的詞或字符。可以 用預定的灰色色調或Pictel代替具有圖片、照片等的區域。結合有空格字符和垂直行檢測 的拼合OCR掃描可以評測頁面的給定區域中欄目分離的似然性,並且,當處理文檔內容時, 可以考慮此信息。最後,在頁面的末尾掃描之後,HIT收集器412可以具有組合成的詞和例如標題行 的列表,並且,產生的輸出可以是詞的索引列表和詞在文檔中的位置,或者,其可以是任何 其他適當的輸出形式。然後,可以將索引列表與關鍵詞列表進行匹配,以發現是否文檔中存 在有任何的關鍵詞。替代地和/或附加地,在一些實施方式中,所掃描的文檔上的文本的處理可以包 括機器翻譯(MT),其是計算語言學的領域,其中,使用計算機軟體將文本從一種語言翻譯成 另一種語言。基本上,機器翻譯執行一種語言的詞向另一種語言的詞的簡單替換。機器翻 譯可以是基於規則的機器翻譯、基於實例的機器翻譯、統計機器翻譯(SMT)等。替代地和/或附加地,在一些實施方式中,所掃描的文檔上的文本的處理可以包 括重述或改述,即,可以將文本的詞或句子重述或改述成相同語言的具有與原始詞或句子 相同意義的不同詞或句子。當使用根據本發明的方法時,例如,掃描三個詞,將其存儲在存 儲器中,然後進行處理。通過軟體程序生成三個詞的意義或意思,並且,生成三個原始詞的 一個或多個同義詞或同義句。因此,生成了原始詞、句子或文本的等價詞、句子或文本,其具 有與原始相同的意義或意思,但不違反版權法。應理解,可以處理多於或少於三個詞,以重 述或改述原始文本或文本的一部分。圖4a示出了與閱讀頭運動重疊的報紙的虛構前頁面的區段,其中,掃描整體上與圖1的作用類似。起始點在文檔頁面的左上角。前三個窺視孔掃描(PH掃描)501、502、 503將被標記為沒有內容,並被清除或由空白(大約是相同的顏色)重寫。第四PH掃描 (PH4) 504包含信息,但是沒有字符被OCR識別。因此,請求第五垂直PH掃描(PH5)505,並將 其與PH4結合。OCR查看結合的掃描PH4+PH5,並檢測字符「Thurs」和其他一些內容。掃描 定序器請求第六和第七掃描,PH6506和PH7507。將掃描PH4+PH5+PH6+PH7結合,並將其提 交給拼合OCR。該OCR返回詞「Thursday」和字符「30t」以及其他一些內容。掃描定序器繼 續請求下一個掃描。可以將詞「Thursday」和例如其字體大小轉移至詞識別器。由於字體大 小的原因,可以將詞分類成屬於報頭或標題句子。通過下次掃描,將識別出詞「Newspaper」寸。圖4b示出了主體文本的掃描,其遵循類似的搜索策略,如圖1所示,一步接一步地 一個字符一個字符地顯現,並一個詞一個詞地組合,其中,在索引列表中保存每個詞。然後, 可以將索引列表與關鍵詞列表進行比較。如果一個詞未在關鍵詞列表中被發現,那麼可以 用空白重寫該詞所佔據的區域。圖4b中的實例示出了垂直掃描順序。搜索處理將所示文本片段中以下的詞 「Infopaq」、名字「Jacob」 (忽略連續標記)以及最後的姓「Meibom」顯現。可以使文檔中的 任何圖片成為空白。圖5示出了窺視孔掃描處理的一個實例,其整體上與圖1的作用類似。在圖5a) 中,在掃描之前,待掃描文檔600已經用某種類型的覆蓋物在區域601中被部分地隱藏或覆 蓋。當已經掃描圖5a)中所示的被覆蓋的文檔,並已經處理和刪除內容與圖像時,然後,如 圖5b)中所示的,在掃描之前用某種類型的覆蓋物再次部分地隱藏或覆蓋文檔600,但現在 是在相對的區域603中進行隱藏或覆蓋。如圖5a)所示,當例如以傳統掃描儀掃描被部分覆蓋的文檔時,不產生文檔的拷 貝,因為文檔的整個內容由於部分覆蓋而是看不見的或不可理解的。因此,僅文檔的界定區 域602被掃描,並被存儲在掃描儀的存儲器中。處理被部分覆蓋的文檔的掃描圖像,以執行 光學字符識別(OCR)。將所登記的字符存儲在存儲器中,並且,當獲得字符串時,對照預定條 件評測該字符串。根據是否滿足預定條件,可以提供輸出,並且,從存儲器清除字符串的至 少一部分和所掃描的圖像的至少一部分,因此,所掃描的圖像的內容(其僅代表文檔600的 一部分602)和所掃描的圖像本身被至少部分地刪除了。因此,最終可以刪除整個所掃描的 圖像(其僅描述文檔600的一部分602),因此,不再將文檔600的部分602的掃描存儲在存 儲器中。現在,如在圖5b)中看到的,與之前的區域相比,在相對的區域603上部分地隱藏 或覆蓋相同的文檔600。如上所述,當用例如傳統的掃描儀掃描該被部分覆蓋的文檔時,不 產生文檔的拷貝,因為文檔的整個內容由於部分覆蓋的原因而無法看見或理解。因此,僅掃 描文檔600的界定區域604並將其存儲在掃描儀的存儲器中。處理被部分覆蓋的文檔的掃 描圖像,以執行光學字符識別(OCR)。將所登記的字符存儲在存儲器中,並且,當獲得字符串 時,對照預定條件評測該字符串。根據是否滿足預定條件,可以提供輸出,並且,從存儲器清 除字符串的至少一部分和所掃描的圖像的至少一部分,因此,所掃描的圖像的內容(其僅 代表文檔600的一部分604)和所掃描的圖像本身被至少部分地刪除了。因此,最終可以刪 除整個所掃描的圖像(其僅描述文檔600的一部分604),因此,不再將文檔600的該部分
17604的掃描存儲在存儲器中。因此,當啟動在區域603中被覆蓋的文檔600的掃描時,如圖5b)所示,在區域601 中被覆蓋的文檔600的掃描圖像已經被刪除了,如圖5a)所示,因此,描述整個文檔600的 完整圖像將不會存在。在記錄、處理並刪除文檔600的部分604之前,將記錄、處理並從存 儲器清除文檔600的部分602。區域602和604可以彼此重疊,例如部分重疊,以確保在例如所覆蓋的區域601和 603是歪斜的,或記錄在某種程度上是歪斜的的情況下,文檔中沒有部分被遺失。可以通過將不透明材料或對象物理地放在文檔600的待覆蓋的部分上,來提供覆 蓋物601、603。替代地和/或附加地,可以通過將不透明材料或對象物理地放在掃描儀的閱 讀頭或玻璃板上,來提供覆蓋物601、602。覆蓋材料可以是,例如,紙、不透明帶、不透明塑 料、金屬和/或類似物。替代地,可以通過閱讀器頭的電子掩蔽或選通來提供覆蓋物601和603。例如,掃 描線可以是高度為1像素,長度為3000像素。然後,閱讀器頭可以掃描文檔的每條掃描線 的一部分,並刪除每條掃描線的另一部分。例如,閱讀器頭可以掃描一掃描線的第一部分, 例如像素數1-100,刪除該掃描線的第二部分,例如像素數100-200,掃描該掃描線的第三 部分,例如像素數200-300,刪除該掃描線的第四部分,例如像素數300-400等等,直到每條 掃描線的每個部分都被掃描或者刪除為止。然後,在處理掃描線的所有掃描部分之後,將其 從存儲器清除,現在,掃描掃描線的所有在之前未被掃描而是被刪除了的部分,並且,掃描 線的之前被掃描了的部分現在被刪除,例如,刪除掃描線的第一部分,例如像素數1-100,掃 描掃描線的第二部分,例如像素數100-200,刪除掃描線的第三部分,例如像素數200-300, 掃描掃描線的第四部分,例如像素數300-400等等。刪除掃描線的一部分包括沒有對存儲 器進行輸入,即掃描線的該部分的內容被壓制或忽略了。在報紙頁面上,字母或字符可以是高度15至20像素,並且,頁面長度可以是3000 像素,與如上所述的掃描線相對應。因此,通過掃描或刪除掃描線的部分,可獲得與圖5所 示的覆蓋物相應的電子掩蔽。此外,圖片典型地是灰度或顏色變化的,並且,當掃描儀檢測到文檔上的灰度或顏 色變化時(例如由閱讀器頭檢測到),向包含灰度或顏色變化的像素分配一特定值,然後, 清除或覆蓋所有具有此特定值的像素,以隱藏這些像素的內容,其可能是圖片。覆蓋物601、603的形式和形狀可以是圖5所示的列。替代地和/或附加地,覆蓋物 601、603的形式和形狀可能是正方形、檢查圖案、格柵、三角形、圓形、線條、具有任何數量的 邊的多邊形等。
權利要求
一種掃描文檔的計算機執行的方法,包括以下步驟 將限於覆蓋文檔的界定區域的視域的至少一個記錄獲取至一存儲器; 處理所述至少一個記錄,以執行字符識別; 當字符被識別時,將該字符記錄在一存儲器中;以及,當在移動的位置進行記錄的同時,重複執行以上步驟,以逐漸獲得字符串;其特徵在於, 對照預定條件評測所述字符串; 如果不滿足條件,則確定是否從所述存儲器清除所述至少一個記錄的至少一部分; 如果滿足條件,則提供輸出,並從所述存儲器清除所述字符串的至少一部分和所述至少一個記錄的至少一部分。
2.根據權利要求1所述的計算機執行的方法,其中,預定條件包括所述字符串包括至 少一個詞。
3.根據權利要求2所述的計算機執行的方法,其中,提供包括所述至少一個詞的索引 列表。
4.根據權利要求2所述的計算機執行的方法,其中,如果所述至少一個詞與預定中止 詞的其中之一匹配,那麼從所述索引列表清除所述至少一個詞。
5.根據權利要求2所述的計算機執行的方法,其中,在詞之前和之後具有空格的情況 下確認該詞。
6.根據權利要求2所述的計算機執行的方法,其中,在詞之前具有空格且在該詞之後 具有與字母不同的字符的情況下確認該詞。
7.根據權利要求2所述的計算機執行的方法,其中,通過包括一種或多種語言中的每 個詞的資料庫來確認詞,並且,如果在所述字符串與所述資料庫中的一詞之間存在匹配,那 麼將所述字符串定義為一詞。
8.根據權利要求1所述的計算機執行的方法,其中,所述輸出是至少一個詞。
9.根據權利要求1所述的計算機執行的方法,其中,所述輸出是對於所述至少一個詞 在所述文檔中的位置的參考。
10.根據權利要求1或2所述的計算機執行的方法,其中,生成並存儲關於所述至少一 個詞在所述文檔中的位置/地點的信息。
11.根據權利要求1或2所述的計算機執行的方法,其中,用代碼代表所述至少一個詞。
12.根據權利要求3所述的計算機執行的方法,其中,所述輸出包括所述索引列表和對 於代表了相應詞在受到掃描的所述文檔中的位置的地點的參考。
13.根據權利要求1所述的計算機執行的方法,其中,生成的關鍵詞列表包括多個預定 的關鍵詞。
14.根據權利要求13所述的計算機執行的方法,其中,將所述關鍵詞列表與所述索引 列表進行比較,如果所述關鍵詞列表中的關鍵詞與所述索引列表中的一詞匹配,那麼提取 此詞。
15.根據權利要求1至14中任一項所述的計算機執行的方法,其中,如果不滿足條件, 那麼確定是否從所述存儲器清除所述至少一個記錄的至少一部分,包括確定所評測的字符的數量;並且-如果評測到小於預定數量的字符,那麼所述至少一個記錄的至少一部分不被清除;並且-如果評測到大於等於預定數量的字符,那麼清除至少一個記錄的至少一部分。
16.根據權利要求1至15中任一項利要求所述的計算機執行的方法,進一步包括,如果 不滿足條件,那麼確定是否從所述存儲器清除所述字符串的至少一部分。
17.根據權利要求1至16中任一項所述的計算機執行的方法,包括將所選擇的記錄拼 合在一起以成為複合記錄。
18.根據權利要求17所述的計算機執行的方法,其中,處理所述複合記錄,以執行對延 伸經過多個所選擇的記錄的字符的識別。
19.根據權利要求17所述的計算機執行的方法,其中,當處理所述至少一個記錄以識 別字符的操作沒有導致字符的識別時,執行將所選擇的記錄拼合在一起以成為複合記錄的 步驟。
20.根據權利要求1和17所述的計算機執行的方法,其中,所述預定條件包括,當已經 拼合了預定數量的記錄時,所拼合的複合記錄是否導致字符的識別。
21.根據權利要求1和17所述的計算機執行的方法,其中,所述預定條件包括,評測到 少於預定數量的字符。
22.根據權利要求1和17所述的計算機執行的方法,其中,所述預定條件包括,字符字 體大小小於預定的字體大小。
23.根據權利要求1和17所述的計算機執行的方法,其中,所述預定條件包括,在相鄰 記錄中出現相同的顏色。
24.根據權利要求17所述的計算機執行的方法,其中,當滿足預定條件時,清除所述復 合記錄。
25.根據權利要求1至24中任一項所述的計算機執行的方法,其中,將所述視域構造為 具有彼此緊鄰地布置在連續文本中的11個詞的尺寸。
26.根據權利要求1至25中任一項所述的計算機執行的方法,其中,將所述視域構造為 具有與所述文檔的寬度和所述字符的字體大小的高度相對應的尺寸。
27.根據權利要求1至24中任一項所述的計算機執行的方法,其中,將所述視域構造為 具有比受到字符識別的最小字符的尺寸的5倍小的尺寸。
28.根據權利要求1至27中任一項所述的計算機執行的方法,其中,同時獲取至少兩個 記錄。
29.一種計算機可讀的介質,編碼有當在計算機上運行時執行根據權利要求1至27中 任一項所述的方法的程序。
30.一種包括掃描裝置和裝載有程序的計算機的系統,當所述程序在所述計算機上運 行時,所述程序執行根據權利要求1至27中任一項所述的方法。
31.一種文檔掃描儀,包括_掃描頭,用於獲取限於覆蓋文檔的界定區域的視域的至少一個記錄;-處理器,適於識別所述記錄中的字符;_數據存儲器,用於存儲所述至少一個記錄並用於存儲所識別的字符;-程序存儲器,在所述處理器上存儲一組可執行程序指令,以執行根據權利要求1至28中任一項所述的方法。
全文摘要
一種掃描文檔(例如報紙或書)的計算機執行的方法,其中,可以在法律上防止對文本進行未授權的拷貝,包括以下步驟將限於覆蓋文檔的界定區域的視域的至少一個記錄獲取至存儲器;處理至少一個記錄,以執行字符識別;當識別出字符時,將其登記在存儲器中,並且,在移動的位置進行記錄的同時,重複執行以上步驟,以逐漸獲得字符串;並對照預定條件評測字符串;如果不滿足條件,則確定是否從存儲器清除至少一個記錄的至少一部分;如果滿足條件,則提供輸出,並從存儲器清除字符串的至少一部分和至少一個記錄的至少一部分。
文檔編號G06K9/00GK101981568SQ200980108146
公開日2011年2月23日 申請日期2009年3月5日 優先權日2008年3月7日
發明者拉爾斯·斯蒂格·尼爾森, 雅各布·梅布姆 申請人:Jl私人控股有限公司