一種基於附加數據的文檔檢索方法及系統與流程
2023-10-31 12:14:12 4
本發明涉及文檔處理技術領域,具體涉及一種基於附加數據的文檔檢索方法及系統。
背景技術:
文檔是信息的載體,有多種格式,如pdf,jpeg等圖片格式,txt文檔,微軟office文檔,wps文檔等等。對文檔進行檢索,是利用信息和知識的一種手段,效率越高越好。文檔檢索常見的兩種方式是,基於文件名及基於文件內容。在常用的作業系統中,系統本身也提供了文件檢索的手段,如在windows系統上,通過dir命令檢索文件名,通過find,findstr等命令檢索文件內容,甚至有更方便易用的軟體,如everything檢索文件名,surffind檢索文件內容。在linux和mac系統上,無論是系統還是第三方軟體,都提供了檢索文檔名或文檔內容的手段。
上述方法存在的問題是,通過文件名標識信息內容,長度有限,如在windowsnt系統上,如果不進行特殊處理,文件路徑最大隻支持260個字符;基於內容搜索,則是二進位匹配,對於非文本內容,需要做特殊處理,如對圖像需要進行複雜的處理與識別,對微軟office文檔則需要進行格式轉換或專門開發插件,對pdf文檔也需要複雜的處理。雖然現在發展了各種技術手段,使得文檔檢索越來越方便,如googledesktop等,但仍然存在各種問題。
人類的大腦是最好的工具,如果由人腦來處理一篇文檔,並將分類,摘要等信息存儲到文檔中,依此來進行檢索,將能提供準確的檢索結果,大大提高利用知識的效率。或者基於現有技術手段,分析處理後將信息以統一格式存儲到文檔中,方便後續檢索利用。
將信息存儲到文檔中,類似的方法有確保二進位文件完整性的數字籤名,籤名後,會將籤名信息存入二進位文件中;還有exif(exchangeableimagefileformat),可交換圖像文件格式,可以附加到jpeg,tiff,riff等文件中,其中可以存儲各種信息。但遺憾的是,並沒有適用於所有文檔類型的通用方法。
本發明提出並實現一種基於附加屬性且適用於所有文檔類型的檢索方法,該方法通過為文檔添加附加數據,在其中保存分類標籤,摘要等信息,以完成高效精確的基於內容的文檔檢索。
現有技術對文檔添加注釋等附加,要麼是專有格式,要麼與文檔本身分離,要麼會因為對文檔處理而丟失附加信息。
技術實現要素:
為解決上述技術問題,本發明提供了一種基於附加數據的文檔檢索方法,該方法包括以下步驟:
(1)用戶基於對文檔內容的理解,輸入關鍵信息,或自動掃描文檔並提取關鍵信息;
(2)將所述關鍵信息以附加數據形式,存入所述文檔;
(3)打開/編輯所述文檔時,跳過所述附加數據,從文檔真實數據起始位置進行讀寫;文檔保存時,所述附加數據依然存在,且該附加數據能夠被編輯;
(4)執行文檔檢索時,首先判斷所述文檔是否存在附加數據,如果存在,針對附加數據進行基於內容的檢索;如果不存在附加數據,則以二進位方式檢索或跳過。
優選的,所述步驟(1)提取的關鍵信息包括:分類標籤、內容摘要;並將提取的所述關鍵信息統一轉換為標準的編碼格式,使其與所述文檔的格式無關。
優選的,所述步驟(2)將上述關鍵信息,以附加數據形式,與文檔原始數據存放在一起。
優選的,所述步驟(3)具體包括:所述打開/編輯文檔時,自動跳過所述附加數據,從文檔真實數據起始位置進行讀寫,確保文檔可以正常打開/編輯,而附加信息不會丟失,同時也可以隨時編輯文檔附加數據。
優選的,所述步驟(4)具體包括:執行所述文檔檢索時,首先判斷被檢索的文檔是否存在附加數據,若存在,針對該附加數據進行基於內容的檢索;如果不存在附加數據,則以普通的二進位方式檢索或跳過。
為解決上述技術問題,本發明提供了一種基於附加數據的文檔檢索系統,該系統包括:
關鍵信息提取模塊,用戶基於對文檔內容的理解,輸入關鍵信息,或自動掃描文檔並提取關鍵信息;
關鍵信息保存模塊,將所述關鍵信息以附加數據形式,存入所述文檔;
關鍵信息編輯模塊,打開/編輯所述文檔時,跳過所述附加數據,從文檔真實數據起始位置進行讀寫;文檔保存時,所述附加數據依然存在,且該附加數據能夠被編輯;
文檔信息檢索模塊,接收文檔檢索命令,判斷所述文檔是否存在附加數據,如果存在,針對附加數據進行基於內容的檢索;如果不存在附加數據,則以二進位方式檢索或跳過。
優選的,所述關鍵信息提取模塊提取的關鍵信息包括:分類標籤、內容摘要;並將提取的所述關鍵信息統一轉換為標準的編碼格式,使其與所述文檔的格式無關。
優選的,所述關鍵信息保存模塊,將所述關鍵信息以附加數據形式,存入所述文檔。
優選的,所述關鍵信息編輯模塊,在打開/編輯文檔時,自動跳過所述附加數據,從文檔真實數據起始位置進行讀寫,確保文檔可以正常打開/編輯,而附加信息不會丟失,同時也可以隨時編輯文檔附加數據。
為解決上述技術問題,本發明提供了一種計算機存儲介質,其包括電腦程式指令,當執行該電腦程式指令時,執行所述方法之一。
本發明的技術方案取得了以下技術效果:
1)通過將用戶輸入或自動提取的關鍵信息,以附加數據形式同文檔原始數據保存在一起,使得可供檢索/查看的關鍵信息與文檔格式無關。
2)通過本方法提出的完整技術解決方案,可以使人類大腦參與其中,大幅度提升檢索的速度和準確度。
附圖說明
圖1是基於附加數據的文檔檢索處理流程圖
具體實施方式
名詞解釋:
exif:exchangeableimagefileformat,可交換圖像文件格式,是專門為數位相機的照片設定的,可以記錄數碼照片的屬性信息和拍攝數據。
everything,一個windows平臺支持ntfs卷的文件/文件夾搜索工具。
surffind,一個開源軟體,用於搜索文件內容。
為了解決上述技術問題,本發明中提出了基於附加數據的文檔檢索方法,針對各種文檔格式沒有統一的內容檢索方法,造成檢索不精確的需求,解決了文檔精確檢索的問題。本方法從附加信息的存儲,打開/編輯文檔時附加信息的處理,附加信息的提取三個方面的技術問題著手,形成了全新的文檔檢索解決方案。
首先,通過人工方式或程序自動掃描方式,將關鍵信息提取出來。
其次,將關鍵信息以附加數據形式,同文檔原始數據存儲在一起。
再次,為確保用戶能夠正常打開/編輯文檔,在打開/編輯文檔時,需要跳過附加數據,從文檔原始數據處開始讀寫。
再次,檢索時,如果判斷文檔有附加數據,則提取附加數據,基於附加數據進行檢索。
本發明提出的基於附加數據的文檔檢索方法的信息處理過程如圖1所示,其中包括了提取關鍵信息,以附加數據保存關鍵信息,打開/編輯時處理附加數據,檢索時提取附加數據共4個處理模塊,通過這一系列的信息處理,形成了基於附加數據的文檔檢索方法。下面對這4個信息處理模塊逐一進行介紹:
(1)提取關鍵信息
用戶手工輸入關鍵信息,或程序自動提取關鍵信息。如對圖片,根據圖片內容,添加注釋信息;對pdf文檔等,根據文檔內容,提取主要內容的摘要信息等。用戶還可以根據自己的分類習慣,添加標籤等信息。這些關鍵信息進行統一編碼,如編碼為utf-8或unicode,使其與文檔格式和編碼無關,同時便於檢索處理。
(2),以附加數據保存關鍵信息
將上述關鍵信息,以附加數據形式與文檔原始數據一起保存。為便於處理,默認8k頭部,即附加數據最大8k,8k頭後面就是文檔的原始數據。
(3),打開/編輯時處理附加數據
打開/編輯文檔時,根據附加數據標記判斷是否有附加數據,如果有,將跳過附加數據,根據上述(2),跳過8k數據,從文檔原始數據起始位置開始讀寫。關閉文件時,附加信息也寫入其原始位置(8k頭內),不會丟失。
(4),提取附加數據
檢索時,先讀取固定長度的數據,根據上述(2)該長度為8k,判斷是否有特殊標記存在。如果有,則說明有附加數據,可以將該數據用於內容檢索。
本發明提供了一種基於附加數據的文檔檢索系統,該系統包括:
關鍵信息提取模塊,用戶基於對文檔內容的理解,輸入關鍵信息,或自動掃描文檔並提取關鍵信息;
關鍵信息保存模塊,將所述關鍵信息以附加數據形式,存入所述文檔;
關鍵信息編輯模塊,打開/編輯所述文檔時,跳過所述附加數據,從文檔真實數據起始位置進行讀寫;文檔保存時,所述附加數據依然存在,且該附加數據能夠被編輯;
文檔信息檢索模塊,接收文檔檢索命令,判斷所述文檔是否存在附加數據,如果存在,針對附加數據進行基於內容的檢索;如果不存在附加數據,則以二進位方式檢索或跳過。
所述關鍵信息提取模塊提取的關鍵信息包括:分類標籤、內容摘要;並將提取的所述關鍵信息統一轉換為標準的編碼格式,使其與所述文檔的格式無關。
所述關鍵信息保存模塊,將所述關鍵信息以附加數據形式,存入所述文檔。
所述關鍵信息編輯模塊,在打開/編輯文檔時,自動跳過所述附加數據,從文檔真實數據起始位置進行讀寫,確保文檔可以正常打開/編輯,而附加信息不會丟失,同時也可以隨時編輯文檔附加數據。
本發明提供了一種計算機存儲介質,其包括電腦程式指令,當執行該電腦程式指令時,執行所述方法之一。
本發明提供了一種計算機,其包括處理器和計算機存儲介質,所述計算機存儲介質包括電腦程式指令,當處理器執行該電腦程式指令時,執行所述方法之一。
通過本發明提供的實施方式,使得文檔關鍵信息與文檔原始內容一起存儲,且與文檔格式無關,因為可以有人腦參與提取關鍵信息,使得檢索結果更加精確,提高對信息的利用效率。
以上所述僅為本發明的較佳實施例而已,並非用於限定本發明的保護範圍。凡在本發明的精神和原則之內,所作的任何修改、等同替換以及改進等,均應保護在本發明的保護範圍之內。