技術標準的數位化處理方法
2023-06-01 13:15:56 1
專利名稱:技術標準的數位化處理方法
技術領域:
本發明涉及計算機應用系統中的數據採集及處理技木,可用於各類技術標準文本的數位化處理、索引創建和檢索。尤其適用於對技術標準的分類。
背景技術:
技術標準的整編、分類、管理、使用對於各行業具有特別重大的意義,在促進技術進步、科技創新,保證設計質量方面起著重要的作用。而由於技術標準本身在分類、管理上的複雜性,傳統的紙質技術標準文本和人工發放管理的方式已經難以適應新的設計管理模式的要求,儘管有部分技術標準開始採用數位化的分發方式,但目前紙質版本的使用還是主流,現有的數位化技術僅僅是將紙質版本掃描成圖像或PDF文件,使用者在電腦上ー頁頁翻閱,對於大量的技術標準內容無法進行全文檢索,也無法將技術標準的條文和條文說明相互參照。
發明內容
本發明所要解決的技術問題是提供適合處理行業技術標準數位化的相關信息處理技木,解決現有數位化技術存在的弊端,實現海量技術標準數位化後的全文檢索和索引創建。還可以融入企業的整體信息平臺,在技術標準資料庫系統中提供對標準條文的討論功能,成為企業知識管理的重要數據來源。本發明的基本方案為根據技術標準數位化應用的數據模型,綜合考慮各種數據源和處理校對的工作量,本發明包括下列步驟1.將技術標準分頁掃描為圖像格式;2.使用OCR軟體批量轉換為PDF文件,OCR軟體為現有通用的光學字符識別軟體;3.在軟體系統中創建主文件夾,包含公共屬性,所述公共屬性包括標準名稱和 TAG,如下表所示
權利要求
1. 一種技術標準的數位化處理方法,包括下列步驟1)將技術標準分頁掃描為圖像格式;2)使用OCR軟體批量轉換為PDF文件;3)在軟體系統中創建主文件夾,創建公共屬性,所述公共屬性包括標準名稱和TAG;4)在文件管理器中為所述技術標準建立獨立文件夾,設置所述公共屬性值;5)在所述文件管理器中為所述技術標準的獨立文件夾創建屬性,所述屬性包括頁面內容和條文編號;6)在所述技術標準的獨立文件夾內上傳所述PDF文件,後臺從所述PDF文件中抓取文本內容存入資料庫;7)後臺數據處理軟體自動識別分析所述PDF文件的每頁OCR文本,將條文編號寫入每頁的條文編號屬性;8)前臺Web檢索瀏覽系統,可以根據技術標準的TAG屬性過濾,在顯示每ー頁時,右側提供具有同樣條文編號的頁面連結,並按頁面內容屬性分類。
全文摘要
本發明涉及計算機應用系統中的數據採集及處理技術的一種技術標準的數位化處理方法,包括步驟為技術標準分頁掃描為圖像格式;使用OCR轉換為PDF文件;創建主文件夾,創建公共屬性;創建技術標準獨立文件夾,設置公共屬性值;技術標準的獨立文件夾創建屬性;上傳PDF文件,抓取文本;後臺數據處理軟體自動識別分析所述PDF文件的每頁OCR文本,將條文編號寫入每頁的條文編號屬性;前臺Web檢索瀏覽系統。本發明解決現有數位化技術存在的弊端,實現海量技術標準數位化後的全文檢索和索引創建。
文檔編號G06K9/20GK102591878SQ20111000821
公開日2012年7月18日 申請日期2011年1月14日 優先權日2011年1月14日
發明者翟韋 申請人:上海現代建築設計(集團)有限公司