新四季網

數據處理方法及裝置、文件識別方法及工具的製作方法

2023-10-09 13:01:09 2


專利名稱::數據處理方法及裝置、文件識別方法及工具的製作方法
技術領域:
:本發明涉及數據處理領域,尤其是涉及一種數據處理方法、一種數據處理裝置、一種文件識別方法及一種文件識別工具。
背景技術:
:當前對信息化的重視程度越來越強,對檔案信息的公開、檢索利用、系統網絡化要求越來越高,通過對檔案系統進行數位化處理,可以對檔案館的數據進行統一管理、統一查詢,同時可以對數位化後的各類檔案進行全文檢索、在線利用等操作,提高檔案的利用率。但是,由於各家檔案館保存檔案的時候都比較長,很多有幾十年甚至上百年,在計算機發展過程中,不同的檔案館使用的檔案管理產品也不完全相同,導致了存儲的數據保存格式的多樣性,例如,目前使用較多的數據保存格式包括DBF資料庫數據保存格式,Access訪問資料庫數據保存格式、Excel表格數據保存格式、Txt文本文件數據保存格式、Sybase單機片資料庫數據保存格式、SQLServer(StructuredQueryLanguage,結構化查詢語言管理,是一個關係資料庫管理系統)資料庫數據保存格式、Oracle(甲骨文)資料庫數據保存格式等等。並且,對於每一家檔案館而言,自身都至少有若干種檔案,如文書檔案、科技檔案、會計檔案、各種專題檔案等等,每一種檔案的數據保存格式可能也不完全相同。因此,對檔案館進行數據遷移工作時,具有相當大的繁瑣性,非常容易出錯。在以往的數據遷移過程中,開發人員針對每一種數據保存格式都進行調整或開發,多次進行導致代碼不具備重用性,每個項目中均可能作了重複的數據的導入,造成資源的浪費。
發明內容本發明實施例提供了一種數據處理方法,用於降低數據遷移工作的繁瑣性,提高數據遷移工作的準確率,節省資源,該方法包括獲取源資料庫中存儲的記錄信息,所述記錄信息中包括與源數據欄位對應的第一標識;根據預設的映射關係,在目標資料庫中確定與所述第一標識對應的第二標識,所述第二標識與所述目標資料庫中的目標數據欄位相對應;將所述第一標識對應的源數據欄位插入到所述第二標識對應的目標數據欄位中。本發明實施例還提供了一種文件識別方法,用於提高對合成文件識別的準確性,包括對當前合成的文件進行識別;當所述合成的文件識別失敗時,將所述合成的文件轉化成單層可移植文檔格式PDF文件;當所述合成的文件識別成功時,將所述合成的文件轉化成合成為雙層PDF文件。本發明實施例還提供了一種數據處理裝置,用於降低數據遷移工作的繁瑣性,提高數據遷移工作的準確率,節省資源,包括獲取單元,用於獲取源資料庫中存儲的記錄信息,所述記錄信息中包括與源數據欄位對應的第一標識;確定單元,用於根據預設的映射關係,在目標資料庫中確定與所述第一標識對應的第二標識,所述第二標識與所述目標資料庫中的目標數據欄位相對應;插入單元,用於將所述第一標識對應的源數據欄位插入到所述第二標識對應的目標數據欄位中。本發明實施例還提供了一種文件識別工具,用於提高對合成文件識別的準確性,包括第二識別單元,用於對當前合成的文件進行識別;第一生成單元,用於當所述合成的文件識別失敗時,將所述合成的文件轉化成單層可移植文檔格式PDF文件;第二生成單元,用於當所述合成的文件識別成功時,將所述合成的文件轉化成合成為雙層PDF文件。在本發明實施例中,在數據遷移工作中,將源數據欄位插入目標數據欄位後,生成的結合數據欄位與目標資料庫中數據保存格式是相同的,目標資料庫可以直接對其進行識別、解析,獲取相應信息,能夠提高數據遷移工作的準確率,屏蔽了不同保存格式的源數據結構之間的差異,避免了現有技術中提到的,在以往的數據遷移過程中,開發人員需要針對每一種數據保存格式都進行調整或開發,多次進行導致代碼不具備重用性,每個項目中均可能作了重複的數據的導入,造成資源的浪費。進一步,OCR識別工具在對合成的文件進行識別時,設定周期重啟OCR識別工具,對合成的文件進行識別;和/或,對OCR識別工具進行監控,當監控到OCR識別工具退出時,重啟OCR識別工具。通過對OCR識別工具進行監控,確定合成的文件的合法性,以及OCR識別工具是否導常退出,達到遍歷、完成圖片識別及PDF合成的合過程。進一步,採用XML格式存儲預設的映射關係時,由於XML格式的高擴展性及高兼容性,即使源數據格式與目標數據格式差別較大時,也可以通過較少的改動迅速地適應導入需求,屏蔽了不同保存格式的源數據結構之間的差異。圖1是本發明實施例提供的數據處理方法的具體流程圖;圖2是本發明實施例提供的數據處理方法的一個實施例的具體流程圖;圖3是本發明實施例提供的利用OCR識別工具對合成的文件進行識別的具體流程圖;圖4是本發明實施例提供的利用數據處理方法生成的界面的示意圖;圖5、圖7、圖8及圖9是本發明實施例提供的數據處理裝置的結構示意圖;圖6是本發明實施例提供的插入單元的結構示意圖;圖10是本發明實施例提供的文件識別工具的結構示意圖。具體實施例方式為達到降低數據遷移工作的繁瑣性,提高數據遷移工作的準確率,節省資源的目的,本發明實施例提供了數據處理方法,具體處理流程如圖1所示,包括步驟101、獲取源資料庫中存儲的記錄信息,記錄信息中包括與源數據欄位對應的第一標識;步驟102、根據預設的映射關係,確定目標資料庫中與第一標識對應的第二標識,第二標識與目標資料庫中的目標數據欄位相對應;步驟103、將第一標識對應的源數據欄位插入到第二標識對應的目標數據欄位中。本領域技術人員公知,源資料庫中包括的數據被分為多個數據欄位,每個數據欄位擁有對應的第一標識。如圖1所示流程,步驟101在實施時,從源資料庫中獲取記錄信息,解析該記錄信息,獲取該記錄信息中包括的與源數據欄位對應的第一標識,第一標識可以為一個,也可以為多個,根據具體情況而定。如圖1所示流程,步驟102在實施時,根據預設的映射關係,確定目標資料庫中與第一標識對應的第二標識。確定方式有多種,例如,一種實施例為當記錄信息中包括的第一標識為一個時,根據預設的映射關係,在目標庫中確定出至少一個與第一標識對應的第二標識,即,根據一個第一標識能夠確認出一個或多個第二標識;再例如,另外一種實施例為當記錄信息中包括的第一標識為至少兩個時,根據預設的映射關係,在目標庫中確定出一個與第一標識對應的第二標識,即,根據多個第一標識確定出唯一的一個第二標識。當然了,在實施時還可能存在其他情況,能夠確定出與記錄信息中包括的第一標識對應的第二標識即可,具體採用哪種實施方式根據具體情況而定。步驟103在實施時,將第一標識對應的源數據欄位插入到第二標識對應的目標數據欄位中,根據第一標識及對應確定的第二標識的數目不同,源數據欄位插入目標數據欄位的方式也不同,現以幾個具體的實施例進行說明。實施例一採用一對一的映射關係獲取的記錄信息中包括一個第一標識時,根據預設的映射關係,在目標資料庫中確定出唯一的一個與第一標識對應的第二標識,將該第一標識對應的源數據欄位插入到該第二標識對應的目標數據欄位中。實施例二採用分拆的第一種映射關係獲取的記錄信息中包括一個第一標識時,根據預設的映射關係,在目標資料庫中確定出至少兩個與第一標識對應的第二標識,按第二標識的數目對第一標識對應的源數據欄位進行分拆,並將分拆後的第一子源數據欄位分別插入到至少兩個第二標識對應的目標數據欄位中。通常本領域技術人員可以利用分隔符對源數據欄位進行拆分,每個第一子源數據欄位的長度可能相同也可能不同,根據具體情況而定。實施例三採用分拆的第二種映射關係獲取的記錄信息中包括一個第一標識時,根據預設的映射關係,在目標資料庫中確定出至少兩個與第一標識對應的第二標識,並對每個第二標識對應的目標數據欄位均執行如下操作接收目標資料庫的控制指令,確定與該第二標識對應的目標數據欄位能夠插入的源數據字符數值,從源數據欄位中未被獲取的子源數據欄位中獲取與源數據字符值相同的第二子源數據欄位,並將第二子源數據欄位分別插入到兩個以上第二標識對應的目標數據欄位中。實施例四採用合併的映射關係記錄信息中包括至少兩個與源數據欄位對應的第一標識時,根據預設的映射關係,在目標資料庫中確定出一個與第一標識對應的第二標識,將至少兩個第一標識對應的源數據欄位合併插入該第二標識對應的目標數據欄位中。如圖1所示流程,步驟103在實施時,將源數據欄位插入目標數據欄位後,生成的結合數據欄位與目標資料庫中數據保存格式是相同的,目標資料庫可以直接對其進行識別、解析,獲取相應信息,避免了現有技術中提到的,在以往的數據遷移過程中,開發人員需要針對每一種數據保存格式都進行調整或開發,多次進行導致代碼不具備重用性,每個項目中均可能作了重複的數據的導入,造成資源的浪費。如圖1所示流程,步驟103在實施時,還可以為經插入操作生成的結合數據欄位生成對應的第三標識,並將第三標識導入目標資料庫中,建立第三標識與結合數據欄位的映射關係。導入成功後,就可以直接根據第三標識查找到對應的結合數據欄位,並進行調用。在實施時,第三標識可以有多種形式,如可以選擇頁碼的數字作為第三標識,也可以選擇檔案號作為第三標識,還可以選擇其他標識作為第三標識,根據具體情況而定。如圖1所示流程,步驟103在實施時,根據經插入操作生成的結合數據欄位對應的內容在目標資料庫中進行查詢,若確定已存在對應的原目標數據欄位時,此時,利用經插入操作生成的結合數據欄位覆蓋對應的原目標數據欄位,對目標資料庫存儲的數據進行更新。如圖1所示流程,步驟103在實施之後,可以將經插入操作生成的結合數據欄位導入目標資料庫的一個項目中,並在目標資料庫中建立插入操作生成的結合數據欄位與項目的映射關係。建立了映射關係後,可以直接從項目中查找對應的結合數據欄位。項目可能有多種,例如,可以是案卷,也可以是檔案名,還可以是其他形式,根據具體情況確定採用哪種項目形式。如圖1所示流程,步驟103在實施之後,為保證導入的數據的可用性,在將經插入操作生成的結合數據欄位導入目標資料庫之後,可以判斷導入的結合數據欄位是否能夠合成一個完整的文件,當結合數據欄位合成文件後,對合成的文件進行識別,一種較優的識別方式為當合成的文件識別失敗時,將合成的文件轉化成單層PDF(PortableDocumentFormat,可移植文檔格式)文件,當合成的文件識別成功時,將合成的文件轉化成合成為雙層PDF文件。當然,在實施時,還可能存在其他較優的識別方式,根據具體情況採用不同的識別方式。在實施時,通常採用OCR(OpticalCharacterRecognition,光字符識別)識別工具用於識別合成的文件,在現有技術中,由於掃描的歷史文件不可避免地存在黑點、手寫體、掃描文字模糊等問題,導致現有的OCR識別工具在使用時經常導常退出,導致索引很難建立成功,且無法保證大批量OCR的正確性,為解決該問題,本發明實施提供了一種較優的解決方法,即,按設定周期重啟OCR識別工具,對合成的文件進行識別;或者,還可以採用另外一種較優的解決方法,即,對OCR識別工具進行監控,當監控到OCR識別工具退出時,進行重啟。當然,在實施時,還可以對OCR識別工具進行其他監控,監控OCR工具根據掃描路徑格式、文件名規則等識別、組合文件。在實施時,預設的映射關係可以有多種實現方式,為達到多種資料庫數據保存格式的兼容性,一種較優的方法是採用兼容性較好的XML(eXtensibIeMarkupLanguage,可擴展移植性語句)格式保存預設的映射關係。由於XML格式的高擴展性及高兼容性,即使源數據格式與目標數據格式差別較大時,也可以通過較少的改動迅速地適應導入需求。現以XML格式為例,對本發明實施例提供的數據處理方法進行詳細的說明。<Attrsrc=全宗號『dest='全宗號'FunStr=『substr(0,6)節點源數據欄位與目標數據欄位的影射關係;Src屬性源數據欄位;Dest屬性目標數據欄位;FunStr屬性函數字符串屬性,根據該屬性值的設置把源數據欄位的相關字符串插入到目標數據欄位中。2).節點與數據導入相關的信息;fiIeUpload屬性值為0或者1,是否上載全文到ftp伺服器中;notCreateArchNo屬性值為0或1,是否在入庫的同時根據檔號規則生成檔案的檔號;fileJoinOnly屬性值為0或1,是否只作文件掛接,針對掃描的電子全文是否只作文件關係的建立,而不進行實際的文件上傳操作,由用戶掛接完成後手工一次性把文件拷貝到ftp伺服器中,從而加快導入的速度。SimpleArch屬性值為0或1,是否為文書簡化立卷的方式。3).〈Combination〉節點源資料庫多個欄位合併成為目標資料庫中的一個欄位,可以在一次數據導入的過程中配置多個合併的導入關係;節點一對合併的配置關係;srcl屬性源數據欄位1;src2屬性源數據欄位2;源數據欄位可以有兩個以上;dest屬性合併後的目標數據欄位。4).節點源資料庫中的一個源數據欄位拆分後插入到多個目標數字欄位中,可以在一次數據倒入的過程中配置多個拆分的導入關係;節點一對拆分的配置關係;src屬性源數據欄位;destl屬性目標數據欄位1;dest2屬性目標數據欄位2;目標數據欄位可以有兩個以上;sepchar屬性源數據欄位中拆分的分隔符,根據分隔符把源數據欄位的值拆分後放入各個目標欄位中。5).節點目錄數據導入選項以外的一些其他選項;〈Option〉節點具體的選項內容;combinePDF屬性值為0或1,是否合成PDF;ocr屬性值為0或1,是否進行OCR操作,只有在選擇了合成PDF的情況下才能進行OCR識別選項的選擇;overwrite屬性在合成PDF過程中,如果目標PDF已經存在,是否覆蓋PDF,重新生成PDF文件;PDFOutPath屬性合成生成PDF的路徑;srcDir屬性掃描後源文件(需要掛接處理的文件)存放的路徑。本例中,數據處理方法的具體處理流程如圖2所示,包括步驟201、利用XML格式存儲預設的映射關係;步驟202、判斷映射關係是否設置正確,執行步驟203;步驟203、判斷同一目標數據欄位是否被指定多次,若是,執行步驟201,若否,執行步驟204;步驟204、判斷相同檔號欄位是否已在目標數據欄位中設置,若是,執行步驟201,若否,執行步驟205;步驟205、判斷目標數據欄位是否存在於目標資料庫中,若是,執行步驟201,若否,執行步驟206;步驟206、為源資料庫設定主鍵;步驟207、從源資料庫中獲取一條記錄信息;步驟208、根據一對一的映射關係生成對應的結合數據欄位,執行步驟211;步驟209、根據合併的關係生成的對應的結合數據欄位,執行步驟211;步驟210、根據拆分的關係生成的對應的結合數據欄位,執行步驟211;步驟211、確定生成的結合數據欄位是否已保存在目標資料庫中,若是,執行步驟213,若否,執行步驟212;步驟212、將結合數據欄位導入目標資料庫;步驟213、利用保存的結合數據欄位更新目標資料庫中存在的原目標數據欄位;步驟214、根據保存的結合數據欄位在目標資料庫中查找對應的案卷;步驟215、在目標資料庫中查找到對應的案卷,並與保存的結合數據欄位建立映射關係。步驟208、步驟209和步驟210在實施時,根據映射關係的不同生成結合數據欄位,根據實際情況選擇任意一個步驟進行實施即可,在將結合數據欄位導入目標資料庫後,合成文件,並對合成的文件進行識別,具體識別過程如圖3所示步驟301、對合成的文件進行識別,當對合成的文件識別失敗時,執行步驟302,當對合成的文件識別失敗時,執行步驟303;步驟302、將合成的文件轉化成單層PDF文件;步驟303、將合成的文件轉化成合成為雙層PDF文件。如圖3所示流程,當利用OCR識別工具在對合成的文件進行識別時,設定周期重啟OCR識別工具,對合成的文件進行識別;和/或,對OCR識別工具進行監控,當監控到OCR識別工具退出時,重啟OCR識別工具。通過對OCR識別工具進行監控,確定合成的文件的合法性,以及OCR識別工具是否導常退出,達到遍歷、完成圖片識別及PDF合成的合過程。實施時,除XML格式外,還可以採用其他擴展性及兼容性較好的格式,能夠記錄源數據欄位和目標數據欄位之間的對應關係即可。基於XML格式的實例,可以構建一個面向最終用戶、簡單易用且能夠靈活實施的數據處理工具,例如,⑶I(GraphicalUserInterface,圖形用戶界面)工具,包括以下功能1、以JavaSwing的方式組織、生成相應的界面工具,具體如圖4所示,適應跨平臺操作的需要;2、以表Table的方式顯示源數據欄位與目標數據欄位之間的對應關係,同時以樹Tree的方式來顯示源數據表和目標數據表的不同形狀;3、支持滑鼠拖動的方式選擇樹中的任意節點;4、提供豐富的選項由用戶選擇,滿足不同保存格式的源數據的導入需要。從圖4中可以看出,映射源的數據經中間處理遷移到映射目標中,遷移的項目包括全宗號、檔案室、檔案館、機構、文號、責任者、年度、期限、日期、頁數、備註、全宗名稱、案號、文件等等,利用合併、分拆、枚舉、文件處理或其他設置遷移到映射目標中,可以選擇直接上傳,也可以選擇只作文件連結,或不生成檔號等相關選項。實施時,該例與檔案系統緊密結合,可以利用該界面工具將數據導入其他檔案系統中,也可以將數據導入到非檔案系統的表中。為保證識別的準確性與有效性,本發明實施例還提供了一種文件識別方法,具體如下對當前合成的文件進行識別;當合成的文件識別失敗時,將合成的文件轉化成單層可移植文檔格式PDF文件;當合成的文件識別成功時,將合成的文件轉化成合成為雙層PDF文件。實施時,識別可以多種識別工具,例如,採用光學字符識別OCR識別工具時,按設定周期重啟OCR識別工具,對合成的文件進行識別;和/或,對OCR識別工具進行監控,當監控到OCR識別工具退出時,重啟OCR識別工具。基於同一發明構思,本發明實施例還提供了一種數據處理裝置,具體結構如圖5所示,包括獲取單元501,用於獲取源資料庫中存儲的記錄信息,記錄信息中包括與源數據欄位對應的第一標識;確定單元502,用於根據預設的映射關係,在目標資料庫中確定與第一標識對應的第二標識,第二標識與目標資料庫中的目標數據欄位相對應;插入單元503,用於將第一標識對應的源數據欄位插入到第二標識對應的目標數據欄位中。在一個實施例中,如圖5所示結構,確定單元502可以進一步用於在獲取單元501獲取的記錄信息中包括一個與源數據欄位對應的第一標識時,根據預設的映射關係,在目標資料庫中確定出至少一個與第一標識對應的第二標識;插入單元503可以進一步用於將該第一標識對應的源數據欄位插入到至少一個第二標識對應的目標數據欄位中。在一個實施例中,如圖6所示裝置,插入單元503可以包括第一插入子單元601,用於當確定單元502確定的第二標識為兩個以上時,按第二標識的數目對第一標識對應的源數據欄位進行分拆,並將分拆後的第一子源數據欄位分別插入到至少兩個第二標識對應的目標數據欄位中;第二插入子單元602,用於當確定單元502確定的第二標識為兩個以上時,對兩個以上的第二標識中的每個第二標識對應的目標數據欄位執行如下操作接收目標資料庫的控制指令,控制指令中包含該第二標識對應的目標數據欄位能夠插入的源數據字符數值;從源數據欄位中未被獲取的子源數據欄位中獲取與源數據字符數值相同的第二子源數據欄位,並將第二子源數據欄位插入到該第二標識對應的目標數據欄位中。在一個實施例中,如圖5所示結構,確定單元502可以進一步用於在獲取單元501獲取的記錄信息中包括至少兩個與源數據欄位對應的第一標識時,根據預設的映射關係,在目標資料庫中確定出一個與第一標識對應的第二標識;插入單元503可以進一步用於將至少兩個第一標識對應的源數據欄位合併插入該第二標識對應的目標數據欄位中。在一個實施例中,如圖7所示結構,數據處理裝置還可以包括標識生成單元701,用於為經插入操作生成的結合數據欄位生成對應的第三標識,並第三標識導入目標資料庫中,建立第三標識與結合數據欄位的映射關係。在一個實施例中,如圖7所示結構,插入單元503可以進一步用於當確定結合數據欄位對應的內容在目標資料庫中已存在對應的原目標數據欄位時,利用結合數據欄位覆蓋原目標數據欄位。在一個實施例中,如圖8所示結構,數據處理裝置還可以包括導入單元801,用於將經插入操作生成的結合數據欄位導入目標資料庫的一個項目中,並在目標資料庫中建立將所述結合數據欄位與項目的映射關係。在一個實施例中,如圖9所示結構,數據處理裝置還可以包括第一識別單元901,用於當結合數據欄位合成文件後,對合成的文件進行識別;當合成的文件識別失敗時,將合成的文件轉化成單層可移植文檔格式PDF文件;當合成的文件識別成功時,將合成的文件轉化成合成為雙層PDF文件。在一個實施例中,如圖9所示結構,第一識別單元901可以進一步用於採用光學字符識別OCR識別工具時,按設定周期重啟所述OCR識別工具,對所述合成的文件進行識別;和/或對所述OCR識別工具進行監控,當監控到所述OCR識別工具退出時,重啟所述OCR識別工具。在一個實施例中,如圖5、圖6、圖7、圖8及圖9任一張圖所示的結構,確定單元502可以採用XML格式存儲預設的映射關係。基於同一發明構思,本發明實施例還提供了一種文件識別工具,具體結構如圖10所示,包括第二識別單元1001,用於對當前合成的文件進行識別;第一生成單元1002,用於當合成的文件識別失敗時,將合成的文件轉化成單層可移植文檔格式PDF文件;第二生成單元1003,用於當合成的文件識別成功時,將所述合成的文件轉化成合成為雙層PDF文件。在一個實施例中,如圖10所示結構,第二識別單元1001可以採用光學字符識別OCR識別工具時,按設定周期重啟OCR識別工具,對合成的文件進行識別;和/或對OCR識別工具進行監控,當監控到OCR識別工具退出時,重啟OCR識別工具。在本發明實施例中,在數據遷移工作中,將源數據欄位插入目標數據欄位後,生成的結合數據欄位與目標資料庫中數據保存格式是相同的,目標資料庫可以直接對其進行識別、解析,獲取相應信息,能夠提高數據遷移工作的準確率,屏蔽了不同保存格式的源數據結構之間的差異,避免了現有技術中提到的,在以往的數據遷移過程中,開發人員需要針對每一種數據保存格式都進行調整或開發,多次進行導致代碼不具備重用性,每個項目中均可能作了重複的數據的導入,造成資源的浪費。進一步,OCR識別工具在對合成的文件進行識別時,設定周期重啟OCR識別工具,對合成的文件進行識別;和/或,對OCR識別工具進行監控,當監控到OCR識別工具退出時,重啟OCR識別工具。通過對OCR識別工具進行監控,確定合成的文件的合法性,以及OCR識別工具是否導常退出,達到遍歷、完成圖片識別及PDF合成的合過程。進一步,採用XML格式存儲預設的映射關係時,由於XML格式的高擴展性及高兼容性,即使源數據格式與目標數據格式差別較大時,也可以通過較少的改動迅速地適應導入需求,屏蔽了不同保存格式的源數據結構之間的差異。顯然,本領域的技術人員可以對本發明進行各種改動和變形而不脫離本發明的精神和範圍。這樣,倘若本發明的這些修改和變形屬於本發明權利要求及其等同技術範圍之內,則本發明也意圖包含這些改動和變形在內。權利要求1.一種數據處理方法,其特徵在於,包括獲取源資料庫中存儲的記錄信息,所述記錄信息中包括與源數據欄位對應的第一標識;根據預設的映射關係,在目標資料庫中確定與所述第一標識對應的第二標識,所述第二標識與所述目標資料庫中的目標數據欄位相對應;將所述第一標識對應的源數據欄位插入到所述第二標識對應的目標數據欄位中。2.如權利要求1所述的方法,其特徵在於,所述記錄信息中包括一個與源數據欄位對應的第一標識時,所述根據預設的映射關係,在目標資料庫中確定與所述第一標識對應的第二標識,包括根據所述預設的映射關係,在所述目標資料庫中確定出至少一個與所述第一標識對應的第二標識;將該第一標識對應的源數據欄位插入到所述至少一個第二標識對應的目標數據欄位中。3.如權利要求2所述的方法,其特徵在於,當所述第二標識為兩個以上時,所述根據預設的映射關係,在目標資料庫中確定與所述第一標識對應的第二標識,包括按所述第二標識的數目對所述第一標識對應的源數據欄位進行分拆,並將分拆後的第一子源數據欄位分別插入到所述至少兩個第二標識對應的目標數據欄位中;或對所述兩個以上的第二標識中的每個第二標識對應的目標數據欄位執行如下操作接收所述目標資料庫的控制指令,所述控制指令中包含該第二標識對應的目標數據欄位能夠插入的源數據字符數值;從所述源數據欄位中未被獲取的子源數據欄位中獲取與所述源數據字符數值相同的第二子源數據欄位,並將所述第二子源數據欄位插入到該第二標識對應的目標數據欄位中。4.如權利要求1所述的方法,其特徵在於,所述記錄信息中包括至少兩個與源數據欄位對應的第一標識時,所述根據預設的映射關係,在目標資料庫中確定與所述第一標識對應的第二標識,包括根據所述預設的映射關係,在所述目標資料庫中確定出一個與所述第一標識對應的第二標識;將所述至少兩個第一標識對應的源數據欄位合併插入該第二標識對應的目標數據欄位中。5.如權利要求1所述的方法,其特徵在於,將所述第一標識對應的源數據欄位插入到所述第二標識對應的目標數據欄位中之後,還包括為經插入操作生成的結合數據欄位生成對應的第三標識,並所述第三標識導入所述目標資料庫中,建立所述第三標識與所述結合數據欄位的映射關係。6.如權利要求5所述的方法,其特徵在於,所述第三標識包括檔號。7.如權利要求5所述的方法,其特徵在於,當確定所述結合數據欄位對應的內容在所述目標資料庫中已存在對應的原目標數據欄位時,利用所述結合數據欄位覆蓋所述原目標數據欄位。8.如權利要求1所述的方法,其特徵在於,將所述第一標識對應的源數據欄位插入到所述第二標識對應的目標數據欄位中之後,還包括將經插入操作生成的結合數據欄位導入所述目標資料庫的一個項目中,並在所述目標資料庫中建立所述將所述結合數據欄位與所述項目的映射關係。9.如權利要求8所述的方法,其特徵在於,所述項目包括案卷。10.如權利要求1所述的方法,其特徵在於,將所述第一標識對應的源數據欄位插入到所述第二標識對應的目標數據欄位中之後,還包括當所述結合數據欄位合成文件後,對所述合成的文件進行識別;當所述合成的文件識別失敗時,將所述合成的文件轉化成單層可移植文檔格式PDF文件;當所述合成的文件識別成功時,將所述合成的文件轉化成合成為雙層PDF文件。11.如權利要求10所述的方法,其特徵在於,所述識別採用光學字符識別OCR識別工具時,按設定周期重啟所述OCR識別工具,對所述合成的文件進行識別;和/或對所述OCR識別工具進行監控,當監控到所述OCR識別工具退出時,重啟所述OCR識別工具。12.如權利要求1-11任一項所述的方法,其特徵在於,所述預設的映射關係保存在可擴展標記語言XML格式中。13.一種文件識別方法,其特徵在於,包括對當前合成的文件進行識別;當所述合成的文件識別失敗時,將所述合成的文件轉化成單層可移植文檔格式PDF文件;當所述合成的文件識別成功時,將所述合成的文件轉化成合成為雙層PDF文件。14.如權利要求13所述的方法,其特徵在於,所述識別採用光學字符識別OCR識別工具時,按設定周期重啟所述OCR識別工具,對所述合成的文件進行識別;和/或對所述OCR識別工具進行監控,當監控到所述OCR識別工具退出時,重啟所述OCR識別工具。15.一種數據處理裝置,其特徵在於,包括獲取單元,用於獲取源資料庫中存儲的記錄信息,所述記錄信息中包括與源數據欄位對應的第一標識;確定單元,用於根據預設的映射關係,在目標資料庫中確定與所述第一標識對應的第二標識,所述第二標識與所述目標資料庫中的目標數據欄位相對應;插入單元,用於將所述第一標識對應的源數據欄位插入到所述第二標識對應的目標數據欄位中。16.如權利要求15所述的裝置,其特徵在於,所述確定單元進一步用於在所述獲取單元獲取的記錄信息中包括一個與源數據欄位對應的第一標識時,根據所述預設的映射關係,在所述目標資料庫中確定出至少一個與所述第一標識對應的第二標識;所述插入單元進一步用於將該第一標識對應的源數據欄位插入到所述至少一個第二標識對應的目標數據欄位中。17.如權利要求16所述的裝置,其特徵在於,所述插入單元包括第一插入子單元,用於當所述確定單元確定的第二標識為兩個以上時,按所述第二標識的數目對所述第一標識對應的源數據欄位進行分拆,並將分拆後的第一子源數據欄位分別插入到所述至少兩個第二標識對應的目標數據欄位中;第二插入子單元,用於對所述兩個以上的第二標識中的每個第二標識對應的目標數據欄位執行如下操作接收所述目標資料庫的控制指令,所述控制指令中包含該第二標識對應的目標數據欄位能夠插入的源數據字符數值;從所述源數據欄位中未被獲取的子源數據欄位中獲取與所述源數據字符數值相同的第二子源數據欄位,並將所述第二子源數據欄位插入到該第二標識對應的目標數據欄位中。18.如權利要求15所述的裝置,其特徵在於,所述確定單元進一步用於在所述獲取單元獲取的記錄信息中包括至少兩個與源數據欄位對應的第一標識時,根據所述預設的映射關係,在目標資料庫中確定出一個與所述第一標識對應的第二標識;所述插入單元進一步用於將所述至少兩個第一標識對應的源數據欄位合併插入該第二標識對應的目標數據欄位中。19.如權利要求15所述的裝置,其特徵在於,還包括標識生成單元,用於為經插入操作生成的結合數據欄位生成對應的第三標識,並所述第三標識導入所述目標資料庫中,建立所述第三標識與所述結合數據欄位的映射關係。20.如權利要求19所述的裝置,其特徵在於,所述插入單元進一步用於當確定所述結合數據欄位對應的內容在所述目標資料庫中已存在對應的原目標數據欄位時,利用所述結合數據欄位覆蓋所述原目標數據欄位。21.如權利要求15所述的裝置,其特徵在於,還包括導入單元,用於將經插入操作生成的結合數據欄位導入所述目標資料庫的一個項目中,並在所述目標資料庫中建立所述將所述結合數據欄位與所述項目的映射關係。22.如權利要求15所述的裝置,其特徵在於,還包括第一識別單元,用於當所述結合數據欄位合成文件後,對所述合成的文件進行識別;當所述合成的文件識別失敗時,將所述合成的文件轉化成單層可移植文檔格式PDF文件;當所述合成的文件識別成功時,將所述合成的文件轉化成合成為雙層PDF文件。23.如權利要求22所述的裝置,其特徵在於,所述第一識別單元採用光學字符識別OCR識別工具時,按設定周期重啟所述OCR識別工具,對所述合成的文件進行識別;和/或對所述OCR識別工具進行監控,當監控到所述OCR識別工具退出時,重啟所述OCR識別工具。24.如權利要求15-23任一項所述的裝置,其特徵在於,所述確定單元採用即可擴展標記語言XML格式存儲所述預設的映射關係。25.一種文件識別工具,其特徵在於,包括第二識別單元,用於對當前合成的文件進行識別;第一生成單元,用於當所述合成的文件識別失敗時,將所述合成的文件轉化成單層可移植文檔格式PDF文件;第二生成單元,用於當所述合成的文件識別成功時,將所述合成的文件轉化成合成為雙層PDF文件。26.如權利要求25所述的工具,其特徵在於,所述第二識別單元採用光學字符識別OCR識別工具時,按設定周期重啟所述OCR識別工具,對所述合成的文件進行識別;和/或對所述OCR識別工具進行監控,當監控到所述OCR識別工具退出時,重啟所述OCR識別工具。全文摘要本發明公開了一種數據處理方法,包括獲取源資料庫中存儲的記錄信息,所述記錄信息中包括與源數據欄位對應的第一標識;根據預設的映射關係,在目標資料庫中確定與所述第一標識對應的第二標識,所述第二標識與所述目標資料庫中的目標數據欄位相對應;將所述第一標識對應的源數據欄位插入到所述第二標識對應的目標數據欄位中,並將經插入操作生成的結合數據欄位導入所述目標資料庫中。本發明還公開了一種文件識別方法、一種數據處理裝置及一種文件識別工具。採用本發明可以用於降低數據遷移工作的繁瑣性,提高數據遷移工作的準確率,節省資源。文檔編號G06F17/30GK102110102SQ20091024321公開日2011年6月29日申請日期2009年12月29日優先權日2009年12月29日發明者謝成輝申請人:北京北大方正電子有限公司,北京方正電子政務信息科技有限公司,北大方正集團有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀