一種文檔格式的轉換方法及裝置的製作方法
2023-05-11 08:34:46 1
專利名稱::一種文檔格式的轉換方法及裝置的製作方法
技術領域:
:本發明屬於文檔應用領域,具體涉及一種文檔格式的轉換方法及裝置。
背景技術:
:隨著電腦的不斷普及,無紙化辦公得到越來越多的應用,各種各樣的文檔也大量的出現在用戶的面前。以可移植文檔格式(PortableDocumentFormat,PDF)、office文檔為例,在將PDF格式的文檔轉換為office格式的文檔時,面臨較多的困難。在PDF格式的文檔中,實際看到的文字特效,譬如例如下劃線、刪除線、字符底紋等,都是將圖形與文本疊加形成的。因此,在將PDF文件轉換為office格式的文檔時,如果僅僅是從PDF文檔中提取原始數據內容,有文字特效的文本就會變成分散的文本與圖形混合在一起,如果需要還原文本特效,需要手動刪除多餘的圖形並重新設置文本特效。上述的轉換方式不但丟失了原有PDF的文本效果,在轉換後,還會造成頁面的混亂,給轉換後的文檔的編輯帶來極大的不便。如何使得諸如PDF文檔在轉換為其他格式的文檔時,能夠保持原文檔內容的還原度,增加文檔轉換後可編輯性,是文檔轉換
技術領域:
研究的方向之一。
發明內容本發明的目的在於提供一種文檔格式的轉換方法,旨在使得諸如PDF文檔在轉換為其他格式的文檔時,能夠保持原文檔內容的還原度,增加文檔轉換後可編輯性。本發明實施例是這樣實現的,一種文檔格式的轉換方法,所述方法包括以下步驟獲取原文檔中的文本信息和圖形信息;將獲取的原文檔中的文本信息和圖形信息進行文本特效識別,識別所述文本信息與所述圖形信息之間的對應關係;將識別出的所述文本信息與所述圖形信息之間的對應關係進行存儲;根據所述存儲的文本信息與所述圖形信息之間的對應關係生成用戶指定的文檔格式。本發明實施例的另一目的在於提供一種文檔格式的轉換裝置,所述裝置包括信息獲取模塊,用於獲取原文檔中的文本信息和圖形信息;文本特效識別模塊,用於將獲取的原文檔中的文本信息和圖形信息進行文本特效識別,識別所述文本信息與所述圖形信息之間的對應關係;存儲模塊,用於將識別出的所述文本信息與所述圖形信息之間的對應關係進行存儲;文檔格式轉換模塊,用於根據所述存儲的文本信息與所述圖形信息之間的對應關係生成用戶指定的文檔格式。本發明實施例通過獲取PDF文檔中的文本信息以及圖形信息,並對PDF文檔中的文本信息和圖形信息進行文本特效識別,識別文本信息和圖形信息之間的關係並存儲,根據存儲的文本信息和圖形信息之間的關係將PDF文檔轉換為其他格式的文檔,使得諸如PDF文檔在轉換為其他格式的文檔時,能夠保持原文檔內容的還原度,增加文檔轉換後可編輯性,解決了轉換後頁面混亂的問題。圖1為本發明實施例圖2為本發明實施例圖3為本發明實施例圖4為本發明實施例圖5為本發明實施例圖6為本發明實施例圖7為本發明實施例圖8為本發明實施例圖9為本發明實施例提供的文檔格式的轉換方法的流程提供的將矩形轉換為線段的流程提供的特效圖形中下劃線的特徵示意提供的特效圖形中刪除線的特徵示意提供的特效圖形中底紋與高亮的特徵示意提供的對帶圈字符的識別轉換流程提供的對帶圈字符之外的其他特效圖形的處理流程提供的能與圖形組合成為特效文本的文本塊集合的流程圖提供的文檔格式的轉換裝置的結構圖。具體實施例方式為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發明,並不用於限定本發明。圖1示出了本發明實施例提供的文檔格式的轉換方法的流程。在步驟S101中,獲取原文檔中的文本信息和圖形信息。為了便於說明,本發明實施例以PDF文檔作為原文檔為例進行說明,當然也可以是將其他的文檔格式進行轉換,此處不一一列舉。在步驟S102中,將獲取的原文檔中的文本信息和圖形信息進行文本特效識別,識別所述文本信息與所述圖形信息之間的對應關係。在具體實施過程中,所述文本信息和所述圖形信息包含的位置以及大小關係;所述圖形信息包含的圖形的屬性、特徵等基本信息。在步驟S103中,將識別出的所述文本信息與所述圖形信息之間的對應關係進行存儲。本發明是將識別的結果保存至標識了文本所具有的特殊效果的獨立中間數據結構中。在步驟S104中,根據所述存儲的文本信息與所述圖形信息之間的對應關係生成用戶指定的文檔格式。其中,步驟S101中的圖形信息包括有特效圖形的特徵信息,所述的特效圖形為下劃線、刪除線、底紋與高亮以及帶圈字符等圖形。在根據所述存儲的文本信息與所述圖形信息之間的對應關係生成用戶指定的文檔格式時,根據所述特效圖形的特徵信息查找符合條件的特效圖形,刪除所述圖形信息中的特效圖形。其中,由於PDF頁面顯示的內容均是由頁面內容流中的一系列控制字來表示的,所以步驟S101中在獲取原文檔中的文本信息和圖形信息時,首先讀入並接收文檔中存儲的文檔繪製指令,所述文檔繪製指令包括繪製文本指令以及繪製圖形指令;然後,根據接收到的繪製文本指令提取繪製文本指令中對應的文本信息;根據接收到的繪製圖形指令提取所述繪製圖形指令中對應的圖形信息。作為本發明的優選的實施例,步驟S103中在將識別出的所述文本信息與所述圖形信息之間的對應關係進行存儲時,還包括;將獲取的文本信息保存至文本塊集合中,將獲取的圖形信息保存至圖形集合中。其中,提取出的文本信息與圖形信息均保存有位置、外界矩形區域大小等基本信息,所述的圖形信息還保存有組成該圖形的邊的屬性、填充色等圖形的基本信息。在具體實施過程中,由於PDF中表示線段的方式有多種,除了通常理解的繪製一條線段之外,另一種方式就是繪製一個寬度很小的細長矩形。後一種方式在顯示時與前一種方式有同樣的效果,為了簡化識別的判斷邏輯,本發明實施例將提取出的細長矩形全部轉換為線段,具體轉換步驟請參閱圖2步驟S21、判斷獲取的圖形是否為四邊形,若是,進行步驟S22,否則終止;步驟S22、判斷獲取的圖形是否為矩形,若是,進行步驟S23,否則終止;步驟S23、判斷是否具有某一邊的寬度是否小於PDF在正常顯示時能夠區分線段和矩形的臨界寬度,若是,則進行步驟S24,否則終止;其中,上述的臨界寬度為一經驗值,根據大量具體的PDF的屬性而定。步驟S24、提取該矩形的區域信息,以該矩形的2條窄邊的中點為線段的2個頂點,轉化為相應的線段,並用轉化後的線段替換掉原來的矩形。下面詳細的說明步驟S102中將獲取的原文檔中的文本信息和圖形信息進行文本特效識別,識別所述文本信息與所述圖形信息之間的對應關係、以及特效圖形的過程。在進行文本特效識別時,要明確各種文本特效圖形的特徵,這需要對各種PDF文檔中文本信息和圖形信息進行樣例分析,得出圖形信息與對應文本信息之間的對應關係或者特效圖形一般特徵,本發明實施例以A下劃線、B刪除線、C底紋與高亮以及D帶圈字符為例進行詳細的說明。A、以下劃線為例,請參閱圖3,下劃線a就是在文本下方與文字方向平行的線段。根據對大量PDF文本與下劃線線段之間的位置關係的分析,下劃線線段一般位於文本對象外接矩形框內部下1/4位置到矩形框外部下方1/3位置,這些分數值也可以根據具體情況相應進行調整,並不限定於前面列出的值,本發明實施例使用的分數均是按外接矩形框高度為單位1來計算的。同時,由於PDF中的文本並不是以自然的單詞或者字來分割,有可能是幾個字母或者一個漢字就為一個文本對象,通過幾個文本對象的組合來得到在閱讀時的完整單詞和句子的效果,因此,對下劃線線段只能要求與文本對象在x方向有相交部分即可。由此,識別出的下劃線(僅針對橫排文本)的特徵為A1、下劃線為沿水平方向x方向的線段;A2、下劃線與劃分出來的某個文本行列塊有相交部分;A3、y方向所佔區域落在文本塊y方向區域的下3/4與4/3範圍之內,x方向與文本塊x方向有相交部分。B、以刪除線為例,請參閱圖4,刪除線b的特點是穿過文字,與文字方向平行的線段。根據對大量PDF文本與刪除線線段之間的位置關係的分析,大部分的刪除線線段都位於文本對象外接矩形框的上部1/4位置到下部1/4位置之間,這些分數值也可以根據具體情況相應進行調整,並不限定於前面列出的值。在x方向上的特徵,由於PDF中文本對象的不確定性,與下劃線是類似的。本發明識別出的刪除線(僅針對橫排文本)的特徵為B1、刪除線是水平方向x方向的線段;B2、刪除線與劃分出來的某個文本行列塊有相交部分;B3、y方向所佔區域落在文本塊y方向區域的1/4與3/4範圍之內,x方向與文本塊x方向有相交部分。C、以底紋與高亮為例,請參閱圖5,底紋與高亮在PDF中的表現形式都是文字下面有特效圖形,特效圖形的區域遮蓋了文字的大部分區域。在對大量的PDF中的底紋與高亮進行分析後,得出底紋與高亮確實具有完全相同的PDF元素組合關係,特效圖形幾乎完全覆蓋了文字。進行樣例分析後,發現特效圖形上端一般都不會超過文本外接矩形框上方1/4,也不會低於矩形框內側上部的1/4,特效圖形下端超出矩形框內側下1/10,但不會超過矩形框下方外側1/4。這些分數值也可以根據具體情況相應進行調整,並不限定於前面列出的值。同時,在x方向上的特徵由於PDF中文本對象的不確定性,底紋與高亮跟下劃線和刪除線類似,都只要求與文本對象在x方向有相交部分即可。由此,本發明識別出的高亮與底紋(僅針對橫排文本)的特徵為C1、高亮與底紋是矩形,且有填充色;C2、高亮與底紋與劃分出來的某個文本行列塊有相交部分;C3、y方向所佔區域的上部既不越過文本塊y方向區域上方的y方向區域1/4大小,也不低於文本塊y方向區域1/4處,底部超過文本塊y方向區域9/10,但不超過與文本塊y方向區域5/4,x方向與文本塊x方向有相交部分。D、以帶圈字符為例,帶圈字符是PDF中比較特殊的文本特效類型。根據對PDF的分析,帶圈字符是由2個文本對象疊加得到的,其中一個文本對象即是圈字符,一般為字符「〇、口、A、」中的一個。另一個文本對象是一個至多只有2個字符的文本對象,這2個文本對象的區域大部分是相交的。本發明識別出的帶圈字符的特徵為D1、帶圈字符是只有1個字符的文本塊,字符必須為「〇、口、A、」中的一個;D2、帶圈字符與除了自身之外的某個文本塊相交,且這個文本決最多只有2個字符。當然在具體實施過程中,還包括其他若干的圖形,此處僅以上述A、B、C、D四個為例,總結出圖形信息的基本特徵後,這些基本特徵可以在識別過程中對圖形進行分級多次篩選,提高篩選效率。同時,判斷特徵的過程是相對獨立的,可以自由分離或組合使用。在具體實施過程中,首先進行帶圈字符的識別轉換,該識別轉換過程請參閱圖67步驟S61、查找文本塊集合中的圖形,是否找到符合帶圈字符特效圖形特徵(D1)的文本塊,若找到,則進行S62,若找不到這種文本塊,結束識別;步驟S62、根據找到的特效圖形屬性,查找文本塊集合直至找到一個至多只有2個字符的,並且與特效圖形相交的文本塊,若找到,進行步驟S63,若找不到這樣的文本塊,回到步驟S61;步驟S63、根據此特效圖形的字符為「〇、口、A、」中的哪一個,設置對應的相交文本塊的屬性為帶圓圈字符、帶矩形圈字符、帶三角形圈字符,帶菱形圈字符中的一種;步驟S64、刪除特效圖形文本塊。完成帶圈字符的識別後,進行其它特效圖形的識別,識別的方法為,遍歷圖形集合中的圖形,對每個圖形應用以下步驟(請參閱圖7)步驟S71、查找能與該圖形組合成為特效文本的文本塊集合;若查找出文本塊集合,此圖形即為特效圖形,進行步驟S72;若找不到則結束;步驟S72、計算查找出的文本塊集合的區域大小,如果與特效圖形區域x方向寬度差別過大,則回到步驟S71繼續查找文本塊,否則進行步驟S73;步驟S73、對文本塊集合中的每一個文本塊設置與特效圖形對應的文本特效屬性;步驟S74、刪除特效圖形。其中,上述步驟S71的具體過程請參閱圖8步驟3711、判斷圖形是否符合特效圖形特徵的第一特徵(即上文中的々1、81、(1),若符合則進行步驟S712,若不符合則查找結束,查找結果為空,結束;步驟S712、遍歷文本集合中的每一個行列塊,判斷圖形與行列塊的關係是否符合特效圖形的第二特徵(即上文中的A2、B2、C2),若符合,進行步驟S713,若全部都不符合,則查找結束,查找結果為空,結束;步驟S713、對於找到的行列塊中的每一個文本塊,判斷圖形與文本塊是否符合特效圖形的第三特徵(即上文中的A3、B3、C3),如符合,進行步驟S714,若沒有一個符合,繼續進行步驟S712;步驟S714、將符合文本塊集合作為查找結果返回。其中,對於每一次符合的判斷,都將對應的文本塊記錄至一個符合文本塊集合中。完成圖形的遍歷與識別後,PDF中文本特效識別即結束。通過對中間結構的讀取,就可以在生成其它文檔格式時,設置這些格式支持的文本特效。經過本發明實施例處理過的PDF文檔元素,生成的其它文檔格式中的文本附帶特效,還原度、可讀性都得到了很大的提尚。而且,本發明實施例可以消除簡單的PDF文檔元素提取所得的文本與特效圖形混合在一起,頁面元素混亂的問題,處理過程可以方便的增加新的特效識別。而且,識別及設置各種文本特效的操作是可分離的,可以自由使用其中的某一個識別功能或者設置功能。本發明還提供一種文檔格式的轉換裝置,請參閱圖9。其中,信息獲取模塊91,用於獲取原文檔中的文本信息和圖形信息;文本特效識別模塊92,用於將獲取的原文檔中的文本信息和圖形信息進行文本特效識別,識別所述文本信息與所述圖形信息之間的對應關係;存儲模塊93,用於將識別出的所述文本信息與所述圖形信息之間的對應關係進行存儲;其中,圖形信息包括有所述特效圖形的特徵信息;文檔格式轉換模塊94,用於根據所述存儲的文本信息與所述圖形信息之間的對應關係生成用戶指定的文檔格式。其中,所述圖形信息包含的圖形的屬性以及特徵,所述文本信息與所述圖形信息之間的對應關係包括位置以及大小關係。所述文檔格式轉換模塊94包括線段轉換模塊941,用於判斷獲取的圖形是否為四邊形,判斷獲取的圖形是否為矩形,判斷是否具有某一邊的寬度是否小於PDF在正常顯示時能夠區分線段和矩形的臨界寬度,以及,將該矩形轉化為相應的線段,並用轉化後的線段替換掉原來的矩形。特效圖形查找模塊942,用於根據所述特效圖形的特徵信息查找符合條件的特效圖形。特效圖形刪除模塊943,用於刪除所述圖形信息中的特效圖形。具體的各模塊的工作流程在上文已有詳細的描述,此處不再贅述。本發明實施例通過獲取PDF文檔中的文本信息以及圖形信息,並對PDF文檔中的文本信息和圖形信息進行文本特效識別,識別文本信息和圖形信息之間的關係並存儲,根據存儲的文本信息和圖形信息之間的關係將PDF文檔轉換為其他格式的文檔,使得諸如PDF文檔在轉換為其他格式的文檔時,能夠保持原文檔內容的還原度,增加文檔轉換後可編輯性,解決了轉換後頁面混亂的問題。應當理解的是,對本領域普通技術人員來說,可以根據上述說明加以改進或變換,而這些改進和變換都應屬於本發明所附權利要求的保護範圍。9權利要求一種文檔格式的轉換方法,其特徵在於,所述方法包括以下步驟獲取原文檔中的文本信息和圖形信息;將獲取的原文檔中的文本信息和圖形信息進行文本特效識別,識別所述文本信息與所述圖形信息之間的對應關係;將識別出的所述文本信息與所述圖形信息之間的對應關係進行存儲;根據所述存儲的文本信息與所述圖形信息之間的對應關係生成用戶指定的文檔格式。2.如權利要求1所述的文檔格式的轉換方法,其特徵在於,所述圖形信息包含的圖形的屬性以及特徵,所述文本信息與所述圖形信息之間的對應關係包括文本和圖形的位置以及大小關係。3.如權利要求1所述的文檔格式的轉換方法,其特徵在於,所述的圖形信息包含有特效圖形,在根據所述存儲的文本信息與所述圖形信息之間的對應關係生成用戶指定的文檔格式時,所述方法還包括以下步驟刪除所述圖形信息中的特效圖形。4.如權利要求1或3所述的文檔格式的轉換方法,其特徵在於,在刪除所述圖形信息中的特效圖形的步驟之前,所述方法還包括;存儲所述特效圖形的特徵信息;在根據所述存儲的文本信息與所述圖形信息之間的對應關係生成用戶指定的文檔格式時,根據所述特效圖形的特徵信息查找符合條件的特效圖形。5.如權利要求3所述的文檔格式的轉換方法,其特徵在於,在刪除所述圖形信息中的特效圖形的步驟之前,所述方法還包括判斷獲取的圖形是否為四邊形,若是則繼續判斷獲取的圖形是否為矩形,若是,則繼續判斷是否具有某一邊的寬度小於原文檔在正常顯示時能夠區分線段和矩形的臨界寬度,若是,提取該矩形的區域信息,將該矩形轉化為相應的線段,並用轉化後的線段替換掉原來的矩形。6.一種文檔格式的轉換裝置,其特徵在於,所述裝置包括信息獲取模塊,用於獲取原文檔中的文本信息和圖形信息;文本特效識別模塊,用於將獲取的原文檔中的文本信息和圖形信息進行文本特效識別,識別所述文本信息與所述圖形信息之間的對應關係;存儲模塊,用於將識別出的所述文本信息與所述圖形信息之間的對應關係進行存儲;文檔格式轉換模塊,用於根據所述存儲的文本信息與所述圖形信息之間的對應關係生成用戶指定的文檔格式。7.如權利要求6所述的文檔格式的轉換裝置,其特徵在於,所述圖形信息包含的圖形的屬性以及特徵,所述文本信息與所述圖形信息之間的對應關係包括文本和圖形的位置以及大小關係。8.如權利要求6所述的文檔格式的轉換裝置,其特徵在於,所述文檔格式轉換模塊具體包括特效圖形刪除模塊,用於刪除所述圖形信息中的特效圖形。9.如權利要求6或8所述的文檔格式的轉換裝置,其特徵在於,所述圖形信息包括有特效圖形的特徵信息,所述文檔格式轉換模塊還包括;特效圖形查找模塊,用於根據所述特效圖形的特徵信息查找符合條件的特效圖形。10.如權利要求6或8所述的文檔格式的轉換裝置,其特徵在於,所述文檔格式轉換模塊還包括線段轉換模塊,用於判斷獲取的圖形是否為四邊形,判斷獲取的圖形是否為矩形,判斷是否具有某一邊的寬度是否小於原文檔在正常顯示時能夠區分線段和矩形的臨界寬度,以及,將該矩形轉化為相應的線段,並用轉化後的線段替換掉原來的矩形。全文摘要本發明屬於文檔應用領域,公開了一種文檔格式的轉換方法及裝置,所述方法包括獲取原文檔中的文本信息和圖形信息;將獲取的原文檔中的文本信息和圖形信息進行文本特效識別,識別所述文本信息與所述圖形信息之間的對應關係;將識別出的所述文本信息與所述圖形信息之間的對應關係進行存儲;根據所述存儲的文本信息與所述圖形信息之間的對應關係生成用戶指定的文檔格式。本發明使得諸如PDF文檔等原文檔在轉換為其他格式的文檔時,能夠保持原文檔內容的還原度,增加文檔轉換後可編輯性,解決了轉換後頁面混亂的問題。文檔編號G06F17/21GK101853246SQ20101020640公開日2010年10月6日申請日期2010年6月14日優先權日2010年6月14日發明者晏檢平,李譞申請人:深圳市萬興軟體有限公司