新四季網

一種書版文檔中的字符定位、標引方法和裝置的製作方法

2023-05-10 12:12:51

專利名稱:一種書版文檔中的字符定位、標引方法和裝置的製作方法
技術領域:
本發明涉及信息資源加工技術領域,具體涉及一種書版文檔中的字符定位、標引 方法和裝置。
背景技術:
書版是一種批處理方式的流式排版軟體,小樣文件中包含註解命令以及正文內 容,通過一掃二掃等流程,解析小樣文件中註解和正文內容,生成後端輸出所需的大樣文 件,大樣文件中只包含一些輸出內容和位置的通用命令,不同的輸出設備通過接口解析這 些命令,實現最終的輸出結果。如圖1所示就是書版的排版流程,經過書版小樣編輯程序得到小樣文件,再經過 一掃二掃流程得到大樣文件,大樣文件經過大樣顯示程序就能夠在屏幕上顯示,或者大樣 文件經過輸出程序形成PS文件。書版小樣文件是包含註解命令和書籍正文內容的批處理文件,例如「[JZ] [HT5SS]這是一段文本」這是一段包含註解命令以及正文內容的小樣文件,其中「[」和「],, 之間包含的就是註解命令,註解命令是由一些簡單的英文字母組成,實際上就是漢語拼音 的首字縮寫,比如「JZ」表示的就是「居中」 (ju,zhong),「HT」表示的就是「漢體」 (han' ti), 「5SS」是「漢體」註解的參數,5代表5號字,「SS」代表的是「書宋」(shu』 song)字體,「這 是一段文本」表示的是需要排版的字符串,即書籍的正文內容。這一段小樣表示的就是在 一行上按照宋體5號字居中排「這是一段文本」這樣一個字符串。包含書籍具體內容的小 樣文件經過書版程序的一掃二掃流程,形成大樣文件。一掃是指查錯,檢查小樣註解是否按 照規範正確輸入,二掃是指將小樣文件轉換為程序能夠理解的輸出命令形成大樣文件。大 樣文件中用二進位編碼定義了一系列計算機能夠理解的輸出命令,這些輸出命令和小樣中 的註解不同,計算機顯示器、印刷機等外圍輸出設備不理解小樣中的「居中」之類的說明,只 知道在設備的哪個點上,輸出些什麼點陣信息,所以在大樣文件中定義的命令一般是「輸出 文本」、「劃線」、「畫點」、「畫圓」等等命令,參數也多是坐標之類的內容,這些大樣文件定義 的命令一般用一個或幾個字節二進位內容定義,比如0101是文本輸出命令,0100是劃線命 令。命令的後面是參數,例如下面一段大樣文件中二進位串「0100 0000 0000 0001 0001」 可以理解為「劃線,0,0,1,1",即從X = 0,y = 0到X = l,y = 1劃一條線。再例如,上述小 樣文件中的文字「段」,在大樣文件中的命令和參數為「文字200300段」,就表示在χ = 200, y = 300的位置上輸出文字「段」。如圖2所示,為書版的大樣文件的示意圖,包括命令和參 數,命令如「文字」 「劃線」等,每一個命令均對應參數,如「劃線」命令的參數「0,0,1,1」以 及「文字」命令的參數「200,300,段」等。因此,書版不是一種所見即所得、排版的同時同步顯示輸出的一種交互式排版軟 件,大樣文件和小樣文件之間的聯繫只存在於排版輸出流程中。目前能夠通過將書版內容 轉換成其他格式的文檔,通過其他的交互式的編輯工具,進行書版小樣文件與大樣文件之 間的交互,進而實現標引和標註功能,但是由於這類文檔轉換都是建立在書版大樣文檔基礎上的,而不是真正包含書籍具體內容的書版小樣文件,所以這種交互方式必然無法滿足 對於書籍信息的資源提取和加工需求,對書版資源的結構化加工來說,是一個極大的障礙。

發明內容
本發明提供一種書版文檔中的字符定位、標引方法和裝置,可以實現書版大樣文 件與小樣文件間的交互,可以實現對書版文檔的標引或標註功能。—種書版文檔中的字符定位方法,包括確定在大樣文件的預覽視圖上被選中的字符在所述預覽視圖上的第一位置信 息;根據所述第一位置信息,從大樣文件中獲得該字符在小樣文件中的第二位置信 息,所述大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;根據所述第二位置信息,在小樣文件中定位出所述字符。進一步,所述確定在大樣文件的預覽視圖上被選中的字符在所述預覽視圖上的第 一位置信息之前,確認被選中的是單一字符。進一步,當確認被選中的是多個字符組成的字符塊時,所述方法還包括確定大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符;分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第
一位置信息;根據首字符第一位置信息和尾字符第一位置信息,從大樣文件中獲得所述首字符 在小樣文件中的首字符第二位置信息,以及尾字符在小樣文件中的尾字符第二位置信息, 所述大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;根據所述首字符第二位置信息和尾字符第二位置信息,在小樣文件中定位出所述 字符塊。其中,所述第一位置信息為坐標信息。一種書版文檔中的字符定位方法,包括確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符;分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第
一位置信息;根據首字符第一位置信息和尾字符第一位置信息,從大樣文件中獲得所述首字符 在小樣文件中的首字符第二位置信息,以及尾字符在小樣文件中的尾字符第二位置信息, 所述大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;根據所述首字符第二位置信息和尾字符第二位置信息,在小樣文件中定位出所述 字符塊。一種書版文檔中的字符定位裝置,包括第一確定單元,用於確定在大樣文件的預覽視圖上被選中的字符在所述預覽視圖 上的第一位置信息;第二位置信息獲得單元,用於根據所述第一位置信息,從大樣文件中獲得該字符 在小樣文件中的第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信息和 第二位置信息;
定位單元,用於根據所述第二位置信息,在小樣文件中定位出所述字符。進一步,所述裝置還包括第二確定單元,用於確定被選中的是單一字符。進一步,所述第二確定單元還用於確定被選中的是多個字符組成的字符塊;以及所述第一確定單元,還用於確定大樣文件的預覽視圖上被選中的字符塊中的首字 符和尾字符,並分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字 符第一位置信息;所述第二位置信息獲得單元,還用於根據首字符第一位置信息和尾字符第一位置 信息,從大樣文件中獲得所述首字符在小樣文件中的首字符第二位置信息,以及尾字符在 小樣文件中的尾字符第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信 息和第二位置信息;所述定位單元,還用於根據所述首字符第二位置信息和尾字符第二位置信息,在 小樣文件中定位出所述字符塊。一種書版文檔中的字符定位裝置,包括確定單元,用於確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字 符,分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置 fn息;第二位置信息獲得單元,用於根據首字符第一位置信息和尾字符第一位置信息, 從大樣文件中獲得所述首字符在小樣文件中的首字符第二位置信息,以及尾字符在小樣文 件中的尾字符第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信息和第 二位置信息;定位單元,用於根據所述首字符第二位置信息和尾字符第二位置信息,在小樣文 件中定位出所述字符塊。一種書版文檔的標引方法,包括確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符,分別確定所 述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置信息;根據首字符第一位置信息和尾字符第一位置信息,從大樣文件中獲得所述首字符 在小樣文件中的首字符第二位置信息,以及尾字符在小樣文件中的尾字符第二位置信息, 所述大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;根據所述首字符第二位置信息和尾字符第二位置信息,在小樣文件的邏輯樹結構 中獲得所述字符塊以及所述字符塊的格式信息,其中小樣文件的邏輯樹結構中對應記錄了 每一個字符、每一個字符的第二位置信息以及對應的格式信息;將獲得的所述字符塊以及所述字符塊的格式信息組合進行標引。一種書版文檔的標引裝置,包括確定單元,用於確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字 符,分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置 fn息;第一位置信息獲得單元,用於根據首字符第一位置信息和尾字符第一位置信息, 從大樣文件中獲得所述首字符在小樣文件中的首字符第二位置信息,以及尾字符在小樣文 件中的尾字符第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;字符塊及格式獲得單元,用於根據所述首字符第二位置信息和尾字符第二位置信 息,在小樣文件的邏輯樹結構中獲得所述字符塊以及所述字符塊的格式信息,其中小樣文 件的邏輯樹結構中對應記錄了每一個字符、每一個字符的第二位置信息以及對應的格式信 息;標引單元,將獲得的所述字符塊以及所述字符塊的格式信息組合進行標引。本發明實施例提供的書版文檔中的字符定位方法,通過在書版的大樣文件中記錄 後端輸出時的每個字符的位置信息以及該字符在書版小樣文件中的位置信息,實現了大小 樣間的關聯,並且根據在大樣文件預覽視圖上選中的字符的位置信息,從大樣文件中獲得 該字符在小樣文件中的位置信息,從小樣文件中定位出該字符,能夠實現大樣文件與小樣 文件的交互,進一步當確定在預覽視圖上選定的是多字符的字符塊時,通過確定出字符塊 的首字符和尾字符在預覽視圖上的位置信息,從大樣文件中獲得首字符和尾字符在小樣文 件中的位置信息,從小樣文件中定位出該字符塊,從而實現了書版大樣文件與小樣文件的 交互;同時還可以根據首字符和尾字符在小樣文件中的位置信息從小樣文件的邏輯樹結構 中獲得字符塊以及字符塊對應的格式信息,並可以對獲得的字符塊及格式信息組合併進行 標引或標註,可以根據不同的應用需求進行處理。


圖1為書版的排版流程;圖2為書版的大樣文件的示意圖;圖3為本發明實施例一提供的書版文檔中的字符定位方法流程圖;圖4為本發明實施例二提供的書版文檔中的字符定位方法流程圖;圖5為本發明實施例提供的書版小樣文件的邏輯樹結構示意圖;圖6為本發明實施例提供的書版文檔中的字符定位方法具體示意圖;圖7為本發明實施例提供的第一種書版文檔中的字符定位裝置結構圖;圖8為本發明實施例提供的第二種書版文檔中的字符定位裝置結構圖;圖9為本發明實施例提供的書版文檔的標引裝置結構圖。
具體實施例方式針對現有技術中書版大樣文件與小樣文件間無法進行交互,無法實現標引和標註 功能,本發明實施例提供兩種書版文檔中的字符定位方法,通過在書版的大樣文件中記錄 後端輸出時的每個字符的位置信息以及該字符在書版小樣文件中的位置信息,實現了大小 樣間的關聯。本發明實施例提供的第一種書版文檔中的字符定位方法,根據在大樣文件件預覽 視圖上選中的字符的位置信息,從大樣文件中獲得該字符在小樣文件中的位置信息,從小 樣文件中定位出該字符。採用這種方法,可以實現書版大樣文件與小樣文件的交互。本發明實施例提供的第二種書版文檔中的字符定位方法,通過確定在大樣文件的 預覽視圖上被選中的字符塊的首字符和尾字符在大樣文件預覽視圖上的位置信息,從大樣 文件中獲得首字符和尾字符在小樣文件中的位置信息,從小樣文件中定位出該字符塊。其中,還可以預先對小樣文件進行結構化處理形成小樣文件的邏輯化結構樹,小樣文件的邏 輯樹結構中記錄了每一個字符、每一個字符在小樣文件中的位置信息以及每一個字符對應 的格式信息,這樣就可以從小樣文件的邏輯樹結構中獲得字符塊以及格式信息,並將字符 塊及格式信息組合進行標引或標註。採用這種方法,能夠實現書版大樣文件與小樣文件的 交互,並且能夠對該字符塊進行標引或標註等操作。上述兩種方法可以分別單獨使用,也可以結合使用。結合使用,可以實現在大樣文 件的預覽視圖上選定的是單一字符或者字符塊均能夠從小樣文件中定位出該字符或者字 符塊,實現大樣文件與小樣文件的交互,實現對書版文檔的標引和標註功能。如圖3所示,為本發明實施例一提供的書版文檔中的字符定位方法,包括S301 在對書版小樣文件二掃生成大樣文件過程中,在大樣文件中記錄輸出時各 個字符、各個字符輸出時的位置信息以及每個字符在書版小樣文件中的位置信息;例如,小樣文件「[JZ] [HT5SS]這是一段文本」中「段」這個字符,通過二掃過程生 成的用於輸出的大樣文件的命令和參數是「文字200 300段」,其中,需要在二掃生成大樣 文件的過程中,在大樣文件中增加該字符在小樣文件中的位置信息,實現大樣文件和小樣 文件之間的關聯。假設「 [JZ] [HT5SS]這是一段文本」是在小樣的最開頭,「段」這個字符是 「 [JZ] [HT5SS]這是一段文本」的第15個字符,因此在「段」在小樣文件中的偏移位置為15, 小樣文件經過二掃過程生成的大樣文件即為「文字200 300段15」,這樣就實現了在大樣文 件中增加了小樣文件內容的偏移位置,但這個信息的增加在實際的大樣的顯示輸出時不起 作用,但通過這種大樣文件中記錄小樣信息的技術,就實現了大小樣的交互;其中,各個字符輸出時的位置信息是指各個字符輸出時的位置坐標信息,或者用 各個字符輸出時的具體的行數和列數來表示;每個字符在書版小樣文件中的位置信息可以指每個字符在書版小樣中的偏移位 置,或者每個字符在書版小樣中的具體段落以及在該段落中的偏移位置;當然每個字符在 書版小樣文件中的位置信息還可以用具體的行數和列數來表示;S302 根據大樣文件記錄的字符以及字符的位置信息獲得大樣文件的預覽視圖;S303 在大樣文件的預覽視圖上選中字符;S304 確定該字符在預覽視圖上的位置信息;其中,該字符在預覽視圖上的位置信息可以具體為坐標信息,或者為具體的行數 及列數;S305:根據該字符的位置信息,從大樣文件中獲得該字符在小樣文件中的位置信 息;其中,該字符在小樣文件中的位置信息,可以指每個字符在書版小樣中的偏移位 置,或者每個字符在書版小樣中的具體段落以及在該段落中的偏移位置;當然每個字符在 書版小樣文件中的位置信息還可以用具體的行數及列數來表示;S306:根據該字符在小樣文件中的位置信息,在小樣文件中定位出該字符,實現大 樣文件與小樣文件的交互;通過定位出該字符,我們可以根據其對應的上下文對該字符進行修改或者標註, 可以根據不同的應用需求,進行處理;其中,上述步驟中,S301以及S302為初始時生成大樣文件的工作,以後每一次在小樣文件中定位字符時,只需執行步驟S303 S306。如圖4所示,為本發明實施例二提供的書版文檔中的字符定位方法,如圖4所示, 包括S401 在對書版小樣文件二掃生成大樣文件過程中,在大樣文件中記錄後端輸出 時的各個字符、各個字符的位置信息以及每個字符在書版小樣文件中的位置信息;S402 根據大樣文件記錄的字符以及字符的位置信息獲得大樣的預覽視圖;步驟S401以及S402是初始時小樣文件生成大樣文件的工作,以後每一次在小樣 文件中定位字符塊時,可以不必執行;S403 在大樣預覽視圖上選中字符塊;S404 確定被選中字符塊的首字符和尾字符;S405:分別確定首字符和尾字符在預覽視圖上的首字符位置信息以及尾字符位置 fn息;S406:根據首字符位置信息和尾字符位置信息從大樣文件中分別獲得首字符、尾 字符在小樣文件中的位置信息;S407:根據首字符在小樣文件中的位置信息以及尾字符在小樣文件中的位置信 息,從小樣文件中定位出字符塊;其中,可以對定位出的字符塊進行標引以及標註,或者根據不同的應用需求進行 處理;其中,經過上述步驟得到的字符塊中可能包含書版小樣註解,可以剔除掉書版小 樣註解,形成純文本內容;進一步,可以通過預先對書版小樣文件進行結構化加工,形成小樣文件的邏輯樹 結構,其中邏輯樹結構中包含書籍具體內容(即大樣預覽視圖上的字符)的每一個字符、每 一個字符在小樣文件中的位置信息以及每一個字符對應的格式信息,其中邏輯樹結構中按 段落(Para)進行組織,每個段落由一個個片段(Range)組成,每個片段包含書籍的具體文 本內容以及該具體文本內容的完整格式信息(style)以及對應在小樣文件中的位置信息, 該位置信息可以具體為在書版小樣中的偏移位置(Pos),如圖5所示,為書版小樣的邏輯樹 結構示意圖;則在上述步驟S407中,可以根據首字符在小樣文件中的位置信息以及尾字符在 小樣文件中的位置信息,從小樣文件的邏輯樹結構中可獲得字符塊以及該字符塊對應的格 式信息,即註解;通過對獲得的字符塊以及對應的格式信息組合,可獲得完整的小樣片段,進行標 引或標註;例如小樣文件中一段註解內容「 [JZ]這是一段文字」([JZ]是居中註解,表示居 中排一段文字),在小樣文件中的偏移位置範圍是{11,20},則在邏輯樹結構中小樣文件的 這個片段表示為[段i [片斷j 這是一段文字]],其中,i,j分別表示 段落和片段的編號;通過在大樣文件預覽視圖中選中「一段文字」,獲得對應的在小樣文件中的偏移位 置範圍是{17,20},在小樣文件的邏輯樹結構中獲得小樣文件中的字符塊「一段文字」以及 對應的格式信息 ,根據 對應的註解[JZ]獲得字符塊以及其對應的註解,即「 [JZ] —段文字」,其中,還可以剔除掉註解,得到文本「一段文字」;其中,可對從小樣文件的邏輯樹結構中獲得的字符塊以及其註解進行修改以及填 補或者標弓丨,可以根據不同的應用需求進行處理。上述兩種方法可以結合使用,可以保證在大樣文件的預覽視圖上不論選中的是單 一字符還是多字符的字符塊,均能夠從小樣文件中定位出該字符或字符塊,只需在實施例 一的步驟S302之後,當確定在大樣文件中選中的是單一字符時即執行步驟S304 S306,當 確定在大樣文件中選定的是字符塊時,執行步驟S404 S407。如圖6所示,為本發明實施例提供的書版文檔中的字符定位方法的具體示意圖, 下面結合圖6,說明本發明實施例提供的書版文檔中的字符定位方法。1、通過在大樣文件的預覽視圖上選中字符塊,如圖6中的A為大樣文件的預覽視 圖,在其中選中字符塊;2、確定選中字符塊的首字符和尾字符,並確定首字符和尾字符在預覽視圖的位置 信息,如圖6中的B所示,確定出首字符位置信息為Ptl(Xl,Yl)尾字符位置信息Pt2(X2, Y2);3、根據首字符、尾字符在預覽視圖的位置信息,從大樣文件中獲得首字符、尾字符 在小樣文件中的位置信息;如圖6中的C所示,為大樣文件中具體的一個字符對應的輸出命令及參數,其中 《TEXT》表示輸出文字命令,「X」表示要輸出的字符為X,P0SX、P0Sy表示字符χ的坐標位置, Pos表示字符χ在小樣文件中的偏移位置;從大樣文件中,可以找出Ptl(Xl,Yl)、Pt2(X2,Y2)分別對應的小樣文件中的偏移 位置Pos,即圖6中的D ;4、根據首字符以及尾字符在小樣文件中的位置信息,從小樣文件中獲得字符塊;其中,可以通過預先對書版小樣文件進行結構化加工,形成小樣文件的邏輯樹結 構,其中邏輯樹結構中包含書籍具體內容(即大樣預覽視圖上的字符)的每一個字符、每一 個字符在小樣文件中的位置信息以及每一個字符對應的格式信息;這樣可以根據首字符以及尾字符在小樣文件中的位置信息,從小樣文件的邏輯樹 結構中獲得字符塊以及字符塊的格式信息,進行組合,並進行標引或標註。其中,獲得字符塊以及字符塊的格式信息後,可以根據不同的應用需求,通過處 理,得到文字、圖片、小樣片段等信息。本發明實施例提供一種書版文檔中的字符定位裝置,如圖7所示,包括第一確定單元71,用於確定在大樣文件的預覽視圖上被選中的字符在該預覽視圖 上的第一位置信息;第二位置信息獲得單元72,用於根據該第一位置信息,從大樣文件中獲得該字符 在小樣文件中的第二位置信息,該大樣文件中對應記錄了每一個字符的第一位置信息和第 二位置信息;定位單元73,用於根據該第二位置信息,在小樣文件中定位出該字符。進一步,還包括第二確定單元74,用於確定被選中的是單一字符。進一步,第二確定單元74還用於確定被選中的是多個字符組成的字符塊;以及第一確定單元71,還用於確定大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符, 並分別確定該首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置信 息;第二位置信息獲得單元72,還用於根據首字符第一位置信息和尾字符第一位置信 息,從大樣文件中獲得該首字符在小樣文件中的首字符第二位置信息,以及尾字符在小樣 文件中的尾字符第二位置信息,該大樣文件中對應記錄了每一個字符的第一位置信息和第 二位置信息;定位單元73,還用於根據該首字符第二位置信息和尾字符第二位置信息,在小樣 文件中定位出該字符塊。本發明實施例還提供第二種書版文檔中的字符定位裝置,如圖8所示,包括確定單元81,用於確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾 字符,分別確定該首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置 fn息;第二位置信息獲得單元82,用於根據首字符第一位置信息和尾字符第一位置信 息,從大樣文件中獲得該首字符在小樣文件中的首字符第二位置信息,以及尾字符在小樣 文件中的尾字符第二位置信息,該大樣文件中對應記錄了每一個字符的第一位置信息和第 二位置信息;定位單元83,用於根據該首字符第二位置信息和尾字符第二位置信息,在小樣文 件中定位出該字符塊。本發明實施例還提供一種書版文檔的標引裝置,如圖9所示,包括確定單元91,用於確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾 字符,分別確定該首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置 fn息;第一位置信息獲得單元92,用於根據首字符第一位置信息和尾字符第一位置信 息,從大樣文件中獲得該首字符在小樣文件中的首字符第二位置信息,以及尾字符在小樣 文件中的尾字符第二位置信息,該大樣文件中對應記錄了每一個字符的第一位置信息和第 二位置信息;字符塊及格式獲得單元93,用於根據該首字符第二位置信息和尾字符第二位置信 息,在小樣文件的邏輯樹結構中獲得該字符塊以及該字符塊的格式信息,其中小樣文件的 邏輯樹結構中對應記錄了每一個字符、每一個字符的第二位置信息以及對應的格式信息;標引單元94,將獲得的該字符塊以及該字符塊的格式信息組合進行標引。顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精 神和範圍。這樣,倘若本發明的這些修改和變型屬於本發明權利要求及其等同技術的範圍 之內,則本發明也意圖包含這些改動和變型在內。
權利要求
1.一種書版文檔中的字符定位方法,其特徵在於,包括確定在大樣文件的預覽視圖上被選中的字符在所述預覽視圖上的第一位置信息; 根據所述第一位置信息,從大樣文件中獲得該字符在小樣文件中的第二位置信息,所 述大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息; 根據所述第二位置信息,在小樣文件中定位出所述字符。
2.如權利要求1所述的方法,其特徵在於,所述確定在大樣文件的預覽視圖上被選中 的字符在所述預覽視圖上的第一位置信息之前,確認被選中的是單一字符。
3.如權利要求2所述的方法,其特徵在於,當確認被選中的是多個字符組成的字符塊 時,所述方法還包括確定大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符; 分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位 直fe息;根據首字符第一位置信息和尾字符第一位置信息,從大樣文件中獲得所述首字符在小 樣文件中的首字符第二位置信息,以及尾字符在小樣文件中的尾字符第二位置信息,所述 大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;根據所述首字符第二位置信息和尾字符第二位置信息,在小樣文件中定位出所述字符塊。
4.如權利要求1至3中任一權利要求所述的方法,其特徵在於,所述第一位置信息為坐 標信息。
5.一種書版文檔中的字符定位方法,其特徵在於,包括確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符; 分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位 直fe息;根據首字符第一位置信息和尾字符第一位置信息,從大樣文件中獲得所述首字符在小 樣文件中的首字符第二位置信息,以及尾字符在小樣文件中的尾字符第二位置信息,所述 大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;根據所述首字符第二位置信息和尾字符第二位置信息,在小樣文件中定位出所述字符塊。
6.一種書版文檔中的字符定位裝置,其特徵在於,包括第一確定單元,用於確定在大樣文件的預覽視圖上被選中的字符在所述預覽視圖上的第一位置信息;第二位置信息獲得單元,用於根據所述第一位置信息,從大樣文件中獲得該字符在小 樣文件中的第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信息和第二 位置信息;定位單元,用於根據所述第二位置信息,在小樣文件中定位出所述字符。
7.如權利要求6所述的裝置,其特徵在於,還包括第二確定單元,用於確定被選中的是單一字符。
8.如權利要求7所述的裝置,其特徵在於,所述第二確定單元還用於確定被選中的是 多個字符組成的字符塊;以及所述第一確定單元,還用於確定大樣文件的預覽視圖上被選中的字符塊中的首字符和 尾字符,並分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第 一位置信息;所述第二位置信息獲得單元,還用於根據首字符第一位置信息和尾字符第一位置信 息,從大樣文件中獲得所述首字符在小樣文件中的首字符第二位置信息,以及尾字符在小 樣文件中的尾字符第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信息 和第二位置信息;所述定位單元,還用於根據所述首字符第二位置信息和尾字符第二位置信息,在小樣 文件中定位出所述字符塊。
9.一種書版文檔中的字符定位裝置,其特徵在於,包括確定單元,用於確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符, 分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置信 息;第二位置信息獲得單元,用於根據首字符第一位置信息和尾字符第一位置信息,從大 樣文件中獲得所述首字符在小樣文件中的首字符第二位置信息,以及尾字符在小樣文件中 的尾字符第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信息和第二位 直fe息;定位單元,用於根據所述首字符第二位置信息和尾字符第二位置信息,在小樣文件中 定位出所述字符塊。
10.一種書版文檔的標引方法,其特徵在於,包括確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符,分別確定所述首 字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置信息;根據首字符第一位置信息和尾字符第一位置信息,從大樣文件中獲得所述首字符在小 樣文件中的首字符第二位置信息,以及尾字符在小樣文件中的尾字符第二位置信息,所述 大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;根據所述首字符第二位置信息和尾字符第二位置信息,在小樣文件的邏輯樹結構中獲 得所述字符塊以及所述字符塊的格式信息,其中小樣文件的邏輯樹結構中對應記錄了每一 個字符、每一個字符的第二位置信息以及對應的格式信息;將獲得的所述字符塊以及所述字符塊的格式信息組合進行標引。
11.一種書版文檔的標引裝置,其特徵在於,包括確定單元,用於確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符, 分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置信 息;第一位置信息獲得單元,用於根據首字符第一位置信息和尾字符第一位置信息,從大 樣文件中獲得所述首字符在小樣文件中的首字符第二位置信息,以及尾字符在小樣文件中 的尾字符第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信息和第二位直{曰息;字符塊及格式獲得單元,用於根據所述首字符第二位置信息和尾字符第二位置信息, 在小樣文件的邏輯樹結構中獲得所述字符塊以及所述字符塊的格式信息,其中小樣文件的邏輯樹結構中對應記錄了每一個字符、每一個字符的第二位置信息以及對應的格式信息; 標引單元,將獲得的所述字符塊以及所述字符塊的格式信息組合進行標引。
全文摘要
本發明涉及信息資源加工技術領域,具體涉及一種書版文檔中的字符定位、標引方法和裝置,本發明方法包括確定在大樣文件的預覽視圖上被選中的字符在所述預覽視圖上的第一位置信息;根據所述第一位置信息,從大樣文件中獲得該字符在小樣文件中的第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;根據所述第二位置信息,在小樣文件中定位出所述字符。進一步,還可以通過在大樣預覽視圖上選中字符塊,在小樣文件的邏輯樹結構中獲得字符塊以及對應的格式信息,組合併進行標引。採用本發明的方法,能夠實現書版大樣文件與小樣文件間的交互,可以實現對書本文檔的標引和標註功能。
文檔編號G06F17/24GK102117265SQ20091021751
公開日2011年7月6日 申請日期2009年12月31日 優先權日2009年12月31日
發明者嚴昌華, 繆萍 申請人:北京北大方正電子有限公司, 北大方正集團有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀