新四季網

一種圖籤識別方法

2023-05-19 17:36:41

專利名稱:一種圖籤識別方法
技術領域:
本發明涉及一種圖籤識別方法,尤其涉及一種基於單元格拓
樸關係的CAD設計圖紙上的圖籤識別方法。
背景技術:
隨著計算機輔助設計(CAD)的普及,電子圖檔在設計企業 的生產和管理中發揮的作用也越來越大,受到重視的程度日益提高。許多業主 在接收設計圖紙的時候,往往還要求設計企業提供與之對應的電子圖檔。電子 圖檔在再利用方面有著紙質圖紙無法比擬的優勢。如果設計企業對多年來積累 的電子圖檔能有效管理,能在大量的歷史圖檔中找到和當前工程設計有關的圖 檔並有效利用,就能夠大大節省重新設計的時間,帶來可觀的效益。但是,海 量的電子圖檔,也帶來了管理上的難題。為了把這些圖檔進行有效的分類,必 須提取圖檔中的工程、專業、設計者等有效信息。
圖檔中的關鍵信息,往往存在於"圖籤"(Title Box)中。如圖l所示,是 圖紙中的圖籤的示意圖。圖籤10類似於一個表格,記錄了設計企業的信息,設 計者的信息,以及工程編號,圖名等具體的工程信息,對圖檔的用途有說明作 用。幾乎所有正式列印交付的圖檔都有圖籤。因此,圖籤信息對於檢索圖檔有 著至關重要的作用。目前提取圖籤信息是一個重複和繁瑣的手工錄入過程,面 對海量的圖檔,工作量非常大,而且容易出現人為的錯誤。
自動提取圖籤信息的研究已經有一些成果。這些研究都集中於通過定製模 板來實現圖籤信息的讀取。因為同一設計單位的圖籤都具有相似的布局,因此 定製模板的方式能解決相當部分圖籤的讀取問題。然而,迄今這些識別方法都 是針對相對固定的圖籤格式,主要藉助圖籤中的特徵文字進行識別,無法解決 在實際應用中出現的圖籤變化問題。這些問題包括
*圖籤布局的變化。圖籤雖然有大致的布局,但往往沒有嚴格統一的規範;同 時由於CAD繪圖方式的多樣性,設計人員也容易隨心所欲的對圖籤進行一些 修改。比如,因為文字太多,存放文字的單元格被拉長、加寬或移位。這類
布局的變化,會導致識別失敗。 *相似的圖籤引起的重複識別問題。許多圖籤看似相同,實際上存在變化,特 別是信息的提示文字-關鍵字發生變化,使得一個模板無法同時適應多種圖 籤。如果針對每一種變化制定一個模板,又容易出現重複識別的問題,即某 些圖,能同時適用於多個模板。特別是圖籤格式比較多的時候,不同的模板 之間很難完全區分開,這種情況非常容易發生。
*沒有關鍵字指引的單元格的識別與定位。有些單元格沒有明顯的關鍵字在附 近,但是又必須準確識別。 發明內容本發明的目的在於克服現有技術的不足,提出一種圖籤識別 方法,通過對圖籤共性的提取,制定一套匹配的規則,對圖籤中的單元格進行 準確定位,讀取單元格中的文字,提取出圖籤信息。
本發明公開的 一種圖籤識別方法,用電腦程式自動讀取電子圖檔中的圖 籤信息,包括如下步驟
第一步,讀取所述電子圖檔中的文字和直線,再歸併所述文字和直線,然 後排序;
第二步,取出下一個模板;
第三步,根據所述模板的設定,尋找所述電子圖檔中的一個關鍵字及其關
鍵字單元格;再根據所述模板設定的圖籤搜索範圍和不同的關鍵字單元格之間 的相互關係,尋找所述電子圖檔中的其它關鍵字及其關鍵字單元格;如果成功 完成則表示匹配成功,進入下一步,否則回到第二步;
第四步,根據所述模板定義的關鍵字單元格與其它值單元格、混合單元格
和組單元格之間的拓樸關係,尋找所述值單元格、混合單元格和組單元格並提 取其中的信息;
第五步,如果所述電腦程式中還有其他模板,則回到第二步,否則合併 處理每一個模板的識別結果,消除其中重複的部分。
所述第一步中歸併所述文字和直線的方法包括提取具有不同CAD圖元類
型的文字和直線的位置和內容參數,把所有不同類型的文字和直線分別歸併為 同一類型的文字和直線;把方向相同、首尾相連或中間部分重複的直線合併為
一條單一的直線;把誤差範圍內略微傾斜的直線調整成為角度為0。或90°的 直線。
所述第 一 步中排序的方法是^^所有的直線和文字分別按照坐標位置排序。 所述第三步中根據關鍵字尋找關鍵字單元格的方法包括,根據關鍵字所在 的位置任意確定一點P,再按上,下,左,右方向,根據以下規則找到所有直線 L:從所述點P引垂線到 一直線,垂足落在所述直線上即認為獲得一個所述直線L; 再輪流選取四個方向上的直線,每個方向上均根據距離由近到遠排序,如果是 水平線,尋找垂直方向上相交的兩條直線;如果是垂直線,尋找水平方向上相 交的兩條直線,直至得到包圍該點、且兩兩相交的兩條水平直線和兩條垂直直 線,即為所述關鍵字單元格的四條邊。
所述第三步中根據關鍵字單元格尋找圖籤內其它單元格的方法,包括反覆 根據已知單元格在某個方向尋找與其相鄰的單元格,尋找左邊相鄰的單元格的 方法包括如下步驟尋找相交於所述已知單元格矩形的左邊線的所有直線並分 別求出交點,所述交點把所述單元格的左邊線分隔成若干個線段A,找到分別相 交於每個所述線段A,的上、下端點的兩條水平直線B和C,再尋找位於所述線 段A的左邊、並且平行於所述線革殳A、還相交於所述水平直線B和C、同時距離 A最近的直線D,所述線段A、直線B和C、以及直線D組成的單元格就是左邊 相鄰的單元才各。
所述第四步中尋找所述值單元格信息的方法,包括如下步驟根據所述關 鍵字單元格,利用所述模板中規定的所述拓樸關係,找到對應的值單元格;或 者在所述全部單元格中,尋找與所述模板定義的所述值單元格的位置最接近的 一個單元格。
所述第四步中尋找所述混合單元格信息的方法,包括如下步驟先搜索包 含混合單元格關鍵字的單元格,然後在單元格的內容中去除關鍵字部分。
所述第三步中尋找所述組單元格信息的方法,包括如下步驟首先搜索與
其配對的關鍵字單元格,然後反覆在規定的方向上搜索與其寬度相同的單元格 本發明通過靈活的規則定義,改進了模板匹配的方法,實現對表格中不同 類型的單元格的準確定位,從而避免了圖籤格式變化對識別帶來的影響。 一套 規則能適應布局相近的多種圖籤,從而解決重複識別的問題。本發明通過對圖 籤共性的提取,根據各類特徵,特別是格子之間的拓樸關係,對圖籤中的單元 格,包括沒有關鍵字指引的單元格,都能進行識別與定位,從而提取和分析圖 檔中的圖籤內容。


圖1是圖紙中的圖籤示意圖。
圖2是圖籤中不同類型的單元格示意圖。
圖3是和關鍵字單元格有拓樸關係、但不相鄰的單元格示意圖。
圖4是多個單元格同時與一個單元格相鄰的示意圖。
圖5是本發明的單元格識別過程的總流程圖。
圖6是本發明根據一點尋找包含這點的單元格搜索過程流程圖。
圖7是本發明根據一個單元格,在某個方向尋找與其相鄰的單元格流程圖。
具體實施方式
下面結合附圖和具體實施方式
對本發明做進一步詳細說明。
本發明是一個計算機的自動處理過程,用於分析和提取圖檔中的圖籤內容。 該過程通過對圖籤共性的提取,制定一套匹配的規則,其核心是根據各類特徵, 特別是格子之間的拓樸關係,對圖籤中的單元格(即表格中的一個不能再細分 的格子)進行準確定位。找到需要的單元格之後,讀取單元格中的文字,提取 成為所需要的圖籤信息。
該過程需要計算機,所述計算機具有一個中央處理單元,該中央處理單元 在操作上連接到一個存儲設備, 一個控制器, 一個輸入設備和一個輸出設備。 使用存儲設備來存儲處理過程中用到的直線和文字,以及適用於不同類型的電 子圖檔的匹配規則。中央處理單元對電子圖檔進行預處理之後,從存儲器獲得
可用的匹配規則,逐一嘗試,然後對匹配結果進行篩選和處理,得到最終的才是 取結果。
本發明通過靈活的規則定義,改進了模板匹配的方法,實現對表格中不同 類型的單元格的準確定位,從而避免了圖籤格式變化對識別帶來的影響。 一套 規則能適應布局相近的多種圖籤,從而解決重複識別的問題。
圖籤表格中的單元格分為四類,如圖2所示是圖籤中不同類型的單元^f各示 意圖,具體定義如下
(1) 關鍵字單元格20 格子內只有特徵提示文字或圖案,沒有其它內容
(2) 值單元格30 格子內只有信息內容,沒有提示文字。 值單元格又可分為兩類
U)存在與其配對的關鍵字單元格
(b)不存在與其配對的關鍵字單元格,如圖3所示。
(3) 混合單元格40
格子內既有特徵文字,也有信息內容。
(4) 組單元一各50
即明細單元^", 一個特徵-提示文字對應多個單元^",如圖4所示。 圖籤表格識別所依據的規則包括
(1) 以某個關鍵字單元格為基點,定義圖籤搜索的大致範圍。
(2) 定義關鍵字單元格,以及多個關鍵字單元格之間的拓樸關係。根據這種拓 樸關係可以判斷匹配是否成功。如果圖籤中存在獨一無二的特徵關鍵字, 則可以只定義一個關鍵字單元格。同 一個域值的關鍵字可以提供多個備 選,如圖號、圖紙編號、Drawing No.可以視為同一個關鍵字。
(3) 對於值單元格,可以選擇是否定義與之配對的關鍵字,以及與對應的關鍵 字單元格之間的拓樸關係。
(4) 對於混合單元格,定義其中的關鍵字
(5) 對於組單元格,定義關鍵字和搜索方向。
如圖5所示是本發明的單元格識別過程的總流程圖,基於單元格拓樸關係 的識別過程總結如下
(1) 讀取電子圖檔中的文字和直線的內容和準確位置。
(2) 預處理
a) 把所有不同類型的文字和直線分別歸併為同一類型的文字和直線。CAD中 關於直線和文字的圖元類型很多。如直線就有簡單直線、多義線、射線 等。需要把複雜的圖元類型分解為最簡單的圖元,降低後續處理的難度。
b) 把方向相同、首尾相連或中間部分重複的直線合併為一條單一的直線。
c) 把誤差範圍內略微傾斜的直線調整成為角度為0°或90°的直線。以下 判斷直線交點的時候,互相垂直的直線的計算量很小,可以顯著提高速 度。
d) 把所有的直線和文字按照坐標位置排序。
(3) 取出下一個模板。
(4) 在電子圖檔中找到圖籤的任一關鍵字,確定包圍這個關鍵字的單元格。根 據一點,尋找包含這點的單元格的算法見過程A。
(5) 以這個關鍵字單元格為中心,根據模板指引的大致範圍,確定其周圍的所 有單元格。以第一個獲得定位的關鍵字單元格為起點,分別向上、下、左、 右四個方向尋找相鄰的單元格,直至無法再找到新的單元格,或者搜索範
圍超出模板定義的範圍。記錄這些單元格相互之間的拓樸關係。
其中反覆用到一個算法根據一個單元格,在某個方向尋找與其相鄰的單元格。 見過程B。
(6) 根據模板中不同關鍵字單元格之間的拓樸關係,可以確定當前圖籤是否匹 酉己。如果只定義了一個關鍵字單元格,而該單元格已經找到,則直接認為 匹配成功。如果不是只定義了一個關鍵字單元格,模板定義的關鍵字之間 的相對位置關係,和實際圖中的一致,則i^為匹配成功。
(7) 搜索當前模板定義的範圍內的其它值單元格、混合單元格、組單元格。
a) 值單元格的搜索方法
如果沒有定義配對的關鍵字單元格,則在所有的單元格中,尋找與模板定 義的單元格最接近的一個;
如果定義了配對的關鍵字單元格,則採用步驟(4),找到這個關鍵字單元 格,然後根據拓樸關係,找到對應的值單元格。這種方法特別適用於單元格被 拉伸變形的情況。在圖籤中的某些單元格被拉伸變形的情況下,真正的值單元 格的位置往往與模板中的有所不同,但是如果先找到配對的關鍵字單元格,再 按照拓樸關係來找,則可以準確定位。特別的,如果這個拓樸關係是跨越了若 幹單元格,而不是直接相鄰的,則可以解決"沒有關鍵字指引的單元格的識別 與定位,,問題。如圖2中的空白單元格,可以描述為與"批准"關鍵字單元 格右相鄰的第二列單元格。拓樸關係描述了相互有關聯的兩個單元格之間的位 置關係,有效避免了單元格形狀變化帶來的幹擾。實際情況中,和一個單元格 的某個方向相鄰的單元格可能不止一個(圖3),但這可以用方向+序號來定量 描述。
b) 混合單元格的搜索方法
搜索包含混合單元格關鍵字的單元格,然後在單元格的內容中去除關鍵字部分, 剩下的就是需要識別的信息。
c) 組單元格的搜索方法
首先搜索與其配對的關鍵字單元格,然後應用步驟(4)採用的方法,反覆在規 定的方向上搜索與其寬度相同的單元格。所有搜索到的都是合適的組單元格。
(8) 綜合所有的識別結果,合併識別區域重複的信息
過程A:根據一點,尋找包含這點的單元格,搜索過程流程圖如圖6所示。
(1) 按上,下,左,右方向,根據以下規則找到所有直線從該點引垂線到該 直線,垂足落在直線上
(2) 輪流選取四個方向上的直線(每個方向上均根據距離由近到遠排序),才艮據
以下規則輪流判斷如果是水平線,必須保證該線和垂直方向上的兩條直 線相交;如果是垂直線,必須保證該線和水平方向上的兩條直線相交
(3) 最後得到包圍該點、且兩兩相交的兩條水平直線和兩條垂直直線,組成包 圍該點的最小單元格
過程B:根據一個單元格,在某個方向(以向左為例)尋找與其相鄰的單元 格,其搜索過程的流程圖如圖7所示。
(1) 尋找和當前單元格矩形的左邊線相交的所有直線,求出交點
(2) 根據交點把單元格的左邊線分隔成若干線段
(3) 對其中的每個線段A,找到分別和這個線段的上、下端點相交的兩條水平 直線B和C
(4) 尋找一條在A的左邊、和A平行、和B、 C均相交、距離A最近的直線D。 A、 B、 C、 D組成的單元格就是需要尋找的其中一個單元格。
權利要求
1. 一種圖籤識別方法,用電腦程式自動讀取電子圖檔中的圖籤信息,其特徵在於,包括如下步驟第一步,讀取所述電子圖檔中的文字和直線,再歸併所述文字和直線,然後排序;第二步,取出下一個模板;第三步,根據所述模板的設定,尋找所述電子圖檔中的一個關鍵字及其關鍵字單元格;再根據所述模板設定的圖籤搜索範圍和不同的關鍵字單元格之間的相互關係,尋找所述電子圖檔中的其它關鍵字及其關鍵字單元格;如果成功完成則表示匹配成功,進入下一步,否則回到第二步;第四步,根據所述模板定義的關鍵字單元格與其它值單元格、混合單元格和組單元格之間的拓撲關係,尋找所述值單元格、混合單元格和組單元格並提取其中的信息;第五步,如果所述電腦程式中還有其他模板,則回到第二步,否則合併處理每一個模板的識別結果,消除其中重複的部分。
2. 根據權利要求1所述的圖籤識別方法,其特徵在於,所述第一步中歸併 所述文字和直線的方法包括換j又具有不同CAD圖元類型的文字和直線的位置 和內容參數,把所有不同類型的文字和直線分別歸併為同一類型的文字和直線; 把方向相同、首尾相連或中間部分重複的直線合併為一條單一的直線;把誤差 範圍內略微傾斜的直線調整成為角度為0°或90°的直線。
3. 根據權利要求2所述的圖籤識別方法,其特徵在於,所述第一步中排序 的方法是把所有的直線和文字分別按照坐標位置排序。
4. 根據權利要求1所述的圖籤識別方法,其特徵在於,所述第三步中根據 關鍵字尋找關鍵字單元格的方法包括,根據關鍵字所在的位置任意確定一點P, 再按上,下,左,右方向,根據以下規則找到所有直線L:從所述點P引垂線到 一直線,垂足落在所述直線上即認為獲得一個所述直線L;再輪流選取四個方向 上的直線,每個方向上均根據距離由近到遠排序,如果是水平線,尋找垂直方向上相交的兩條直線;如果是垂直線,尋找水平方向上相交的兩條直線,直至 得到包圍該點、且兩兩相交的兩條水平直線和兩條垂直直線,即為所述關鍵字 單元格的四條邊。
5. 根據權利要求1所述的圖籤識別方法,其特徵在於,所述第三步中根據 關鍵字單元格尋找圖籤內其它單元格的方法,包括反覆根據已知單元格在某個 方向尋找與其相鄰的單元格,尋找左邊相鄰的單元格的方法包括如下步驟尋找相交於所述已知單元格矩形的左邊線的所有直線並分別求出交點,所述交點 把所述單元格的左邊線分隔成若干個線段A,找到分別相交於每個所述線段A, 的上、下端點的兩條水平直線B和C,再尋找位於所述線段A的左邊、並且平行 於所述線段A、還相交於所述水平直線B和C、同時距離A最近的直線D,所述 線—段A、直線B和C、以及直線D組成的單元格就是左邊相鄰的單元格。
6. 根據權利要求1所述的圖籤識別方法,其特徵在於,所述第四步中尋找 所述值單元格信息的方法,包括如下步驟根據所述關鍵字單元格,利用所述 才莫板中規定的所述拓樸關係,找到對應的值單元格;或者在所述全部單元格中, 尋找與所述模板定義的所述值單元格的位置最接近的一個單元格。
7. 根據權利要求1所述的圖籤識別方法,其特徵在於,所述第四步中尋找 所述混合單元格信息的方法,包括如下步驟先搜索包含混合單元格關鍵字的 單元格,然後在單元格的內容中去除關鍵字部分。
8. 根據權利要求1所述的圖籤識別方法,其特徵在於,所述第三步中尋找 所述組單元格信息的方法,包括如下步驟首先搜索與其配對的關鍵字單元格, 然後反覆在規定的方向上搜索與其寬度相同的單元格。
全文摘要
本發明涉及一種圖籤的識別方法,包括讀取電子圖檔中的文字和直線,再歸併所述文字和直線,然後排序;取出下一個模板;根據所述模板設定的關鍵字,找出所述電子圖檔中的關鍵字和關鍵字單元格;再根據所述關鍵字單元格和所述模板設定的圖籤搜索範圍,尋找圖籤內的全部單元格;根據所述模板定義的關鍵字單元格與所述全部值單元格、混合單元格和組單元格之間的拓撲關係匹配所述全部單元格,讀取值單元格、混合單元格和組單元格信息;如此匹配所有模板,合併處理每一個模板的識別結果,消除其中重複的部分。本發明實現對圖籤中不同類型的單元格的準確定位,避免了圖籤格式變化對識別帶來的影響。
文檔編號G06K9/62GK101388079SQ20081021679
公開日2009年3月18日 申請日期2008年10月17日 優先權日2008年10月17日
發明者黃天祥 申請人:緯衡浩建科技(深圳)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀