基於多分類器融合的筆跡鑑別方法

2023-12-07 03:24:11 4

=l，2,,.,AO(1.5)厶為Q個常用漢字中的任意一個，用如下信息挖掘方法求解所有的々1:第一步，收集常用手寫漢字P份，即P個人每人書寫Q個常用漢字1份；第二步，選出所有編號為j'(j'=1，2，3……Q)的漢字，共P個；第三步，計算檢材筆跡中編號為y的漢字與第二步所提到的p個漢字筆跡特徵匹配距離，共有P個距離；第四步，對第三步得到的每個距離值取對數，並求這P個距離對數的平均值，用此平均值作為"二的估計值^二。在模型(1.5)中，用信息挖掘值^二代替P二，令《=ln《-(1.6)於是有(/",2，…AO(1.7)書寫因子"/的用下式估計《=;2X"、l,2,…iV)(1.8)氣't=i(5)基於多個文依存分類器融合的新分類器將式(1.8)的《作為一對多筆跡鑑別新分類器，對於此分類器，有如下結論此分類器是基於多個文本依存分類器融合而成，它消除了多個文本依存分類器中的字符因子，具有近似文本獨立性。此分類器能大幅提高筆跡分類鑑別準確率。式(1.8)中，當N充分大時，也能得到非常理想的筆跡鑑別準確率，這表明此分類器滿足實戰應用的需求。此分類器也可以作為一對一筆跡鑑別分類器。模型U.3)中，N=l時，便是一對一筆跡鑑別模型。該分類器對於一對一的筆跡鑑別可得到非常高的鑑別準確率。本發明方法提高了面向大樣本筆跡資料庫的一對多筆跡鑑別檢索的準確率，同時也提高一對一筆跡鑑別精度。利用計算機筆跡鑑別進行身份認證，在公共安全，金融，考古等需要確定書寫筆跡作者的領域有廣泛的應用前景。具體實施例方式下面結合具體實施例對本發明作進一步的說明。一種基於多分類器融合的筆跡鑑別方法包括以下步驟(1)以單個字符為圖像單元分別提取檢材筆跡和樣本筆跡的筆跡特徵向量；(2)將檢材筆跡和樣本筆跡中的相同字符進行特徵向量匹配，設檢材筆跡特徵向量為X，樣本筆跡特徵向量為f，則特徵向量匹配距離為(1.1)(3)建立文依存分類器分解模型對常用漢字字符進行統一編號，設檢材筆跡與第z'份樣本筆跡的有M,個相同漢字，其相同漢字對應的統一編號集為(厶^-l,2，…Mj，分類器分解模型為ln《"+^+y厶+、(/",2,…AO(1.4)其中，//為常數，^為書寫因子，^4為字符因子，s.為均值為o的隨機誤差。(4)字符因子挖掘與書寫因子估計針對中文筆跡鑑別的實際應用，可以只考慮常用漢字的筆跡鑑別。對常用漢字字符進行統一編號記為_/=1，2,—3755，即統一編號集合為[/|_/=1,2，一3755}。設檢材與第/份樣本的有M,個相同漢字(可重複)，其相同漢字對應的統一編號集為kl"l,2，…M,j，它是集合{市=1，2,—3755}的子集。將式(1.4)中的常數項;U與字符因子"A合併，則ln《("l，2,…AO(1.5)義是3755個漢字中的任意一個，為滿足厶的任意性，對所有的《(_/=1,2，3755)進行求解。用如下信息挖掘方法求解所有的:第一步，收集常用手寫漢字100份，即100個人，每人書寫3755個常用漢字1份。第二步，選出所有編號為/(y-l，2,…3755)的漢字，共100個，這是IOO相同的字符，由100個人所書寫。第三步，計算檢材筆跡中編號為y'的漢字與第二步所提到的ioo個漢字筆跡特徵匹配距離，共有100個距離。第四步，對第三步得到的每個距離值取對數，並求這100個距離對數的平均值，用此平均值作為y^的估計值^。在式(1.4)中，用信息挖掘值》；代替々^，令《=ln《-A(1.6)於是有-《=+《)*(-l，2，...iV)(1.7)則"/的用下式估計《=ig《(/=l，2,..AO(1.8)(5)以《作為筆跡鑑別分類器進行筆跡鑑別。為了驗證漢字字符結構因素對文本依存特徵匹配距離的影響，以矩特徵為例進行實驗與統計。收集多份不同人書寫的筆跡，經過預處理後提取出3755個常見漢字的歸一化字符圖像進行特徵匹配。若某漢字有n幅字符圖像，計算特徵後兩兩進行特徵匹配，可生成n(n+l)/2個距離值。由於數量n(n+l)/2(〉3000)足夠大，可以用這n(n+l)/2個距離值來精確的估計漢字特徵匹配距離值的概率分布、數學期望、方差等值。通過大量觀查，可以得到字符結構形態的複雜度與匹配距離^-^(X,。的大小成反比關係字符筆劃少、結構簡單，則數學期望￡(司較大；字符筆劃多、結構複雜，則數學期望五(力較小。其中，漢字複雜度可以用筆畫總長度來表示。表1給出了部分漢字捉距離均值表。表1.部分漢字矩特徵匹配距離均值表tableseeoriginaldocumentpage9文本依存分類器輸出的兩因子分解模型驗證為了驗證特徵字內容和書寫人風格兩因子對漢字矩特徵匹配距離的影響，採用統計檢驗中的無交互作用雙因子無重複試驗的方差分析理論，對公式(1.2)中的兩因子模型進行雙因子影響的顯著性檢驗。IO個人，每人各書寫筆跡一份，取其中1個人的筆跡作為檢材筆跡，其他9人的筆跡作為樣本筆跡，提取相同字符進行矩特徵匹配，得到距離值Jy和In《.。取方差分析的模型為formulaseeoriginaldocumentpage10)設因素A5分別為書寫因子和字符因子，si，r=^。通過計算，可得如下表2方差分析表表2.矩特徵匹配距離的雙因子方差分析表tableseeoriginaldocumentpage10檢驗結果由於F。.。5(20，160)=1.52<13.564，屍。.。5(8,160)=1.94<5.207，所以在水平0.05下，認為字符結構因素和書寫風格因素對ln^;的影響都是顯著的。從而驗證了模型(1.2)lnc^+A+~(/=l，2，"-9，_/=l，2,".20)是成立的。模型(1.2)還可用高階相關法、城市街區距離匹配法、方向指數法、簡化的Wigner法等文本依存筆跡鑑別法進行驗證。新分類器輸出的文本獨立性驗證用上述完全相同的書寫筆跡，令與7.2相同，A用數據挖掘方法得到。取方差分析模型為《++A.+s〃.(/=1，2,L9,y=1'2，L20)設因素j,5分別為書寫風格因素和字符結構因素，s=9,r=20。通過計算，可得如下表3新的方差分析表表3.分離字符結構因素後矩特徵匹配距離的雙因素方差分析表方差來源平方和自由度均方F比因素A8.542876(s-1)85=^/^A-l1.067865.2078因素B&1.561E-12(r-1)1917.804E-13fis￡3.805E-13誤差&32儒43(r-l)(s-1)152E一(卜l)(")0.2050綜合41.35031rs-l179由於F0.w(20,160)=1.52>3.805E-13,F0.05(8,160)=1.94<5.207，所以在水平0.05下，認為書寫風格因素對《對的影響是顯著的，字符結構因素對《的影響不顯著，即《是與字符因素無關的量，是文本獨立的。式(1.8)中，《.由《信息融合而得，所以《是文本獨立的。一對多筆跡鑑別檢索準確率實驗驗證樣本筆跡庫隨意選擇樣本筆跡3000，建立樣本筆跡庫。每份樣本約有IOO個漢字字符，其文本內容不限定。檢材筆跡之一隨意選擇檢材筆跡100份，作筆跡鑑別檢索之用，每份樣本約有IOO個漢字字符，其文本內容不限定。對於每一份檢材筆11跡，樣本筆跡庫中有一份對應的筆跡，相對應的兩份筆跡是同一人書寫。採用筆跡鑑別分類器(1.8)，檢材筆跡之一的鑑別準確率見表4。表4檢材之一筆跡鑑別準確率方法1候選準確率5候選準確率20候選準確率矩特徵法92%95%99%為檢驗筆跡鑑別分類器(1.8)的實戰應用能力，對檢材筆跡作適當的改變。檢材筆跡之二隨意選擇檢材筆跡100份，作筆跡鑑別檢索之用，每份樣本約有ioo個漢字字符，其文本內容不限定。對於每一份檢材筆跡，樣本筆跡庫中有一份對應的筆跡，相對應的兩份筆跡是同一人書寫，但相對應的兩份筆跡在書寫速度、書寫工具、書寫環境等有適當的差異，部分檢材筆跡作適度的偽裝。採用筆跡鑑別新的分類器(1.8)，檢材筆跡之二的鑑別準確率見表5。表5檢材之二筆跡鑑別準確率方法1候選準確率5候選準確率20候選準確率矩特徵法70%88%95%若同時採用矩法、高階相關法、城市街區距離匹配法、方向指數法、簡化的Wigner法，採用筆跡檢材之一，筆跡鑑別新的分類器(1.8)得到一對多綜合分類鑑別結果見表6。表6檢材之一筆跡綜合鑑別準確率方法1候選準確率5候選準確率20候選準確率多種方法綜合98%99%100%若同時採用矩法、高階相關法、城市街區距離匹配法、方向指數法、簡化的Wigner法，採用筆跡檢材之二，筆跡鑑別新的分類器(1.8)得到一對多綜合分類鑑別結果見表7。表7檢材之二筆跡綜合鑑別準確率12方法1候選準確率5候選準確率20候選準確率多種方法綜合76%92%98%一對一筆跡鑑別準確率實驗驗證選取樣本筆跡與檢材筆跡對270對，其中IOO對屬同一人書寫的筆跡。170對屬不同人書寫的筆跡，每份筆跡約100個漢字，內容不限定，屬正常書寫筆跡(正常的書寫速度、正常的書寫環境、常用的書寫工具)。採用筆跡鑑別新的分類器(1.8)，一對一筆跡鑑別準確率見表8。表8—對一筆跡鑑別準確率方法第一類錯誤率第二類錯誤率準確率矩特徵法3%3%97%若同時採用矩法、高階相關法、城市街區距離匹配法、方向指數法、簡化的Wigner法，筆跡鑑別新的分類器(1.8)得到一對一筆跡綜合鑑別準確率見表9。表9一對一筆跡綜合鑑別準確率方法第一類錯誤率第二類錯誤率準確率綜合方法1%1%99%以上實驗結果證明筆跡鑑別新分類器(1.8)的筆跡鑑別效果良好。當測試筆跡與樣本筆跡的特徵字越多，綜合多特徵字鑑別的準確率越高。新分類器適用於多種文本依存筆跡鑑別方法，如距離變換方法，方向指數直方圖方法，高階相關方法等。1權利要求1.一種基於多分類器融合的筆跡鑑別方法，其特徵在於包括以下步驟(1)以單個字符為圖像單元分別提取檢材筆跡和樣本筆跡的筆跡特徵向量；(2)將檢材筆跡和樣本筆跡中的相同字符進行特徵向量匹配，設檢材筆跡特徵向量為樣本筆跡特徵向量為則特徵向量匹配距離為(3)建立文依存分類器分解模型分類器按如下模型進行分解lnd＝μ+α+β+ε(1.2)設筆跡鑑別中，檢材筆跡一份，樣本筆跡有N份，樣本筆跡編號為i＝1，2，…N，檢材筆跡與每份樣本筆跡具有M個相同的匹配字符，編號為j＝1，2，…M，用dij表示第i份樣本筆跡中編號為j的字符與檢材筆跡中編號為j的字符進行特徵向量距離匹配的結果，lndij＝μ+αi+βj+εij(i＝1，2，…N，j＝1，2，…M)(1.3)其中，μ為常數，αi是檢材書寫因子與第i號樣本書寫因子的差異效應，βj為檢材筆跡與樣本筆跡中編號為j的字符因子的差異效應，εij為均值為0的隨機誤差；對常用漢字字符進行統一編號，設檢材筆跡與第i份樣本筆跡的有Mi個相同漢字，其相同漢字對應的統一編號集為{jk|k＝1，2，…M}，分類器分解模型為(4)字符因子挖掘與書寫因子估計將式(1.4)中的常數項μ與字符因子βjk合併，則jk為Q個常用漢字中的任意一個，用如下信息挖掘方法求解所有的第一步，收集常用手寫漢字P份，即P個人每人書寫Q個常用漢字1份；第二步，選出所有編號為j′(j′＝1，2，3……Q)的漢字，共P個；第三步，計算檢材筆跡中編號為j的漢字與第二步所提到的P個漢字筆跡特徵匹配距離，共有P個距離；第四步，對第三步得到的每個距離值取對數，並求這P個距離對數的平均值，用此平均值作為的估計值在模型(1.5)中，用信息挖掘值代替令於是有書寫因子αi的用下式估計(5)以作為筆跡鑑別分類器進行筆跡鑑別。全文摘要本發明公開了一種基於多分類器融合的筆跡鑑別方法。首先，將影響筆跡鑑別分類輸出的因子分為兩類書寫因子與字符因子。建立分類輸出的兩因子分解模型，採用數據挖掘方法，得到兩因子分解模型中的常用漢字的字符因子。然後，對兩因子分解模型中的書寫因子給出了估計方法。最後，把書寫因子作為最終的筆跡鑑別分類器進行筆跡鑑別。本發明方法解決了文本依存筆跡鑑別的理論方法無法滿足實際應用需求的問題。面向大型樣本筆跡庫時，本鑑別方法能得到十分理想的一對多筆跡鑑別分類結果。作一對一筆跡鑑別，其鑑別準確率高達98％。文檔編號G06K9/62GK101499133SQ200910061099公開日2009年8月5日申請日期2009年3月12日優先權日2009年3月12日發明者鳳袁,偉鄧,鄢煜塵,陳慶虎申請人:武漢大學

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於多分類器融合的筆跡鑑別方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法