新四季網

一種基於層次聚類的可疑納稅人檢測方法

2023-08-10 08:18:36 1

一種基於層次聚類的可疑納稅人檢測方法
【專利摘要】本發明公開了一種基於層次聚類的可疑納稅人檢測方法,包括以下步驟:1)利用層次聚類算法根據納稅人之間的利益關係進行聚類,根據納稅人之間的關聯關係程度將其分割成簇,每個簇形成利益關聯社團;2)通過分析標註的納稅人樣本數據,根據度分布、聚集係數等複雜網絡指標提煉正常與異常納稅人的差異特徵;3)計算識別出的利益關聯社團和正常與異常納稅人特徵計算相似度,進而檢測可疑的納稅人。
【專利說明】一種基於層次聚類的可疑納稅人檢測方法

【技術領域】
[0001] 本發明屬於計算機科學與技術中的數據挖掘子領域,涉及一種可疑納稅人的檢測 方法,具體涉及一種基於層次聚類的可疑納稅人檢測方法。

【背景技術】
[0002] 在真實環境的稅務系統中,不同地區的稅務系統之間的信息不對稱,信息封閉沒 有統一,難以真實統計各個地區的稅務數據,大量稅務數據缺乏分析利用,大量偷逃騙稅行 為難以發現,導致稅收流失率和流失稅金居高不小。對稅收數據進行分析,通過納稅人之間 的利益關聯抽取利益關聯社團並最終發現和打擊偷漏稅行為就顯得十分重要,並且成為稅 務分析系統的重點和難點,但現有的技術都不能有效的判斷出利益關聯社團中的是否存在 可疑納稅人,因此迫使發現及打擊偷稅漏稅的行為變得相當的嚴峻。


【發明內容】

[0003] 本發明的目的在於克服上述現有技術的缺點,提供了一種基於層次聚類的可疑納 稅人檢測方法,該方法可以有效的發現利益關聯社團中是否存在可疑納稅人。
[0004] 為達到上述目的,本發明所述的基於層次聚類的可疑納稅人檢測方法包括以下步 驟:
[0005] 1)獲取納稅人利益網絡,並從納稅人利益網絡中提取出各節點對應的納稅人以及 任意兩個納稅人之間的利益關聯程度,再採用層次聚類算法對納稅人以及任意兩個納稅人 之間的利益關聯程度進行層次聚類,形成二叉樹,然後根據納稅人和任意兩個納稅人之間 的利益關聯程度對所述二叉樹進行分割,得若干簇,其中,每次層次聚類得到的簇均記作利 益關聯社團;
[0006] 2)從步驟1)中得到的利益關聯社團中選取正常納稅人利益社團和異常納稅人利 益社團,然後提取正常納稅人利益社團的特徵信息及異常納稅人利益社團的特徵信息,然 後構建正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫;
[0007] 3)預處理的利益關聯社團包括若干納稅人利益社團,分別獲取各預處理的納稅人 利益社團的特徵信息,然後將各預處理的納稅人利益社團的特徵信息分別與正常納稅人利 益社團的特徵庫及異常納稅人利益社團的特徵庫進行相似度計算,分別計算出各預處理的 納稅人利益社團屬於正常納稅人利益社團的概率及屬於異常納稅人利益社團的概率,當預 處理的納稅人利益社團屬於異常納稅人利益社團的概率大於或等於異常預設閾值時或者 當該預處理的納稅人利益社團屬於正常納稅人利益社團的概率小於正常預設閾值時,則該 預處理的納稅人利益社團中存在可疑納稅人;
[0008] 4)通過步驟3)得到的各正常納稅人利益社團的特徵信息及各異常納稅人利益社 團的特徵信息構建新的正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫,然 後再根據新的正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫判斷下一個 預處理的利益關聯社團中的各納稅人利益社團是否存在可疑納稅人。
[0009] 所述特徵信息包括度分布、集聚係數和平均最短路徑。
[0010] 本發明具有以下有益效果:
[0011] 本發明所述的基於層次聚類的可疑納稅人檢測方法在檢測預處理的利益關聯社 團中是否存在可疑納稅人的過程中,先通過獲取納稅人利益網絡,然後採用層次聚類算法 按照納稅人以及任意兩個納稅人的利益關聯程度進行分層聚類,然後根據分層聚類的結果 得到利益關聯社團,再從所有的利益關聯社團中選取正常納稅人利益社團及異常納稅人利 益社團,在構建正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫,在對預處 理納稅人利益社團進行處理時,只需提取出預處理的納稅人利益社團的特徵信息,然後採 用相似度計算的方法分別計算出該預處理的納稅人利益社團屬於正常納稅人利益社團的 概率及屬於異常納稅人利益社團的概率,然後再分別與正常預設閾值及異常預設閾值進行 對比,從而判斷出該預處理的納稅人利益社團中是否存在可疑納稅人,操作方便,簡單,可 信度高。

【專利附圖】

【附圖說明】
[0012] 圖1為本發明中第一次檢測可疑納稅人的流程圖;
[0013] 圖2本發明中更新正常納稅人利益社團的特徵庫和異常納稅人利益社團的特徵 庫的流程圖。

【具體實施方式】
[0014] 下面結合附圖對本發明做進一步詳細描述:
[0015] 參考圖1及圖2,本發明所述的參考圖基於層次聚類的可疑納稅人檢測方法包括 以下步驟:
[0016] 1)獲取納稅人利益網絡,並從納稅人利益網絡中提取出各節點對應的納稅人以及 任意兩個納稅人之間的利益關聯程度,再採用層次聚類算法對納稅人以及任意兩個納稅人 之間的利益關聯程度進行層次聚類,形成二叉樹,然後根據納稅人和任意兩個納稅人之間 的利益關聯程度對所述二叉樹進行分割,得若干簇,其中,每次層次聚類得到的簇均記作利 益關聯社團;
[0017] 2)從步驟1)中得到的利益關聯社團中選取正常納稅人利益社團和異常納稅人利 益社團,然後提取正常納稅人利益社團的特徵信息及異常納稅人利益社團的特徵信息,然 後構建正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫;
[0018] 3)預處理的利益關聯社團包括若干納稅人利益社團,分別獲取各預處理的納稅人 利益社團的特徵信息,然後將各預處理的納稅人利益社團的特徵信息分別與正常納稅人利 益社團的特徵庫及異常納稅人利益社團的特徵庫進行相似度計算,分別計算出各預處理的 納稅人利益社團屬於正常納稅人利益社團的概率及屬於異常納稅人利益社團的概率,當預 處理的納稅人利益社團屬於異常納稅人利益社團的概率大於或等於異常預設閾值時或者 當該預處理的納稅人利益社團屬於正常納稅人利益社團的概率小於正常預設閾值時,則該 預處理的納稅人利益社團中存在可疑納稅人,所述正常預設閾值及異常預設閾值均為用戶 根據檢測的準確度而設置的;
[0019] 4)通過步驟3)得到的各正常納稅人利益社團的特徵信息及各異常納稅人利益社 團的特徵信息構建新的正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫,然 後再根據新的正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫判斷下一個 預處理的利益關聯社團中的各納稅人利益社團是否存在可疑納稅人。
[0020] 所述特徵信息包括度分布、集聚係數和平均最短路徑。
[0021] 需要說明的是,形成二叉樹的具體過程為:(1)將每個納稅人作為一個單獨的簇, 將兩個納稅人之間的利益關聯度作為所述兩個納稅人對應簇之間的相似度,從而形成納稅 人之間的相似度矩陣;(2)從納稅人的相似度矩陣中選取相似度最大的兩個簇進行合併形 成新的簇,從相似度矩陣中刪除原本兩個簇對應的相似度,計算新的簇和其他簇之間的平 均關聯度作為新的簇與其他簇的相似度,對相似度矩陣進行更新;(3)重複步驟(2),直到 形成一顆分層次的二叉樹,二叉樹中每個葉子節點對應一個納稅人,每個非葉子節點由其 左子樹和右子樹組成,並且其所有葉子節點都可能成為一個利益關聯社團,在層次聚類結 果中,每個非葉子節點都對應著一個節點間平均距離表示子樹的節點間關聯程度,通過選 擇合適的閾值,從層次聚類得到的二叉樹中分割出合適的子樹作為利益關聯社團,並且由 於層次聚類算法的特性,選擇的利益關聯社團可以根據實際需要進行細化或者加入更多的 節點元素,以下對度分布、集聚係數及平均最短路徑進行具體說明:
[0022] 度分布:一個節點的度通常定義為該節點連接的所有連接(邊)的總和,網絡的度 分布即為網絡中節點的度的概率分布或頻率分布,計算每個利益關聯社糰子圖的度分布並 且將其作為該利益關聯社糰子圖的特徵。
[0023] 集聚係數:集聚係數是用來描述一個圖中的頂點之間結集成團的程度的係數,反 映在利益關聯社糰子圖就是評價衡量了該子圖中各個納稅人之間的相互連接的程度,不同 子圖的聚集係數之間存在差異性,表明了在不同的利益關聯社糰子圖中,納稅人之間的利 益關聯程度和聚集程度的差異性,計算每個利益關聯社糰子圖的聚集係數並將其作為該子 圖的特徵之一。
[0024] 平均最短路徑:圖中任意兩個節點之間的最短路徑是指連通這兩個節點所需要的 最少的邊的數目,圖的平均最短路徑是指這些值的平均值。平均最短路徑有效衡量了一個 子圖的節點之間的連通程度和關聯程度,計算每個利益關聯社糰子圖的平均最短路徑並將 其作為該子圖的特徵之
[0025] 實驗證明,一方面,本專利分析研究了正常與異常納稅人所構成的利益關聯社團 的特徵參數上的差異性,總結了包含異常納稅人的利益關聯社團在度分布、聚集係數和平 均最短路徑等複雜網絡參數上所呈現的特徵;另一方面,本專利基於總結出來的正常利益 關聯社團和異常利益關聯社團之間的特徵差異性,判斷和識別新出現利益關聯社團是否滿 足異常利益關聯社團的特徵,可以有效識別出存在異常納稅人的利益關聯社團,為進一步 分析提供了基礎支持。
【權利要求】
1. 一種基於層次聚類的可疑納稅人檢測方法,其特徵在於,包括以下步驟: 1) 獲取納稅人利益網絡,並從納稅人利益網絡中提取出各節點對應的納稅人以及任意 兩個納稅人之間的利益關聯程度,再採用層次聚類算法對納稅人以及任意兩個納稅人之間 的利益關聯程度進行層次聚類,形成二叉樹,然後根據納稅人和任意兩個納稅人之間的利 益關聯程度對所述二叉樹進行分割,得若干簇,其中,每次層次聚類得到的簇均記作利益關 聯社團; 2) 從步驟1)中得到的利益關聯社團中選取正常納稅人利益社團和異常納稅人利益社 團,然後提取正常納稅人利益社團的特徵信息及異常納稅人利益社團的特徵信息,然後構 建正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫; 3) 預處理的利益關聯社團包括若干納稅人利益社團,分別獲取各預處理的納稅人利益 社團的特徵信息,然後將各預處理的納稅人利益社團的特徵信息分別與正常納稅人利益社 團的特徵庫及異常納稅人利益社團的特徵庫進行相似度計算,分別計算出各預處理的納稅 人利益社團屬於正常納稅人利益社團的概率及屬於異常納稅人利益社團的概率,當預處理 的納稅人利益社團屬於異常納稅人利益社團的概率大於或等於異常預設閾值時或者當該 預處理的納稅人利益社團屬於正常納稅人利益社團的概率小於正常預設閾值時,則該預處 理的納稅人利益社團中存在可疑納稅人; 4) 通過步驟3)得到的各正常納稅人利益社團的特徵信息及各異常納稅人利益社團的 特徵信息構建新的正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫,然後再 根據新的正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫判斷下一個預處 理的利益關聯社團中的各納稅人利益社團是否存在可疑納稅人。
2. 根據權利要求1所述的基於層次聚類的可疑納稅人檢測方法,其特徵在於,其特徵 在於,所述特徵信息包括度分布、集聚係數和平均最短路徑。
【文檔編號】G06Q40/00GK104102706SQ201410328004
【公開日】2014年10月15日 申請日期:2014年7月10日 優先權日:2014年7月10日
【發明者】鄭慶華, 李博, 杜友田 申請人:西安交通大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀