一種基於層次聚類的可疑納稅人檢測方法
2023-08-10 08:18:36 1
一種基於層次聚類的可疑納稅人檢測方法
【專利摘要】本發明公開了一種基於層次聚類的可疑納稅人檢測方法,包括以下步驟:1)利用層次聚類算法根據納稅人之間的利益關係進行聚類,根據納稅人之間的關聯關係程度將其分割成簇,每個簇形成利益關聯社團;2)通過分析標註的納稅人樣本數據,根據度分布、聚集係數等複雜網絡指標提煉正常與異常納稅人的差異特徵;3)計算識別出的利益關聯社團和正常與異常納稅人特徵計算相似度,進而檢測可疑的納稅人。
【專利說明】一種基於層次聚類的可疑納稅人檢測方法
【技術領域】
[0001] 本發明屬於計算機科學與技術中的數據挖掘子領域,涉及一種可疑納稅人的檢測 方法,具體涉及一種基於層次聚類的可疑納稅人檢測方法。
【背景技術】
[0002] 在真實環境的稅務系統中,不同地區的稅務系統之間的信息不對稱,信息封閉沒 有統一,難以真實統計各個地區的稅務數據,大量稅務數據缺乏分析利用,大量偷逃騙稅行 為難以發現,導致稅收流失率和流失稅金居高不小。對稅收數據進行分析,通過納稅人之間 的利益關聯抽取利益關聯社團並最終發現和打擊偷漏稅行為就顯得十分重要,並且成為稅 務分析系統的重點和難點,但現有的技術都不能有效的判斷出利益關聯社團中的是否存在 可疑納稅人,因此迫使發現及打擊偷稅漏稅的行為變得相當的嚴峻。
【發明內容】
[0003] 本發明的目的在於克服上述現有技術的缺點,提供了一種基於層次聚類的可疑納 稅人檢測方法,該方法可以有效的發現利益關聯社團中是否存在可疑納稅人。
[0004] 為達到上述目的,本發明所述的基於層次聚類的可疑納稅人檢測方法包括以下步 驟:
[0005] 1)獲取納稅人利益網絡,並從納稅人利益網絡中提取出各節點對應的納稅人以及 任意兩個納稅人之間的利益關聯程度,再採用層次聚類算法對納稅人以及任意兩個納稅人 之間的利益關聯程度進行層次聚類,形成二叉樹,然後根據納稅人和任意兩個納稅人之間 的利益關聯程度對所述二叉樹進行分割,得若干簇,其中,每次層次聚類得到的簇均記作利 益關聯社團;
[0006] 2)從步驟1)中得到的利益關聯社團中選取正常納稅人利益社團和異常納稅人利 益社團,然後提取正常納稅人利益社團的特徵信息及異常納稅人利益社團的特徵信息,然 後構建正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫;
[0007] 3)預處理的利益關聯社團包括若干納稅人利益社團,分別獲取各預處理的納稅人 利益社團的特徵信息,然後將各預處理的納稅人利益社團的特徵信息分別與正常納稅人利 益社團的特徵庫及異常納稅人利益社團的特徵庫進行相似度計算,分別計算出各預處理的 納稅人利益社團屬於正常納稅人利益社團的概率及屬於異常納稅人利益社團的概率,當預 處理的納稅人利益社團屬於異常納稅人利益社團的概率大於或等於異常預設閾值時或者 當該預處理的納稅人利益社團屬於正常納稅人利益社團的概率小於正常預設閾值時,則該 預處理的納稅人利益社團中存在可疑納稅人;
[0008] 4)通過步驟3)得到的各正常納稅人利益社團的特徵信息及各異常納稅人利益社 團的特徵信息構建新的正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫,然 後再根據新的正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫判斷下一個 預處理的利益關聯社團中的各納稅人利益社團是否存在可疑納稅人。
[0009] 所述特徵信息包括度分布、集聚係數和平均最短路徑。
[0010] 本發明具有以下有益效果:
[0011] 本發明所述的基於層次聚類的可疑納稅人檢測方法在檢測預處理的利益關聯社 團中是否存在可疑納稅人的過程中,先通過獲取納稅人利益網絡,然後採用層次聚類算法 按照納稅人以及任意兩個納稅人的利益關聯程度進行分層聚類,然後根據分層聚類的結果 得到利益關聯社團,再從所有的利益關聯社團中選取正常納稅人利益社團及異常納稅人利 益社團,在構建正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫,在對預處 理納稅人利益社團進行處理時,只需提取出預處理的納稅人利益社團的特徵信息,然後採 用相似度計算的方法分別計算出該預處理的納稅人利益社團屬於正常納稅人利益社團的 概率及屬於異常納稅人利益社團的概率,然後再分別與正常預設閾值及異常預設閾值進行 對比,從而判斷出該預處理的納稅人利益社團中是否存在可疑納稅人,操作方便,簡單,可 信度高。
【專利附圖】
【附圖說明】
[0012] 圖1為本發明中第一次檢測可疑納稅人的流程圖;
[0013] 圖2本發明中更新正常納稅人利益社團的特徵庫和異常納稅人利益社團的特徵 庫的流程圖。
【具體實施方式】
[0014] 下面結合附圖對本發明做進一步詳細描述:
[0015] 參考圖1及圖2,本發明所述的參考圖基於層次聚類的可疑納稅人檢測方法包括 以下步驟:
[0016] 1)獲取納稅人利益網絡,並從納稅人利益網絡中提取出各節點對應的納稅人以及 任意兩個納稅人之間的利益關聯程度,再採用層次聚類算法對納稅人以及任意兩個納稅人 之間的利益關聯程度進行層次聚類,形成二叉樹,然後根據納稅人和任意兩個納稅人之間 的利益關聯程度對所述二叉樹進行分割,得若干簇,其中,每次層次聚類得到的簇均記作利 益關聯社團;
[0017] 2)從步驟1)中得到的利益關聯社團中選取正常納稅人利益社團和異常納稅人利 益社團,然後提取正常納稅人利益社團的特徵信息及異常納稅人利益社團的特徵信息,然 後構建正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫;
[0018] 3)預處理的利益關聯社團包括若干納稅人利益社團,分別獲取各預處理的納稅人 利益社團的特徵信息,然後將各預處理的納稅人利益社團的特徵信息分別與正常納稅人利 益社團的特徵庫及異常納稅人利益社團的特徵庫進行相似度計算,分別計算出各預處理的 納稅人利益社團屬於正常納稅人利益社團的概率及屬於異常納稅人利益社團的概率,當預 處理的納稅人利益社團屬於異常納稅人利益社團的概率大於或等於異常預設閾值時或者 當該預處理的納稅人利益社團屬於正常納稅人利益社團的概率小於正常預設閾值時,則該 預處理的納稅人利益社團中存在可疑納稅人,所述正常預設閾值及異常預設閾值均為用戶 根據檢測的準確度而設置的;
[0019] 4)通過步驟3)得到的各正常納稅人利益社團的特徵信息及各異常納稅人利益社 團的特徵信息構建新的正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫,然 後再根據新的正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫判斷下一個 預處理的利益關聯社團中的各納稅人利益社團是否存在可疑納稅人。
[0020] 所述特徵信息包括度分布、集聚係數和平均最短路徑。
[0021] 需要說明的是,形成二叉樹的具體過程為:(1)將每個納稅人作為一個單獨的簇, 將兩個納稅人之間的利益關聯度作為所述兩個納稅人對應簇之間的相似度,從而形成納稅 人之間的相似度矩陣;(2)從納稅人的相似度矩陣中選取相似度最大的兩個簇進行合併形 成新的簇,從相似度矩陣中刪除原本兩個簇對應的相似度,計算新的簇和其他簇之間的平 均關聯度作為新的簇與其他簇的相似度,對相似度矩陣進行更新;(3)重複步驟(2),直到 形成一顆分層次的二叉樹,二叉樹中每個葉子節點對應一個納稅人,每個非葉子節點由其 左子樹和右子樹組成,並且其所有葉子節點都可能成為一個利益關聯社團,在層次聚類結 果中,每個非葉子節點都對應著一個節點間平均距離表示子樹的節點間關聯程度,通過選 擇合適的閾值,從層次聚類得到的二叉樹中分割出合適的子樹作為利益關聯社團,並且由 於層次聚類算法的特性,選擇的利益關聯社團可以根據實際需要進行細化或者加入更多的 節點元素,以下對度分布、集聚係數及平均最短路徑進行具體說明:
[0022] 度分布:一個節點的度通常定義為該節點連接的所有連接(邊)的總和,網絡的度 分布即為網絡中節點的度的概率分布或頻率分布,計算每個利益關聯社糰子圖的度分布並 且將其作為該利益關聯社糰子圖的特徵。
[0023] 集聚係數:集聚係數是用來描述一個圖中的頂點之間結集成團的程度的係數,反 映在利益關聯社糰子圖就是評價衡量了該子圖中各個納稅人之間的相互連接的程度,不同 子圖的聚集係數之間存在差異性,表明了在不同的利益關聯社糰子圖中,納稅人之間的利 益關聯程度和聚集程度的差異性,計算每個利益關聯社糰子圖的聚集係數並將其作為該子 圖的特徵之一。
[0024] 平均最短路徑:圖中任意兩個節點之間的最短路徑是指連通這兩個節點所需要的 最少的邊的數目,圖的平均最短路徑是指這些值的平均值。平均最短路徑有效衡量了一個 子圖的節點之間的連通程度和關聯程度,計算每個利益關聯社糰子圖的平均最短路徑並將 其作為該子圖的特徵之
[0025] 實驗證明,一方面,本專利分析研究了正常與異常納稅人所構成的利益關聯社團 的特徵參數上的差異性,總結了包含異常納稅人的利益關聯社團在度分布、聚集係數和平 均最短路徑等複雜網絡參數上所呈現的特徵;另一方面,本專利基於總結出來的正常利益 關聯社團和異常利益關聯社團之間的特徵差異性,判斷和識別新出現利益關聯社團是否滿 足異常利益關聯社團的特徵,可以有效識別出存在異常納稅人的利益關聯社團,為進一步 分析提供了基礎支持。
【權利要求】
1. 一種基於層次聚類的可疑納稅人檢測方法,其特徵在於,包括以下步驟: 1) 獲取納稅人利益網絡,並從納稅人利益網絡中提取出各節點對應的納稅人以及任意 兩個納稅人之間的利益關聯程度,再採用層次聚類算法對納稅人以及任意兩個納稅人之間 的利益關聯程度進行層次聚類,形成二叉樹,然後根據納稅人和任意兩個納稅人之間的利 益關聯程度對所述二叉樹進行分割,得若干簇,其中,每次層次聚類得到的簇均記作利益關 聯社團; 2) 從步驟1)中得到的利益關聯社團中選取正常納稅人利益社團和異常納稅人利益社 團,然後提取正常納稅人利益社團的特徵信息及異常納稅人利益社團的特徵信息,然後構 建正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫; 3) 預處理的利益關聯社團包括若干納稅人利益社團,分別獲取各預處理的納稅人利益 社團的特徵信息,然後將各預處理的納稅人利益社團的特徵信息分別與正常納稅人利益社 團的特徵庫及異常納稅人利益社團的特徵庫進行相似度計算,分別計算出各預處理的納稅 人利益社團屬於正常納稅人利益社團的概率及屬於異常納稅人利益社團的概率,當預處理 的納稅人利益社團屬於異常納稅人利益社團的概率大於或等於異常預設閾值時或者當該 預處理的納稅人利益社團屬於正常納稅人利益社團的概率小於正常預設閾值時,則該預處 理的納稅人利益社團中存在可疑納稅人; 4) 通過步驟3)得到的各正常納稅人利益社團的特徵信息及各異常納稅人利益社團的 特徵信息構建新的正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫,然後再 根據新的正常納稅人利益社團的特徵庫及異常納稅人利益社團的特徵庫判斷下一個預處 理的利益關聯社團中的各納稅人利益社團是否存在可疑納稅人。
2. 根據權利要求1所述的基於層次聚類的可疑納稅人檢測方法,其特徵在於,其特徵 在於,所述特徵信息包括度分布、集聚係數和平均最短路徑。
【文檔編號】G06Q40/00GK104102706SQ201410328004
【公開日】2014年10月15日 申請日期:2014年7月10日 優先權日:2014年7月10日
【發明者】鄭慶華, 李博, 杜友田 申請人:西安交通大學