以離群點為中心帶權重的AP聚類算法的改進方法與流程
2023-06-20 08:17:26 3
本發明涉及一種ap聚類算法的改方法,特別是涉及一種以離群點為中心帶權重的ap聚類算法的改進方法。
背景技術:
對於流式處理過程中,離群點的檢測可以看成是時間序列的離群點檢測,但是對於某時間範圍內(t0-t1)內被檢測到是離群點,由於離群點本身的帶有學習能力,那麼在下一個周期(t1-t2)不一定可以認為上一個周期的離群點數據還是離群點數據,但是在此周期的離群點任然是離群點。如果長時間的積累,那麼我們對」老油條」式的離群點無法檢測。
技術實現要素:
本發明所要解決的技術問題是提供一種以離群點為中心帶權重的ap聚類算法的改進方法,其能夠增加檢測率,降低遺漏的概率,提高使用效率,降低成本,使用方便。
本發明是通過下述技術方案來解決上述技術問題的:一種以離群點為中心帶權重的ap聚類算法的改進方法,其包括以下步驟:
步驟一,對流式數據檢測寬度的劃分,是則轉步驟二,否則轉步驟五;
步驟二,是否對周期t內的ap聚類離群點檢測,是則轉步驟四,否則轉步驟三;
步驟三,t+1周期內樣本點權重更新;
步驟四,周期t+1內的ap聚類離群點檢測;
步驟五,離群點入庫;
步驟六,結束。
優選地,所述步驟一採用等距離的方式進行劃分,在迭代過程中可以根據上次離群點統計情況按概率分布的形式進行劃分,並初始化樣本權重。
優選地,所述步驟二和步驟四都採用ap聚類計算離群點,並根據是否是離群點增加對應本周期內樣本點的權重。
優選地,所述步驟三對於增加權重的樣本在下一個周期內的相同樣本或則相似樣本進行更新權重,對於權重的更新可以採用錯分樣本對數比率的方式,或增強學習的積累回報期望,或則信息增益的作為權重。
優選地,所述步驟五對於所有的周期都執行完成後,離群點已經入庫,這個時候我們可以採用迭代的方式繼續的檢測出新的離群點,最終產出最後的離群點。
本發明的積極進步效果在於:本發明能夠描述了離群點的動態學習過程,而不是一層不變的孤立點;增加了離群點在下一個周期的權重,這樣就增加了在下次周期被檢測的概率;通過反覆的迭代方式發現離群點,效果比較突出,遺漏的概率比較低。
附圖說明
圖1為本發明的流程圖。
具體實施方式
下面結合附圖給出本發明較佳實施例,以詳細說明本發明的技術方案。
如圖1所示,本發明以離群點為中心帶權重的ap聚類算法的改進方法包括以下步驟:
步驟一,對流式數據檢測寬度的劃分,是則轉步驟二,否則轉步驟五;
步驟二,是否對周期t內的ap(affinitypropagation,親和力傳播)聚類離群點檢測,是則轉步驟四,否則轉步驟三;
步驟三,t+1周期內樣本點權重更新;
步驟四,周期t+1內的ap聚類離群點檢測;
步驟五,離群點入庫;
步驟六,結束。
所述步驟一採用等距離的方式進行劃分,在迭代過程中可以根據上次離群點統計情況按概率分布的形式進行劃分,並初始化樣本權重。
所述步驟二和步驟四都採用ap聚類計算離群點,並根據是否是離群點增加對應本周期內樣本點的權重。
所述步驟三對於增加權重的樣本在下一個周期內的相同樣本或則相似樣本進行更新權重,對於權重的更新可以採用錯分樣本對數比率的方式,或增強學習的積累回報期望,或則信息增益的作為權重等等。
所述步驟五對於所有的周期都執行完成後,離群點已經入庫,這個時候我們可以採用迭代的方式繼續的檢測出新的離群點,最終產出最後的離群點。
所述權重的計算方式採用多種方式,可以採用錯分樣本對數比率的方式,或增強學習的積累回報期望。或則信息增益的作為權重等等。
所述離群點在所有的時間周期內都是可能存在的,一旦發現不能在其他的周期內「逃逸」,必須對周期內的離群點進行權重加強,減少逃逸的可能性。
以上所述的具體實施例,對本發明的解決的技術問題、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施例而已,並不用於限制本發明,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。
技術特徵:
技術總結
本發明公開了一種以離群點為中心帶權重的AP聚類算法的改進方法,其包括以下步驟:步驟一,對流式數據檢測寬度的劃分,是則轉步驟二,否則轉步驟五;步驟二,是否對周期T內的AP聚類離群點檢測,是則轉步驟四,否則轉步驟三;步驟三,T+1周期內樣本點權重更新;步驟四,周期T+1內的AP聚類離群點檢測;步驟五,離群點入庫;步驟六,結束。本發明能夠增加檢測率,降低遺漏的概率,提高使用效率,降低成本,使用方便。
技術研發人員:賀晨陽;閔聖捷;彭京;李建;賴宇;謝伯棟;姜淮韜;趙敬千;白雲;楊偉華;張仕洪;石葆梅;周洋;楊春勇
受保護的技術使用者:成都市公安局;中電科華雲信息技術有限公司;成都市公安科學技術研究所;四川省公安廳;四川省公安科研中心
技術研發日:2017.03.23
技術公布日:2017.07.21