新四季網

常用的異常值檢測的方法有(四種檢測異常值的常用技術簡述)

2023-04-23 07:50:35

在訓練機器學習算法或應用統計技術時,錯誤值或異常值可能是一個嚴重的問題,它們通常會造成測量誤差或異常系統條件的結果,因此不具有描述底層系統的特徵。實際上,最佳做法是在進行下一步分析之前,就應該進行異常值去除處理。

在某些情況下,異常值可以提供有關整個系統中局部異常的信息;因此,檢測異常值是一個有價值的過程,因為在這個工程中,可以提供有關數據集的附加信息。

目前有許多技術可以檢測異常值,並且可以自主選擇是否從數據集中刪除。在這篇博文中,將展示KNIME分析平臺中四種最常用的異常值檢測的技術。

數據集和異常值檢測問題

本文用於測試和比較建議的離群值檢測技術的數據集來源於航空公司數據集,該數據集包括2007年至2012年間美國國內航班的信息,例如出發時間、到達時間、起飛機場、目的地機場、播出時間、出發延誤、航班延誤、航班號等。其中一些列可能包含異常值。

從原始數據集中,隨機提取了2007年和2008年從芝加哥奧黑爾機場(ORD)出發的1500次航班樣本。

為了展示所選擇的離群值檢測技術是如何工作的,將專注於找出機場平均到達延誤的異常值,這些異常值是在給定機場降落的所有航班上計算的。我們正在尋找那些顯示不尋常的平均到達延遲時間的機場。

四種異常值檢測技術

數字異常值|Numeric Outlier

使用四分位數乘數值k=1.5,範圍限制是典型的上下晶須的盒子圖。這種技術是使用KNIME Analytics Platform內置的工作流程中的Numeric Outliers節點實現的(見圖1)。

Z-score

Z-score是一維或低維特徵空間中的參數異常檢測方法。該技術假定數據是高斯分布,異常值是分布尾部的數據點,因此遠離數據的平均值。距離的遠近取決於使用公式計算的歸一化數據點z i的設定閾值Zthr:

其中xi是一個數據點,μ是所有點xi的平均值,δ是所有點xi的標準偏差。

然後經過標準化處理後,異常值也進行標準化處理,其絕對值大於Zthr:

Zthr值一般設置為2.5、3.0和3.5。該技術是使用KNIME工作流中的行過濾器節點實現的(見圖1)。

DBSCAN

該技術基於DBSCAN聚類方法,DBSCAN是一維或多維特徵空間中的非參數,基於密度的離群值檢測方法。

在DBSCAN聚類技術中,所有數據點都被定義為核心點(Core Points)、邊界點(Border Points)或噪聲點(Noise Points)。

核心點是在距離ℇ內至少具有最小包含點數(minPTs)的數據點;邊界點是核心點的距離ℇ內鄰近點,但包含的點數小於最小包含點數(minPTs);所有的其他數據點都是噪聲點,也被標識為異常值;

從而,異常檢測取決於所要求的最小包含點數、距離ℇ和所選擇的距離度量,比如歐幾裡得或曼哈頓距離。該技術是使用圖1中KNIME工作流中的DBSCAN節點實現的。

孤立森林|Isolation Forest

該方法是一維或多維特徵空間中大數據集的非參數方法,其中的一個重要概念是孤立數。

孤立數是孤立數據點所需的拆分數。通過以下步驟確定此分割數:

隨機選擇要分離的點「a」;選擇在最小值和最大值之間的隨機數據點「b」,並且與「a」不同;如果「b」的值低於「a」的值,則「b」的值變為新的下限;如果「b」的值大於「a」的值,則「b」的值變為新的上限;只要在上限和下限之間存在除「a」之外的數據點,就重複該過程;

與孤立非異常值相比,它需要更少的分裂來孤立異常值,即異常值與非異常點相比具有更低的孤立數。因此,如果數據點的孤立數低於閾值,則將數據點定義為異常值。

閾值是基於數據中異常值的估計百分比來定義的,這是異常值檢測算法的起點。有關孤立森林技術圖像的解釋,可以在此找到詳細資料。

通過在Python Script中使用幾行Python代碼就可以實現該技術。

from sklearn.ensemble import IsolationForestimport pandas as pdclf = IsolationForest(max_samples=100, random_state=42)table = pd.concat([input_table['Mean(ArrDelay)']], axis=1)clf.fit(table)output_table = pd.DataFrame(clf.predict(table))```python

Python Script節點是KNIME Python Integration的一部分,它允許我們將Python代碼編寫/導入到KNIME工作流程。

在KNIME工作流程中實施

KNIME Analytics Platform是一個用於數據科學的開源軟體,涵蓋從數據攝取和數據混合、數據可視化的所有數據需求,從機器學習算法到數據應用,從報告到部署等等。它基於用於可視化編程的圖形用戶界面,使其非常直觀且易於使用,大大減少了學習時間。

此外,它被設計為對不同的數據格式、數據類型、數據源、數據平臺以及外部工具(例如R和Python)開放,還包括許多用於分析非結構化數據的擴展,如文本、圖像或圖形。

KNIME Analytics Platform中的計算單元是小彩色塊,名為「節點」。一個接一個地組裝管道中的節點,實現數據處理應用程式。管道也被稱為「工作流程」。

鑑於所有這些特性,本文選擇它來實現上述的四種異常值檢測技術。圖1中展示了異常值檢測技術的工作流程。工作流程:

1.讀取Read data metanode中的數據樣本;2.進行數據預處理並計算Preproc元節點內每個機場的平均到達延遲;3.在下一個名為密度延遲的元節點中,對數據進行標準化,並將標準化平均到達延遲的密度與標準正態分布的密度進行對比;4.使用四種選定的技術檢測異常值;5.使用KNIME與Open Street Maps的集成,在MapViz元節點中顯示美國地圖中的異常值機場。

圖1:實施四種離群值檢測技術的工作流程:數字異常值、Z-score、DBSCAN以及孤立森林

檢測到的異常值

在圖2-5中,可以看到通過不同技術檢測到的異常值機場。其中。藍色圓圈表示沒有異常行為的機場,而紅色方塊表示具有異常行為的機場。平均到達延遲時間定義的大小了記。

一些機場一直被四種技術確定為異常值:斯波坎國際機場(GEG)、伊利諾伊大學威拉德機場(CMI)和哥倫比亞大都會機場(CAE)。斯波坎國際機場(GEG)具有最大的異常值,平均到達時間非常長(180分鐘)。然而,其他一些機場僅能通過一些技術來識別、例如路易斯阿姆斯特朗紐奧良國際機場(MSY)僅被孤立森林和DBSCAN技術所發現。

對於此特定問題,Z-Score技術僅能識別最少數量的異常值,而DBSCAN技術能夠識別最大數量的異常值機場。且只有DBSCAN方法(MinPts = 3/ℇ= 1.5,歐幾裡德距離測量)和孤立森林技術(異常值的估計百分比為10%)在早期到達方向發現異常值。

圖2:通過數字異常值技術檢測到的異常值機場

圖3:通過z-score技術檢測到的異常機場

圖4:DBSCAN技術檢測到的異常機場

圖5:孤立森林技術檢測到的異常機場

總結

本文在一維空間中描述並實施了四種不同的離群值檢測技術:2007年至2008年間所有美國機場的平均到達延遲。研究的四種技術分別是Numeric Outlier、Z-Score、DBSCAN和Isolation Forest方法。其中一些用於一維特徵空間、一些用於低維空間、一些用於高維空間、一些技術需要標準化和檢查維度的高斯分布。而有些需要距離測量,有些需要計算平均值和標準偏差。有三個機場,所有異常值檢測技術都能將其識別為異常值。但是,只有部分技術(比如,DBSCAN和孤立森林)可以識別分布左尾的異常值,即平均航班早於預定到達時間到達的那些機場。因此,應該根據具體問題選擇合適的檢測技術。

參考Santoyo, Sergio. (2017, September 12). A Brief Overview of Outlier Detection Techniques;

https://towardsdatascience.com/a-brief-overview-of-outlier-detection-techniques- 1e0b2c19e561

作者:【方向】

,
同类文章
葬禮的夢想

葬禮的夢想

夢見葬禮,我得到了這個夢想,五個要素的五個要素,水火只好,主要名字在外面,職業生涯良好,一切都應該對待他人治療誠意,由於小,吉利的冬天夢想,秋天的夢是不吉利的
找到手機是什麼意思?

找到手機是什麼意思?

找到手機是什麼意思?五次選舉的五個要素是兩名士兵的跡象。與他溝通很好。這是非常財富,它擅長運作,職業是仙人的標誌。單身男人有這個夢想,主要生活可以有人幫忙
我不怎麼想?

我不怎麼想?

我做了什麼意味著看到米飯烹飪?我得到了這個夢想,五線的主要土壤,但是Tu Ke水是錢的跡象,職業生涯更加真誠。他真誠地誠實。這是豐富的,這是夏瑞的巨星
夢想你的意思是什麼?

夢想你的意思是什麼?

你是什​​麼意思夢想的夢想?夢想,主要木材的五個要素,水的跡象,主營業務,主營業務,案子應該抓住魅力,不能疏忽,春天夢想的吉利夢想夏天的夢想不幸。詢問學者夢想
拯救夢想

拯救夢想

拯救夢想什麼意思?你夢想著拯救人嗎?拯救人們的夢想有一個現實,也有夢想的主觀想像力,請參閱週宮官方網站拯救人民夢想的詳細解釋。夢想著敵人被拯救出來
2022愛方向和生日是在[質量個性]中

2022愛方向和生日是在[質量個性]中

[救生員]有人說,在出生88天之前,胎兒已經知道哪天的出生,如何有優質的個性,將走在什麼樣的愛情之旅,將與生活生活有什么生活。今天
夢想切割剪裁

夢想切割剪裁

夢想切割剪裁什麼意思?你夢想切你的手是好的嗎?夢想切割手工切割手有一個真正的影響和反應,也有夢想的主觀想像力。請參閱官方網站夢想的細節,以削減手
夢想著親人死了

夢想著親人死了

夢想著親人死了什麼意思?你夢想夢想你的親人死嗎?夢想有一個現實的影響和反應,還有夢想的主觀想像力,請參閱夢想世界夢想死亡的親屬的詳細解釋
夢想搶劫

夢想搶劫

夢想搶劫什麼意思?你夢想搶劫嗎?夢想著搶劫有一個現實的影響和反應,也有夢想的主觀想像力,請參閱週恭吉夢官方網站的詳細解釋。夢想搶劫
夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂什麼意思?你夢想缺乏異常藥物嗎?夢想缺乏現實世界的影響和現實,還有夢想的主觀想像,請看官方網站的夢想組織缺乏異常藥物。我覺得有些東西缺失了