異常車速數據的識別方法和裝置的製作方法
2023-06-15 04:09:36 1
專利名稱:異常車速數據的識別方法和裝置的製作方法
技術領域:
本發明涉及智能交通領域,尤其涉及一種異常車速數據的識別方法和裝置。
背景技術:
智能交通系統是目前能全面有效地解決交通運輸領域問題,特別是交通擁擠、交 通阻塞、交通事故和交通汙染等的最佳途徑。其中,動態交通信息服務是智能交通系統的核 心研究方向之一,它可以動態實時反映區域內的交通路況,指引最佳的行駛路線,提高道路 和車輛的使用效率,是緩解交通擁堵狀況的重要措施。在動態交通信息的研究中,分析道路 歷史車速值,找到能夠反映道路周期性趨勢的參數,進而提取出道路的動態交通特徵是個 熱點問題。但是由於在車速數據的採集和處理輸出過程中存在各種幹擾,會使車速數據受 到不同程度的噪聲汙染,使用被汙染的數據建模和統計分析,可能會導致錯誤結果,故而需 要對車速數據進行除噪,即識別並刪除異常車速值。現有技術中用於識別異常數據的主要 方法有統計方法、基於距離的方法和基於密度聚類的方法。 然而,在將統計方法和基於距離的方法用於識別異常車速數據的過程中,發明人 發現現有技術中至少存在如下問題採用統計方法識別異常車速數據時通常要求知道關於 數據集參數的知識,如分布模型,分布參數等。但是在大多數情況下,分布可能是未知的。採 用基於距離的方法識別異常車速數據時需要根據某個距離函數來計算數據對象之間的距 離,異常數據是那些與所有其他對象相比有更高距離的數據對象。但是它需要用戶直接提 供最小的可接受距離,而這個是很難確定的。而基於密度聚類的方法可以從未知分布形式 的數據中識別出異常數據,但是現有技術中還沒有將基於密度聚類的方法用於識別異常車 速數據。
發明內容
本發明的實施例提供一種異常車速數據的識別方法和裝置,採用基於密度聚類的
方法實現了從目標車速數據集中識別異常車速數據。 為達到上述目的,本發明的實施例採用如下技術方案 —種異常車速數據的識別方法,包括 根據預設參數k,計算目標車速數據集中每一個車速數據對象的k-距離;
從所有上述k-距離中選出所述目標車速數據集的半徑參數;
將大於所述半徑參數的k-距離對應的車速數據對象標識為異常車速數據。
—種異常車速數據的識別裝置,包括 計算單元,用於根據預設參數k,計算目標車速數據集中每一個車速數據對象的 k-距離; 選擇單元,用於從所有上述k-距離中選出所述目標車速數據集的半徑參數;
第一標識單元,用於將大於所述半徑參數的k-距離對應的車速數據對象標識為 異常車速數據。
由上述方案描述的本發明實施例中,所述預設的參數k為基於密度聚類的方法中 的密度閾值,根據所述預設的參數k可以計算出目標車速數據集中每一個車速數據對象的 k_距離。所述車速數據對象的k_距離為所述車速數據對象到其k個最鄰近的車速數據對 象的最大距離。計算出所述目標數據集中所有車速數據對象的k_距離之後,從所有上述 k-距離中選出所述目標車速數據集的半徑參數。所述目標車速數據集的半徑參數即為基於 密度聚類的方法中的密度聚類的半徑。通過依次比較所述目標數據集中的每個車速數據對 象的k-距離與所述目標車速數據集的半徑參數的大小,將大於所述半徑參數的k-距離對 應的車速數據對象標識為異常車速數據。從而實現了將基於密度聚類的方法用於識別異常 車速數據。
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以 根據這些附圖獲得其他的附圖。
圖1為實施例1異常車速數據的識別方法的流程圖;
圖2為實施例1異常車速數據的識別裝置的結構框圖;
圖3為實施例2異常車速數據的識別方法的流程圖;
圖4為實施例2異常車速數據的識別裝置的結構框圖。
具體實施例方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於 本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他 實施例,都屬於本發明保護的範圍。
實施例1 : 本發明實施例提供一種異常車速數據的識別方法,如圖1所示,該方法包括以下 步驟 101、根據預設參數k,計算目標車速數據集中每一個車速數據對象的k-距離。
由於基於密度聚類的方法通過設置密度閾值與領域半徑從任意形狀的簇中識別 異常數據,因此在將基於密度聚類的方法用於識別異常車速數據時,也要設置密度閾值與 領域半徑的值。所述預設參數k即為基於密度聚類的方法中的密度閾值,可以通過技術人 員的經驗設定參數k。 所述車速數據對象的k-距離可以定義為車速數據對象p與車速數據對象0 G D 之間的距離dist(p, o),且滿足 ①至少有k個車速數據對象對象q G D\ {p},使得dist (p, q)《dist (p, o);
②並且至多有(k-l)個車速數據對象對象q G D\ {p},使得dist (p, q) < dist (p, o)。 102、從所有上述k-距離中選出所述目標車速數據集的半徑參數。所述目標數據
4集中每一個車速數據對象都有對應的k_距離,從所有上述k_距離中選擇一個k_距離作為所述目標車速數據集的半徑參數。所述半徑參數即為基於密度聚類的方法中的領域半徑的值。 103、所述密度閾值與領域半徑的值確定之後,根據基於密度聚類的方法,將大於所述半徑參數的k-距離對應的車速數據對象標識為異常車速數據。從而實現了將基於密度聚類的方法應用於識別異常車速數據。 為了實現上述方法,本發明實施例還提供一種異常車速數據的識別裝置,如圖2所示,該裝置包括計算單元21、選擇單元22和第一標識單元23。 其中,所述計算單元21用於根據預設參數k,計算目標車速數據集中每一個車速數據對象的k-距離。所述計算單元21計算出每一個車速數據對象的k-距離之後,選擇單元22用於從所有上述k-距離中選出所述目標車速數據集的半徑參數。所述半徑參數即為基於密度聚類的方法中的領域半徑的值。基於密度聚類的方法中的密度閾值和領域半徑都確定之後,第一標識單元23用於將大於所述半徑參數的k-距離對應的車速數據對象標識為異常車速數據。該裝置通過計算單元21和選擇單元22來確定基於密度聚類的方法中的密度閾值和領域半徑,第一標識單元23根據基於密度聚類的方法通過比較所述目標數據集中的每個車速數據對象的k-距離與所述目標車速數據集的半徑參數的大小,從所述目標數據集中識別出異常車速數據。從而實現了將基於密度聚類的方法用於識別異常車速數據。 實施例2 : 本發明實施例以指定路鏈上歷史交通流為例來詳細介紹異常車速數據的識別方法,如圖3所示,該方法包括如下步驟 301、加載目標數據集。所述目標數據集可以為指定路鏈上某個星期特徵日中特定時間點的車速值。如從一年的車速數據對象中取目標數據集時,由於車速值可能有丟失的現象,所述目標數據集中最多有52個車速值。所述星期特徵日是指一周中交通流數據變化具有一定相似特徵的某些日期的集合。如一周的日期可以簡單地分為工作日和周日兩類星期特徵日,也可以按交通流的周相似性細分為周一到周日共7個特徵日等。
302、根據預設參數k,計算目標車速數據集中每一個車速數據對象的k-距離。所述預設參數k即為基於密度聚類的方法中的密度閾值,可以通過技術人員的經驗設定參數k。 303、將所有上述k-距離按照遞增次序進行排序。對於上述所有車速數據對象的k-距離,以遞增次序進行排序。然後按縱坐標為k-距離,橫坐標為點的個數排序,如1、2、3等,分別用以表示第一個車速數據、第二個車速數據、第三個車速數據等,繪製排序後的值。
304、選擇所述k-距離增量變化最大時對應的k-距離作為所述目標車速數據集的半徑參數。可以採用導數的方法來確定所述k-距離增量變化的大小。將所述k-距離作為因變量,所述點的個數作為自變量。相對於點的個數值的增量計算所述k-距離的增量的變化大小,取增量變化最大時對應的k-距離作為所述目標車速數據集的半徑參數。所述半徑參數即為基於密度聚類的方法中的領域半徑的值。 305、所述密度閾值與領域半徑的值確定之後,根據基於密度聚類的方法,將大於所述半徑參數的k-距離對應的車速數據對象標識為異常車速數據。將異常車速數據識別出來之後,可以刪除所述異常車速數據。 306、將等於所述半徑參數的k-距離對應的車速數據對象標識為邊界車速數據。
307、將小於所述半徑參數的k-距離對應的車速數據對象標識為核心車速數據。本方法中採用基於密度聚類的方法,不僅實現了從目標數據集中識別異常車速數據,同時也識別出邊界車速數據和核心車速數據,為研究歷史交通流中的車速變化提供依據。
本發明實施例還提供一種異常車速數據的識別裝置,如圖4所示,包括加載單元41、計算單元42、選擇單元43、第一標識單元44、第二標識單元45和第三標識單元46。
其中,所述加載單元41用於將目標數據集加載到緩存中。所述目標數據集可以為指定路鏈上某個星期特徵日中特定時間點的車速值。所述加載單元41加載目標數據集之後,所述計算單元42用於根據預設參數k,計算目標車速數據集中每一個車速數據對象的k-距離。 然後,所述選擇單元43用於從所有上述k-距離中選出所述目標車速數據集的半徑參數。所述選擇單元43包括排序模塊43A和選擇模塊43B。所述排序模塊43A用於將所有上述k-距離按照遞增次序進行排序。選擇模塊43B用於選擇所述k-距離增量變化最大時對應的k-距離作為所述目標車速數據集的半徑參數。所述半徑參數即為基於密度聚類的方法中的領域半徑的值。通過計算單元42和選擇單元43確定了基於密度聚類的方法中的密度閾值和領域半徑。 然後,根據基於密度聚類的方法通過比較所述目標數據集中的每個車速數據對象的k-距離與所述目標車速數據集的半徑參數的大小,第一標識單元44用於將大於所述半徑參數的k-距離對應的車速數據對象標識為異常車速數據。第二標識單元45用於將等於所述半徑參數的k-距離對應的車速數據對象標識為邊界車速數據。第三標識單元46用於將小於所述半徑參數的k-距離對應的車速數據對象標識為核心車速數據。從而基於密度聚類的方法實現了從目標數據集中識別異常車速數據。 本發明實施例主要應用於智能交通領域,實現了將基於密度聚類的方法用於識別異常車速數據。 通過以上的實施方式的描述,所屬領域的技術人員可以清楚地了解到本發明可藉助軟體加必需的通用硬體的方式來實現,當然也可以通過硬體,但很多情況下前者是更佳的實施方式。基於這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該計算機軟體產品存儲在可讀取的存儲介質中,如計算機的軟盤,硬碟或光碟等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,伺服器,或者網絡設備等)執行本發明各個實施例所述的方法。 以上所述,僅為本發明的具體實施方式
,但本發明的保護範圍並不局限於此,任何熟悉本技術領域的技術人員在本發明揭露的技術範圍內,可輕易想到變化或替換,都應涵蓋在本發明的保護範圍之內。因此,本發明的保護範圍應所述以權利要求的保護範圍為準。
權利要求
一種異常車速數據的識別方法,其特徵在於,包括根據預設參數k,計算目標車速數據集中每一個車速數據對象的k-距離;從所有上述k-距離中選出所述目標車速數據集的半徑參數;將大於所述半徑參數的k-距離對應的車速數據對象標識為異常車速數據。
2. 根據權利要求1所述的異常車速數據的識別方法,其特徵在於,所述從所有車速數 據對象的k-距離中選出所述目標車速數據集的半徑參數包括將所有上述k_距離按照遞增次序進行排序;選擇所述k-距離增量變化最大時對應的k_距離作為所述目標車速數據集的半徑參數。
3. 根據權利要求1所述的異常車速數據的識別方法,其特徵在於,還包括 將等於所述半徑參數的k_距離對應的車速數據對象標識為邊界車速數據; 將小於所述半徑參數的k-距離對應的車速數據對象標識為核心車速數據。
4. 一種異常車速數據的識別裝置,其特徵在於,包括計算單元,用於根據預設參數k,計算目標車速數據集中每一個車速數據對象的k_距離;選擇單元,用於從所有上述k-距離中選出所述目標車速數據集的半徑參數; 第一標識單元,用於將大於所述半徑參數的k-距離對應的車速數據對象標識為異常 車速數據。
5. 根據權利要求4所述的異常車速數據的識別裝置,其特徵在於,所述選擇單元包括 排序模塊,用於將所有上述k_距離按照遞增次序進行排序;選擇模塊,用於選擇所述k-距離增量變化最大時對應的k_距離作為所述目標車速數 據集的半徑參數。
6. 根據權利要求4所述的異常車速數據的識別裝置,其特徵在於,還包括第二標識單元,用於將等於所述半徑參數的k-距離對應的車速數據對象標識為邊界 車速數據;第三標識單元,用於將小於所述半徑參數的k-距離對應的車速數據對象標識為核心 車速數據。
全文摘要
本發明公開一種異常車速數據的識別方法和裝置,涉及智能交通領域,解決了現有技術中還沒有將基於密度聚類的方法用於識別異常車速數據的問題。該方法包括根據預設參數k,計算目標車速數據集中每一個車速數據對象的k-距離;從所有上述k-距離中選出所述目標車速數據集的半徑參數;將大於所述半徑參數的k-距離對應的車速數據對象標識為異常車速數據。本發明實施例主要應用於智能交通領域。
文檔編號G08G1/052GK101727749SQ200910237940
公開日2010年6月9日 申請日期2009年11月19日 優先權日2009年11月19日
發明者付新剛, 昝豔, 李建軍, 賈學力 申請人:北京世紀高通科技有限公司