新四季網

一種不同軌跡間相似度度量系統及其度量方法與流程

2023-09-15 13:28:10 1


本發明屬於數據挖掘技術領域,特別涉及一種不同軌跡間相似度度量系統及其度量方法。



背景技術:

數據挖掘(datamining)是一種從海量的歷史業務數據中,透過數理分析模式提取出蘊藏於其中的潛在信息的過程。時空軌跡數據挖掘則是專門針對時空軌跡數據進行有效信息發掘的一種過程,隨著移動通訊設備和視頻監控設備的快速發展,軌跡數據與日劇增,針對移動對象的分析和研究也越來越受到人們的重視。如何有效管理和利用移動對象的各種信息已成為目前研究的熱點之一。軌跡數據處理主要包括數據採集、數據預處理、數據分析、結果可視化等流程。

時空軌跡數據挖掘中軌跡間相似度計算已有很多經典算法,這些算法適用於軌跡聚類,缺乏對軌跡數據多維度的分析,而軌跡間最相似軌跡段的計算尚無比較統一的方法。目前尚無面向用戶的純粹的軌跡相似度度量的系統,軌跡相似度計算多從屬於一些移動端應用的模塊等。



技術實現要素:

發明目的:針對現有技術中存在的問題,本發明提供一種結果更加準確,同時利用最長公共子序列的方法來構造軌跡間的最相似段的不同軌跡間相似度度量系統及其度量方法。

技術方案:為解決上述技術問題,本發明提供一種不同軌跡間相似度度量系統,包括用戶參與的軌跡數據文件上傳模塊和計算結果可視化模塊,其中軌跡數據文件上傳模塊通過數據預處理模塊後經過軌跡間相似度計算模塊得到最相似段構造模塊,最後通過計算結果可視化模塊傳送給用戶;

軌跡數據文件上傳模塊用於通過web上傳方式獲取數據;

數據預處理模塊用於讀取從數據採集模塊獲取的軌跡數據,判斷軌跡數據是否為經緯度或經緯度帶時間定義的合法數據;

軌跡間相似度計算模塊用於在保留軌跡整體特徵的情況下對已經過預處理的兩條軌跡進行軌跡點的匹配,然後對匹配結果進行統計分析,結合動態時間規整得出的特徵值計算出軌跡間的相似度大小;

最相似段構造模塊用於按順序考慮每一對軌跡點是否可以構造一對臨近點對,最終得出全局最優結果,並從構造結果內得出不同對子軌跡段,進而從子軌跡段對中找出最相似軌跡段;

計算結果可視化模塊用於將分析的結果通過gis形式進行展現。

進一步的,所述計算結果可視化模塊包括顯示器和含有gps定位功能的地圖軟體。

一種如上所述的不同軌跡間相似度度量系統的度量方法,具體步驟如下:

步驟一:通過軌跡數據文件上傳模塊實現數據上傳,具體的:使用web上傳方式採集數據,通過監聽web客戶端的數據上傳請求,建立客戶端和數據存儲伺服器的socket連接,再使用javai/o流將數據集寫入到數據存儲伺服器的文件系統中;

步驟二:讀取步驟一中軌跡數據文件上傳模塊獲取的軌跡數據,判斷軌跡數據文件是否合法,即是否為經緯度或經緯度帶時間定義的軌跡;如果判斷文件合法則進入步驟三,如果判斷文件不合法則進行錯誤提示並返回步驟一;

步驟三:通過數據預處理模塊對合法的文件進行預處理,預處理主要包括異常點檢測並去除,利用k-means算法對一條軌跡進行聚類,若某個類中僅有單獨一個軌跡點,則認定該軌跡點為異常點,將其去除,通過預處理提取出軌跡數據對象;

步驟四:通過軌跡間相似度計算模塊對軌跡間的相似度進行評價,具體的:基於經典的動態時間規整算法,在保留軌跡整體特徵的情況下對已經預處理的兩條軌跡進行軌跡點的匹配,然後對匹配結果進行統計分析,從經過臨近的點、經過各點的順序、經過各點的時間接近程度這三個方面考量軌跡間的相似度,最終歸一化處理計算出軌跡間的相似度大小;

步驟五:通過最相似段構造模塊尋找出最為相似的兩條軌跡,具體的:利用統計分析找出兩條軌跡上軌跡點之間區分臨近的一個距離閾值,利用該閾值進行最長公共子序列的構造,結合動態規劃思想,按順序考慮每一對軌跡點是否可以構造一對臨近點對,最終得出全局最優結果;然後從構造結果內得出不同對子軌跡段,繼而計算每對子軌跡段之間的相似度大小,子軌跡段之間相似度的計算按照步驟四中的計算方法依然考慮經過臨近的點、經過各點的順序、經過各點的時間接近程度這三個方面,從子軌跡段對中找出最相似軌跡段即為兩條軌跡最相似段;

步驟六:通過計算結果可視化模塊將計算結果顯示出來。

與現有技術相比,本發明的優點在於:

本發明充分分析影響軌跡間相似度的軌跡點之間距離、順序差、時間差等因素,綜合這些因素來評價軌跡間的相似度,將統計分析的思想與經典的動態時間規整算法相結合,深入考慮了軌跡間相似度的語義背景,相較於單一利用歐氏距離度量、利用動態時間規整距離度量、或者利用編輯距離度量等軌跡間相似度度量方法,計算結果更符合語義需要,更準確,可信度也更高。同時基於本相似度度量方法創新地利用最長公共子序列算法的思想來構造軌跡間的最相似段,提供了一種查詢軌跡間最相似軌跡段的方案,該方案查詢結果滿足需要,並且利用動態規劃思想實現最長公共子序列算法也使得這種構造方法效率較高。

附圖說明

圖1為本發明的結構示意圖;

圖2為本發明的總體流程圖。

具體實施方式

下面結合附圖和具體實施方式,進一步闡明本發明。

如圖1所示,本發明涉及的軌跡相似度度量系統為用戶提供了經緯度或經緯度帶時間定義的不同軌跡間相似度的度量以及最相似軌跡段的查詢功能,用戶只需在軌跡數據上傳模塊提交軌跡數據文件,即可在結果可視化模塊查看所提交軌跡的計算結果,非常便捷。

本發明設計並實現軌跡數據文件上傳模塊使用web上傳方式獲取數據,其處理機制是通過監聽web客戶端的數據上傳請求,建立客戶端和數據存儲伺服器的socket連接,再使用javai/o流將數據集寫入到數據存儲伺服器的文件系統中。對於單個軌跡數據文件或者軌跡數據文件集,分別採取不同處理方法。

軌跡數據預處理模塊先讀取從數據採集模塊獲取的軌跡數據,判斷軌跡數據是否為經緯度或經緯度帶時間定義的合法數據。若不合法則返回錯誤提示,若合法則繼續進行必要的預處理,包括異常點檢測、缺失值處理、數據壓縮,避免異常數據以及冗餘數據。

本發明提出的系統的核心思想是引入統計分析的思想,對軌跡間的相似度進行評價。基於經典的動態時間規整算法,在保留軌跡整體特徵的情況下對已經過預處理的兩條軌跡進行軌跡點的匹配,然後對匹配結果進行統計分析,結合動態時間規整得出的特徵值計算出軌跡間的相似度大小。

本發明提出的系統是利用統計分析找出兩條軌跡上軌跡點之間區分臨近的一個距離閾值,利用該閾值進行最長公共子序列的構造。結合動態規劃思想,按順序考慮每一對軌跡點是否可以構造一對臨近點對,最終得出全局最優結果。從構造結果內得出不同對子軌跡段,進而從子軌跡段對中找出最相似軌跡段。

本發明對於軌跡相似度分析的展示結果使用gis形式,調用了百度地圖api來實現的。

本發明所述的度量方法主要包括以下步驟;

步驟1:設計並實現軌跡數據文件上傳模塊。使用web上傳方式採集數據,通過監聽web客戶端的數據上傳請求,建立客戶端和數據存儲伺服器的socket連接,再使用javai/o流將數據集寫入到數據存儲伺服器的文件系統中。考慮到軌跡數據可以是單個軌跡數據文件或者軌跡數據文件集,應分別採取不同處理方法。

步驟2:設計並實現數據預處理模塊。讀取軌跡數據文件上傳模塊獲取的軌跡數據,判斷軌跡數據文件是否合法,即是否為經緯度或經緯度帶時間定義的軌跡。若數據不合法則進行錯誤提示,對於合法的數據進一步進行必要的預處理,包括異常點檢測、缺失值處理、數據壓縮,避免異常數據以及冗餘數據對軌跡相似度度量的影響。軌跡數據經預處理提取出軌跡數據對象,供後續軌跡間相似度的度量。

步驟3:設計並實現相似度評價模型模塊。引入統計分析的思想,對軌跡間的相似度進行評價。基於經典的動態時間規整算法,在保留軌跡整體特徵的情況下對已經過預處理的兩條軌跡進行軌跡點的匹配,然後對匹配結果進行統計分析,從經過臨近的點、經過各點的順序、經過各點的時間接近程度這三個方面考量軌跡間的相似度,最終歸一化處理計算出軌跡間的相似度大小。

步驟4:設計並實現軌跡間最相似段構造模塊。利用統計分析找出兩條軌跡上軌跡點之間區分臨近的一個距離閾值,利用該閾值進行最長公共子序列的構造,結合動態規劃思想,按順序考慮每一對軌跡點是否可以構造一對臨近點對,最終得出全局最優結果。從構造結果內得出不同對子軌跡段,繼而計算每對子軌跡段之間的相似度大小,子軌跡段之間相似度的計算依然考慮經過臨近的點、經過各點的順序、經過各點的時間接近程度這三個方面,從子軌跡段對中找出最相似軌跡段即為兩條軌跡最相似段。

步驟5:設計並實現結果可視化顯示模塊。首先將相似度計算結果進行展示,同時可以通過調用可訪問百度地圖進行軌跡的展示,充分表現軌跡的經緯度信息並在途中標註出最相似軌跡段。

如圖2所示,本發明所述的不同軌跡間相似度度量系統的度量方法,具體步驟如下:

步驟一:通過軌跡數據文件上傳模塊實現數據上傳,具體的:使用web上傳方式採集數據,通過監聽web客戶端的數據上傳請求,建立客戶端和數據存儲伺服器的socket連接,再使用javai/o流將數據集寫入到數據存儲伺服器的文件系統中;

步驟二:讀取步驟一中軌跡數據文件上傳模塊獲取的軌跡數據,判斷軌跡數據文件是否合法,即是否為經緯度或經緯度帶時間定義的軌跡;如果判斷文件合法則進入步驟三,如果判斷文件不合法則進行錯誤提示並返回步驟一;

步驟三:通過數據預處理模塊對合法的文件進行預處理,預處理主要包括異常點檢測並去除,利用k-means算法對一條軌跡進行聚類,若某個類中僅有單獨一個軌跡點,則認定該軌跡點為異常點,將其去除,通過預處理提取出軌跡數據對象;

步驟四:通過軌跡間相似度計算模塊對軌跡間的相似度進行評價,具體的:基於經典的動態時間規整算法,在保留軌跡整體特徵的情況下對已經預處理的兩條軌跡進行軌跡點的匹配,然後對匹配結果進行統計分析,從經過臨近的點、經過各點的順序、經過各點的時間接近程度這三個方面考量軌跡間的相似度,最終歸一化處理計算出軌跡間的相似度大小;

步驟五:通過最相似段構造模塊尋找出最為相似的兩條軌跡,具體的:利用統計分析找出兩條軌跡上軌跡點之間區分臨近的一個距離閾值,利用該閾值進行最長公共子序列的構造,結合動態規劃思想,按順序考慮每一對軌跡點是否可以構造一對臨近點對,最終得出全局最優結果;然後從構造結果內得出不同對子軌跡段,繼而計算每對子軌跡段之間的相似度大小,子軌跡段之間相似度的計算按照步驟四中的計算方法依然考慮經過臨近的點、經過各點的順序、經過各點的時間接近程度這三個方面,從子軌跡段對中找出最相似軌跡段即為兩條軌跡最相似段;

步驟六:通過計算結果可視化模塊將計算結果顯示出來。

以上所述僅為本發明的實施例子而已,並不用於限制本發明。凡在本發明的原則之內,所作的等同替換,均應包含在本發明的保護範圍之內。本發明未作詳細闡述的內容屬於本專業領域技術人員公知的已有技術。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀