一種數據分類裝置及方法與流程
2024-04-13 10:48:05
1.本發明涉及一種用於通過分析從物聯網傳感器收集的數據來提供擴展信息的數據分類裝置及方法。
背景技術:
2.通常,計算機數值控制(computerized numerical control,cnc)工具機是一種內置高性能運算裝置的數控(numerical control,nc)工具機,通過計算機自動對加工形狀、加工條件、加工操作等數據進行編程,轉換成nc數據,再將nc數據轉換成脈衝信號的狀態來驅動工具機。最近,隨著物聯網技術的發展,cnc工具機也正在發展,配備了各種類型的傳感器和通信模塊,以實現遠程監控或控制。
3.上述的背景技術是發明人為了獲得本發明而擁有或者獲得本發明的過程中掌握的技術信息,並非是申請本發明之前已對普通公眾公開的公知技術。
4.專利文獻1:韓國註冊專利公報第10-0952619號(2010.04.06)
技術實現要素:
5.技術問題
6.本發明的目的在於提供一種數據分類裝置和方法,其分析從可配備或設置在機器上的物聯網傳感器收集的數據,以對機器的狀態進行分類。
7.本發明的另一目的在於提供一種數據分類裝置和方法,其在分析從可配備或設置在機器上的物聯網傳感器收集的數據時,使用屬於無監督學習類別的分析模型,不需要單獨的訓練數據和訓練期間,並且可以應用於異構數據。
8.本發明的又一目的在於提供一種數據分類裝置和方法,其具有也可適用於從物聯網傳感器收集的微數據結構的通用性。
9.本發明要解決的問題不限於上述問題,本發明的其他未提及的問題和優點可以通過下面的描述來理解,並且通過本發明的實施例可以更加清楚地理解。此外,應當理解,本發明要解決的問題和優點可以通過權利要求中指出的方式及其組合來實現。
10.解決方法
11.本發明一實施例的數據分類方法是一種由數據分類裝置的處理器執行的數據分類方法,其包括如下步驟:從可配備或設置在機器上的物聯網傳感器收集時間序列傳感器數據;生成強調時間序列傳感器數據的第1處理數據;根據第1處理數據生成用於確定機器的狀態的第2處理數據;以及根據第2處理數據從所述第1處理數據中對機器的狀態進行分類,所述機器的狀態可以包括如下狀態中的至少一個:第1狀態,其為機器被激活且第1處理數據包括在在一定區間上沒有以任意模式可視化的非模式區間中;和第2狀態,其為機器被激活且第1處理數據包括在在一定區間上以任意模式可視化的模式區間中。
12.本發明一實施例的數據分類裝置包括:處理器;和存儲器,其可操作地連接到處理器並存儲由處理器執行的至少一個代碼,所述存儲器包括引起如下處理的代碼:當通過處
理器執行時,處理器從可配備或設置在機器上的物聯網傳感器收集時間序列傳感器數據;生成強調時間序列傳感器數據的第1處理數據;根據第1處理數據生成用於確定機器的狀態的第2處理數據;以及根據第2處理數據從第1處理數據中對機器的狀態進行分類,所述機器的狀態可以包括如下狀態中的至少一個:第1狀態,其為機器被激活且第1處理數據包括在在一定區間上沒有以任意模式可視化的非模式區間中;和第2狀態,其為機器被激活且第1處理數據包括在在一定區間上以任意模式可視化的模式區間中。
13.除此之外,還可以提供一種計算機可讀記錄介質,其存儲用於實現本發明的其他方法、其他系統和用於執行所述方法的電腦程式。
14.下文將參照附圖、權利要求和本發明的詳細說明更清楚地描述除上述那些之外的其他方面、特徵和優點。
15.有益效果
16.根據本發明,可以提供一種數據分類裝置和方法,其在分析從可配備或設置在機器上的物聯網傳感器收集的數據,以對機器的狀態進行分類方面,分類準確度高。
17.另外,可以提供一種數據分類裝置和方法,其在分析從可配備或設置在機器上的物聯網傳感器收集的數據時,使用屬於無監督學習類別的分析模型,不需要單獨的訓練數據和訓練期間,並且可以應用於異構數據。
18.此外,可以提供一種數據分類裝置和方法,由於其具有也可適用於從物聯網傳感器收集的微數據結構的通用性,因此即使通過性能相對較低的運算裝置也可以進行實際可應用的數據分類,從而可以降低成本。
19.本發明的效果不限於上述提及的那些,並且本領域技術人員將通過以下描述清楚地理解未提及的其他效果。
附圖說明
20.圖1為根據本實施例的數據分類環境的示例圖。
21.圖2為根據本實施例的數據分類裝置的結構的示意性框圖。
22.圖3為圖2的數據分類裝置中的分類處理單元的結構的示意性框圖。
23.圖4至圖11為用於描述根據本實施例的數據分類的圖表。
24.圖12為根據另一實施例的數據分類裝置的結構的示意性框圖。
25.圖13和圖14為用於描述根據本實施例的數據分類方法的流程圖。
具體實施方式
26.通過結合附圖詳細描述的實施例,本發明的優點和特徵以及實現它們的方法將變得顯而易見。然而,本發明不限於以下所示的實施例,而是可以以各種不同的形式實施,並且應當理解為包括包含在本發明的精神和技術範圍內的所有變更、等同物和替代物。下面提供的實施例使本發明的公開更加完整,並且有助於本領域普通技術人員充分理解本發明的範圍。在描述本發明時,如果確定相關已知技術的詳細描述可能使本發明的主旨模糊不清,則將省略其詳細描述。
27.本技術中使用的術語僅用於描述具體實施例,並不用於限制本發明。除非上下文另有明確規定,否則單數形式包括複數形式。在本技術中,應當理解,「包括」或「具有」等術
語旨在表示說明書中描述的特徵、數量、步驟、操作、組件、部件或其組合的存在,而不預先排除存在或添加一個或多個其他特徵或數量、步驟、操作、組件、部件或其組合的可能性。可以使用諸如第一、第二等術語來描述各種組件,但組件不應受所述術語的限制。所述術語僅用於區分一個組件與另一個組件的目的。
28.另外,在本技術中,「單元」可以為如處理器或電路等的硬體部件(hardware component),和/或由如處理器等的硬體組件執行的軟體組件(software component)。
29.下面將參照附圖詳細描述根據本發明的實施例,在參考附圖的描述中,相同的附圖標記分配給相同或對應的組件,並且將省略其重複描述。
30.圖1為根據本實施例的數據分類環境的示例圖。參見圖1,數據分類環境1可以包括數據分類裝置100、機器200、物聯網傳感器300、用戶終端400和網絡500。
31.數據分類裝置100可以處理數據,以更有效地分析從可配備或設置在機器200上的物聯網傳感器300收集的數據的含義。數據分類裝置100可以通過從可配備或設置在機器200上的物聯網傳感器300簡單收集的數據的解釋來對與機器200有關的擴展信息進行分類。其中,與機器200有關的擴展信息,例如可以包括機器200的狀態信息。
32.在本實施例中,機器200可以包括用於基於電動機成形金屬物體的金屬加工機器。但不限於此,任何在內部和外部具有物聯網傳感器300且能夠與數據分類裝置100通信的機器都可以應用於本實施例。
33.在本實施例中,物聯網傳感器300為一種應用於物聯網環境的傳感器,可以配置在機器200上以感測與機器200有關的數據並將其傳送給數據分類裝置100。這些物聯網傳感器300可以包括電流傳感器、振動傳感器、照度傳感器、溫度傳感器、接近傳感器等。在本實施例中,為了描述方便,假設物聯網傳感器300為電流傳感器。
34.在本實施例中,由數據分類裝置100分類的機器200的狀態可以包括第0狀態、第1狀態、第2狀態和第2-1狀態至第2-3狀態。
35.第0狀態可以包括機器200包括在非激活區間的狀態。其中,非激活(inactive)區間可以包括機器200的電源被切斷的區間。例如,如果機器200為攪拌器,則第0狀態可以處於攪拌器的電源被切斷的狀態。在本實施例中,與第0狀態相反,第1狀態、第2狀態以及第2-1狀態至第2-3狀態可以包括包括在激活區間的狀態。其中,激活(active)區間可以包括提供機器200電源的區間。
36.第1狀態可以表示機器200被激活且後述的第1處理數據包括在在一定區間上沒有以任意模式可視化的非模式區間中的狀態。即,第1狀態可以包括向機器200供電且機器200不運行的狀態。例如,如果機器200為攪拌器,則第1狀態可以為在向攪拌器供電後按下操作按鈕之前的狀態。
37.第2狀態可以表示機器200被激活且後述的第1處理數據包括在在一定區間上以任意模式可視化的模式區間中的狀態。即,第2狀態可以包括向機器200供電且機器200運行的狀態。例如,如果機器200為攪拌器,則第2狀態可以為在向攪拌器供電後按下操作按鈕以使攪拌器運行的狀態。其中,當輸入攪拌器的操作按鈕時,可以生成與其對應的任意模式。
38.第2-1狀態可以表示包括在第1模式區間的狀態,其中,所述第1模式區間為第2狀態中包括的任意模式以預設數量或更多數量重複並可視化的區間。即,第2-1狀態可以包括向機器200供電且機器200正常運行的狀態。例如,如果機器200為攪拌器,則第2-1狀態可以
為輸入操作按鈕預設次數或更多次數以使攪拌器運行的狀態。其中,當輸入攪拌器的操作按鈕預設次數或更多次數時,可以生成與其對應的任意模式預設次數或更多次數。生成預設次數或更多次數的任意模式可以形成第1模式區間。
39.第2-2狀態可以表示包括在第2模式區間的狀態,其中,所述第2模式區間為第2狀態中包括的任意模式以小於預設數量重複並可視化的區間。即,第2-2狀態可以包括向機器200供電且機器200運行異常,但不是發生錯誤情況的狀態。例如,如果機器200為攪拌器,則第2-2狀態可以為在向攪拌器供電後按下操作按鈕以測試攪拌器是否正常運行的狀態。為了測試攪拌器而輸入的操作按鈕與為了混合攪拌器中填充的內容物而輸入的操作按鈕的時間和強度可以彼此不同。因此根據為了測試攪拌器而輸入的操作按鈕生成的模式與根據為了混合攪拌器中填充的內容物而輸入的操作按鈕生成的模式可以彼此不同。如上所述,通過測試攪拌器來生成的模式可以形成第2模式區間。在另一實施例中,如果機器200為金屬加工機器,則第2-2狀態可以為對金屬加工機器進行預熱(warmup)、冷卻(cooldown)或測試(test)的狀態。
40.第2-3狀態可以表示通過後述的動態時間規整法(dynamic time warping,dtw)將第1狀態中包括的第1處理數據改變為第1模式區間的狀態。即,第2-3狀態可以包括通過信號處理將原來包括在非模式區間的第1處理數據改變為包括第1模式區間和第2模式區間的模式區間中的第1模式區間的情況。
41.例如,如果機器200為攪拌器,則第2-3狀態可以描述如下。在第1過程中,可以通過輸入操作按鈕來運行攪拌器以混合攪拌器內部的內容物。在第1過程中,包括在第1模式區間的模式區間可以由任意模式生成。在第2過程中,當攪拌器運行時,可能會出現內容物卡在攪拌器刀片上,攪拌器停止運行一段時間的情況,此時,可以細分為從攪拌器操作開始直到內容物被卡住的第2-0過程;直到卡住的內容物被移除的第2-1過程;以及移除內容物後直至混合完成的第2-3過程。在第2-1過程中,由於攪拌器的操作停止,因此可以生成非模式區間,而在第2-0過程和第2-2過程中,可以分別生成任意模式區間。如果在第1過程和第2過程中以相同程度混合相同的內容物,則當對第2-0過程和第2-2過程的模式進行規整(warping)時,其可以為包括在第1模式區間的模式。因此,當將動態時間規整法應用於第2-0過程至第2-2過程的信號時,在第2-0過程和第2-2過程的規整模式包括在第1模式區間的情況下,可以將第2過程的非模式區間改變為第1模式區間。如上所述,可以將第2過程的非模式區間改變為第1模式區間的狀態稱為第2-3狀態。為了對機器200的狀態進行分類,數據分類裝置100可以從可配備或設置在機器200上的物聯網傳感器300收集時間序列傳感器數據。其中,時間序列傳感器數據可以包括時間戳和物理值,所述時間戳表示物聯網傳感器300感測到機器200的時間信息,所述物理值表示物聯網傳感器300在時間戳中針對機器200感測到的值(例如,電流值)。另外,時間序列傳感器數據可以被稱為原始數據。在本實施例中,原始數據可以用針對時間戳(x軸)的物理值(y軸)表示的多個點來表示,並且通過將這些點連接起來,就可以表示為圖表(圖4)。參照圖表可見,其劃分為預定模式被可視化的模式區間和模式未被可視化的非模式區間。
42.數據分類裝置100可以根據從物聯網傳感器300收集的原始數據估計基線(baseline)。其中,基線可以是指,在機器200不運行時跟蹤由物聯網傳感器300感測到的基本物理值的線,包括供電區間與斷電區間。在本實施例中,基線可以屬於非模式區間。數據
分類裝置100可以從基線的估計結果對機器包括在非激活區間的第0狀態進行分類。
43.數據分類裝置100可以生成強調原始數據的第1處理數據。其中,強調原始數據的含義可以包括,對包括非模式區間和模式區間的原始數據中的模式區間進行表徵並清楚地可視化。為了生成第1處理數據,數據分類裝置100可以通過應用從原始數據估計的基線來生成子時間序列傳感器數據。數據分類裝置100可以通過從子時間序列傳感器數據去除噪聲來生成強調原始數據的模式區間的第1處理數據。
44.數據分類裝置100可以根據第1處理數據生成用於確定機器200的狀態的第2處理數據。其中,第2處理數據可以包括可確定針對機器200的第1狀態和第2狀態的動態閾值(dynamic threshold)。數據分類裝置100可以應用針對第1處理數據的統計特徵和高階微分(例如,四階微分)值以生成第2處理數據。
45.數據分類裝置100可以根據第2處理數據從第1處理數據中分類出機器200的狀態。其中,所述機器200的狀態可以包括第1狀態和第2狀態中的至少一個。例如,數據分類裝置100可以基於第2處理數據將機器200對第1方向上數據的狀態分類為第1狀態。並且,數據分類裝置100可以基於第2處理數據將機器200對與第1方向相隔180度的第2方向上數據的狀態分類為第2狀態。在本實施例中,數據分類裝置100可以使用第1機器學習分類模型對與第1處理數據對應的機器200的狀態進行分類,所述第1機器學習分類模型以第1處理數據和第2處理數據作為輸入對機器的狀態進行分類。
46.數據分類裝置100還可以執行一系列的數據處理以提高分類準確度和細化分類。其中,一系列的數據處理的含義可以包括,測量第0狀態至第2狀態中包括的第1處理數據的相似度的處理。數據分類裝置100可以根據相似度測量結果,從通過使用包括在模式區間的第1處理數據和第1機器學習分類模型來分類的機器200的狀態,將機器200的狀態進一步分類為第2-1狀態、第2-2狀態和第2-3狀態中的至少一個狀態。在本實施例中,數據分類裝置100可以使用第2機器學習分類模型對與第0狀態至第2狀態中包括的第1處理數據對應的機器200的狀態進一步進行分類,其中,所述第2機器學習分類模型將通過使用包括在模式區間的第1處理數據和第1機器學習分類模型來分類的機器200的狀態作為輸入,進一步對機器的狀態進行分類。
47.在本實施例中,將機器200的狀態分類為第0狀態至第2狀態中的至少一個的操作可以被稱為1級分類。並且,將機器200的第2狀態進一步分類為第2-1狀態至第2-3狀態中的至少一個的操作可以被稱為2級分類。
48.數據分類裝置100可以將1級分類和2級分類的結果應用於作為原始數據的時間序列傳感器數據,以準確分類各個時間序列傳感器數據屬於機器200的哪個狀態。
49.在本實施例中,數據分類裝置100可以以伺服器的形式獨立存在,或者可以以應用程式的形式實現由數據分類裝置100執行的數據分類功能,以安裝在用戶終端400上。
50.另外,數據分類裝置100可以為提供應用各種人工智慧算法所需的數據的資料庫伺服器。
51.其中,人工智慧(artificial intelligence,ai)屬於一種計算機科學和信息技術的領域,其研究如何使計算機能夠在人類智能水平上進行思考、學習和自我發展等,可以是指使計算機能夠模仿人類的智能行為。
52.另外,人工智慧不是獨立存在的,而是直接或間接地與計算機科學的其他領域有
許多相關。特別是在現代,人工智慧元素已被引入到信息技術的各個領域,並正在積極嘗試使用人工智慧解決這些領域的問題。
53.機器學習(machine learning)為人工智慧的一個分支,可以包括使計算機能夠在沒有明確編程的情況下進行學習的研究領域。具體而言,機器學習可以說是一種研究和構建基於經驗數據進行學習、預測並提高自身性能的系統和其算法的技術。機器學習的算法可以採用構建特定模型的方法以根據輸入數據進行預測或決策,而不是執行嚴格設置的靜態程序指令。
54.用戶終端400可以通過訪問由數據分類裝置100提供的數據分類應用程式和/或數據分類網站來接收數據分類服務。
55.這些用戶終端400可以包括可執行計算裝置(未示出)的功能的通信終端,除了由用戶操作的桌上型電腦401、智慧型手機403、筆記本電腦404之外,還可以為但不限於平板電腦、智能電視、手機、個人數字助理(personal digital assistant,pda)、媒體播放器、微型伺服器、全球定位系統(global positioning system,gps)設備,電子書終端、數字廣播終端、導航設備、信息亭、mp3播放器、數位相機、家用電器和其他移動或非移動計算裝置。並且,用戶終端400可以為手錶、眼鏡、髮帶、戒指等具有通信功能和數據處理功能的可穿戴終端。這些用戶終端400不限於上述內容,可以無限制地借用可瀏覽網頁的終端。
56.網絡500可以執行連接數據分類裝置100、物聯網傳感器300和用戶終端400的功能。這些網絡500例如可以為諸如區域網(local area network,lan)、廣域網(wide area network,wan)、城域網(metropolitan area network,man)和綜合服務數字網絡(integrated service digital network,isdn)等的有線網絡,或者諸如無線區域網(wireless lan,wlan)、碼分多址(code-division multiple access,cdma)和衛星通信等的無線網絡,但本發明的範圍不限於此。另外,網絡500可以使用短距離通信和/或長距離通信來發送/接收信息。其中,短距離通信可以包括藍牙(bluetooth)、射頻識別(radio frequency identification,rfid)、紅外數據協會(infrared data association,irda)、超寬帶(ultra-wideband,uwb)、紫蜂(zigbee)和wi-fi技術,長距離通信可以包括碼分多址(code-division multiple access,cdma)、頻分多址(frequency-division multiple access,fdma)、時分多址(time-division multiple access,tdma)、正交頻分多址(orthogonal frequency-division multiple access,ofdma)、單載波頻分多址(single carrier frequency-division multiple access,sc-fdma)技術。
57.網絡500可以包括網絡元件的連接,例如集線器、網橋、路由器和交換機。網絡500可以包括至少一個連接的網絡,例如,多個網絡環境,所述連接的網絡包括諸如網際網路之類的公共網絡和諸如安全的公司私有網絡之類的私有網絡。可以通過至少一個有線或無線接入網絡來提供對網絡500的訪問。
58.進一步地,網絡500可以支持控制器區域網(controller area network,can)、車輛與基礎設施(vehicle-to-infrastructure,v2i)、車輛與萬物(vehicle-to-everything,v2x)和無線接入車輛環境(wireless access in vehicular environment,wave)通信技術,以及在對象等分散的組件之間交換和處理信息的物聯網(internet of things,iot)和/或窄帶物聯網(nb-iot)和/或5g通信。其中,窄帶物聯網(nb(narrowband)-iot)為使用長期演進技術(long-term evolution,lte)頻率的低功耗/廣域物聯網技術之一,可用於間
歇性傳輸少量數據的跟蹤、感測和抄表等。
59.圖2為根據本實施例的數據分類裝置的結構的示意性框圖。下面將省略與圖1的描述重複的部分。參見圖2,數據分類裝置100可以包括通信單元110、存儲介質120、程序存儲單元130、資料庫140、分類處理單元150和控制單元160。
60.通信單元110可以提供通過與網絡500的互通以分組數據的形式提供數據分類裝置100、機器200、物聯網傳感器300和用戶終端400之間的發送/接收信號所必需的通信接口。進一步地,通信單元110可以執行從用戶終端400接收預定信息請求信號的功能,分類處理單元150可以執行將處理後的信息發送到用戶終端400的功能。其中,通信網絡為用於連接數據分類裝置100與用戶終端400的介質,其可以包括提供訪問路徑的路徑,使得用戶終端400可以在訪問數據分類裝置100後發送/接收信息。另外,通信單元110可以為包括通過與其他網絡裝置的有線/無線連接來發送/接收諸如控制信號或數據信號的信號所必需的硬體和軟體的裝置。
61.存儲介質120執行臨時或永久存儲由控制單元160處理的數據的功能。其中,存儲介質120可以包括磁存儲介質(magneticstoragemedia)或快閃記憶體存儲介質(flashstoragemedia),但本發明的範圍不限於此。這些存儲介質120可以包括內部存儲器和/或外部存儲器,可以包括動態隨機存取存儲器(dram)、靜態隨機存取存儲器(sram)或同步動態隨機存取內存(sdram)等易失性存儲器,一次性可編程只讀存儲器(onetimeprogrammablerom,otprom)、可編程只讀存儲器(prom)、可擦寫可編程只讀存儲器(eprom)、帶電可擦可編程只讀存儲器(eeprom)、掩模只讀存儲器(maskrom)、快速擦寫只讀編程器(flash
62.rom)、nand快閃記憶體存儲器或nor快閃記憶體存儲器等非易失性存儲器,
63.固態硬碟(ssd)、緊湊型快閃記憶體(compact
64.flash,cf)卡、sd卡、micro-sd卡、mini-sd卡、xd卡或存儲棒(memorystick)等快閃記憶體驅動器,或機械硬碟(hdd)等存儲裝置。
65.程序存儲單元130裝載有執行如下操作等的控制軟體:從可配備或設置在機器200上的物聯網傳感器300收集時間序列傳感器數據;通過從時間序列傳感器數據跟蹤物聯網傳感器300的基本物理值來估計基線;從基線的估計結果對機器200的第0狀態進行分類;生成強調時間序列傳感器數據的第1處理數據;根據第1處理數據生成用於確定機器200的狀態的第2處理數據;根據第2處理數據從第1處理數據將機器200的狀態分類為第1狀態和第2狀態中的至少一個;測量針對包括在模式區間的第1處理數據的相似度;和基於相似度測量結果從包括在模式區間的第1處理數據將機器200的狀態進一步分類為第2-1狀態、第2-2狀態和第2-3狀態中的至少一個。
66.資料庫可以包括管理資料庫,所述管理資料庫存儲機器200的類型和規格信息,和可配備或設置在機器200上的物聯網傳感器300的類型和規格信息。另外,為了對機器200的狀態進行分類,管理資料庫可以存儲從物聯網傳感器300收集的時間序列傳感器數據和由分類處理單元150處理的數據。
67.此外,資料庫140可以包括存儲待被提供數據分類服務的用戶的信息的用戶資料庫。其中,用戶信息可以包括用戶的姓名、所屬機構、個人信息、性別、年齡、聯繫方式、電子郵件、地址和圖像等有關用戶的基本信息,身份驗證(id)(或電子郵件)和密碼(password)等有關用戶認證(登錄)的信息,和訪問國家、訪問位置、訪問所用裝置的信息、訪問網絡環
境等有關訪問的信息等。
68.並且,用戶資料庫可以包括用戶的唯一信息、用戶訪問數據分類應用程式或數據分類網站時提供的信息和/或類別歷史、用戶所設置的環境設置信息、用戶所使用的資源使用量信息,和存儲與用戶的資源使用量對應的計費和支付信息。
69.分類處理單元150可以從可配備或設置在機器200上的物聯網傳感器300收集時間序列傳感器數據。分類處理單元150可以通過從時間序列傳感器數據跟蹤物聯網傳感器300的基本物理值來估計基線,並從基線的估計結果對機器200的第0狀態進行分類。分類處理單元150可以生成強調時間序列傳感器數據的第1處理數據。分類處理單元150可以根據第1處理數據生成用於確定機器200的狀態的第2處理數據。分類處理單元150可以根據第2處理數據從第1處理數據將機器200的狀態分類為第1狀態和第2狀態中的至少一個。分類處理單元150可以測量第0狀態至第2狀態中包括的第1處理數據的相似度,基於相似度測量結果從第0狀態至第2狀態中包括的第1處理數據將機器200的狀態進一步分類為第2-1狀態、第2-2狀態和第2-3狀態中的至少一個。
70.控制單元160為一種中央處理單元,其可以通過驅動安裝在程序存儲單元130的控制軟體來控制數據分類裝置100整體的操作。控制單元160可以包括能夠處理數據的各種裝置,例如處理器(processor)。其中,「處理器(processor)」可以是指嵌入在硬體中的數據處理裝置,例如,具有一種物理結構化的電路來執行包括在程序中的代碼或指令表示的功能。作為嵌入在上述硬體中的數據處理裝置的示例,可以包括微處理器(microprocessor)、中央處理單元(central processing unit,cpu)、處理器核(processor core)、多處理器(multiprocessor)、特定應用集成電路(application-specific integrated circuit,asic)和現場可編程門陣列(field programmable gate array,fpga)等的處理裝置,但本發明的範圍不限於此。
71.在本實施例中,控制單元160可以對從物聯網傳感器300收集的時間序列傳感器數據執行機器學習以對機器200的狀態進行分類,資料庫140可以存儲用於機器學習的數據、結果數據等。
72.另一方面,控制單元160可以配備機器學習算法,並且可以基於使用所收集的物聯網傳感器300的時間序列傳感器數據作為輸入數據的機器學習來執行機器200的狀態信息分類。
73.圖3為圖2的數據分類裝置中的分類處理單元的結構的示意性框圖,圖4至圖11為用於描述根據本實施例的數據分類的圖表。下面將省略與圖1的描述重複的部分。參見圖3至圖11,分類處理單元150可以包括收集單元151、估計單元152、第1生成單元153、第2生成單元154、第1分類單元155和第2分類單元156。
74.收集單元151可以從可配備或設置在機器200上的物聯網傳感器300收集時間序列傳感器數據。其中,時間序列傳感器數據可以包括時間戳和物理值,所述時間戳表示物聯網傳感器300感測到機器200的時間信息,所述物理值表示物聯網傳感器300在時間戳中針對機器200感測到的值。
75.圖4示出了從物聯網傳感器300收集的時間序列傳感器數據的圖表。參見圖4,x軸可以表示時間,y軸可以表示物理值。當物聯網傳感器300為電流傳感器時,x軸代表時間戳,即電流傳感器感測到機器200的電流的時間,y軸代表時間戳中電流傳感器針對機器200感
測到的電流值。參照圖4可見,其劃分為預定模式被可視化的模式區間和模式未被可視化的非模式區間。並且,可以看出,模式區間是重複的。
76.估計單元152可以從物聯網傳感器300收集的時間序列傳感器數據估計基線。其中,基線可以是指,在機器200不運行時跟蹤由物聯網傳感器300感測到的基本物理值的線,包括供電區間與斷電區間。在本實施例中,基線可以屬於非模式區間。圖5示出了從圖4的時間序列傳感器數據圖表估計的基線的圖表。
77.常規機器(例如,攪拌器)在供電且機器未運行的狀態下可能具有恆定的待機功率。因此,可以使用這種待機功率或誤差範圍內的待機功率來生成基線。由此可以看出基線是固定的。
78.但由於根據本實施例的機器200布置在工廠,並且工廠使用的功率總是不同的,因此機器200的待機功率不能認為是恆定的。由此可見,基線是可變的。因此,為了準確地確定針對機器200的第1狀態,需要找到基線。因此,估計單元152可以首先估計時間序列傳感器數據中跟蹤物聯網傳感器300的基本物理值的線作為基線。另一方面,當待機功率恆定時,可以使用利用誤差範圍內的待機功率生成的基線。當待機功率恆定時,可以省略根據本實施例的估計單元152。估計單元152可以根據基線估計結果對機器200的第0狀態進行分類。數據分類裝置100可以從基線估計結果中找到物理值跳躍的跳躍點510。估計單元152可以基於跳躍點510的發生時間點將前一區間分類為第0狀態。
79.第1生成單元153可以生成強調時間序列傳感器數據的第1處理數據。第1生成單元153可以通過將所估計的基線應用於時間序列傳感器數據來生成子時間序列傳感器數據。其中,子時間序列傳感器數據可視為時間序列傳感器數據和所估計的基線的減法結果。圖6示出了作為時間序列傳感器數據和所估計的基線的減法結果的子時間序列傳感器數據的圖表。
80.第1生成單元153可以通過從子時間序列傳感器數據去除噪聲來生成強調時間序列傳感器數據的模式區間的第1處理數據。圖7示出了通過從子時間序列傳感器數據去除噪聲來生成的第1處理數據的圖表。
81.在本實施例中,第1生成單元153可以應用各種方法以生成第1處理數據。在一實施例中,第1生成單元153可以應用用於針對子時間序列傳感器數據固定採樣頻率的重採樣(resampling)、用於對固定頻率的子時間序列傳感器數據進行扁平化的下採樣(downsampling)、用於去除噪聲的濾波(filtering)等以生成第1處理數據。在本實施例中,第1生成單元153生成第1處理數據的過程可以被稱為預處理(preprocessing)過程。
82.如果機器200的狀態只是簡單地使用時間序列傳感器數據進行分類而沒有經過這些預處理過程,可能會出現如下問題。在本實施例中,物聯網傳感器300的收集周期可以設置為1毫秒(ms)至100000秒(s)之間的固定間隔。但由於數據收集過程中出現通信延遲等問題,可能無法定期收集實際時間序列傳感器數據。另外,由物聯網傳感器300感測的物理值中可能存在細微噪聲,並且可能存在由於機器200特性引起的噪聲。例如,對計算機數值控制工具機(cnc)而言,可能會出現諸如尖峰(spike)之類的噪聲,這從數據分析的角度來看是一個明顯的阻礙要素。
83.由於時間序列傳感器數據的周期不是恆定的,因此屬於模式區間的數據數量不同,物理值根據用於分析的數據提取時間點而變化,並且由於噪聲,可能難以提取模式區間
的特徵。由於這些問題,分類機器200的狀態的準確度會顯著降低。然而,對本實施例而言,通過預處理過程解決上述問題,可以提高分類機器200的狀態的準確度。
84.第2生成單元154可以根據第1處理數據生成用於確定機器200的狀態的第2處理數據。其中,第2處理數據可以包括可確定針對機器200的第1狀態和第2狀態的動態閾值(dynamic threshold)。第2生成單元154可以應用針對第1處理數據的統計特徵(例如,分布函數的特徵)和高階微分(例如,四階微分)值以生成第2處理數據。圖8示出了基於第1處理數據生成的第2處理數據。
85.在本實施例中,如果正確找到基線,則無需尋找第2處理數據(動態閾值)。然而,由於不知道準確的基線,估計單元152估計了基線。當使用所估計的基線對機器200的狀態進行分類時,可能降低分類準確度,並且可以生成第2處理數據以提高分類準確度。
86.在本實施例中,為了生成第2處理數據,使用動態閾值而不使用靜態閾值(static threshold)的原因如下。在使用靜態閾值的模型中,如果原始數據中存在兩種以上不同的模式,或者如果基線具有超出物聯網傳感器的感測誤差範圍的可變性,則可能會顯著降低分類準確度。然而,對本實施例而言,通過生成第2處理數據(動態閾值)來解決上述問題,可以提高分類機器200的狀態的準確度。
87.第1分類單元155可以根據第2處理數據從第1處理數據中分類出機器200的狀態。其中,所述機器200的狀態可以包括第1狀態和第2狀態中的至少一個。例如,數據分類裝置100可以基於第2處理數據將機器200對第1方向(圖8的810)上數據的狀態分類為第1狀態。並且,數據分類裝置100可以基於第2處理數據將機器200對與第1方向相隔180度的第2方向(圖8的820)上數據的狀態分類為第2狀態。
88.圖9示出了基於第2處理數據從第1處理數據對機器200的狀態進行1級分類的結果。在本實施例中,1級分類可以包括將機器200的狀態分類成第0狀態、第1狀態和第2狀態的結果。
89.圖9的(a)示出了機器200從第1處理數據分類成第0狀態的區間。圖9的(b)示出了機器200從第1處理數據分類成第1狀態的區間。圖9的(c)示出了機器200從第1處理數據分類成第2狀態的區間。圖9的(d)總括地示出了1級分類結果。
90.在本實施例中,第1分類單元155可以使用第1機器學習分類模型對與第1處理數據對應的機器的狀態進行分類,所述第1機器學習分類模型以第1處理數據和第2處理數據作為輸入對機器的狀態進行分類。
91.第2分類單元156還可以執行一系列的數據處理以提高分類準確度和細化分類。其中,一系列的數據處理的含義可以包括,通過將動態時間規整法應用於第0狀態至第2狀態中包括的第1處理數據來測量相似度的處理。第2分類單元156可以基於相似度測量結果從第0狀態至第2狀態中包括的第1處理數據將機器的狀態進一步分類為第2-1狀態、第2-2狀態和第2-3狀態中的至少一個。
92.第2分類單元156可以測量通過組合至少一個連續模式而生成的合成模式與相鄰模式之間的相似度。第2分類單元156可以將在誤差範圍內具有相似度的兩個或更多個模式聚類成一組。
93.作為聚類的結果,當某一個組中包括的模式的數量等於或大於預設數量時,第2分類單元156可以將該組中包括的模式分類為第2-1狀態。分類為第2-1狀態的模式可以包括
在第1模式區間。
94.作為聚類的結果,第2分類單元156可以將另一個組中包括的模式的數量小於預設數量的組中包括的模式分類為第2-2狀態。其中,第2分類單元156也可以將不包括在聚類結果組中的模式分類為第2-2狀態。分類為第2-2狀態的模式可以包括在第2模式區間。
95.第2分類單元156可以將原來包括在第1狀態但通過動態時間規整法包括在第1模式區間的模式另外分離出來,並將其分類為第2-3狀態。
96.圖10示出了對包括在模式區間的第1處理數據進行信號處理以對機器200的狀態進行2級分類的結果。在本實施例中,2級分類可以包括將第2狀態分類成第2-1狀態、第2-2狀態和第2-3狀態的結果。
97.圖10的(a)和(b)示出了將動態時間規整法應用於圖9的(c)的結果。如果將動態時間規整法應用於與圖9的(c)中所示的2和3對應的區間、與9和10對應的區間、與11和12對應的區間以及與15和16對應的區間,則可以生成與圖10的(a)和(b)中所示的1至12對應的模式。
98.由於與圖10的(a)中所示的1至11對應的模式在形狀上相似並且以預設數量或更多數量重複(例如,3個),因此可以分類為第2-1狀態。
99.由於圖10的(b)中所示的12模式與圖10的(a)中所示的1至11模式相比具有不同的模式形狀並且不以預設數量或更多數量重複,因此可以分類為第2-2狀態。
100.與圖10的(c)中所示的8和9對應的模式可以對應於圖9的(b)中所示的9和11,並且可以為第1狀態中包括的模式。另外,通過使用動態時間規整法的相似度測量,與圖10的(c)中所示的8和9對應的模式吸收到圖10的(a)中所示的8和9的模式。因此,與圖10的(c)中所示的8和9對應的模式從第1狀態吸收到第1模式區間並變成第2-1狀態,將其可以分類為第2-3狀態。
101.圖10的(d)示出了1級分類結果,圖10的(e)總括地示出了2級分類結果。
102.在本實施例中,第2分類單元156可以使用第2機器學習分類模型對與第0狀態至第2狀態中包括的第1處理數據對應的機器200的狀態進一步進行分類,其中,所述第2機器學習分類模型將通過使用包括在模式區間的第1處理數據和第1機器學習分類模型來分類的機器200的狀態作為輸入,進一步對機器的狀態進行分類。其中,第2機器學習分類模型可以為屬於無監督學習範疇的分析模型。
103.由於需要數據學習的監督學習系列的分析模型需要針對模式區間的搶先的學習數據和學習期間,因此如果初始學習後出現與現有模式不同的模式,則分類準確度可能會顯著降低。然而,在本實施例中,由於第2機器學習分類模型為屬於無監督學習範疇的分析模型,因此只使用給定數據中存在的模式區間的特徵,而不需要單獨的學習數據和學習期間,也可以應用於異構數據,並且不依賴於模式的形狀,從而可以提高分類準確度。
104.在本實施例中,分類處理單元150可以通過將上述1級分類和2級分類應用於時間序列傳感器數據中的每一個來對機器200的狀態進行分類。
105.圖11示出了針對作為原始數據的時間序列傳感器數據的1級分類和2級分類結果。參見圖11,圖11的(a)示出了作為圖4中所示的原始數據的時間序列傳感器數據。圖11的(b)總括地示出了針對原始數據的1級分類和2級分類結果。
106.數據分類裝置100可以將1級分類和2級分類的結果應用於作為原始數據的時間序
列傳感器數據,以準確分類各個時間序列傳感器數據屬於機器200的哪個狀態。
107.圖12為根據另一實施例的數據分類裝置的結構的示意性框圖。下面將省略與圖1至圖11的描述重複的部分。參見圖12,根據另一實施例的數據分類裝置100可以包括處理器170和存儲器180。
108.在本實施例中,處理器170可以處理由圖2和圖3所示的通信單元110、存儲介質120、程序存儲單元130、資料庫140、分類處理單元150和控制單元160執行的功能。
109.這樣的處理器170可以控制數據分類裝置100的整體操作。其中,「處理器(processor)」可以是指嵌入在硬體中的數據處理裝置,例如,具有一種物理結構化的電路來執行以包括在程序中的代碼或指令表示的功能。作為如上所述嵌入在硬體中的數據處理裝置的示例,可以包括諸如微處理器、中央處理單元、處理器核、多處理器、特定應用集成電路(asic)和現場可編程門陣列(fpga)之類的處理裝置,但本發明的範圍不限於此。
110.存儲器180可以可操作地連接到處理器170,並且存儲與由處理器170執行的操作相關聯的至少一個代碼。
111.並且,存儲器180可以執行臨時或永久存儲由處理器170處理的數據的功能,並且可以包括構建為資料庫140的數據。其中,存儲器180可以包括磁存儲介質或快閃記憶體存儲介質,但本發明的範圍不限於此。這樣的存儲器180可以包括內部存儲器和/或外部存儲器,可以包括動態隨機存取存儲器(dram)、靜態隨機存取存儲器(sram)或同步動態隨機存取內存(sdram)等易失性存儲器,一次性可編程只讀存儲器(otprom)、可編程只讀存儲器(prom)、可擦寫可編程只讀存儲器(eprom)、帶電可擦可編程只讀存儲器(eeprom)、掩模只讀存儲器(mask rom)、快速擦寫只讀編程器(flashrom)、nand快閃記憶體存儲器或nor快閃記憶體存儲器等非易失性存儲器,固態硬碟(ssd)、緊湊型快閃記憶體(cf)卡、sd卡、micro-sd卡、mini-sd卡、xd卡或存儲棒等快閃記憶體驅動器,或機械硬碟(hdd)等存儲裝置。
112.圖13為用於描述根據本實施例的數據分類方法的流程圖。下面將省略與圖1至圖12的描述重複的部分。將在處理器170由數據分類裝置100在外圍組件的幫助下執行的假設下描述根據本實施例的數據分類方法。
113.參見圖13,在步驟s1310中,處理器170可以從可配備或設置在機器200上的物聯網傳感器300收集時間序列傳感器數據。其中,時間序列傳感器數據可以包括時間戳和物理值,所述時間戳表示物聯網傳感器300感測到機器200的時間信息,所述物理值表示物聯網傳感器300在時間戳中針對機器200感測到的值。
114.在步驟s1320中,處理器170可以通過從時間序列傳感器數據跟蹤物聯網傳感器300的基本物理值來估計基線,並從基線的估計結果對機器200包括在非激活區間的第0狀態進行分類。其中,基線可以是指,在機器200不運行時跟蹤由物聯網傳感器300感測到的基本物理值的線,包括斷電區間與供電區間。在本實施例中,基線可以屬於非模式區間。在本實施例中,如果待機功率不是恆定的,則執行基線的估計,可以省略對待機功率恆定的基線的估計,並使用利用誤差範圍內的待機功率生成的基線。
115.在步驟s1330中,處理器170可以生成強調時間序列傳感器數據的第1處理數據。其中,強調時間序列傳感器數據的含義可以包括,對包括非模式區間和模式區間的時間序列傳感器數據中的模式區間進行表徵並清楚地可視化。處理器170可以通過將基線的估計結果應用於時間序列傳感器數據來生成子時間序列傳感器數據。處理器170可以通過從子時
間序列傳感器數據去除噪聲來生成第1處理數據。
116.在步驟s1340中,處理器170可以根據第1處理數據生成用於確定機器的狀態的第2處理數據。處理器170可以應用針對第1處理數據的統計特徵和高階微分值以生成作為可確定針對機器的第1狀態和第2狀態的動態閾值的第2處理數據。
117.在步驟s1350中,處理器170可以根據第2處理數據從第1處理數據中分類出機器200的狀態。其中,所述機器200的狀態可以包括第1狀態和第2狀態中的至少一個。第1狀態可以表示機器200被激活且第1處理數據包括在在一定區間上沒有以任意模式可視化的非模式區間中的狀態。第2狀態可以表示機器200被激活且後述的第1處理數據包括在在一定區間上以任意模式可視化的模式區間中的狀態。在本實施例中,處理器170可以使用第1機器學習分類模型對與第1處理數據對應的機器200的狀態進行分類,所述第1機器學習分類模型以第1處理數據和第2處理數據作為輸入對機器的狀態進行分類。
118.圖14為用於描述根據另一實施例的數據分類方法的流程圖。下面將省略與圖1至圖13的描述重複的部分。將在處理器170由數據分類裝置100在外圍組件的幫助下執行的假設下描述根據本實施例的數據分類方法。
119.參見圖14,在步驟s1410中,處理器170可以從可配備或設置在機器200上的物聯網傳感器300收集時間序列傳感器數據。
120.在步驟s1420中,處理器170可以通過從時間序列傳感器數據跟蹤物聯網傳感器300的基本物理值來估計基線,並從基線的估計結果對機器200包括在非激活區間的第0狀態進行分類。
121.在步驟s1430中,處理器170可以生成強調時間序列傳感器數據的第1處理數據。
122.在步驟s1440中,處理器170可以根據第1處理數據生成用於確定機器的狀態的第2處理數據。
123.在步驟s1450中,處理器170可以根據第2處理數據從第1處理數據將機器200的狀態分類為第1狀態和第2狀態中的至少一個。
124.在步驟s1460中,處理器170可以通過將動態時間規整法應用於第0狀態至第2狀態中包括的第1處理數據來測量相似度。
125.在步驟s1470中,處理器170可以基於相似度測量結果從第0狀態至第2狀態中包括的第1處理數據將機器200的狀態進一步分類為第2-1狀態、第2-2狀態和第2-3狀態中的至少一個。其中,第2-1狀態可以表示包括在第1模式區間的狀態,其中,所述第1模式區間為第2狀態中包括的任意模式以預設數量或更多數量重複並可視化的區間。第2-2狀態可以表示包括在第2模式區間的狀態,其中,所述第2模式區間為第2狀態中包括的任意模式以小於預設數量重複並可視化的區間。第2-3狀態可以包括通過動態時間規整法將第1狀態中包括的第1處理數據改變為第1模式區間的狀態。
126.根據本實施例,由於具有也可適用於從物聯網傳感器300收集的微數據結構的通用性,因此即使通過相對較低的運算裝置也可以對數據進行實際分類,從而降低成本。
127.上述根據本發明的實施例可以以可通過計算機上的各種組件執行的電腦程式的形式來實現,並且這種電腦程式可以記錄在計算機可讀介質中。此時,介質可以包括諸如硬碟、軟盤和磁帶的磁性介質,諸如只讀光碟存儲器(cd-rom)、dvd的光學記錄介質,諸如光磁軟盤(floptical disk)的磁光介質(magneto-optical medium),以及諸如只讀存儲器
(rom)、隨機存取存儲器(ram)、快閃記憶體等的專門配置用於存儲和執行程序指令的硬體裝置。
128.另一方面,所述電腦程式可以是為本發明專門設計和配置的,或者可以是計算機軟體領域的技術人員已知的和可用的。電腦程式的示例不僅包括諸如由編譯器生成的那些機器語言代碼,而且還包括可以由計算機使用解釋器等執行的高級語言代碼。
129.在本發明的說明書中(尤其在權利要求書中),術語「所述」和其類似的指示性術語的使用都對應於單數形式和複數形式。另外,當在本發明中記載範圍(range)時,意味著包括應用落入所述範圍內的各個值的發明(除非有相反的記載),這與在本發明的詳細描述中記載構成所述範圍的各個值相同。
130.構成根據本發明的方法的步驟可以以適當的順序執行,除非明確記載順序或另有相反說明。本發明不必限於所述步驟的描述順序。本發明中使用的所有示例或示例性術語(例如,等等)僅用於詳細描述本發明,除非由權利要求書限定,否則本發明的範圍不受上述示例或示例性術語的限制。此外,本領域的技術人員可以理解,在所附權利要求書或其等價物範圍內,可以根據設計條件和因素進行各種修改、組合和改變。
131.因此,本發明的精神不應限於上述實施例,除下述權利要求外,凡與這些權利要求等效或等同的修改,均應包含在本發明的精神範圍內。