新四季網

一種基於雲平臺的局部加權線性回歸預測運算的方法

2023-06-05 07:18:56

專利名稱:一種基於雲平臺的局部加權線性回歸預測運算的方法
技術領域:
本發明涉及雲平臺領域,特別涉及一種基於雲平臺的局部加權線性回歸預測運算的方法。
背景技術:
在調查研究的基礎上,對事物的未來進行科學的分析,研究其發展變化的規律性叫做預測分析。實際生活中,某些現象的發展和變化取決於若干因素的影響。基於這些影響因素的主次關係與變化規律等要素,將其進行統計、分析和運算從而通過數學方法進行的實際預測,常用的方式就包括有線性回歸算法。局部加權線性回歸算法,簡稱LWLR算法,就是應用在預測分析中一種常見的算法。該算法的主要思想是先去一定數量的局部數據,然後再通過這部分局部數據集中擬合多項式回歸曲線,由此觀察得到數據在局部表現出來的規律和趨勢。不過該算法運算量非常巨大,特別是所運算的局部數據數目龐大的時候,單機計算的時間可能達到幾天甚至更長。隨著智能電網技術的建設和發展,LWLR算法也多在其中發揮作用。智能電網旨在改造原有電網各環節,而實現更加環保、高效的現代化電力系統。同時,智能電網的建設中, 數據量也發生爆炸式的增長。傳統的單機計算實現LWLR算法的缺陷就在於,它對海量數據的處理能力已經遠不能滿足智能電網中的實際需要。

發明內容
有鑑於此,本發明主要目的是提供一種基於雲平臺的局部加權線性回歸預測運算的方法,來解決大量數據運算過程中執行效率降低的問題。本發明所述方法,具體技術方案如下—種基於雲平臺的局部加權線性回歸預測運算的方法,其特徵在於,所述方法將局部加權線性回歸預測運算構建在映射簡化計算框架之下,該方法包括以下步驟確定帶預測點,映射簡化計算框架將待運算的數據點劃分到多個節點儲存在雲平臺上;各節點同時開始對劃分到本節點上的待運算數據點進行運算,採用臨近算法計算數據點與待測點的距離,找到帶運算數據點中距離符合第一閾值的數據點,第一閾值的範圍預先設定;將每個節點上找到的符合第一閾值的數據點集中,並對數據點中數據進行加權處理,利用加權處理後的數據值計算出回歸係數,代入到回歸方程,計算出的回歸方程的解即為預測值。所述映射簡化計算框架將帶運算數據點劃分到節點具體為映射計算框架估算數據總量以及算法對系統內存的消耗量,計算出需劃分節點的個數。
優選的,所述將每個節點上找到的符合第一閾值的數據點集中進一步包括將所有符合第一閾值的數據點集中以後,再從中進一步篩選出符合第二閾值的數據點,第二閾值的範圍預先設定。所述對數據點進行加權處理具體為利用混合高斯模型計算各數據點的權重。其特徵在於,所述計算數據點與待測點的距離具體為將數據點與待測點數據分成用戶ID、時間、溫度和天氣四個維度,分別計算數據點與待測點四個維度的距離,在計算四個維度距離的和,即為數據點與待測點的距離。所述對用戶ID信息數據距離的計算具體為數據點與待測點相同ID信息距離為0,不同ID信息距離為無窮大。所述對時間信息數據距離的計算具體為以預定時長為單位的時間數據,制定周期環形模式計算距離,取數據點與待測點時間數據在周期環上最近的距離。所述預定時長為月、星期、日或小時,並設定月周期環周長為30,星期周期環周長為7,日周期環周長為24,小時周期環周長為60。所述對時間溫度數據距離的計算具體為數據點與待測點溫度數值間差值即為數據距離。所述對天氣信息數據距離的計算具體為將天氣信息劃分為有雨和無雨兩種情況,設定有雨距離為1,無雨距離為0。通過以上技術方案可知,本發明存在的有益效果為,通過映射簡化計算框架將大量數據分成若干節點同時進行局部加權線性回歸預測運算,從而成倍數縮短了計算時間, 實現了高效處理海量數據,滿足了目前階段業務需要。


圖1 局部加權線性回歸預測運算主要步驟流程圖。圖2 =MapReduce計算框架之下局部加權線性回歸預測運算的方法具體實施例流程圖。
具體實施例方式本發明提供一種基於雲平臺的局部加權線性回歸預測運算的方法,即基於雲平臺實現LWLR預測算法的方法。通過將LWLR算法構建在雲平臺的映射計算框架中,利用映射簡化計算框架將海量數據劃分節點並行運算,從而提高效率。映射簡化計算框架即MapReduce 計算框架。下面將結合附圖對本發明的技術方案進行完整描述。而所描述的實施例僅僅是本發明中部分實施例。基於本發明中的實施例,本領域普通技術人員在沒有經過創造性勞動情況下得出的其他實施方式,同樣屬於本發明保護的範圍。本發明所述方法為確定待測點,MapReduce計算框架將待運算的數據點劃分到多個節點儲存在雲平臺上,各節點同時對劃分到本節點的數據點進行運算,利用鄰近算法(k-Nearest
4Neighbor)即KNN算法在各節點中找出待測點附近的數據點,假設找到的數據點個數為K 個;KNN算法找出待測點附近數據點的過程,佔用了整個過程中絕大部分的計算量。在目前達到ITB級別數據為特徵空間的前提下,待預測點需要與特徵空間中的每個數據點點計算距離,找到與待預測點距離最小的K個點,所以計算量十分巨大。在Map階段,MapReduce計算框架根據算法對系統內存的消耗量,確定並行節點的劃分數量。例如=MapReduce計算框架將ITB的數據分成10 ±夬,每塊100GB,分別存儲在雲平臺的10個節點上,Map階段實現計算待預測點與每個數據塊中的所有的點最近的K個點, 而各個節點的計算同時進行,所以通過這一過程使得計算速度提高了 10倍。在Reduce階段,將Map階段得出的每個節點得出的K個鄰近數據點的數據集合起來,再進一步篩選,得出全部數據當中與待測點距離最近的K個數據點。之後對找到的K個數據點做加權處理,根據數據點到待測點的距離,計算每個數據點的權重,在具體實施例中採用混合高斯模型計算權重;對加權後的數據點,計算回歸係數,將得出的回歸係數代入回歸方程,最終通過回歸方程得出的值即為LWLR算法中預測的待測點數據。參照圖1所示。上述數據點與待測點的數據包含四個維度,分別是用戶ID、時間、溫度和天氣。分別計算二者之間四個維度上的距離,再對四個距離求和即為數據點與待測點的距離。對於四個維度上距離的計算,有以下處理規則對用戶ID編號的處理為,待測點與數據點相同的用戶ID編號距離為0,不同的用戶ID編號距離為無窮大;對時間的處理為,針對一年十二個月,一星期七天,一天24小時等循環周期性時間單位,做環形處理,例如,月份環設定1-12供12個點,星期環設1-7供7個點,單日環設 0-23供24個點,待測點與數據點時間距離即為環上兩點間的最近距離;數據點與待測點溫度數值間差值即為數據距離;將天氣信息劃分為有雨和無雨兩種情況,設定有雨距離為1,無雨距離為0。參照圖2,假設將所有數據點劃分到10個節點上,如利用時間、溫度以及以用戶往用電量信息等數據,通過上述方法預測得出未來某一時間某範圍內用戶的用電量,其過程為1、Map階段,將數據劃分節點,各節點同時開始計算,在各個節點內分別找到與M 距離最近的K個鄰近點,距離的計算方式為D = D1+D2+D3+D4,其中D為總距離,01,02,03, D4分別為用戶ID、時間、溫度,天氣這四個分量之間的距離。Dl的計算方式為若兩個數據點的用戶ID相同則Dl = 0,否則Dl為無窮大;02 = (1(11+(1(12+(1(13+(1(14,其中(1(11,(1(12,(1(13,(1(14分別為年份、月份、日、小時,(1(11為年份之差,dd2,dd 3,dd4都是按照上述圓環模式來計算距離,環的周長分別為12,30,24 ; D3按照數值方式進行計算距離;D4把天氣的有雨、無雨兩個值分別對應1和0,然後計算距罔;2、Reduce階段,將各個Map階段獲得K個鄰近數據點與M之間的距離進行比較, 取它們中間最小的K個,並記錄最小距離對應的K個數據點;3、使用混合高斯模型計算K個數據點各自的權重,計算回歸係數,代入回歸方程,回歸方程為y = a0+alxl+a2x2+a 3x3+a4x4,其中xl、x2、x3和x4為用戶ID、時間、溫度、天氣四個因素轉換成距離之後的初始數值,a 0、a Ua 2、a 3與a4為計算得出的回歸係數, 求出y即預測結果,即用戶在未來時間的用電量。綜上所述,本發明提供了一種基於雲平臺的局部加權線性回歸預測運算的方法。 本發明的特點在於,通過MapReduce計算框架,將LWLR算法中計算量最大的部分劃分為多個節點並行計算,提高運算效率,縮短計算時間,以滿足目前階段的業務需求。以上所述僅是本發明的優選實施方案,應當指出,對於本技術領域的普通技術人員來說,在不脫離本發明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應該視為本發明的保護範圍。
權利要求
1.一種基於雲平臺的局部加權線性回歸預測運算的方法,其特徵在於,所述方法將局部加權線性回歸預測運算構建在映射簡化計算框架之下,該方法包括以下步驟確定帶預測點,映射簡化計算框架將待運算的數據點劃分到多個節點儲存在雲平臺上;各節點同時開始對劃分到本節點上的待運算數據點進行運算,採用臨近算法計算數據點與待測點的距離,找到帶運算數據點中距離符合第一閾值的數據點,第一閾值的範圍預先設定;將每個節點上找到的符合第一閾值的數據點集中,並對數據點中數據進行加權處理, 利用加權處理後的數據值計算出回歸係數,代入到回歸方程,計算出的回歸方程的解即為預測值。
2.根據權利要求1所述方法,其特徵在於,所述映射簡化計算框架將帶運算數據點劃分到節點具體為映射計算框架估算數據總量以及算法對系統內存的消耗量,計算出需劃分節點的個數。
3.根據權利要求1所述方法,其特徵在於,所述將每個節點上找到的符合第一閾值的數據點集中進一步包括將所有符合第一閾值的數據點集中以後,再從中進一步篩選出符合第二閾值的數據點,第二閾值的範圍預先設定。
4.根據權利要求1所述方法,其特徵在於,所述對數據點進行加權處理具體為 利用混合高斯模型計算各數據點的權重。
5.根據權利要求1-4中任意一項所述方法,其特徵在於,所述計算數據點與待測點的距離具體為將數據點與待測點數據分成用戶ID、時間、溫度和天氣四個維度,分別計算數據點與待測點四個維度的距離,在計算四個維度距離的和,即為數據點與待測點的距離。
6.根據權利要求5所述方法,其特徵在於,所述對用戶ID信息數據距離的計算具體為數據點與待測點相同ID信息距離為0,不同ID信息距離為無窮大。
7.根據權利要求5所述方法,其特徵在於,所述對時間信息數據距離的計算具體為 以預定時長為單位的時間數據,制定周期環形模式計算距離,取數據點與待測點時間數據在周期環上最近的距離。
8.根據權利要求7所述方法,其特徵在於所述預定時長為月、星期、日或小時,並設定月周期環周長為30,星期周期環周長為7,日周期環周長為24,小時周期環周長為60。
9.根據權利要求5所述方法,其特徵在於,所述對時間溫度數據距離的計算具體為 數據點與待測點溫度數值間差值即為數據距離。
10.根據權利要求5所述方法,其特徵在於,所述對天氣信息數據距離的計算具體為 將天氣信息劃分為有雨和無雨兩種情況,設定有雨距離為1,無雨距離為0。
全文摘要
本發明公開了一種基於雲平臺的局部加權線性回歸預測運算的方法,運用映射簡化計算框架對海量數據進行局部加權線性回歸預測運算,步驟包括確定帶預測點,映射簡化計算框架將待運算的數據點劃分到多個節點儲存在雲平臺上;各節點同時開始對劃分到本節點上的待運算數據點進行運算,找到帶運算數據點中距離符合第一閾值的數據點;對符合第一閾值的數據點中數據進行加權處理,利用加權處理後的數據值計算出回歸係數,代入到回歸方程,計算出的回歸方程的解即為預測值。
文檔編號G06Q10/04GK102509177SQ20111035694
公開日2012年6月20日 申請日期2011年11月11日 優先權日2011年11月11日
發明者劉建明, 呂厚雷, 張素香, 慄寧, 王繼業, 王風雨, 趙丙鎮, 閆愛梅 申請人:北京國電通網絡技術有限公司, 國網信息通信有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀