一種基於雲平臺的局部加權線性回歸預測運算的方法
2023-06-05 07:18:56 1
專利名稱:一種基於雲平臺的局部加權線性回歸預測運算的方法
技術領域:
本發明涉及雲平臺領域,特別涉及一種基於雲平臺的局部加權線性回歸預測運算的方法。
背景技術:
在調查研究的基礎上,對事物的未來進行科學的分析,研究其發展變化的規律性叫做預測分析。實際生活中,某些現象的發展和變化取決於若干因素的影響。基於這些影響因素的主次關係與變化規律等要素,將其進行統計、分析和運算從而通過數學方法進行的實際預測,常用的方式就包括有線性回歸算法。局部加權線性回歸算法,簡稱LWLR算法,就是應用在預測分析中一種常見的算法。該算法的主要思想是先去一定數量的局部數據,然後再通過這部分局部數據集中擬合多項式回歸曲線,由此觀察得到數據在局部表現出來的規律和趨勢。不過該算法運算量非常巨大,特別是所運算的局部數據數目龐大的時候,單機計算的時間可能達到幾天甚至更長。隨著智能電網技術的建設和發展,LWLR算法也多在其中發揮作用。智能電網旨在改造原有電網各環節,而實現更加環保、高效的現代化電力系統。同時,智能電網的建設中, 數據量也發生爆炸式的增長。傳統的單機計算實現LWLR算法的缺陷就在於,它對海量數據的處理能力已經遠不能滿足智能電網中的實際需要。
發明內容
有鑑於此,本發明主要目的是提供一種基於雲平臺的局部加權線性回歸預測運算的方法,來解決大量數據運算過程中執行效率降低的問題。本發明所述方法,具體技術方案如下—種基於雲平臺的局部加權線性回歸預測運算的方法,其特徵在於,所述方法將局部加權線性回歸預測運算構建在映射簡化計算框架之下,該方法包括以下步驟確定帶預測點,映射簡化計算框架將待運算的數據點劃分到多個節點儲存在雲平臺上;各節點同時開始對劃分到本節點上的待運算數據點進行運算,採用臨近算法計算數據點與待測點的距離,找到帶運算數據點中距離符合第一閾值的數據點,第一閾值的範圍預先設定;將每個節點上找到的符合第一閾值的數據點集中,並對數據點中數據進行加權處理,利用加權處理後的數據值計算出回歸係數,代入到回歸方程,計算出的回歸方程的解即為預測值。所述映射簡化計算框架將帶運算數據點劃分到節點具體為映射計算框架估算數據總量以及算法對系統內存的消耗量,計算出需劃分節點的個數。
優選的,所述將每個節點上找到的符合第一閾值的數據點集中進一步包括將所有符合第一閾值的數據點集中以後,再從中進一步篩選出符合第二閾值的數據點,第二閾值的範圍預先設定。所述對數據點進行加權處理具體為利用混合高斯模型計算各數據點的權重。其特徵在於,所述計算數據點與待測點的距離具體為將數據點與待測點數據分成用戶ID、時間、溫度和天氣四個維度,分別計算數據點與待測點四個維度的距離,在計算四個維度距離的和,即為數據點與待測點的距離。所述對用戶ID信息數據距離的計算具體為數據點與待測點相同ID信息距離為0,不同ID信息距離為無窮大。所述對時間信息數據距離的計算具體為以預定時長為單位的時間數據,制定周期環形模式計算距離,取數據點與待測點時間數據在周期環上最近的距離。所述預定時長為月、星期、日或小時,並設定月周期環周長為30,星期周期環周長為7,日周期環周長為24,小時周期環周長為60。所述對時間溫度數據距離的計算具體為數據點與待測點溫度數值間差值即為數據距離。所述對天氣信息數據距離的計算具體為將天氣信息劃分為有雨和無雨兩種情況,設定有雨距離為1,無雨距離為0。通過以上技術方案可知,本發明存在的有益效果為,通過映射簡化計算框架將大量數據分成若干節點同時進行局部加權線性回歸預測運算,從而成倍數縮短了計算時間, 實現了高效處理海量數據,滿足了目前階段業務需要。
圖1 局部加權線性回歸預測運算主要步驟流程圖。圖2 =MapReduce計算框架之下局部加權線性回歸預測運算的方法具體實施例流程圖。
具體實施例方式本發明提供一種基於雲平臺的局部加權線性回歸預測運算的方法,即基於雲平臺實現LWLR預測算法的方法。通過將LWLR算法構建在雲平臺的映射計算框架中,利用映射簡化計算框架將海量數據劃分節點並行運算,從而提高效率。映射簡化計算框架即MapReduce 計算框架。下面將結合附圖對本發明的技術方案進行完整描述。而所描述的實施例僅僅是本發明中部分實施例。基於本發明中的實施例,本領域普通技術人員在沒有經過創造性勞動情況下得出的其他實施方式,同樣屬於本發明保護的範圍。本發明所述方法為確定待測點,MapReduce計算框架將待運算的數據點劃分到多個節點儲存在雲平臺上,各節點同時對劃分到本節點的數據點進行運算,利用鄰近算法(k-Nearest
4Neighbor)即KNN算法在各節點中找出待測點附近的數據點,假設找到的數據點個數為K 個;KNN算法找出待測點附近數據點的過程,佔用了整個過程中絕大部分的計算量。在目前達到ITB級別數據為特徵空間的前提下,待預測點需要與特徵空間中的每個數據點點計算距離,找到與待預測點距離最小的K個點,所以計算量十分巨大。在Map階段,MapReduce計算框架根據算法對系統內存的消耗量,確定並行節點的劃分數量。例如=MapReduce計算框架將ITB的數據分成10 ±夬,每塊100GB,分別存儲在雲平臺的10個節點上,Map階段實現計算待預測點與每個數據塊中的所有的點最近的K個點, 而各個節點的計算同時進行,所以通過這一過程使得計算速度提高了 10倍。在Reduce階段,將Map階段得出的每個節點得出的K個鄰近數據點的數據集合起來,再進一步篩選,得出全部數據當中與待測點距離最近的K個數據點。之後對找到的K個數據點做加權處理,根據數據點到待測點的距離,計算每個數據點的權重,在具體實施例中採用混合高斯模型計算權重;對加權後的數據點,計算回歸係數,將得出的回歸係數代入回歸方程,最終通過回歸方程得出的值即為LWLR算法中預測的待測點數據。參照圖1所示。上述數據點與待測點的數據包含四個維度,分別是用戶ID、時間、溫度和天氣。分別計算二者之間四個維度上的距離,再對四個距離求和即為數據點與待測點的距離。對於四個維度上距離的計算,有以下處理規則對用戶ID編號的處理為,待測點與數據點相同的用戶ID編號距離為0,不同的用戶ID編號距離為無窮大;對時間的處理為,針對一年十二個月,一星期七天,一天24小時等循環周期性時間單位,做環形處理,例如,月份環設定1-12供12個點,星期環設1-7供7個點,單日環設 0-23供24個點,待測點與數據點時間距離即為環上兩點間的最近距離;數據點與待測點溫度數值間差值即為數據距離;將天氣信息劃分為有雨和無雨兩種情況,設定有雨距離為1,無雨距離為0。參照圖2,假設將所有數據點劃分到10個節點上,如利用時間、溫度以及以用戶往用電量信息等數據,通過上述方法預測得出未來某一時間某範圍內用戶的用電量,其過程為1、Map階段,將數據劃分節點,各節點同時開始計算,在各個節點內分別找到與M 距離最近的K個鄰近點,距離的計算方式為D = D1+D2+D3+D4,其中D為總距離,01,02,03, D4分別為用戶ID、時間、溫度,天氣這四個分量之間的距離。Dl的計算方式為若兩個數據點的用戶ID相同則Dl = 0,否則Dl為無窮大;02 = (1(11+(1(12+(1(13+(1(14,其中(1(11,(1(12,(1(13,(1(14分別為年份、月份、日、小時,(1(11為年份之差,dd2,dd 3,dd4都是按照上述圓環模式來計算距離,環的周長分別為12,30,24 ; D3按照數值方式進行計算距離;D4把天氣的有雨、無雨兩個值分別對應1和0,然後計算距罔;2、Reduce階段,將各個Map階段獲得K個鄰近數據點與M之間的距離進行比較, 取它們中間最小的K個,並記錄最小距離對應的K個數據點;3、使用混合高斯模型計算K個數據點各自的權重,計算回歸係數,代入回歸方程,回歸方程為y = a0+alxl+a2x2+a 3x3+a4x4,其中xl、x2、x3和x4為用戶ID、時間、溫度、天氣四個因素轉換成距離之後的初始數值,a 0、a Ua 2、a 3與a4為計算得出的回歸係數, 求出y即預測結果,即用戶在未來時間的用電量。綜上所述,本發明提供了一種基於雲平臺的局部加權線性回歸預測運算的方法。 本發明的特點在於,通過MapReduce計算框架,將LWLR算法中計算量最大的部分劃分為多個節點並行計算,提高運算效率,縮短計算時間,以滿足目前階段的業務需求。以上所述僅是本發明的優選實施方案,應當指出,對於本技術領域的普通技術人員來說,在不脫離本發明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應該視為本發明的保護範圍。
權利要求
1.一種基於雲平臺的局部加權線性回歸預測運算的方法,其特徵在於,所述方法將局部加權線性回歸預測運算構建在映射簡化計算框架之下,該方法包括以下步驟確定帶預測點,映射簡化計算框架將待運算的數據點劃分到多個節點儲存在雲平臺上;各節點同時開始對劃分到本節點上的待運算數據點進行運算,採用臨近算法計算數據點與待測點的距離,找到帶運算數據點中距離符合第一閾值的數據點,第一閾值的範圍預先設定;將每個節點上找到的符合第一閾值的數據點集中,並對數據點中數據進行加權處理, 利用加權處理後的數據值計算出回歸係數,代入到回歸方程,計算出的回歸方程的解即為預測值。
2.根據權利要求1所述方法,其特徵在於,所述映射簡化計算框架將帶運算數據點劃分到節點具體為映射計算框架估算數據總量以及算法對系統內存的消耗量,計算出需劃分節點的個數。
3.根據權利要求1所述方法,其特徵在於,所述將每個節點上找到的符合第一閾值的數據點集中進一步包括將所有符合第一閾值的數據點集中以後,再從中進一步篩選出符合第二閾值的數據點,第二閾值的範圍預先設定。
4.根據權利要求1所述方法,其特徵在於,所述對數據點進行加權處理具體為 利用混合高斯模型計算各數據點的權重。
5.根據權利要求1-4中任意一項所述方法,其特徵在於,所述計算數據點與待測點的距離具體為將數據點與待測點數據分成用戶ID、時間、溫度和天氣四個維度,分別計算數據點與待測點四個維度的距離,在計算四個維度距離的和,即為數據點與待測點的距離。
6.根據權利要求5所述方法,其特徵在於,所述對用戶ID信息數據距離的計算具體為數據點與待測點相同ID信息距離為0,不同ID信息距離為無窮大。
7.根據權利要求5所述方法,其特徵在於,所述對時間信息數據距離的計算具體為 以預定時長為單位的時間數據,制定周期環形模式計算距離,取數據點與待測點時間數據在周期環上最近的距離。
8.根據權利要求7所述方法,其特徵在於所述預定時長為月、星期、日或小時,並設定月周期環周長為30,星期周期環周長為7,日周期環周長為24,小時周期環周長為60。
9.根據權利要求5所述方法,其特徵在於,所述對時間溫度數據距離的計算具體為 數據點與待測點溫度數值間差值即為數據距離。
10.根據權利要求5所述方法,其特徵在於,所述對天氣信息數據距離的計算具體為 將天氣信息劃分為有雨和無雨兩種情況,設定有雨距離為1,無雨距離為0。
全文摘要
本發明公開了一種基於雲平臺的局部加權線性回歸預測運算的方法,運用映射簡化計算框架對海量數據進行局部加權線性回歸預測運算,步驟包括確定帶預測點,映射簡化計算框架將待運算的數據點劃分到多個節點儲存在雲平臺上;各節點同時開始對劃分到本節點上的待運算數據點進行運算,找到帶運算數據點中距離符合第一閾值的數據點;對符合第一閾值的數據點中數據進行加權處理,利用加權處理後的數據值計算出回歸係數,代入到回歸方程,計算出的回歸方程的解即為預測值。
文檔編號G06Q10/04GK102509177SQ20111035694
公開日2012年6月20日 申請日期2011年11月11日 優先權日2011年11月11日
發明者劉建明, 呂厚雷, 張素香, 慄寧, 王繼業, 王風雨, 趙丙鎮, 閆愛梅 申請人:北京國電通網絡技術有限公司, 國網信息通信有限公司