新四季網

一種雲環境下非平穩型應用用戶並發量的預測系統及方法與流程

2023-04-26 01:22:01 1


本發明涉及雲環境下服務性能優化技術領域,尤其涉及一種雲環境下非平穩型應用用戶並發量的預測系統及方法。



背景技術:

隨著雲應用服務系統的複雜化及其運行環境的開放化、動態化和難控化,雲應用服務系統在不同的時間點承載的並發量有著顯著的差異,並往往呈現出沿著某種規律的非平穩的趨勢。應用用戶並發量是指應用在單位時間內的用戶請求數。雲應用服務系統通過監測應用用戶並發量,分析和預測歷史應用用戶並發量,執行適合的保障服務性能資源調整策略,達到保障雲服務系統的穩定性和有效性的目的。因此,準確實時的應用用戶並發量預測既是判斷並發量異常與否的依據,也是動態資源配置的基礎。傳統的應用用戶並發量預測多將應用用戶並發量看作成平穩時間序列,採用AR等線性模型進行預測,簡單但精度較差。近年來,基於神經網絡的非線性預測理論和方法得到廣泛應用,提高了預測精度,但神經網絡固有的缺陷阻礙了它的進一步發展。

在雲應用服務系統中,通過觸發模塊判斷是否需要執行雲資源性能優化過程:如果當前周期應用的實際並發量與預測並發量的差值的絕對值大於閾值,則觸發性能優化過程;否則,不觸發性能優化過程。因此,儘可能準確地預測雲應用用戶並發量有助於提高雲資源性能優化過程的效率。在這個過程中,建立並發量預測模型是雲應用系統性能優化的關鍵。但由於雲環境的複雜性,應用所處理的業務大多屬於非平穩型並發業務,即應用用戶並發量不在一定數值上下內平穩變化的業務,其包括趨勢性並發業務與周期性並發業務。趨勢性並發業務是指應用用戶並發量在一段時間內具有遞增或遞減趨勢的業務。周期性並發業務是指應用用戶並發量在一段時間內周期性變化的業務。

為了構建並發量預測模型,現有技術中大多採用時間序列分析、人工神經網絡以及卡爾曼濾波等方法,主要有:依賴連續並發量信息的測量和捕獲,採用多種線性時間序列模型對並發量進行短期的預測;基於人工神經網絡的BP預測算法,應用人工智慧技術預測並發量;基於濾波理論的預測算法PAA,應用電子或動力學的濾波理論預測並發量;等等。然而,現有的研究都集中在預測的算法上,企圖建立一個通用的預測算法以適應各種應用,這勢必導致算法的通用性提高而準確性降低。而並發量本身沒有一個特定的非線性模式,不同的應用,由於性質的差異,需要相對應的、適合的預測方法進行並發量預測。



技術實現要素:

針對現有技術的缺陷,本發明提供一種雲環境下非平穩型應用用戶並發量的預測系統及方法,針對雲環境下非平穩型業務的趨勢性與周期性應用用戶並發量的特點,利用不同的預測方法構造了預測模型,對含有兩種性質的並發量進行預測,能自動識別趨勢性和周期性並分發量序列的特徵,並能自動計算出序列的周期數,且無需人工幹預,能自行完成預測過程,同時能有效提高非平穩型業務並發量預測的準確性。

一方面,本發明提供一種雲環境下非平穩型應用用戶並發量的預測系統,包括歷史數據獲取模塊、非平穩型業務判定模塊和應用用戶並發量預測模塊;

所述歷史數據獲取模塊用於通過連接存儲應用用戶並發量的資料庫,將雲環境下一段時間內用戶並發量按照一定的時間間隔從資料庫中獲取到系統緩存當中,為非平穩型判定模塊提供有效的用戶並發量歷史數據時間序列;

所述非平穩型業務判定模塊用於通過分析從歷史數據獲取模塊得到的用戶並發量歷史數據時間序列,來識別產生該用戶並發量歷史數據時間序列的業務是否屬於非平穩型業務,包括:趨勢性識別模塊和周期性識別模塊;

所述趨勢性識別模塊用於利用時間序列自相關係數趨勢識別法,識別用戶並發量歷史數據時間序列是否具有趨勢性;所述時間序列自相關係數趨勢識別法是一種利用自相關係數與T分布相結合,對時間序列的自相關係數與零值的差異性進行檢測,從而分析時間序列的趨勢性的方法;

所述周期性識別模塊用於利用時間序列功率譜周期識別法,識別用戶並發量歷史數據時間序列是否具有周期性,並計算周期性用戶並發量歷史數據時間序列的周期數;所述時間序列功率譜周期識別法是利用周期圖法計算時間序列的功率譜,並對時間序列的功率譜進行奇異值檢測分析,從而識別出時間序列的周期性,並計算具有周期性的時間序列的周期數;

所述應用用戶並發量預測模塊用於利用經過所述非平穩型業務判定模塊判定後的非平穩型業務的應用用戶並發量歷史數據時間序列,建立相應的雲環境下應用用戶並發量預測模型,並利用該模型預測得到未來一段時間內的應用用戶並發量時間序列,包括趨勢性並發量預測模塊和周期性並發量預測模塊;

所述趨勢性並發量預測模塊用於對趨勢性並發量時間序列進行預測;

所述周期性並發量預測模塊用於從周期性識別模塊獲取周期數,然後進行周期性並發量時間序列的預測;

所述雲環境下應用用戶並發量預測模型是一種無需任何參數針對趨勢性時間序列與周期性時間序列的預測模型。

另一方面,本發明還提供一種雲環境下非平穩型應用用戶並發量的預測方法,採用所述的雲環境下非平穩型應用用戶並發量的預測系統實現,包括以下步驟:

步驟1:從資料庫伺服器獲取用戶並發量歷史數據時間序列S;

從資料庫伺服器獲取用戶並發量歷史數據時間序列S,如下式所示;

其中,coni為ti時間的並發量,時間ti滿足ti<ti+1,n為並發量總個數;

步驟2、計算自相關係數序列;

將用戶並發量序列按延遲步長為k的間隔可化分為n-k個二元組:、…、、…、,其延遲步長為k的自相關係數ρk為:

其中,為並發量時間序列中前n-k項的平均值,為並發量時間序列中前n-k項向後平移k項的所有值的平均值;γ(i,i+k)為自協方差函數;

用戶並發量自相關係數序列由各延遲步長下自相關係數組成,為其中,Pm為用戶並發量自相關係數序列,k=1,2,…,例,m為最大延遲步長;

步驟3、計算功率譜序列;

用戶並發量功率譜序列由各頻率下時間序列的功率譜組成,為其中,Q為用戶並發量功率譜序列,為頻率為v時並發量序列的功率譜,其中,Fv為用戶並發量序列的離散傅立葉變換,v=1,2,…,n,Wn為旋轉因子,j為虛數單位;

步驟4、對用戶並發量歷史數據時間序列進行業務性質識別,具體包括:

步驟4.1、進行趨勢性識別,識別方法為:

步驟4.1.1、利用t分布推斷出並發量自相關係數序列Pm與零值發生差異的錯誤概率Pρ;

步驟4.1.2、判斷錯誤概率Pρ與趨勢性判定閾值Ps的關係,若Pρ>Ps,表示自相關係數序列Pm與零差異性不顯著,該用戶並發量歷史數據時間序列無趨勢性,執行步驟4.2;若Pρ<Ps,表示自相關係數序列Pm與零差異性顯著,該用戶並發量歷史數據時間序列含有趨勢性,執行步驟5,進行趨勢性並發量的預測;

步驟4.2、進行周期性識別,識別方法為:

步驟4.2.1、確定功率譜序列Q的相鄰數據變化序列H,為

其中,為向上取整符號;

步驟4.2.2、根據3σ準則,判斷頻率為v時並發量序列的功率譜的奇異性,μc為相鄰數據變化序列H的平均值,σc為相鄰數據變化序列H的標準差,若hv-μc>3σc,為奇異值,則用戶並發量歷史數據時間序列含有周期性,執行步驟4.3;否則,為非奇異值,用戶並發量歷史數據時間序列不含周期性,則步驟終止;

步驟4.3、計算用戶並發量歷史數據時間序列的周期數nperiod,其中,v。為周期峰對應的頻率;然後執行步驟5,進行周期性並發量的預測;

步驟5、進行趨勢性並發量預測,具體方法為:

步驟5.1、進行基於線性回歸的數據擬合,採用線性回歸的方法對趨勢性應用並發量序列進行擬合,得到訓練完成的線性回歸模型fw(x)和原始數據與線性回歸模型擬合後的殘差數據序列,進而將原始序列與擬合序列的殘差作為平穩型序列進行分析;

步驟5.2、進行基於ARMA(Auto-Regressive and Moving Average,自回歸滑動平均)的殘差擬合,實現對殘差數據序列的分析和建模,得到的ARMA(p,q)模型有p+q+2個未知參數,即θ1,θ2,…,θq、μ和p是自回歸階數,q是移動平均階數,是p階自相關係數,θ1,θ2,…,θq是q階移動平均係數,μ是移動位移值,是隨機幹擾項的方差值,其中,p和q需要進行預設;

步驟5.3、進行基於Ljung-Box檢驗的二次殘差驗證;

採用Ljung-Box檢驗進行驗證,Ljung-Box檢驗則是基於一系列滯後階數,對二次殘差是否屬於高斯白噪聲進行驗證,二次殘差是指擬合ARMA後得到的殘差序列,判斷序列總體的相關性是否存在,驗證的本質是確定建立的ARMA模型是否有效,如果相關性不存在代表ARMA模型有效,則執行步驟5.4,反之,相關性存在代表ARMA模型無效,則重新訓練ARMA模型,返回步驟5.2;

步驟5.4、基於訓練完成的線性回歸模型和ARMA模型進行趨勢性應用用戶並發量的預測;

步驟6、進行周期性並發量預測,具體方法如下:

步驟6.1、初始化粒子群的最大粒子數、最大迭代次數以及粒子的位置和速度;

步驟6.2、採用5折交叉驗證法訓練支持向量機模型,將並發量歷史時間序列分為5個數據包,其中4個數據包用於訓練,1個數據包用於測試訓練結果;

步驟6.3、利用預測準確率fCP作為適應度評價標準評價粒子適應度,預測準確率fCP為其中,為並發量預測值,和分別為指定的並發量歷史數據coni可接受的準確區間的上界和下界,coni為並發量歷史值,PL為預測的容錯度;

步驟6.4、更新局部最優解與全局最優解,並將結果記錄在局部最優解向量pi與全局最優解向量pg中;

步驟6.5、判斷更新迭代是否達到終止條件,迭代的終止條件為最大迭代次數,如果最大迭代次數尚未達到,則更新粒子的位置和速度後,返回步驟6.4,進入下一個迭代循環,繼續查找支持向量機參數的最優解;如果達到最大迭代次數,則迭代終止,粒子群優化結束,得到支持向量機的懲罰因子C與核參數γ的最優解,執行步驟6.6;

步驟6.6、進行支持向量機預測,利用從粒子群優化算法中得到的懲罰因子C與核參數γ的最優解作用於支持向量機,並利用並發量歷史數據時間序列訓練支持向量機模型,然後利用訓練結果及輸入的預測時間序列的時間標識,通過重建訓練預測出周期性應用用戶並發量數據。

進一步地,所述步驟5.1中數據擬合的過程如下:

步驟5.1.1、設置進行線性回歸擬合的目標函數為fw(ti)=wTti,fw(ti)表示ti時刻對應的擬合應用用戶並發量,w為損失函數參數;

步驟5.1.2、設置進行線性回歸的損失函數為了(w)表示真實應用用戶並發量與擬合應用用戶並發量的誤差平方和;

步驟5.1.3、採用梯度下降法進行損失函數中的參數優化求解,得到損失函數參數w的更新公式為:其中,α為學習速率,j為w更新的標號,j=0,1,…,limit,limit為梯度下降的迭代次數;設置參數更新閾值ε,參數更新直到前後兩次絕對值小於參數更新閾值ε或者更新迭代次數達到了設置的迭代次數limit。

進一步地,所述步驟5.3判斷序列總體的相關性是否存在的具體方法為:

步驟5.3.1、Ljung-Box檢驗的原假設H0為:原本的數據都是獨立的,即總體的相關係數為0,能觀察到的某些相關僅僅產生於隨機抽樣的誤差,即其中,h是指定延遲期數,根據二次殘差的自相關圖人為設定其取值的數值;Ljung-Box檢驗的備擇假設Ha為:原本的數據不是獨立的,即至少存在某個其中,k≤h;

步驟5.3.2、構造統計量R為其中,u是用戶並發量時間序列二次殘差序列中元素的個數,其數值上和n相等,是二次殘差序列k階滯後的相關係數,該統計量服從自由度為h的卡方分布,給定顯著性水平α,則拒絕域是若接受原假設HO,則認為原序列不存在相關性,否則認為原序列存在相關性。

進一步地,所述步驟5.4中趨勢性應用用戶並發量的預測方法,具體步驟如下:

步驟5.4.1、基於訓練完成的線性回歸模型,得到下一段時間tn+1,tn+2,…,tl的預測並發量為pre_conn+1,pre_conn+2,…,pre_conl,1表示預測並發量時間點的個數,同時也是預測並發量的個數;

步驟5.4.2、基於訓練完成的ARMA模型,得到下一段時間tn+1,tn+2,…,tl的預測殘差為pre_biasn+1,pre_biasn+2,…,pre_biasl;

步驟5.4.3、下一段時間tn+1,tn+2,…,tm的預測趨勢性應用用戶並發量為pre_conn+1+pre_biasn+1,pre_conn+2+pre_biasn+2,…,pre_conm+pre_biasm。

由上述技術方案可知,本發明的有益效果在於:本發明提供的一種雲環境下非平穩型應用用戶並發量的預測系統及方法,針對雲環境下非平穩型業務的趨勢性與周期性應用用戶並發量的特點,利用不同的預測方法構造了預測模型,對含有兩種性質的並發量進行預測,提高了非平穩型業務並發量預測的準確性;並發量序列趨勢性判定方法,本方法通過自相關係數與T分布結合分析,可以自動的識別趨勢性並分發量序列的特徵;並發量序列周期性判定方法,本方法通過周期圖法計算出的功率譜序列與3口準則結合分析,可以自動的識別周期性並發量的特徵,並可以自動的計算出序列的周期數,解決了人工幹預計算周期的問題;趨勢性並發量序列預測方法,採用線性回歸的方法對趨勢型應用並發量序列進行擬合,並與ARMA算法結合,使擬合序列與殘差擬合序列共同構造出預測序列,這種方法對具有趨勢性的序列具有優秀的預測效果,且無需人工幹預,自行完成預測過程;周期性並發量序列預測方法,利用粒子群優化的支持向量機對已知周期的並發量序列進行預測,能夠精準的識別周期特徵,尤其是對有趨勢變化的周期性序列較其他預測方法有較好的預測效果,且無需人工幹預,自行完成預測過程。

附圖說明

圖1為本發明實施例提供的雲環境下非平穩型應用用戶並發量的預測系統的結構框圖;

圖2為本發明實施例提供的雲環境下應用用戶並發量預測模型的結構框圖;

圖3為本發明實施例提供的雲環境下非平穩型應用用戶並發量的預測方法的流程圖;

圖4為本發明實施例提供的周期性應用用戶並發量的預測流程圖;

圖5為本發明實施例提供的趨勢性應用用戶並發量預測流程圖。

具體實施方式

下面結合附圖和實施例,對本發明的具體實施方式作進一步詳細描述。以下實施例用於說明本發明,但不用來限制本發明的範圍。

如圖1所示,一種雲環境下非平穩型應用用戶並發量的預測系統,包括歷史數據獲取模塊、非平穩型業務判定模塊和應用用戶並發量預測模塊。

歷史數據獲取模塊用於通過連接存儲應用用戶並發量的資料庫,將雲環境下一段時間內用戶並發量按照一定的時間間隔從資料庫中獲取到系統緩存當中,為非平穩型判定模塊提供有效的用戶並發量歷史數據時間序列。

非平穩型業務判定模塊用於通過分析從歷史數據獲取模塊得到的用戶並發量歷史數據時間序列,來識別產生該用戶並發量歷史數據時間序列的業務是否屬於非平穩型業務,包括:趨勢性識別模塊和周期性識別模塊,應用用戶並發量預測模塊提供算法選擇依據及必要數據。

趨勢性識別模塊用於利用時間序列自相關係數趨勢識別法,識別用戶並發量歷史數據時間序列是否具有趨勢性。時間序列自相關係數趨勢識別法是一種利用自相關係數與T分布相結合,對時間序列的自相關係數與零值的差異性進行檢測,從而識別時間序列的趨勢性的方法。

周期性識別模塊用於利用時間序列功率譜周期識別法,識別用戶並發量歷史數據時間序列是否具有周期性,並計算周期性用戶並發量歷史數據時間序列的周期數。時間序列功率譜周期識別法是利用周期圖法計算時間序列的功率譜,並對時間序列的功率譜進行奇異值檢測分析,從而識別出時間序列的周期性,並計算具有周期性的時間序列的周期數。

應用用戶並發量預測模塊用於利用經過非平穩型業務判定模塊判定後的非平穩型業務的應用用戶並發量歷史數據時間序列,建立相應的雲環境下應用用戶並發量預測模型,並利用該模型預測得到未來一段時間內的應用用戶並發量時間序列,包括趨勢性並發量預測模塊和周期性並發量預測模塊。

趨勢性並發量預測模塊用於對趨勢性並發量時間序列進行預測,周期性並發量預測模塊用於從周期性識別模塊獲取周期數,然後進行周期性並發量時間序列的預測。

雲環境下應用用戶並發量預測模型是一種無需任何參數針對趨勢性時間序列與周期性時間序列的預測模型,模型結構如圖2所示,採取分別預測的方式,趨勢性並發量利用粒子群優化的支持向量機進行預測,周期性並發量利用基於線性回歸與ARMA的方法進行預測。

採用上述的預測系統進行雲環境下非平穩型應用用戶並發量預測的方法,如圖3所示,具體包括以下步驟。

步驟1、獲取用戶並發量歷史數據。

從資料庫伺服器獲取用戶並發量歷史數據時間序列,本實施方案中,從資料庫伺服器獲取2016年3月5日-2016年3月7日間每天9:00-10:15的並發量數據,這些並發量數據以30秒為時間間隔記錄,此用戶並發量歷史數據時間序列是一個按照時間順序排列的時間與並發量的二元組的集合,即用戶並發量時間序列為

其中,coni為ti時間的並發量,時間ti滿足ti<ti+1,n為並發量總個數,本實施例中的並發量總個數為450。

為了減小並發量個別噪聲對特徵分析造成的影響,coni的取值為時間步長內的平均並發量,即其中,ri為ti-1至ti時間內雲服務的用戶請求數。

步驟2、計算自相關係數序列。

由步驟1可知,con1、con2、…、coni、…、conn是過去450個時間點對應的用戶並發量,將這個序列按延遲步長為1的間隔可化分為n-1即449個二元組:、、…、、…、,其延遲步長為1的自相關係數為:

其中,為並發量時間序列中前n-k項的平均值,為並發量時間序列中前n-k項向後平移k項的所有值的平均值;γ(i,i+k)為自協方差函數;

自相關係數的含義不同於兩個變量間的相關係數,並發量自相關係數ρ1用來度量並發量時間序列上一時間段並發量觀測值與下一時間段並發量觀測值之間的關係,從定量的角度來研究上一時間段對下一時間段並發量觀測值的影響程度的大小。自相關係數的延遲步長是組成二元組的兩個數值在序列中的間隔數,如果延遲步長為k,則組成的二元組為,由此可知,並發量時間序列可被劃分出n-k個二元組,這樣可以得到並發量的自相關係數序列。

用戶並發量自相關係數序列是一個由各延遲步長下自相關係數組成的序列其中,ρk為並發量時間序列在延遲步長為k下的自相關係數:

其中,k=1,2,…,m,m為最大延遲步長,一般情況下為向上取整符號,本實施例中,最大延遲步長m取值150。

步驟3、計算功率譜序列。

並發量功率譜序列是一個由各頻率下時間序列的功率譜組成的序列其中,為頻率為v時並發量序列的功率譜:

其中,Fv為用戶並發量序列的離散傅立葉變換,v=1,2,…,n,Wn為旋轉因子,j為虛數單位。

步驟4、對用戶並發量歷史數據時間序列進行業務性質識別,具體包括:

步驟4.1、進行趨勢性識別,識別方法為:

步驟4.1.1、利用t分布推斷出並發量自相關係數序列Pm與零值發生差異的錯誤概率Pρ;

步驟4.1.2、判斷錯誤概率Pρ與趨勢性判定閾值Ps的關係,若Pρ>Ps,表示自相關係數序列Pm與零差異性不顯著,該用戶並發量歷史數據時間序列無趨勢性,執行步驟4.2;若Pρ<Ps,表示自相關係數序列Pm與零差異性顯著,該用戶並發量歷史數據時間序列含有趨勢性,執行步驟5,進行趨勢性並發量的預測;

趨勢性判定閾值Ps可調節趨勢性判定的標準,Ps值越大,用戶並發量歷史數據時間序列越容易被判定為具有趨勢性,反之,則具有較強趨勢性的序列才能被判定為具有趨勢性。本實施例中,Ps=0.05;

步驟4.2、進行周期性識別,識別方法為:

步驟4.2.1、確定功率譜序列Q的相鄰數據變化序列H,為

其中,由於當v=1時,頻率為v時並發量序列的功率譜的值可能會出現突出峰值,當時間序列為趨勢性時這個峰值尤為突出,但這個峰值表示整個時間序列只有一個周期,因此這個值不能代表序列的周期性,所以在識別突出峰值時不考慮v=1時的功率譜;

步驟4.2.2、用μc代表相鄰數據變化序列H的平均值,用σc代表相鄰數據變化序列H的標準差,則根據3σ準則,判斷頻率為v時並發量序列的功率譜的奇異性,若hv-μc>3σc,為奇異值,則用戶並發量歷史數據時間序列含有周期性,執行步驟4.3;否則,為非奇異值,用戶並發量歷史數據時間序列不含周期性,則步驟終止;

步驟4.3、計算用戶並發量歷史數據時間序列的周期數,然後執行步驟6,進行周期性並發量的預測;

如果用戶並發量歷史數據時間序列含有周期性,則計算其周期數nperiod,並發量序列周期數為並發量序列在一個周期內的數值個數:

其中,vs為周期峰對應的頻率,周期峰即在功率譜序列中突出大的一個功率譜數值。

步驟5、進行趨勢性並發量預測,如圖4所示,具體方法為:

步驟5.1、進行基於線性回歸的數據擬合,採用線性回歸的方法對趨勢性應用並發量序列進行擬合,得到訓練完成的線性回歸模型fw(x)和原始數據與線性回歸模型擬合後的殘差數據序列,進而將原始序列與擬合序列的殘差作為平穩型序列進行分析,擬合過程如下:

步驟5.1.1、設置進行線性回歸擬合的目標函數為fw(ti)=wTti,fw(ti)表示ti時刻對應的擬合應用用戶並發量,w為損失函數參數;本實施例中,w初始化設置為一個各元素為0的向量[0,0];

步驟5.1.2、設置進行線性回歸的損失函數為了(w)表示真實應用用戶並發量與擬合應用用戶並發量的誤差平方和;

步驟5.1.3、採用梯度下降法進行損失函數中的參數優化求解,得到損失函數參數w的更新公式為:其中,α為學習速率,j為w更新的標號,j=0,1,…,limit,limit為梯度下降的迭代次數;設置參數更新閾值ε,參數更新直到前後兩次絕對值小於參數更新閾值ε或者更新迭代次數達到了設置的迭代次數limit;本實施例中,limit=200,ε=10-3;

通過線性回歸對原始數據訓練完成之後,會得到兩部分內容,一部分是訓練完成的線性回歸模型fw(x),另一部分是原始數據與線性回歸模型擬合後的殘差數據序列;

步驟5.2、進行基於ARMA的殘差擬合;

在得到殘差應用用戶並發量數據之後,基於殘差應用用戶並發量數據的特點,採用ARMA算法(Auto-Regressive and Moving Average,自回歸滑動平均)實現對殘差數據序列的分析和建模;

對於ARMA(p,q)模型,有p+q+2個未知參數,即θ1、θ2、…、θq、μ和p是自回歸階數,q是移動平均階數,是p階自相關係數,θ1,θ2,…,θq是q階移動平均係數,μ是移動位移值,是隨機幹擾項的方差值,其中,p和q需要進行預設,它們共同決定模型的擬合效果;本實施例中,p=4,q=1,即ARMA(p,q)模型由7個未知參數;

步驟5.3、進行基於Ljung-Box檢驗的二次殘差驗證;

採用Ljung-Box檢驗進行驗證,Ljung-Box檢驗則是基於一系列滯後階數,對二次殘差是否屬於高斯白噪聲進行驗證,二次殘差是指擬合ARMA後得到的殘差序列,判斷序列總體的相關性或者說隨機性是否存在,驗證的本質是確定建立的ARMA模型是否有效,具體方法為:

步驟5.3.1、Ljung-Box檢驗的原假設H0為:原本的數據都是獨立的,即總體的相關係數為0,能觀察到的某些相關僅僅產生於隨機抽樣的誤差,即其中h是指定延遲期數,根據二次殘差的自相關圖人為設定其取值的數值,本實施例中,h=10;Ljung-Box檢驗的備擇假設Ha為:原本的數據不是獨立的,即至少存在某個其中,k≤h;

步驟5.3.2、構造統計量R為:其中,u是用戶並發量時間序列二次殘差序列中元素的個數,其數值上和n相等,是二次殘差序列k階滯後的相關係數,該統計量R服從自由度為h的卡方分布,給定顯著性水平α,則拒絕域是接受原假設意味著認為原序列是白噪聲序列,相關性不存在,ARMA模型有效,則執行步驟5.4,否則認為序列存在相關性,ARMA模型無效,則返回步驟5.2,重新訓練ARMA模型;

經過以上步驟,可以驗證ARMA模型是否充分提取了殘差中信息,並能夠對殘差進行精確的預測,若經過ARMA模型得到的二次殘差不屬於高斯白噪聲,說明需要返回步驟5.2進行ARMA模型的重建;

步驟5.4、進行基於訓練模型的預測;

通過對線性回歸模型和ARMA的訓練,能夠分別得到兩個模型:線性回歸模型對原始應用用戶並發量數據的趨勢進行擬合,進而對未來下一段時間的應用用戶並發量進行預測,ARMA模型對基於線性回歸擬合後的殘差數據進行擬合,進而對未來下一段時間的殘差趨勢進行預測;因此,趨勢性應用用戶並發量的預測包括兩部分的預測結果之和,具體步驟如下:

步驟5.4.1、基於訓練完成的線性回歸模型,得到下一段時間tn+1,tn+2,…,tl的預測並發量為pre_conn+1,pre_conn+2,…,pre_conl,l表示預測並發量時間點的個數,同時也是預測並發量的個數,本實施例中嗎,1=50;

步驟5.4.2、基於訓練完成的ARMA模型,得到下一段時間tn+1,tn+2,…,tm的預測殘差為pre_biasn+1,pre_biasn+2,…,pre_biasm;

步驟5.4.3、下一段時間tn+1,tn+2,…,tm的預測趨勢性應用用戶並發量為pre_conn+1+pre_biasn+1,pre_conn+2+pre_biasn+2,…,pre_conm+pre_biasm。

步驟6、進行周期性並發量預測,如圖5所示,具體方法如下:

步驟6.1、初始化粒子群的最大粒子數、最大迭代次數以及粒子的位置和速度,本實施例中,每個粒子都包含2個元素,即支持向量機的懲罰因子C和核參數γ,一般情況下懲罰因子C的取值範圍為[10-5,105],γ的取值範圍為[0,10],由於這兩個參數的合適範圍不是預知的,所以查找先從這兩個寬泛的範圍開始,並在查找過程中逐漸縮小查找範圍,一方面能減少計算量,另一方面能保證全局最優解的覆蓋廣度以及局部最優解的精確度;

步驟6.2、採用5折交叉驗證法訓練支持向量機模型,將並發量歷史時間序列分為5個數據包,其中4個數據包用於訓練,1個數據包用於測試訓練結果;

支持向量機模型是一種基於統計學理論的監督學習模型,支持向量機的核心思想是將輸入空間Rn非線性的映射到一個高維空間D上,從而將低維特徵空間的非線性回歸問題轉化為高維特徵空間的現行回歸問題,假設給定的訓練數據集為其中xi∈Rn,di∈D,N為數據個數,則支持向量機的回歸函數f(xi)可表示為:

其中,w是權重向量,標識從輸入空間Rn映射到目標空間D的非線性函數,是內積符號,b為偏差。權重向量w與偏差b需要從給定數據中訓練得出。為了訓練w與b,可將問題轉換為一個二次規劃問題:

其中,C為懲罰因子,為一個正常數,其作用為權衡模型的複雜性和誤差的關係;ξi與為引入的鬆弛變量,可以減小誤差,可以擴大輸入空間到高維特徵空間的距離,以此來提高泛化能力;ε為ε不敏感損失函數,這個函數決定著它可以使其忽略實際值在某個範圍內的誤差,確保全局最小值的存在。

為了將輸入空間映射到高維特徵空間,需要引入一個核函數k(xi,xj):

支持向量機的核函數需要滿足Mercer定理,此函數完成了對輸入樣本xi從低維特徵空間向高維特徵空間的非線性映射,xj為輸入樣本xi在高維特種空間的表達。這樣就可以將輸入樣本與輸出變量的關係在高維特徵空間中表示為一個線性映射。也正是由於核函數的作用,支持向量機能夠適用於非線性關係的學習問題。根據對偶原則,支持向量機的對偶問題可以被表達為:

其中,αi與兩個對偶的拉格朗日乘數,則最終的最優化回歸函數可表示為:

步驟6.3、利用預測準確率fCP作為適應度評價標準評價粒子適應度,預測準確率fCP為:

其中,為並發量預測值,和分別為指定的並發量歷史數據coni可接受的準確區間的上界和下界,coni為並發量歷史值,PL為預測的容錯度,本實施例中容錯度取5%;

粒子群中的每一個粒子需要被此標準重複的評價,因此可以從迭代過程中得出粒子的適應度向量,即由粒子在迭代過程中的最優解組成的向量;

步驟6.4、更新局部最優解與全局最優解,並將結果記錄在局部最優解向量pi與全局最優解向量pg中;

在粒子群每次迭代過程中,每個粒子都會得到一個適應度數值,將此數值與該粒子的最優解相比較,如果適應度優於粒子的最優解,則更新此粒子的最優解為粒子的當前狀態,此最優解為則為粒子的局部最優解;再將此局部最優解與全局最優解相比較,如果適應度優於全局最優解則更新全局最優解為當前粒子狀態。全局最優解是所有粒子中適應度最優的解向量。通過迭代評價,可以得到目前為止粒子的局部最優解與粒子群的全局最優解,這兩個值將被更新到局部最優解向量pi與全局最優解向量pg中記錄下來;

步驟6.5、判斷更新迭代是否達到終止條件,迭代的終止條件為最大迭代次數,如果最大迭代次數尚未達到,則更新粒子的位置和速度後,返回步驟6.4,進入下一個迭代循環,繼續查找支持向量機參數的最優解;如果達到最大迭代次數,則迭代終止,粒子群優化結束,得到支持向量機的懲罰因子C與核參數γ的最優解,執行步驟6.6;本實施例中,最大迭代次數為100次;

步驟6.6、進行支持向量機預測,利用從粒子群優化算法中得到的懲罰因子C與核參數γ的最優解作用於支持向量機,並利用並發量歷史數據時間序列訓練支持向量機模型(原理見步驟6.2),然後利用訓練結果及輸入的預測時間序列標識,通過重建訓練預測出並發量數據;所述預測時間序列的時間標識是由所要預測的並發量對應的時間點組成,即{tn+1,tn+2,…,tn+l},1為預測序列的長度,起始時間點為用戶並發量歷史數據時間序列最後一個時間點的下一時間點,各時間點的時間間隔與用戶並發量歷史數據時間序列的時間間隔相同。

本實施例提供的一種雲環境下非平穩型應用用戶並發量的預測系統及方法,針對雲環境下非平穩型業務的趨勢性與周期性應用用戶並發量的特點,利用不同的預測方法構造了預測模型,對含有兩種性質的並發量進行預測,提高了非平穩型業務並發量預測的準確性;並發量序列趨勢性判定方法,本方法通過自相關係數與T分布結合分析,可以自動的識別趨勢性並分發量序列的特徵;並發量序列周期性判定方法,本方法通過周期圖法計算出的功率譜序列與3σ準則結合分析,可以自動的識別周期性並發量的特徵,並可以自動的計算出序列的周期數,解決了人工幹預計算周期的問題;趨勢性並發量序列預測方法,採用線性回歸的方法對趨勢型應用並發量序列進行擬合,並與ARMA算法結合,使擬合序列與殘差擬合序列共同構造出預測序列,這種方法對具有趨勢性的序列具有優秀的預測效果,且無需人工幹預,自行完成預測過程;周期性並發量序列預測方法,利用粒子群優化的支持向量機對已知周期的並發量序列進行預測,能夠精準的識別周期特徵,尤其是對有趨勢變化的周期性序列較其他預測方法有較好的預測效果,且無需人工幹預,自行完成預測過程。

最後應說明的是:以上實施例僅用以說明本發明的技術方案,而非對其限制;儘管參照前述實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述實施例所記載的技術方案進行修改,或者對其中部分或者全部技術特徵進行等同替換;而這些修改或者替換,並不使相應技術方案的本質脫離本發明權利要求所限定的範圍。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀