實現業務數據預測的實時處理平臺及預測方法
2023-10-04 14:30:49 1
專利名稱:實現業務數據預測的實時處理平臺及預測方法
技術領域:
本申請涉及網絡技術領域,尤其涉及一種線上處理過程中實現業務數據預測的實 時處理平臺及預測方法。
背景技術:
隨著網際網路的發展,很多伺服器是需要不間斷的工作的。比如,提供路由的服務平 臺中的伺服器是需要不間斷地提供路由服務。提供郵件服務的郵件服務平臺也同樣需要不 間斷的提供郵件服務。類似這種需要實時處理當前網絡上各種請求的平臺,我們稱之為實 時處理平臺。以郵件服務平臺為例,經常需要預測諸如下周新開的用戶數、第二天佔用的存儲 空間等業務數據,以便能及時確保當前資料庫的存儲容量是否能滿足後續發展的需求,進 而能及早地添設資料庫伺服器等對應設備。現有技術中,通常是根據近幾天或近幾周的存 儲空間使用情況,來初略預測後續一周的存儲空間佔用情況。上述對業務數據進行預測的方式,存在以下缺點首先,這種預測方式不具有安全性。當前,實時處理平臺上首先需要保證實時處理的穩定性,再次需要保證其平臺的 安全性,後才是考慮其處理請求的效率。現有技術中直接在實時處理平臺的實時處理過程 中來預測業務數據,這種利用現有的實時處理過程中的實時處理數據,很容易影響其實時 處理過程的穩定性。接著,這種預測方式預測數據有限,不具有通用性。比如,現有技術中想預測後續一個月後的資料庫的存儲容量佔用情況,很難實現, 或者是預測的結果很不準確。最後,預測出來的數據精準率差。比如,預測存儲容量需要用到同比、環比比例等 參數,現有的同比、環比比例是固定不變的,或者是一段時間後再更改該些參數,這種方式 預測出來的業務數據精準度不夠。以下舉一實例來說明現有技術預測出來的業務數據精準度不夠。表1
時間1月1曰1月2日1月3日1月4日1月31日存儲空間佔 用數YiY2Y3Y4Yso 在郵件服務平臺上,假設表1表明2010年1月份的存儲空間佔用情況,若今天是 2010年1月31日,需要估算出明天2010年2月1日的存儲空間佔用數,現有的預測方式通 常是固定的,比如X,就是指明天的存儲空間佔用數與前二天存儲空間
佔用數有關。事實上,預測明天的存儲空間佔用數和哪幾天存儲空間佔用數有關,是和存儲空間佔用數的變化幅度有關。若存儲空間佔用數變化幅度比較大,需要考慮更多的y,存儲 空間佔用數的變化幅度小,需要考慮的y的數量也可以少一些。但是,現有的預測方式考慮 存儲空間數的個數通常是固定的,由此使得預測出來的業務數據精準度不夠。
發明內容
本申請的目的在於提供一種實現業務數據預測的實時處理平臺,以解決現有的利 用歷史數據預測出來的業務數據精準度不佳的技術問題。本申請的另一目的在於提供一種在實時處理平臺上實現業務數據預測方法,以解 決現有的利用歷史數據預測出來的業務數據精準度不佳的技術問題。一種實現業務數據預測的實時處理平臺,所述實時處理平臺包括服務中心和數據 庫,所述服務中心進一步包括實時處理子系統、預處理子系統和業務數據預測子系統,所述 資料庫進一步包括實時數據存儲單元、數據倉庫、業務數據預測結果存儲單元,其中,實時處理子系統,用於實時處理用戶請求,並將處理結果存儲在實時數據存儲單 元中;預處理子系統,分別連接實時數據存儲單元和數據倉庫,用於對實時數據存儲單 元的數據進行歸總,並將歸總的結果存儲在數據倉庫中;業務數據預測結果存儲單元,進一步包括模式存儲子單元和業務數據存儲子單 元,其中模式存儲子單元,用於存儲包括需擬合參數在內的方程式及擬合參數的計算方式; 業務數據存儲子單元,用於存儲每一次預測出來的業務數據信息;業務數據預測子系統包括數據提取單元分別連接模式存儲子單元和數據倉庫,用於提取參數擬合、業務數 據計算需要的實時數據歸納結果;參數擬合單元連接數據提取單元和模式存儲子單元,用於進行參數擬合;業務數據計算單元,分別連接數據提取單元、參數擬合單元、模式存儲子單元和業 務數據預測結果存儲子單元,用於按照預設的公式計算業務數據,並將計算的結果存儲在 業務數據預測結果存儲子單元。一種在實時處理平臺上實現業務數據預測方法,用於在實時處理平臺上的實時處 理子系統不間斷響應網絡用戶的用戶請求的同時,完成業務數據的預測操作規程,包括(1)設置模式存儲子單元,用於保存包括需擬合參數信息在內的用於計算業務數 據的方程式、計算業務數據需提取的數據信息、擬合所述參數的方程式以及計算參數所需 提取的數據信息;(2)實時處理子系統響應用戶請求,並將處理結果保存在實時數據存儲單元中;(3)實時處理平臺上的預處理子系統對實時數據存儲單元中的數據進行歸總,並 將歸總結果存儲在數據倉庫中,所述歸總結果包括有計算業務數據需提取的數據信息和計 算參數所需提取的數據信息;(4)從數據倉庫中提取步驟(1)所需的數據;(5)按照提取的數據計算出待測參數;(6)根據計算出來的參數值,並按照步驟(1)設定的方程式,再計算出需預測的業 務數據。
與現有技術相比,本申請具有以下優點首先,本申請將業務數據的預測分為幾個部分,首先將預測業務數據進行量化,比 如,量化成方程式,方程中有常量及待測量的參數。並將方程式部署到線上,通過實時數據 的擬合計算出待測量的參數,從而在線預算出業務數據。這種預測的方式是實時預測沒有 延時性、能使得預測的效果最佳。其次,本申請的這種實時預測能大大提高預測的準確率。再次,這種實時預測可以通過軟體的方式預先編好程,並將編好的程序設置在當 前的實時處理平臺上,就能自動實現預測,減少人工的投入,同時也提高了預測的效果。
圖1為實現業務數據預測的實時處理系統的原理結構示意圖;圖2為實時處理平臺的原理結構示意圖;圖3是預處理子系統和數據倉庫的對應關係圖;圖4為預測業務數據的流程示意圖;圖5為網絡交易平臺的原理結構示意圖;圖6為業務數據預測子系統的原理結構示例圖。
具體實施例方式以下結合附圖,具體說明本申請。請參閱圖1、圖2,其為一種實現業務數據預測的實時處理系統的原理結構示意 圖。終端1通過網際網路連接至實時處理平臺2,用戶通過其所在的終端1向實時處理平臺2 發出用戶請求,實時處理平臺2通過網際網路實時響應用戶請求。實時處理平臺2包括服務 中心3和資料庫4。服務中心3上至少包括實時處理子系統11,用於實時處理用戶的請求。 實時處理子系統11可以為支付系統,用於接收用戶支付金額的請求。實時處理子系統11 可以為交易系統,用於接收用戶購買商品的交易請求。實時處理子系統11也可以為郵件服 務系統,用於接收用戶提出的郵件相關請求。本申請對實時處理子系統11所處理的業務數 據內容並不做限制。在本實例中,服務中心3上還包括預處理子系統12和業務數據預測子系統13。數 據庫4進一步包括實時數據存儲單元21、數據倉庫22和業務數據預測結果存儲單元22。預處理子系統12,分別連接實時數據存儲單元21和數據倉庫22。預處理子系統 12按照預設的條件對實時數據存儲單元21中的數據實時進行歸總,並將歸總的數據存儲 在數據倉庫22中。實時數據存儲單元21通常是存儲每一次用戶請求的處理結果,需要預 處理子系統12對該些數據進行歸總。另外,數據倉庫22可以是以多個文件的形式保存預處理子系統12歸總後的數據, 數據倉庫22也可以是以多個表格的形式保存預處理子系統12歸總後的數據。有些實時處理平臺2上已經預設有用於歸總某些數據的預處理子系統12。當預測 業務數據所涉及到數據在數據倉庫22中都已存在,本實例就可利用現有數據倉庫22中的 數據。若預測業務數據需要涉及新的歸總數據時,本實例可修改預處理子系統12,在其中增 設對應的歸總流程,並在數據倉庫22中增設一文件或一表格或在表格中增設若干欄位。上述的設置能最大程度地保證原有實時處理子系統11的穩定性,由此提高安全性。當需要預測的業務數據發生變化,或者是需要預測的業務數據的周期發生變化, 比如從每天變更為每星期時,則計算業務數據所需提取的數據就會發生變化,先判斷數據 倉庫22中是否存在該些所需提取的數據,若沒有,則可更改預處理子系統12的設置,使其 歸總該些所需提取的數據。並且,在本實例中(請參閱圖3),預處理子系統12可以包括若干預處理單元121, 數據倉庫22中設置有若干數據倉庫單元221。數據倉庫單元221可以為一表格,也可以為 一文件。預處理單元121可以對應一數據倉庫單元221。每一預處理單元121用於對某一 類別方面數據的歸總,並將歸總後的數據存儲在對應的數據倉庫單元221中。這種處理方 式,可以使得預處理子系統12具有更強的擴展性。還是以郵件服務平臺為例。預處理子系 統12可以包括用戶信息預處理單元、新開用戶信息預處理單元、存儲空間使用情況預處理 單元等。新開用戶信息預處理單元用於歸納當天新開用戶的個數等。用戶信息預處理單元 用於歸總當天使用郵件的用戶個數、郵箱未使用到期的用戶個數等。存儲空間使用情況預 處理單元用於保存當天用戶的使用存儲空間的情況等。業務數據預測主要是通過業務數據預測子系統13和業務數據預測結果存儲單元 23來完成。其中業務數據預測結果存儲單元23,包括模式存儲子單元231和業務數據存儲子單元 232。其中模式存儲子單元231,用於存儲包括需擬合參數在內的方程式及擬合參數的計算 方式,所述方程式用於預測業務數據。業務數據存儲子單元232,用於存儲每一次預測出來 的業務數據信息。業務數據預測子系統13包括數據提取單元31、參數擬合單元32、業務數據計算單
元33。數據提取單元31 分別連接模式存儲子單元231、數據倉庫22,用於提取參數擬 合、業務數據計算需要的實時數據歸納結果;參數擬合單元32 連接數據提取單元31和模式存儲子單元231,用於進行參數擬 合;業務數據計算單元33,分別連接數據提取單元31、參數擬合單元32、模式存儲子 單元231和業務數據存儲子單元232,用於按照預設的公式計算業務數據,並將計算的結果 存儲在業務數據存儲子單元232。從上可知,本申請專門設定了一個業務數據預測子系統13來進行業務數據的預 測,並將業務數據預測過程中涉及到的數值放置在業務數據結果存儲單元23。該業務數據 預測子系統13和業務數據結果存儲單元23不直接與實時數據存儲單元21、實時處理子系 統11連接,其只連接數據倉庫22,利用數據倉庫22的數據來進行業務數據的預測。並且, 當計算業務數據所需提取的數據發生變化時,還需要判斷數據倉庫22中是否存在該些所 需提取的數據,若沒有,則可更改預處理子系統12的設置,使其歸總該些所需提取的數據。還有,當需要更改需預測的業務數據時,通常只需要更改模式存儲子單元231的 內容即可,並且,可以人為設定預測業務數據的周期,具有很強的通用性。另外,本申請引入 了參數擬合的步驟,大大提高了業務數據預測的精準度。並且,參數擬合是直接根據數據倉 庫22的數據進行擬合,實時性非常強。
請參閱圖4,其為一種在實時處理平臺上實現業務數據預測方法的流程圖。它用於 在實時處理平臺上的實時處理子系統不間斷響應網絡用戶的用戶請求的同時,完成業務數 據的預測操作規程,包括SllO 設置模式存儲子單元,用於保存包括需擬合參數信息在內的用於計算業務 數據的方程式、計算業務數據需提取的數據信息、擬合所述參數的方程式以及計算參數所 需提取的數據信息。S120:實時處理子系統響應用戶請求,並將處理結果保存在實時數據存儲單元 中;S130 實時處理平臺上的預處理子系統對實時數據存儲單元中的數據進行歸總, 並將歸總結果存儲在數據倉庫中,所述歸總結果包括有計算業務數據需提取的數據信息和 計算參數所需提取的數據信息;S140 從數據倉庫中提取步驟SllO所需的數據;S150 按照提取的數據計算出待測參數;S160 根據計算出來的參數值,並按照步驟SllO設定的方程式,再計算出需預測 的業務數據。當欲預測的數據發生變化時,修改模式存儲子單元中對應的內容。當欲預測的數據發生變化,進一步判斷需要提取的數據信息在數據倉庫中是否存 在,若不存在,則進一步修改預處理子系統,預設歸總流程獲得需要提取的數據信息。以下舉一個簡單的例子來說明本申請。還是以表1為例,本申請可以在模式存儲子單元中將預測方程式設定為少'=釣兄-丨++…H + ε丨(公式1)其中,ρ是階數,表明第t個時刻的業務數據,記做yt只與過去的P個時刻以來的 值(艮口 yt-i' yt-2' · · ·,yt-P)相關。P為一參數,佔用存儲空間變化幅度數落在不同的域值範圍,P值也是不同的。本實例設置了表權利要求
1.一種實現業務數據預測的實時處理平臺,其特徵在於,所述實時處理平臺包括服務 中心和資料庫,所述服務中心進一步包括實時處理子系統、預處理子系統和業務數據預測 子系統,所述資料庫進一步包括實時數據存儲單元、數據倉庫、業務數據預測結果存儲單 元,其中,實時處理子系統,用於實時處理用戶請求,並將處理結果存儲在實時數據存儲單元中;預處理子系統,分別連接實時數據存儲單元和數據倉庫,用於對實時數據存儲單元的 數據進行歸總,並將歸總的結果存儲在數據倉庫中;業務數據預測結果存儲單元,進一步包括模式存儲子單元,其中模式存儲子單元,用於 存儲包括需擬合動態變化的參數在內的方程式及擬合參數的計算方式;業務數據預測子系統包括數據提取單元分別連接模式存儲子單元和數據倉庫,用於提取參數擬合、業務數據計 算所需的實時數據歸納結果;參數擬合單元連接數據提取單元和模式存儲子單元,用於進行參數擬合;業務數據計算單元,分別連接數據提取單元、參數擬合單元、模式存儲子單元和業務數 據預測結果存儲子單元,用於按照預設的公式計算業務數據。
2.如權利要求1所述的平臺,其特徵在於,數據提取單元包括參數計算相關數據提取子模板連接參數擬合單元和數據倉庫,用於提取擬合參數所 需的數據;業務數據計算相關數據提取子模板,連接業務數據計算單元和數據倉庫,用於提取計 算業務數據所需的數據。
3.如權利要求2所述的平臺,其特徵在於,還包括參數計算相關數據觸發子模板,連接參數計算相關數據提取子模板,用於按照預先設 定的條件觸發參數計算相關數據提取子模板來提取該些數據。
4.如權利要求2所述的平臺,其特徵在於,還包括業務數據計算相關數據觸發子模板,連接業務數據計算相關數據提取子模板,用於按 照預先設定的條件觸發業務數據計算相關數據提取子模板來提取該些數據。
5.如權利要求3所述的平臺,其特徵在於,參數計算相關數據提取子模板、參數計算相 關數據觸發子模板的個數分別為多個。
6.如權利要求1所述的平臺,其特徵在於,還包括一個與業務數據預測單元相連接的 業務數據預測觸發子單元,用於按照預先設定的觸發條件觸發業務數據的預測操作。
7.如權利要求1所述的平臺,其特徵在於,模式存儲子單元進一步存儲UPil1+.... + φ,γ,^+ε,,其中yt為第t期的業務數據,Yt-!為第t-Ι期的業務數據,yt_nl為第t-nl期的業務數據,yt_nk為第t_nk期的 業務數據,隊、朽、為參數,ε t為第t期的隨機誤差;參數擬合單元包括用於分別估計隊、、參數的仍估計子單元、夠估計子單 元、——%估計子單元;數據提取單元包括計算夠相關數據提取子單元、計算夠相關數據提取子單元、...計 算%相關數據提取子單元、用於提取包括yg、yt_nl、... yt-nk的業務數據提取子單元。
8.如權利要求1所述的平臺,其特徵在於,模式存儲子單元進一步存儲
9.如權利要求1所述的平臺,其特徵在於,實時處理子系統、預處理子系統和業務數據 預測子系統集在在一伺服器上實現。
10.一種實現業務數據預測的實時處理系統,包括至少一實時處理平臺、網絡以及通過 網絡連接實時處理平臺的終端,其中,所述實時處理平臺所述實時處理平臺包括服務中心和資料庫,所述服務中心進一步包括實時處理子系 統、預處理子系統和業務數據預測子系統,所述資料庫進一步包括實時數據存儲單元、數據 倉庫、業務數據預測結果存儲單元,其中,實時處理子系統,用於實時處理用戶請求,並將處理結果存儲在實時數據存儲單元中;預處理子系統,分別連接實時數據存儲單元和數據倉庫,用於對實時數據存儲單元的 數據進行歸總,並將歸總的結果存儲在數據倉庫中;業務數據預測結果存儲單元,進一步包括模式存儲子單元,其中模式存儲子單元,用於 存儲包括需擬合動態變化的參數在內的方程式及擬合參數的計算方式; 業務數據預測子系統包括數據提取單元分別連接模式存儲子單元和數據倉庫,用於提取參數擬合、業務數據計 算需要的實時數據歸納結果;參數擬合單元連接數據提取單元和模式存儲子單元,用於進行參數擬合; 業務數據計算單元,分別連接數據提取單元、參數擬合單元、模式存儲子單元和業務數 據預測結果存儲單元,用於按照預設的公式計算業務數據。
11.一種在實時處理平臺上實現業務數據預測方法,用於在實時處理平臺上的實時處 理子系統不間斷響應網絡用戶的用戶請求的同時,完成業務數據的預測操作規程,其特徵 在於,包括(1)設置模式存儲子單元,用於保存包括需擬合參數信息在內的用於計算業務數據的 方程式、計算業務數據需提取的數據信息、擬合所述需動態變化的參數的方程式以及計算 參數所需提取的數據信息;(2)實時處理子系統響應用戶請求,並將處理結果保存在實時數據存儲單元中;(3)實時處理平臺上的預處理子系統對實時數據存儲單元中的數據進行歸總,並將歸 總結果存儲在數據倉庫中,所述歸總結果包括有計算業務數據需提取的數據信息和計算參 數所需提取的數據信息;(4)從數據倉庫中提取步驟(1)所需的數據;(5)按照提取的數據計算出待測參數;(6)根據計算出來的參數值,並按照步驟(1)設定的方程式,再計算出需預測的業務數據。
12.如權利要求11所述的方法,其特徵在於,還包括當欲預測的數據發生變化時,修改模式存儲子單元中對應的內容。
13.如權利要求12所述的方法,其特徵在於,當欲預測的數據發生變化,進一步判斷需要提取的數據信息在數據倉庫中是否存在, 若不存在,則進一步修改預處理子系統,預設歸總流程獲得需要提取的數據信息。
14.如權利要求11所述的方法,其特徵在於,還包括 預先設定預處理的周期,在每一周期內完步驟(3);預先設定進行業務數據預測的周期,在每一周期內,分別進行一次步驟(4)-(6)。
15.如權利要求11所述的方法,其特徵在於,模式存儲子單元進一步存儲只H1 "丨+…·+外少^ +…,其中:Yt為第t期的 業務數據,Yt-!為第t-Ι期的業務數據,yt_nl為第t-nl期的業務數據,yt_nk為第t_nk期的 業務數據,仍、朽、...%為參數,ε t為第t期的隨機誤差; 分別估計釣、朽、參數; 提取 Yt-I > yt-nl > · · · yt-nk ; 計算出yt這個業務數據。
16.如權利要求11所述的方法,其特徵在於, 模式存儲子單元存儲~(釣▽ ?》- μ] = 0q(B')QQ(B)at t = 其中,p、d、q、P、D、Q、S、u 為常量,Φρ(Β)、Φρ(Β)、Oq(B), Θ q(B),為需要擬合的參數, V為差分操作符,為S階差分操作符;計算出 Φρ(Β)、Φρ(Β)、0q(B), q(B)的參數; 計算出yt這個業務數據。
17.如權利要求11所述的方法,其特徵在於,需預測的業務數據為第二天的存儲空間 佔用數時,其進一步包括設置佔用存儲空間變化幅度數% = Yjyn^1 ;建立佔用存儲空間變化幅度、存儲空間佔用係數Ψ、和預測業務數據相關歷史數據個 數P對應關係的存儲表;當需要預測第二天業務數據時,先從數據倉庫獲得當前的存儲空間佔用數,再計算出 當前的佔用存儲空間變化幅度,當天的存儲空間佔用係數中; 從存儲表中找到對應的預測業務數據相關歷史數據個數P ; 後利用少,=PJm+.... + φ^+ε,,計算出第二天的存儲空間佔用數。
全文摘要
一種實現業務數據預測的實時處理平臺,其包括業務數據預測子系統,業務數據預測子系統進一步包括模式存儲單元,用於存儲包括用於預測業務數據的方程式在內的固定數據;數據提取單元,用於從實時處理過程或歸總後的處理結果中提取預先設定的數據;參數擬合單元,用於將數據提取單元提出的數據,按預先設定的模式計算出參數值;業務數據預測單元,用於根據估計出來的參數值和方程式獲得本次計算業務數據的公式,後利用該公式計算出預測的業務數據。本申請將業務數據的預測分為幾個部分,首先將預測業務數據進行量化,比如,量化成方程式,方程中有常量及待測量的參數,並將方程式部署到線上,通過實時數據的擬合計算出待測量的參數,從而在線預算出業務數據。本申請預測出來的業務數據精準度高、實時性強。
文檔編號G06Q10/00GK102103714SQ200910265969
公開日2011年6月22日 申請日期2009年12月22日 優先權日2009年12月22日
發明者周雅明, 李婷婷 申請人:阿里巴巴集團控股有限公司