一個對海量數據進行抽樣以及抽樣數據管理系統的製作方法
2023-04-22 17:22:11 1
專利名稱:一個對海量數據進行抽樣以及抽樣數據管理系統的製作方法
技術領域:
本發明涉及數據倉庫領域、商務智能領域以及其他和海量數據分析與處理相關的領域,尤其涉及一種對海量數據進行抽樣以及抽樣數據管理的系統。
背景技術:
抽樣是從總體中選取一部分個體形成一個子集,利用這個子集對總體的統計特徵進行估計與推斷的過程。雖然利用抽樣子集對總體特徵的推斷會損失一定的精確度。但是, 如果考慮到現在很多分析都是出於探索、預測的目的,問題本身就存在很大的不確定性,那麼通過抽樣以損失一定的精確性為代價獲得對數據及時而充分的探索與分析是一個很有價值也很有必要的手段。抽樣調查技術已經在統計學、社會學、醫學等諸多領域獲得了充分的研究與發展。在對企業信息化系統、數據倉庫系統中的海量數據進行分析與處理的實踐中,更常見的是對全體數據的分析與處理,例如,在現有的商業智能系統和企業信息化系統中沒有一個專門的數據抽樣模塊,商業智能系統通過對全體數據的匯總分析給出結果。雖然,很多實踐者也曾經利用抽樣技術對海量數據進行分析,但是這些抽樣實踐都是零散的、 非系統化的、缺乏平臺系統支撐與嚴格理論支撐的。本申請將提出一個數據抽樣系統,它能夠有效的管理對海量數據的抽樣的設計、執行與應用。隨著信息技術的發展,人類的數據極大豐富。據IDC的一份調查報告顯示,到2020 年,人類產生的數據將超過35萬億GB(3MB)。很多大型企業產生並儲存了海量的數據。據 McKinsey的一份調查報告顯示,在美國,2010年規模超過1,000人的企業平均每家企業產生和儲存超過200TB的數據,而許多企業產生和儲存超過1PB(1PB = 1,000TB)的數據。以著名的社交網絡平臺!^acebook為例,到2010年7月,Facebook已經擁有超過35PB的數據, 並且數據量仍然以每天超過90TB的未壓縮數據(超過15TB的壓縮數據)的速度增長。如何對如此海量的數據進行處理成為企業在未來需要面臨的一大難題。為了應對海量數據處理問題,企業通常以購買更加先進的伺服器或者在雲計算平臺上進行數據處理等增加新的計算資源的方式來處理日益增長的海量數據。不可否認,增加新的高性能的計算資源是應對海量數據的一個重要手段,然而它並不是應對海量數據的唯一手段。本申請將提出一個抽樣數據管理系統,該系統幫助使用者對海量數據進行抽樣並對抽樣數據進行管理,通過只對海量數據中規模可控的一部分子集進行分析,就能夠在保證分析與決策質量的同時大大降低對運算資源的需求,從而能夠將運算資源投入到更廣泛、更複雜的運算中。雖然和對總體數據進行分析相比,對經過抽樣的數據的分析結果會損失一定的精確性。但是,因為數據量過於巨大,對總體數據的分析會出現很多問題,現一一列舉如下首先,由於對總體數據運算需要大量的運算資源,運算十分昂貴,業務人員很難有機會接觸數據並掌握進行即席(ad-hoc)查詢的必要技能,業務人員往往需要在技術人員的協助下對數據進行探索與分析,而在業務人員將需求表述給技術人員,技術人員再將需求在IT系統中實現的過程中難免會出現偏差甚至錯誤。其次,由於對總體數據的分析需要很長的時間,使得業務人員難以利用數據對自己的業務假設進行充分的探索與分析。並且,往往由於決策時機的時間限制,使得業務人員經常不得不在沒有任何數據支撐的情況下做出決策。第三,因為對總體數據的即席查詢需要耗費大量的時間和資源,為了滿足業務人員快速的決策需求,往往需要業務人員對可能發生的決策以及可能需要的分析進行預估,再由技術人員預先實現這些需求,並存儲到系統中。然而,預估的需求和實際的需求往往存在偏差,這使得系統耗費了大量的計算和存儲資源來生成和保存沒有被用來指導決策的無價值的結果。第四,總體數據的數據量伴隨著企業業務量的增長而同步增長,當下某些新興業務的業務飛速發展,數據增長速度往往超過預期,這也就意味著難以對企業信息系統的分析與計算能力進行有效規劃,並且隨著數據量的飛速增長對總體數據進行即席查詢與分析所需的等待時間也會相應增長,從而造成雖然數據在飛速增長,但是數據的可用性卻在逐步下降的困局。本申請提出一個抽樣數據管理系統,通過對總體數據中的數據進行抽樣與管理, 能夠在一定程度上解決上述問題。它能夠在保證分析質量和決策質量的同時,降低即席查詢所需的時間和計算資源,使得系統能夠及時的給出即席查詢的計算結果,業務人員能夠有更多的機會探索數據、驗證假設,從而能夠發展其數據分析與處理的技能,能夠自主處理大部分數據分析工作,減少由於需求表達與理解過程中所產生的錯誤。並且,業務人員能夠根據當下的決策需求自主分析、驗證假設,並且及時獲得反饋,從而能夠刺激業務人員對更多的業務假設進行分析與驗證,提升決策質量。另外,由於業務人員能夠預期分析系統能夠及時的為其決策服務,則他們不會要求系統對一些預估的分析需求提前進行運算。最後,可以利用對抽樣樣本數據量的控制,確保在業務量飛速增長以及伴之而來的數據量飛速上漲的同時不必對分析系統進行過快的擴容也能夠滿足分析需求。使用抽樣方法能夠使用一個樣本的統計量對總體的統計量進行估計是有統計學理論作為支撐的。我們可以以利用簡單隨機抽樣對總體的均值進行估算為例進行討論。約定樣本量由η表示,總體規模由N表示,則簡單隨機抽樣是這樣一種抽樣方法來自總體N 個元素的由任意可能的η個不完全相同元素組成的子集,都有同樣的可能性被選為樣本。 如果我們約定將大寫字母用於總體值和參數,而小寫字母用於樣本值和估計量。這樣Y1, Y2,……A代表總體中N個元素的y變量值,而y1; y2,……yn則是樣本中η個元素的值。 則
__ N_ η總體均值為= YJiIN而樣本均值為孓二|^/ 總體變量y元素的方差為J2 二!;⑶-?)2/(TV-I)
(=1
η一而樣本元素的方差則為乂 =1^-3^("-1)
/=1則一個樣本量為η的簡單隨機抽樣的樣本均值的方差為V(y0) = (^)— = 0-/)—
N ηη⑴其中f = η/Ν為抽樣比。由於我們的目的是處理海量數據,所以N很大,而f = η/Ν相對較小,Ι-f 1,可以忽略不計。而S2是總體的參數,在實際應用中是未知量,
權利要求
1.一種用於數據倉庫系統、商務智能以及其他和海量數據分析與處理相關的領域中對海量數據進行抽樣以及抽樣數據管理的方法與系統,通過對數據抽樣的方法降低分析與處理海量數據所需要的計算資源。
2.基於權利要求1的方法所構建的系統,它能夠幫助使用者設計抽樣規則,根據抽樣規則調度抽樣引擎對數據抽樣,管理抽樣數據以及利用抽樣數據為其他系統提供數據支撐,其特徵在於,包括以下幾個子系統或模塊抽樣管理子系統、 抽樣數據元數據管理子系統、 抽樣調度子系統、 抽樣數據存儲子系統、 抽樣數據分發子系統。
3.如權利要求2所述,構建抽樣管理子系統,其主要功能是幫助與引導使用者設計抽樣規則,為管理員提供抽樣規則管理功能以及數據安全管理功能,並且對使用者所使用的計算資源和存儲資源進行計費,其特徵在於,包括以下幾個模塊抽樣規則設計模塊、 預抽樣與抽樣控制模塊、 抽樣管理模塊、 數據與規則匹配模塊、 數據安全管理模塊、 服務計費模塊。
4.如權利要求2所述,構建抽樣數據元數據管理子系統,其主要功能是對數據源、抽樣數據、抽樣規則的描述信息進行存儲與管理,其特徵在於,包括以下幾個模塊數據源元數據管理模塊、 抽樣數據數據模型管理模塊、 抽樣規則管理模塊、 統計推斷引擎庫、 抽樣調度信息庫、 抽樣數據訪問信息庫、 抽樣數據版本控制與映射模塊、 源數據特徵庫。
5.如權利要求2所述,構建抽樣調度子系統,其主要功能是抽樣系統和源數據系統的接口,它管理和調度抽樣程序,並且將抽樣結果保存在抽樣數據存儲子系統中,同時它也擔負著抽樣數據生命周期管理的任務,其特徵在於,包括以下幾個模塊調度引擎、 抽樣引擎、抽樣數據生命周期管理模塊。
6.如權利要求2所述,構建抽樣數據存儲子系統,其功能是對數據進行存儲與管理,它存儲了抽樣數據的各個版本,其特徵在於,包括以下幾個模塊抽樣對象庫、抽樣資料庫。
7.如權利要求2所述,構建抽樣數據分發子系統,其功能是提供抽樣系統和使用抽樣數據的目標系統以及使用者之間的接口,通過請求應答的方式為其他系統提供數據,也可以為使用者提供自帶的數據分析平臺訪問與分析抽樣數據,其特徵在於,包括以下幾個模塊統計推斷引擎、 數據與服務應答接口、 抽樣數據分析平臺。
全文摘要
本申請提出一種用於數據倉庫系統、商務智能以及其他和海量數據分析與處理相關的領域的對海量數據進行抽樣以及抽樣數據管理的方法與系統。通過抽樣的方法,在海量數據中抽取一個可被操作與計算的子集,從而在保證決策質量的前提下,減少對運算資源的需求。為了有效的執行抽樣、管理抽樣數據所構建系統包括如下幾個子系統抽樣管理子系統、抽樣數據元數據管理子系統、抽樣調度子系統、抽樣數據存儲子系統、抽樣數據分發子系統。
文檔編號G06F17/30GK102262678SQ20111023347
公開日2011年11月30日 申請日期2011年8月16日 優先權日2011年8月16日
發明者鄭毅 申請人:鄭毅