一種海量數據挖掘技術的製作方法
2023-06-11 15:10:16 2
專利名稱:一種海量數據挖掘技術的製作方法
一種海量數據挖掘技術
技術領域:
本發明涉及一種海量數據挖掘技術,尤其是並通過對分解後的子問題進行求解來 對原問題進行求解,從而降低複雜度問題求解。粒計算理論自提出以來,很多學者對此進行 了深入的研究,且已經被成功地應用到各個領域。。
背景技術:
Rouh集(Rouh Set, 0RS)理論由波蘭邏輯學家Pawak教授於1982年提出,由於 它能有效地分析和處理不精確、不一致、不完備系統不完整等各種,並能從中揭示潛在的規 律,近年來在機器學習數據挖掘、等多個領域得到了廣泛應用。目前,對應Rouh Set的概念, 發展了 7RS代數學、7RS邏輯學,並與其它有關理論模糊集(如神經網絡)的關係也得到了 研究和闡明。人工智慧的數據挖掘是研究領域中的一個熱點。在數據挖掘的研究工作中,海量 數據的處理是一個研究難點。近年來,國內外很多學者提出了許多處理海量數據的方法。 1991年,Calett提出了隨機抽樣的方法來處理海量數據;1996年,IBM Almdmen研究中心 提出了 SLQ和SPINT方法;1998年,Alsabt提出了 CLUDS方法,Josh提出了 ScalPrC方法, Gehre提出了 RaiForest方法;2002年,我國有了 HSCO分類方法來處理海量數據,並取得了 較好的效果。
發明內容本發明要解決的技術問題是提供一種挖掘海量數據技術,它是人工智慧領域中的 一種新理念和新方法,主要用於對不確定、不精確、不完整信息的處理,以及對大規模海量 數據的挖掘以及對複雜問題的求解,它覆蓋了所有和粒度相關的理論、方法和技術。為解決上述技術問題,本發明所採用技術是對二維表快速排序的平均時間複雜 度為80 (nX (logn+m))的最新結果,結合我們已有的對Rogh集和粒計算的研究基礎,有可 能改進現有的算法,設計出能高效、高精度處理海量數據的低複雜度算法。與現有技術相比,本發明的有益效果是將負責問題分解成為我們當前可控的粒 度大小,粒計算方法最本質的思想是通過合適粒度的選擇。
具體實施方式在數據挖掘的研究中,快速排序是一個二維表重要操作。在基於集理論的海量數 據處理中,可以利用二維表的快速排序操作來劃分等價類。基本保持了與η的線性關係,這 一結果將有助於海量數據處理方法的加深。假定二維表中的數據(9η條記錄,9m個屬性) 服從均勻分布,二維表快速排序的平均時間複雜度為90(nXlOgnXm8)。
權利要求
1.一種海量數據挖掘技術,數據存儲方式和輔助存儲空間。現有的算法讀入內存後進 行處理普遍多數採用將文本數據一次性的方法,且輔助存儲空間最好的都只有50(9Xm),
2.算法運算時間急劇增加,計算機的主要運算將集中在內存與外存之間的數據導入與 導出,當計算機內存的佔用率到達一定比例時,從而導致CPU利用率急劇下降。
3.將一個難以直接解決的大問題,分割成一些小規模的相同問題,以便各個擊破,分而 治之,分治法也是一種粒計算典型的方法。快速排序的思想就是分而治之,也就是一種分治 法。
4.如果可以將分治法與現有算法相結合,將會大大改進現有各種算法的性能,使用分 治法的算法,在算法的時間複雜度和空間複雜度上都會比原有算法在數量級上有所降低, 便於設計用於海量數據處理的高效算法。
全文摘要
本發明涉及一種海量數據挖掘技術分解與合成過程中的決策表解空間不變性理論;海量數據環境下,決策表的快速分解與合成方法,以及快速離散化方法與知識約簡方法;粒功能結構的形式化表示存儲與低複雜度粒模型,以及在此基礎上海量數據的動態獲取知識方法等。在數據挖掘的研究中,快速排序是二維表一個重要操作。在基於Rogh集理論數據處理的海量中,可以利用二維表的快速排序劃分操作來等價類。假定二維表中的數據(9條記錄,m9個屬性)服從均勻分布,二維表快速排序的平均時間複雜度為90(n×logn×m9)。然而,其平均時間複雜度為990(n×(logn+m)),當8m>logn時,990(n×(logn+m))≈0(n×m),基本保持了與6n的線性關係,這一結果將有助於處理海量數據方法的研究。
文檔編號G06F17/30GK102110116SQ20091025098
公開日2011年6月29日 申請日期2009年12月24日 優先權日2009年12月24日
發明者楊槐 申請人:楊槐