一種數據挖掘分析方法及系統與流程
2023-06-01 15:41:41

本發明涉及網際網路應用技術領域,尤其涉及一種數據挖掘分析方法及系統。
背景技術:
隨著信息化時代的到來和發展,人們已經在商業、政府和科學等領域積累了大量的歷史數據,激增的數據背後隱藏著許多重要的信息,對行業數據進行數據搜集以及更高層次的分析,為決策提供理論依據,是目前人們追求的目標。而如何對對行業數據進行數據搜集以及更高層次的分析,為決策提供理論依據,是亟需解決的問題。
技術實現要素:
鑑於目前網際網路應用技術領域存在的上述不足,本發明提供一種數據挖掘分析方法及系統,能對行業數據進行數據搜集以及更高層次的分析。
為達到上述目的,本發明的實施例採用如下技術方案:
一種數據挖掘分析方法,所述數據挖掘分析方法包括以下步驟:
定義採集數據源和採集規則;
根據採集規則從數據源採集數據;
利用算法對採集到的數據進行標註清洗並進行語義分析;
通過數據模型對清洗分析後的數據進行數據挖掘分析;
對挖掘分析的結果進行可視化展示。
依照本發明的一個方面,所述定義採集數據源和採集規則具體可為:定義數據採集來源,輸入要採集的URI以及權重。
依照本發明的一個方面,所述根據採集規則從數據源採集數據的具體實施方式可為:根據採集規則,利用爬蟲抓取網頁信息,使用正則表達式抽取具體內容。
依照本發明的一個方面,所述利用算法對採集到的數據進行標註清洗並進行語義分析具體可為:利用分類、回歸以及K-最近鄰分類算法對數據進行標註清洗,利用全局正負面詞庫和聚類進行語義方面分析。
依照本發明的一個方面,所述數據挖掘分析方法包括以下步驟:進行雲資源的配置,動態調整採集所需CPU、內存和帶寬。
依照本發明的一個方面,所述數據挖掘分析方法可包括:建立基於lucene的搜尋引擎進行數據挖掘和分析。
依照本發明的一個方面,所述數據挖掘分析方法可包括:對採集到的可視化的數據快照進行存儲。
一種數據挖掘分析系統,所述數據挖掘分析系統包括:
定義模塊,用於定義採集數據源和採集規則;
採集模塊,用於根據採集規則從數據源採集數據;
過濾模塊,用於利用算法對採集到的數據進行標註清洗並進行語義分析;
挖掘模塊,用於通過數據模型對清洗分析後的數據進行數據挖掘分析;
展示模塊,用於對挖掘分析的結果進行可視化展示。
依照本發明的一個方面,所述數據挖掘分析系統包括:配置模塊,用於進行雲資源的配置,動態調整採集所需CPU、內存和帶寬。
依照本發明的一個方面,所述數據挖掘分析系統包括:引擎模塊,用於建立基於lucene的搜尋引擎進行數據挖掘和分析。
本發明實施的優點:本發明所述的數據挖掘分析方法通過定義採集數據源和採集規則;根據採集規則從數據源採集數據;利用算法對採集到的數據進行標註清洗並進行語義分析,具體應用算法可自行定義,滿足了複雜的個性需求;通過數據模型對清洗分析後的數據進行數據挖掘分析,各行業用戶可自定義數據模型,以滿足複雜的個性需求;對挖掘分析的結果進行可視化展示,系統處理速度更快,並提供豐富的、友好的可視化數據展示方式,實現了對行業數據進行數據搜集以及更高層次的分析,為決策提供理論依據。
附圖說明
為了更清楚地說明本發明實施例中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明所述的一種數據挖掘分析方法示意圖;
圖2為本發明所述的一種數據挖掘分析系統結構示意圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
如圖1所示,一種數據挖掘分析方法,所述數據挖掘分析方法包括以下步驟:
步驟S1:定義採集數據源和採集規則;
所述步驟S1定義採集數據源和採集規則的具體實施方式可為:定義數據採集來源,輸入要採集的URI以及權重。
在實際應用中,所述定義數據採集來源具體可為:定製需要採集的數據源,比如(搜尋引擎、門戶網站、論壇、博客等)。
在實際應用中,定義的採集規則具體可為:如採集頻率、關鍵詞、採集深度、廣度等。
在實際應用中,還可有如下實施方式:可通過網際網路自動採集所需要的數據,也可以通過API與企業內部數據對接,實現數據源多樣化。
步驟S2:根據採集規則從數據源採集數據;
所述步驟S2根據採集規則從數據源採集數據的具體實施方式可為:根據採集規則,利用爬蟲抓取網頁信息,使用正則表達式抽取具體內容,從而得出具體的文本數據。
步驟S3:利用算法對採集到的數據進行標註清洗並進行語義分析;
所述步驟S3利用算法對採集到的數據進行標註清洗並進行語義分析的具體實施方式可為:利用分類、回歸以及K-最近鄰分類算法對數據進行標註清洗,利用全局正負面詞庫和聚類進行語義方面分析。
在實際應用中,可通過數據分段、整合、過濾、轉換、編碼,利用權值及算法進行數據清洗,所述算法可為分類、回歸以及K-最近鄰分類算法,算法在實際應用中可自行定義。可支持包括聚類分析、分 類分析、統計分析、值預測等算法,並可不斷動態擴展模型庫。
步驟S4:通過數據模型對清洗分析後的數據進行數據挖掘分析;
所述步驟S4通過數據模型對清洗分析後的數據進行數據挖掘分析的具體實施方式可為:通過定義的數據模型對清洗分析後的數據進行數據挖掘分析,所述數據模型在實際應用中,可根據需求進行自定義。
步驟S5:對挖掘分析的結果進行可視化展示。
所述步驟S5對挖掘分析的結果進行可視化展示的具體實施方式可為:利用D3、WebGL等技術對挖掘分析的結果進行可視化數據展示。
在實際應用中,所述數據挖掘分析時,需通過雲計算和大數據進行,因而,實際實行時,可進行雲資源的配置,動態調整採集所需CPU、內存和帶寬。從而可通過雲計算技術來處理海量的數據,系統處理速度更快。
在實際應用中,所述數據挖掘分析方法在實際實行時,可採用如下優選方案:建立基於lucene的搜尋引擎進行數據挖掘和分析,可提高檢索分析效率。
在實際應用中,所述數據挖掘分析方法在實際實行時,還可對採集到的可視化的數據快照進行存儲。
本實施例所述的數據挖掘分析方法通過定義採集數據源和採集規則;根據採集規則從數據源採集數據;利用算法對採集到的數據進行標註清洗並進行語義分析,具體應用算法可自行定義,滿足了複雜的個性需求;通過數據模型對清洗分析後的數據進行數據挖掘分析,各行業用戶可自定義數據模型,以滿足複雜的個性需求;對挖掘分析的結果進行可視化展示,系統處理速度更快,並提供豐富的、友好的可視化數據展示方式,實現了對行業數據進行數據搜集以及更高層次的分析,為決策提供理論依據。
一種數據挖掘分析系統實施例
如圖2所示,一種數據挖掘分析系統,所述數據挖掘分析系統包括:
定義模塊1,用於定義採集數據源和採集規則;
採集模塊2,用於根據採集規則從數據源採集數據;
過濾模塊3,用於利用算法對採集到的數據進行標註清洗並進行語 義分析;
挖掘模塊4,用於通過數據模型對清洗分析後的數據進行數據挖掘分析;
展示模塊5,用於對挖掘分析的結果進行可視化展示。
在實際應用中,所述數據挖掘分析系統包括:配置模塊6,用於進行雲資源的配置,動態調整採集所需CPU、內存和帶寬。
在實際應用中,所述數據挖掘分析系統包括:引擎模塊7,用於建立基於lucene的搜尋引擎進行數據挖掘和分析。
本發明實施的優點:本發明所述的數據挖掘分析方法通過定義採集數據源和採集規則;根據採集規則從數據源採集數據;利用算法對採集到的數據進行標註清洗並進行語義分析,具體應用算法可自行定義,滿足了複雜的個性需求;通過數據模型對清洗分析後的數據進行數據挖掘分析,各行業用戶可自定義數據模型,以滿足複雜的個性需求;對挖掘分析的結果進行可視化展示,系統處理速度更快,並提供豐富的、友好的可視化數據展示方式,實現了對行業數據進行數據搜集以及更高層次的分析,為決策提供理論依據。
以上所述,僅為本發明的具體實施方式,但本發明的保護範圍並不局限於此,任何熟悉本領域技術的技術人員在本發明公開的技術範圍內,可輕易想到的變化或替換,都應涵蓋在本發明的保護範圍之內。因此,本發明的保護範圍應以所述權利要求的保護範圍為準。