新四季網

一種數據挖掘分析方法及系統與流程

2023-06-01 15:41:41


本發明涉及網際網路應用技術領域,尤其涉及一種數據挖掘分析方法及系統。



背景技術:

隨著信息化時代的到來和發展,人們已經在商業、政府和科學等領域積累了大量的歷史數據,激增的數據背後隱藏著許多重要的信息,對行業數據進行數據搜集以及更高層次的分析,為決策提供理論依據,是目前人們追求的目標。而如何對對行業數據進行數據搜集以及更高層次的分析,為決策提供理論依據,是亟需解決的問題。



技術實現要素:

鑑於目前網際網路應用技術領域存在的上述不足,本發明提供一種數據挖掘分析方法及系統,能對行業數據進行數據搜集以及更高層次的分析。

為達到上述目的,本發明的實施例採用如下技術方案:

一種數據挖掘分析方法,所述數據挖掘分析方法包括以下步驟:

定義採集數據源和採集規則;

根據採集規則從數據源採集數據;

利用算法對採集到的數據進行標註清洗並進行語義分析;

通過數據模型對清洗分析後的數據進行數據挖掘分析;

對挖掘分析的結果進行可視化展示。

依照本發明的一個方面,所述定義採集數據源和採集規則具體可為:定義數據採集來源,輸入要採集的URI以及權重。

依照本發明的一個方面,所述根據採集規則從數據源採集數據的具體實施方式可為:根據採集規則,利用爬蟲抓取網頁信息,使用正則表達式抽取具體內容。

依照本發明的一個方面,所述利用算法對採集到的數據進行標註清洗並進行語義分析具體可為:利用分類、回歸以及K-最近鄰分類算法對數據進行標註清洗,利用全局正負面詞庫和聚類進行語義方面分析。

依照本發明的一個方面,所述數據挖掘分析方法包括以下步驟:進行雲資源的配置,動態調整採集所需CPU、內存和帶寬。

依照本發明的一個方面,所述數據挖掘分析方法可包括:建立基於lucene的搜尋引擎進行數據挖掘和分析。

依照本發明的一個方面,所述數據挖掘分析方法可包括:對採集到的可視化的數據快照進行存儲。

一種數據挖掘分析系統,所述數據挖掘分析系統包括:

定義模塊,用於定義採集數據源和採集規則;

採集模塊,用於根據採集規則從數據源採集數據;

過濾模塊,用於利用算法對採集到的數據進行標註清洗並進行語義分析;

挖掘模塊,用於通過數據模型對清洗分析後的數據進行數據挖掘分析;

展示模塊,用於對挖掘分析的結果進行可視化展示。

依照本發明的一個方面,所述數據挖掘分析系統包括:配置模塊,用於進行雲資源的配置,動態調整採集所需CPU、內存和帶寬。

依照本發明的一個方面,所述數據挖掘分析系統包括:引擎模塊,用於建立基於lucene的搜尋引擎進行數據挖掘和分析。

本發明實施的優點:本發明所述的數據挖掘分析方法通過定義採集數據源和採集規則;根據採集規則從數據源採集數據;利用算法對採集到的數據進行標註清洗並進行語義分析,具體應用算法可自行定義,滿足了複雜的個性需求;通過數據模型對清洗分析後的數據進行數據挖掘分析,各行業用戶可自定義數據模型,以滿足複雜的個性需求;對挖掘分析的結果進行可視化展示,系統處理速度更快,並提供豐富的、友好的可視化數據展示方式,實現了對行業數據進行數據搜集以及更高層次的分析,為決策提供理論依據。

附圖說明

為了更清楚地說明本發明實施例中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。

圖1為本發明所述的一種數據挖掘分析方法示意圖;

圖2為本發明所述的一種數據挖掘分析系統結構示意圖。

具體實施方式

下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。

如圖1所示,一種數據挖掘分析方法,所述數據挖掘分析方法包括以下步驟:

步驟S1:定義採集數據源和採集規則;

所述步驟S1定義採集數據源和採集規則的具體實施方式可為:定義數據採集來源,輸入要採集的URI以及權重。

在實際應用中,所述定義數據採集來源具體可為:定製需要採集的數據源,比如(搜尋引擎、門戶網站、論壇、博客等)。

在實際應用中,定義的採集規則具體可為:如採集頻率、關鍵詞、採集深度、廣度等。

在實際應用中,還可有如下實施方式:可通過網際網路自動採集所需要的數據,也可以通過API與企業內部數據對接,實現數據源多樣化。

步驟S2:根據採集規則從數據源採集數據;

所述步驟S2根據採集規則從數據源採集數據的具體實施方式可為:根據採集規則,利用爬蟲抓取網頁信息,使用正則表達式抽取具體內容,從而得出具體的文本數據。

步驟S3:利用算法對採集到的數據進行標註清洗並進行語義分析;

所述步驟S3利用算法對採集到的數據進行標註清洗並進行語義分析的具體實施方式可為:利用分類、回歸以及K-最近鄰分類算法對數據進行標註清洗,利用全局正負面詞庫和聚類進行語義方面分析。

在實際應用中,可通過數據分段、整合、過濾、轉換、編碼,利用權值及算法進行數據清洗,所述算法可為分類、回歸以及K-最近鄰分類算法,算法在實際應用中可自行定義。可支持包括聚類分析、分 類分析、統計分析、值預測等算法,並可不斷動態擴展模型庫。

步驟S4:通過數據模型對清洗分析後的數據進行數據挖掘分析;

所述步驟S4通過數據模型對清洗分析後的數據進行數據挖掘分析的具體實施方式可為:通過定義的數據模型對清洗分析後的數據進行數據挖掘分析,所述數據模型在實際應用中,可根據需求進行自定義。

步驟S5:對挖掘分析的結果進行可視化展示。

所述步驟S5對挖掘分析的結果進行可視化展示的具體實施方式可為:利用D3、WebGL等技術對挖掘分析的結果進行可視化數據展示。

在實際應用中,所述數據挖掘分析時,需通過雲計算和大數據進行,因而,實際實行時,可進行雲資源的配置,動態調整採集所需CPU、內存和帶寬。從而可通過雲計算技術來處理海量的數據,系統處理速度更快。

在實際應用中,所述數據挖掘分析方法在實際實行時,可採用如下優選方案:建立基於lucene的搜尋引擎進行數據挖掘和分析,可提高檢索分析效率。

在實際應用中,所述數據挖掘分析方法在實際實行時,還可對採集到的可視化的數據快照進行存儲。

本實施例所述的數據挖掘分析方法通過定義採集數據源和採集規則;根據採集規則從數據源採集數據;利用算法對採集到的數據進行標註清洗並進行語義分析,具體應用算法可自行定義,滿足了複雜的個性需求;通過數據模型對清洗分析後的數據進行數據挖掘分析,各行業用戶可自定義數據模型,以滿足複雜的個性需求;對挖掘分析的結果進行可視化展示,系統處理速度更快,並提供豐富的、友好的可視化數據展示方式,實現了對行業數據進行數據搜集以及更高層次的分析,為決策提供理論依據。

一種數據挖掘分析系統實施例

如圖2所示,一種數據挖掘分析系統,所述數據挖掘分析系統包括:

定義模塊1,用於定義採集數據源和採集規則;

採集模塊2,用於根據採集規則從數據源採集數據;

過濾模塊3,用於利用算法對採集到的數據進行標註清洗並進行語 義分析;

挖掘模塊4,用於通過數據模型對清洗分析後的數據進行數據挖掘分析;

展示模塊5,用於對挖掘分析的結果進行可視化展示。

在實際應用中,所述數據挖掘分析系統包括:配置模塊6,用於進行雲資源的配置,動態調整採集所需CPU、內存和帶寬。

在實際應用中,所述數據挖掘分析系統包括:引擎模塊7,用於建立基於lucene的搜尋引擎進行數據挖掘和分析。

本發明實施的優點:本發明所述的數據挖掘分析方法通過定義採集數據源和採集規則;根據採集規則從數據源採集數據;利用算法對採集到的數據進行標註清洗並進行語義分析,具體應用算法可自行定義,滿足了複雜的個性需求;通過數據模型對清洗分析後的數據進行數據挖掘分析,各行業用戶可自定義數據模型,以滿足複雜的個性需求;對挖掘分析的結果進行可視化展示,系統處理速度更快,並提供豐富的、友好的可視化數據展示方式,實現了對行業數據進行數據搜集以及更高層次的分析,為決策提供理論依據。

以上所述,僅為本發明的具體實施方式,但本發明的保護範圍並不局限於此,任何熟悉本領域技術的技術人員在本發明公開的技術範圍內,可輕易想到的變化或替換,都應涵蓋在本發明的保護範圍之內。因此,本發明的保護範圍應以所述權利要求的保護範圍為準。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀