新四季網

一種電網生產數據及影響因子相關關係的挖掘方法

2023-05-10 16:59:21 2

一種電網生產數據及影響因子相關關係的挖掘方法
【專利摘要】本發明提供一種電網生產數據及影響因子相關關係的挖掘方法,包括以下步驟:1)獲取需要挖掘研究對象及與其影響因子數據;2)對連續型數據離散化;3)整合數據形成多組包含研究對象及影響因子的組合;4)輸入各影響因子及研究對象權重;5)構建權重效用樹;6)採用模式增長方式,挖掘所有高權值組合;7)剔除不包含研究對象的高權值組合,根據最終的高權值組合集總結研究對象及其影響因子相關關係。本發明考慮了不同影響權重,通過不基於候選項集的權重效用樹挖掘,兼顧算法的時間和空間效率的優化,獲得高權值組合集,挖掘電網生產數據及其影響因子相關關係,從而有效掌握管理規律,提煉業務模式,輔助管理決策。
【專利說明】-種電網生產數據及影響因子相關關係的挖掘方法

【技術領域】
[0001] 本發明涉及一種數據挖掘方法,特別是一種電網生產數據及影響因子相關關係的 挖掘方法。

【背景技術】
[0002] 隨著電網信息化建設的推進,電網生產運行過程產生了海量數據,這些數據蘊藏 著許多與安全生產和設備管理等領域密切相關的規律和特徵,利用技術手段對這些數據進 行分析挖掘,從中獲得有用的數據,能夠輔助企業把握電網生產運行的內在特徵,掌握管理 規律,提煉業務模式,輔助管理決策,開拓管理創新,從而提升企業的管理精益化水平,推進 企業管理方式由粗放型向集約型、精細化轉變。
[0003] 數據挖掘(Data mining)是致力於數據分析和理解、揭示數據內部蘊藏規律的技 術,是從大量的含有噪聲的數據中挖掘出隱含其中的有著特殊關係性(Association rule learning)的信息的過程,是當前數據分析的先進手段之一。數據挖掘在電網行業的應用還 處於探索階段,目前主要集中於以下幾方面:電力系統安全穩定性分析、負荷預測模型的構 建、電力系統故障診斷、電力系統仿真模型的性能。
[0004] 在電網資產生命周期管理中,設備運維是其中時間最長的一個環節。在這一過程 中,產生了負荷數據、缺陷記錄、試驗數據、在線監測數據、事故事件記錄等大量生產數據, 這些數據不但對安全生產管理本身具有重要意義,還對前期規劃、設計、建設等各階段工作 的輔助決策與後評估具有重要參考價值。因此,研究生產數據變動的影響因子,不僅能夠把 握電網運行的內在特徵,而且能夠輔助資產全生命周期各個環節決策,有利於進一步提高 各業務環節決策精益化水平,推進部門橫向協同,促進資產全生命周期閉環管理。


【發明內容】

[0005] 本發明所要解決的技術問題,就是提供一種電網生產數據及影響因子相關關係的 挖掘方法,考慮了影響電網生產數據變化的不同影響因子的權重,通過不基於候選項集的 權重效用樹挖掘,獲得所有高權值組合,從而挖掘電網生產數據及其影響因子的相關關係, 既兼顧了不同影響因子對研究對象的影響程度(即權重),又考慮了算法的時間和空間性 能的優化,從而挖掘電網生產運行的內在特徵,掌握管理規律,提煉業務模式,輔助管理決 策。
[0006] 解決上述技術問題,本發明採用如下技術方案:
[0007] -種電網生產數據及影響因子相關關係的挖掘方法,其特徵是包括以下步驟:
[0008] S101獲取需要進行挖掘的研究對象及與該研究對象相關的多個影響因子的數 據;
[0009] S102對連續型數據採用等寬分箱法進行離散化處理,默認設置箱的個數為10 ;
[0010] S103整合數據,形成多組包含研究對象及影響因子的組合,將相同時間節點上電 網生產數據及影響因子進行整合,形成一個組合,不同時間節點上的組合形成多組包含研 究對象及影響因子的組合集;
[0011] 步驟S104 :輸入各影響因子及研究對象的權重值(權值的設置主要根據專家經 驗),為了計算研究對象與其他影響因子的權值,必須給定研究對象的權重,研究對象的權 重默認為1 ;
[0012] 步驟S105 :構建權重效用樹(w-Uti Tree),包括以下子步驟:
[0013] S105-1設定最小權值閾值min_weight ;
[0014] S105-2創建初始表:對建立的組合集進行掃描,統計組合集中各項所在的所有組 合的權值之和(t_weight),即對於組合集中某一特定的項i,其t_weight的值等於包含項 i的所有組合的權值之和。該組合集中每一項對應一ft_weight值。剔除t_weight值小 於最小權值閾值的項,並對其餘項按t_weight值降序排序,建立初始表,每一行對應組合 集中的一個項,將項名稱item_name和組合權值t_weight作為每一行屬性,記錄到初始表 中;
[0015] S105-3建立w-Uti Tree :掃描初始表,剔除組合中不在初始表中的項,然後將 各組合中的項按初始表的順序排序,所有組合添加到一棵樹上,將各組合的最後一項作為 該樹上的關鍵節點,在關鍵節點上記錄以下信息:關鍵節點到樹根路徑上每個節點的權 值node_weight,該路徑上所有節點的權值之和total_weight,除該路徑外的餘項權值 remaining_weight,建立 w-Uti Tree ;
[0016] 步驟S106 :採用模式增長方式,挖掘所有高權值組合:通過遞歸建立初始表及子 樹挖掘所有高權值組合,即從初始表(Initial_Table)的最後一項開始,對初始表中的各 項依次進行處理,具體包括以下子步驟:
[0017] S106-1從初始表的最後一項開始處理,掃描權重效用樹w-Uti Tree,獲取葉子節 點的屬性node_weight、total_weight、remaining_weight ;計算以下三個值:該項在所有 路徑上的權值之和n_weight = Σ node_weight ;該項所在的所有組合的權值之和t_weight =Σ total_weight ;該項所在的餘項集的權值之和 r_weight =Σ remaining_weight ;
[0018] S106-2如果t_weight與r_weight之和小於預定義的最小權值閾值min_ weight,跳過步驟S106-3?S106-6,執行步驟S106-7 ;否則,將當前處理項添加到餘項集 remaining_set中,繼續下一步驟;
[0019] S106-3如果n_weight與r_weight之和不小於預定義的最小權值閾值min_ weight,將餘項集remaininig_set作為一個高權值組合複製到HWS (Hight Weight Set) 中;否則,執行步驟S106-4 ;
[0020] S106-4建立子初始表:掃描上一層權重效用樹上包含步驟S106-1所述的葉子節 點的所有路徑及關鍵節點屬性,將根節點到關鍵節點的路徑上的項作為一個組合,建立子 組合集,計算該子組合集中各項所在的所有組合的權值之和(t_weight)。剔除t_weight 值小於最小權值閾值的項及步驟S106-1所述的葉子節點所對應的項,並對其餘項按t_ weight值降序排序,建立子初始表,每一行對應子組合集中的一個項,將項名稱item_name 和組合權值t_weight作為每一行屬性,記錄到初始表中;
[0021] S106-5再次掃描該子集,剔除組合中不在初始表中的項,將剩餘的項按子初始表 的順序排序,並統計關鍵節點各項屬性,建立子權重效用樹w-Uti Tree ;
[0022] S106-6以新建的表、子樹、餘項權值作為新的輸入參數,遞歸行挖掘算法直到掃描 的子集為空;
[0023] S106-7刪除餘項集中的項或項集;
[0024] S106-8返回遞歸的上一層,將葉子節點上的屬性轉移至父節點,繼續處理初始表 的下一項。
[0025] 步驟S107 :剔除不包含研究對象的高權值組合,並在此基礎上分析研究對象與各 影響因子間的相關關係,輸出最終結果。
[0026] 所述的分箱法是指基於箱的指定個數自頂向下的分裂技術,在離散化的過程中不 使用類信息,屬於無監督的離散化方法;等寬分箱法是指根據箱的個數得出固定寬度,使得 分到每個箱的數據寬度是相等的;這一過程需要用戶根據數據的特徵及所期望得到的數據 精度設定劃分區間的參數。
[0027] 所述的步驟S103整合數據時,將相同時間節點上電網生產數據及影響因子進行 整合,形成一個組合,不同時間節點上的組合形成多組包含研究對象及影響因子的組合集。
[0028] 相關定義與問題描述
[0029] 令組合集'I = {!\, T2, T3, ......,Τη},該組合集共包括m個不同項,並且是一個 由η個組合組成的組合集,Tj(j = 1,2,3, ......,η)表示組合集中第j個組合,每個組合是 由不同的項組成的,並且還包含項的個數,記為(ik,ck),表示第k個項其數量為ck。每個項 都有其對應的權重,表徵其對所研究屬性的影響程度,記為w。
[0030] w-Uti Tree數據結構描述
[0031] 權重效用樹的每個結點是由結點名稱item_name、父結點指針parent及孩子節點 指針children組成;除此之外,該樹上每個葉子節點還記錄:該節點到樹根路徑上每個節 點的權值n 〇de_Weight,即節點i在該路徑所對應的組合中的權值之和;該路徑上所有節點 的權值之和t〇tal_weight ;除該路徑外的餘項權值remaining_weight。
[0032] 定義1 :項item :對於離散型數據,每個離散值對應一個項;對於連續型數據,離散 化後的每個區域對應一個項。
[0033] 定義2 :權重w :每一項所對應的權重,表徵該項對所研究屬性的影響程度的大小。
[0034] 定義3 :某一項i在某一組合T中的權值,記為w(i,T):等於該項的權重w乘以該 項在該組合中的數量c, w(i, T) = Wi · q。
[0035] 定義4 :某組合T的權值,記為w(T):各項在該組合中權值之和,即w(T)=

【權利要求】
1. 一種電網生產數據及影響因子相關關係的挖掘方法,其特徵在於包括以下步驟: S101獲取需要進行挖掘的研究對象及與該研究對象相關的多個影響因子的數據; S102對連續型數據進行離散化處理; S103整合數據,形成多組包含研究對象及影響因子的組合; S104輸入各影響因子及研究對象的權重值; S105構建權重效用樹(w-Uti Tree); S106採用模式增長方式,挖掘所有高權值組合; S107剔除不包含研究對象的高權值組合,基於包含該研究對象的高權值組合集總結電 網生產數據及其影響因子的相關關係。
2. 根據權利要求1所述的電網生產數據及影響因子相關關係的挖掘方法,其特徵在 於:所述的步驟S102中對連續型數據進行離散化處理時,採用等寬分箱法,默認設置箱的 個數為10。
3. 根據權利要求1所述的電網生產數據及影響因子相關關係的挖掘方法,其特徵在 於:所述的步驟S103整合數據時,將相同時間節點上電網生產數據及影響因子進行整合, 形成一個組合,不同時間節點上的組合形成多組包含研究對象及影響因子的組合集。
4. 根據權利要求1所述的電網生產數據及影響因子相關關係的挖掘方法,其特徵在 於:所述的步驟S104輸入各影響因子及研究對象權重值時,為了計算研究對象與其他影響 因子的權值,必須給定研究對象的權重,研究對象的權重默認為1。
5. 根據權利要求1所述的電網生產數據及影響因子相關關係的挖掘方法,其特徵在 於:所述的步驟S105包括以下子步驟: S105-1設定最小權值閾值min_weight ; S105-2創建初始表:對建立的組合集進行掃描,統計組合集中各項所在的所有組合的 權值之和(t_weight),即對於組合集中某一特定的項i,其t_weight的值等於包含項i的 所有組合的權值之和;該組合集中每一項對應一個t_weight值;剔除t_weight值小於最 小權值閾值的項,並對其餘項按t_weight值降序排序,建立初始表;每一行對應組合集中 的一個項,將項名稱item_name和組合權值t_weight作為每一行屬性,記錄到初始表中; 5105- 3建立w-Uti Tree :掃描初始表,剔除組合中不在初始表中的項,然後將各組合 中的項按初始表的順序排序,所有組合添加到一棵樹上,將各組合的最後一項作為該樹上 的關鍵節點,在關鍵節點上記錄以下信息:關鍵節點到樹根路徑上每個節點的權值node_ weight,該路徑上所有節點的權值之和total_weight,除該路徑外的餘項權值remaining_ weight,建立 w-Uti Tree。
6. 根據權利要求1所述的電網生產數據及影響因子相關關係的挖掘方法,其特徵在 於:所述的步驟S106包括以下子步驟: 5106- 1從初始表的最後一項開始處理,掃描權重效用樹w-Uti Tree,獲取葉子節點的 屬性node_weight、total_weight、remaining_weight ;計算以下三個值:該項在所有路徑 上的權值之和n_weight =Σ node_weight ;該項所在的所有組合的權值之和t_weight = Σ total_weight ;該項所在的餘項集的權值之=Σ remaining_weight ; S106-2如果t_weight與;r_weight之和小於預定義的最小權值閾值min_weight,跳 過步驟S106-3?S106-6,執行步驟S106-7 ;否則,將當前處理項添加到餘項集remaining_ set中,繼續下一步驟; S106-3如果n_weight與;r_weight之和不小於預定義的最小權值閾值min_weight,將 餘項集remaininig_set作為一個高權值組合複製到HWS(Hight Weight Set)中;否則,執 行步驟S106-4 ; S106-4建立子初始表:掃描上一層權重效用樹上包含步驟S106-1所述的葉子節點的 所有路徑及關鍵節點屬性,將根節點到關鍵節點的路徑上的項作為一個組合,建立子組合 集,計算該子組合集中各項所在的所有組合的權值之和(t_weight);剔除t_weight值小於 最小權值閾值的項及步驟S106-1所述的葉子節點所對應的項,並對其餘項按t_weight值 降序排序,建立子初始表,每一行對應子組合集中的一個項,將項名稱item_name和組合權 值t_weight作為每一行屬性,記錄到初始表中; S106-5再次掃描該子集,剔除組合中不在初始表中的項,將剩餘的項按子初始表的順 序排序,並統計關鍵節點各項屬性,建立子權重效用樹w-Uti Tree ; S106-6以新建的表、子樹、餘項權值作為新的輸入參數,遞歸行挖掘算法直到掃描的子 集為空; S106-7刪除餘項集中的項或項集; S106-8返回遞歸的上一層,將葉子節點上的屬性轉移至父節點,繼續處理初始表的下 一項。
7.根據權利要求1所述的電網生產數據及影響因子相關關係的挖掘方法,其特徵在 於:所述的步驟S107從w-Uti Tree上挖掘所有高權值組合後,剔除不包含研究對象的高權 值組合,並在此基礎上分析研究對象與各影響因子間的相關關係,輸出最終結果。
【文檔編號】G06Q50/06GK104123605SQ201410289711
【公開日】2014年10月29日 申請日期:2014年6月25日 優先權日:2014年6月25日
【發明者】豆朋, 杜雙育, 王紅斌, 高雅, 鄭曉光, 陳劍光, 範穎, 楊強 申請人:廣東電網公司電力科學研究院

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀