來源:計算機時代 2022年6期
作者:蒙小胖; 孫常浩; 蔡雷鳴; 施廣德; 金舒
單位:1. 陜西省地方電力(集團)有限公司寶雞供電分公司2. 國電南京自動化股份有限公司
摘 要: 智能配電網采集數據來源廣、數據質量較差,價值密度低。因此首先對配電網中各類系統采集的數據應用K-means聚類算法進行特征提取,結合局部異常因子(LOF)算法進行異常檢測,篩選出異常數據;隨后根據數據的多維特征運用相關性分析結合數據特征對異常數據進行修正;最后通過實際工程應用,驗證多源數據質量提升方法的數據修正效果。
關鍵詞: 數據質量; 關聯分析; 智能配電網; 聚類算法; 多源數據
0 引言
智能配電網信息化和智能化的程度不斷提升,配電網采集數據逐步呈現多源、異構的大數據特征[1]。對海量多源數據進行整合,可以為配電網運行態勢感知[2],運行狀態綜合評價提供重要數據支撐。
配電網數據采集終端由于數量多、分布廣并且部分終端環境惡劣,工況復雜,在采集和通信過程中經常發生數據丟失或異常現象[3]。異常數據嚴重影響數據挖掘分析的效率,對缺失或者異常數據進行統計分析會使得結果與實際值差別較大,影響預測精度和運行控制決策的準確性[4]。因此,如何對配電網采集的多源數據進行異常檢測和數據預處理是配電網大數據分析的前提和基礎。
近年來,對于大數據技術在配電網中應用已有很多研究成果。文獻[5]對大數據在電網中的應用場景進行了總結。文獻[6]提出一種基于大數據分析的配電網態勢感知方法,通過對配電網運行歷史數據進行分析預測電網運行的趨勢。文獻[7]運用大數據技術對配電網運行歷史數據進行挖掘和評估,實現配電網的風險預警。但研究成果大多集中在數據分析層面,對底層多源數據融合以及數據質量的提升研究較少。對于配電網的大數據分析應用而言,數據的多源融合是基礎,數據質量的好壞,對數據挖掘效率和結果準確性有重要影響。文獻[8]采用插值法對電網采集數據中缺失較少且變化較為平緩的數據進行修正,取得較好效果;文獻[9]提出一種基于數據動態治理和修復策略的配電網數據質量提升管理平臺架構。文獻[10]提出基于自適應模糊神經網絡模型對風電缺失數據進行填補,取得較好效果,但不適用于大面積數據缺失。以上對數據質量提升的研究大多基于某一維度或者某一方法對數據異常進行修正,應對大數據量和連續、大面積的異常數據處理較為困難。配電網中各個系統采集數據之間關聯性較強,其多維關聯性特征不可忽視。因此,本文根據配電網數據的多維相關性特點,采用聚類算法和相關性分析結合的方法提升數據修正的效率和效果,從而提升配電網整體數據質量,成為大數據分析和應用的有力支撐。
1 多源數據質量提升整體架構
多源、異構的數據場景給數據集成帶來困難并且使得信息系統產生數據質量問題。針對這些問題,本文提出一種多源融合數據質量提升架構如圖1所示。
架構包含數據來源層,數據存儲層,數據質量管理層以及數據發布層。該框架通過分析不同數據源數據特征進行分庫存儲;隨后通過數據質量管理模塊對數據整體質量進行把控;最后將修正數據進行整理發布,支撐智能配電網的大數據分析應用。
2 多源數據質量提升方法
系統數據質量管理模塊首先對缺失數據進行檢測,并進行補0操作;隨后采用K-means聚類法對系統輸入數據進行特征提取,結合LOF算法進行異常數據篩查。數據修正模塊通過多維數據相關性特征來進行數據修正。
2.1 異常數據檢測方法
LOF算法是一種基于數據密度對異常點進行篩選的高精度算法,能夠量化數據的異常程度,在數據清洗和異常檢測中具有廣泛應用。傳統LOF算法需要計算數據集合中所有數據兩點之間的距離,導致復雜度達高,難以應對大規模數據[11]。
本文運用K-means算法[12]與LOF算法結合進行異常數據檢測,首先運用K-means算法將相同數據特征的數據進行聚類,隨后運用LOF算法對每個類簇中的數據進行異常篩查,最后將待檢測數據集篩選出異常數據。K-means算法可以用于數據特征提取,降低LOF算法復雜度,LOF算法對類簇內異常值進行檢測可以增強K-means數據特征提取的準確性和效果。
2.1.1 K-means聚類法數據特征提取
配網系統采集數據具有較強的周期性,采用數據挖掘中的K-means聚類法對數據進行分析,獲取采集數據的數據特征。
K-means算法的主要思想是將n個對象劃分為K個類簇[C1…CK],每個類簇具有較高的相似度。算法的優化目標是最小化類簇的平方誤差E。
[E=i=1Kx∈Cix-ui22] ⑴
其中,[ui=1Cix∈Cix]為類簇[Ci]的聚類中心。
其算法流程如下。
⑴ 從數據集合D中選取K個初始聚類中心點。
⑵ 計算集合內各個數據點到聚類中心點之間的歐幾里得距離(公式2),選取最近的聚類中心點并納入到該類中。
⑶ 計算完所有數據點后對各個類簇重新計算聚類中心。
⑷ 判斷聚類中心是否發生變化,如果發生變化則返回步驟⑵,如果不發生變化則輸出結果。
2.1.2 LOF算法概念
LOF算法的核心概念有以下四點。
⑴ 第k距離鄰域:給定一個數據集合D,對于集合內的任意一點p,計算其他點與p點的歐幾里得距離并從小到大排序,第k個記為該點的第k距離,第k距離以內的所有點為第k距離鄰域,記作[Nk(p)]。其中歐幾里得距離可以表示為:
[distp,q][=(p1-q1)2+(p2-q2)2+…+(pn-qn)2] ⑵
其中,[ p]和[q]分別為n維空間中的兩個數據點,[dist(p,q)]為兩個點之間的歐幾里得距離。
⑵ 可達距離:空間中p點和o點之間的可達距離定義為點o的第k距離和[dist(p,o)]之間的最大值,記為[reach-dist(p,o)]。
⑶ 局部可達密度:數據點p的局部可達密度[lrdk(p)]為它鄰近點之間平均可達距離的倒數。
[lrdk(p)=1o∈Nk(p)reach-dist(p,o)Nk(p)] ⑶
⑷ 局部異常因子:局部異常因子為點p鄰域內點的局部可達密度與點p的局部可達密度之比的平均值,記為[LOFk(p)]。
[LOFk(p)=1Nk(p)o∈Nk(p)lrdk(o)lrdk(p)] ⑷
根據局部異常因子的定義,[LOFk(p)]值在1左右說明點p數據密度與其鄰域內點的數據密度相當;當[LOFk(p)]遠大于1或者遠小于1則說明點p與其他點較為疏遠,為異常點。
2.1.3 算法流程
基于K-means聚類和LOF算法的數據異常檢測流程如圖2所示。
通過兩種算法結合,我們可以提取數據集合的特征,并篩選出數據集合中的異常數據。隨后通過數據的多維相關性,來對異常數據進行修正和填補。
2.2 多維數據相關性分析原理
本文相關性分析算法采用皮爾遜相關系數法[13,14]來衡量不同來源數據之間的相關性;隨后通過熵權法計算變量之間的權重關系。
2.2.1 皮爾遜相關系數
皮爾遜相關系數的計算公式如下:
[ρx1,x2=Cov(x1,x2)σxσx2] ⑸
其中,[x1,x2]分別為n維數據變量,[σx1, σx2]分別為[x1]和[x2]的標準差,[Cov(x1,x2)]兩者間協方差。協方差計算公式如下:
[Cov(x1,x2)=i=1nx1(i)-x1x2(i)-x2n-1] ⑹
皮爾遜相關系數用于評價兩個數據之間的相關性,當相關系數大于某一特定值則認為兩個數據具有強相關性。
2.2.2 熵權法確定權重
熵權法[15]通過指標所含信息量大小來確定權重,能夠有效地利用數據,排除主觀因素影響。首先根據公式⑺計算各個變量之間的熵。
[Εj=i=1mρx1,x2lnρx1,x2lnm ] ⑺
各個變量的權重也可以由公式⑻獲得。
[ωj=1-Εjj=1m1-Εj ] ⑻
權重[ωj]體現了指標信息量的大小,能夠量化指標對于結果的影響。[j=1mωj=1]。
2.3 基于多維數據特征的配電網數據修正方法
配電網數據采集周期選定為T=24h。采集的數據集合[C={c1, c2,…,cM}]中包含有M個屬性(如電流、電壓等)。對于屬性[ci]的異常數據集合,基于多維數據特征的數據修正方法如下。
推薦閱讀:計算機網絡技術論文如何翻譯專業
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >