【电力大数据】一种基于DTW曲线聚类算法的需求侧响应潜力用户挖掘
本文基于用户生产经营特征的研究,实现需求侧响应潜力用户挖掘,主要从企业生产经营时段特征、节日用电特征、假日用电特征等分析视角,利用DTW曲线聚类开展用户用电特征挖掘,指导响应策略制定,提高用户削峰/填谷响应参与成功率。
【名词解释】DTW (Dynamic Time Warping)曲线聚类:是一种衡量两个长度不同时间序列之间的相似度的方法。DTW通过把时间序列进行延伸和缩短,计算两个时间序列所有相似点之间的距离的和,称之为归整路径距离(Warp Path Distance),进而来衡量两个时间序列之间的相似性。相较于传统的欧几里得距离,DTW聚类中的归整路径距离更加适用于时间序列数据的相似度分析。
一、背景及意义
自20世纪90年代政府引入需求侧管理以来,获得各地市积极响应,在削峰/填谷响应潜力挖掘、响应策略制定、活动宣传推广等方面积累了较多经验,但仍存在一些问题:
1. 用户参与积极性不高,邀约答复率低;
2. 需求响应参与方案灵活度不高;
3. 用户潜力挖掘的准确率较低。
研究表明,用户可接受程度、季节性、时段性是影响需求侧响应潜力的重要因素[1]。因此,准确了解用户的用电特征,才能精准地实施响应策略,吸引更多用户。赵佳[2]基于构建的潜力识别指标体系,提出模糊优化集对分析方法判断用户响应潜力,但其分析结果无法为用户制定个性化响应策略;刘俊等人[3]提出运用K⁃means、模糊均值算法,通过二次聚类思路识别用户参与错避峰的时段,将相似特征的用户进行有效分群,解决了无法为用户制定个性化响应策略这一难题。张粒子等人[4]基于电量峰谷特征,采用模糊-C均值聚类建立了一套典型用户筛选方法,成功筛选出一批典型错峰潜力用户。
但是,传统的聚类算法一般是通过计算距离来判断两组数据之间的相似性,对负荷曲线等时序类数据进行聚类时,很难从曲线波形上评估两组数据的相似性。为解决传统聚类算法在时序曲线类数据聚类中存在的弊端,本文基于96点负荷、日电量等时序数据开展分析,引入DTW曲线聚类算法,实现削峰/填谷响应潜力用户挖掘:
1、充分利用数据的季节性和时段性及较细的数据粒度,能更准确地挖掘用户用电特征;
2、运用不同视角下用电特征分析,辅助策略制定,提高需求响应参与方案的灵活性;
3、可通过优化潜力用户挖掘方法,提高用户潜力挖掘准确率。
二、基于DTW算法需求侧响应潜力用户挖掘思路
(一)DTW应用原理
DTW算法是基于动态规划的思想针对序列匹配提出的,主要思想是把两个时序进行平移,使特征点对齐,在忽略时序长度、形状偏移的情况下,测算时序间的最大相似度。如下表1,时序Q与时序C之间的相似性度量上,传统方法(欧式距离、马氏距离等)将时序Q上点a对应时序C上点b,这样传统的通过比较距离来计算相似性明显不够符合实际,而只有时序Q上点a对应时序C上点c才是更为合理的。DTW算法可以通过找到这两个波形对齐的点,计算它们间的距离。
图1 时间序列相似性度量方法[5]
(二)应用DTW挖掘需求侧响应潜力用户
基于客户96个点负荷、日电量数据,主要利用DTW曲线聚类算法,从企业生产经营时段特征分析、节日用电特征分析、假日用电特征分析等视角展开客户生产经营特征挖掘,为精准识别需求侧响应潜力客户、个性化营销提供依据。
1. 生产经营时段特征分析:生产经营时段特征是分析削峰/填谷响应潜力的关键参考因素之一,反映了用电的时段性特征。生产经营时段是指日常生产中,按实况要求进行的排班,它可以很好的反映一个企业的用电规律。通过汇总用户每天96点的负荷数据,分析用户集中生产时段与时长,得出用户生产工作制(单班、双班、全天生产)及对应的工作时间,可以了解企业一天中用电高峰时段和用电低谷时段,从日维度剖析用户用电规律,为个性化响应策略的制定提供依据。
2. 节日用电特征分析:节日用电特征则是季节性参考因素之一。将一年中时间分为各类节日、节日前、节日后多个时间段,分析用户在不同时间段的用电差异,找出用户在节日相关特征上的用电差异,从年维度剖析用户用电规律,有效挖掘节日填谷高潜力用户。
3. 假日用电特征分析:假日用电特征分析也是一种季节性参考因素。基于周一至周日的日均电量,分析电量间的差异性,得出用户用电高峰日和低谷日,从周维度剖析用户用电规律,从而挖掘各日期类型下削峰/填谷高潜力用户。
(三)技术实现过程框架
围绕生产经营时段特征分析、节日用电特征分析、假日用电特征分析的技术实现过程框架如图2所示:
图2 需求侧响应潜力用户挖掘思路
1. 数据准备:用户近1年的96点负荷、日电量数据;
2. 特征曲线构建:包括数据清洗、特征选择、特征曲线表示三个阶段。其中:数据清洗主要利用箱型图原理识别异常数据、异常数据(包含空值)插补;特征选择主要基于分析目标确定对应的特征指标;特征曲线表示是通过特征向量的方式来表达用户的生产特征;
3. 特征类别聚类:基于用户特征向量,通过DTW聚类,将特征向量的曲线形状相似的用户聚为一类,得到多个类别用户;
4. 特征类别归纳:通过观察各类别用户的特征曲线,合并相似的类别曲线;。
5. 生成用户生产标签:通过DTW计算用户特征向量与各类别间的“距离”,距离最近的类别对应的生产特征即为用户的生产标签;
6. 用户生产经营特征画像:将各类生产标签存入数据库,用于用户生产经营特征画像的生成。
三、实例分析过程与效果
(一)生产经营时段特征分析
结合企业工作制(单班、双班、全天生产)和工作时间,对用户进行分类。
1. 构建96点负荷曲线
首先,对10万多高压用户近一年的96点负荷进行清洗,清洗规则为:
(1)剔除节假日对应的数据;
(2)数据清洗小于等于零的数值置空;
(3)异常大的数值置空,判断标准:大于等于“上四分位+(上四分位-下四分位)*20倍”;
然后,根据分析的目标详细到“时刻”粒度,因此选取的特征指标为96点日均负荷。
最后,基于上述特征指标通过向量的方式表示用户生产经营时段。
(1)根据清洗后的96点日负荷数据,计算96点各点的日均负荷;
(2)针对96点日均负荷,连续20个点为空值的用户做单独分析,其它缺失负荷使用前后出现的第一个非空数据求均值后进行填充,形成用户典型的96点负荷曲线。
2. 96点负荷曲线聚类
基于96点负荷曲线,首先,通过DTW聚成12类,聚类效果通过Silhouette Coefficient、Calinski-Harabasz等系数确定最优聚类类别;接着基于类内用户与类中心曲线的相似度,通过箱型图分析相似度的分布情况及异常点占比,判断各类别用户特征是否明显(箱型图箱体越小、异常点占比越小,该类别用户特征越明显)。由于第12类用户负荷曲线特征不明显,将该类用户曲线重新聚成6类;然后,根据6类中第6类用户负荷曲线特征仍不明显,将该类用户曲线重新聚成15类;最后,共得出31类生产经营时段,效果见图3:
图3 31类生产经营时段效果图
(横坐标代表96点,纵坐标代表标准化后的日均负荷)
3. 生产经营时段类别归纳
通过观察聚类效果图,合并相似的类别曲线,最后将31(11+5+15)类归纳得到6类生产经营时段,见图4。
图4 生产经营时段类别归纳
(横坐标代表96点,纵坐标代表标准化后的日均负荷)
4. 生成生产经营时段标签
通过DTW计算用户特征向量与31个类别间的“距离”,距离最近的类别对应的生产特征即为用户生产经营时段标签,部分用户标签见图5:
图5 部分用户生产经营时段标签
(横坐标代表96点,纵坐标代表标准化后的日均负荷)
(二)节日用电特征分析
分析用户在不同节日前、节日中、节日后的用电规律,将用户划分成不同节日用电类型。
1. 构建节日用电曲线
剔除近1年假日数据,计算用户近1年节日前、节日期间、节日后的日均电量,按时间顺序排序,形成节日用电曲线,并通过向量的方式表示,具体时序的计算规则见表1:
表1 节日时序计算规则
2. 生成节日用电标签
与章节“生产经营时段特征分析”一致,基于曲线聚类对节日用电特征进行分类。之后,通过DTW计算用户特征向量与各类别间的“距离”,距离最近的类别对应的生产特征即为用户节日用电标签,部分用户标签见图6。
图6 部分用户节日用电标签
(横坐标代表时序标签,具体含义见表2,纵坐标代表标准化后的日均电量)
(三)假日用电特征分析
分析用户周一至周日的用电规律,基于用电规律对用户进行划分。
1. 构建周一至周日用电曲线
剔除近1年节日数据,计算用户近1年周一至周日各日的日均电量,形成用电曲线,并通过向量的方式表示。
2. 生成假日用电标签
与章节“生产经营时段特征分析”一致,基于曲线聚类对假日用电特征进行分类。之后,通过DTW计算用户特征向量与各类别间的“距离”,距离最近的类别对应的生产特征即为用户假日用电标签,部分用户标签见图7。
图7 部分用户假日用电标签
(横坐标代表周一至周日,纵坐标代表标准化后的日均电量)
(四)特征分析结果应用
基于上述特征分析结果,结合用户所在行业、所在地区峰谷用电时段,制定相应的需求响应策略。例如:
针对全天负荷特征无明显差异的用户,进行分时段削减负荷和提高负荷会增加其用电负荷的波动性,此类用户的响应潜力低,需求响应策略为“建议不作为响应对象”;针对全天各时段负荷水平差异明显的用户,综合考虑用户行业性质、经营特点等因素,制定客户容易接受的响应策略;针对周末、节假日用电负荷水平偏低的用户,建议采取激励措施,提升用户用电意愿,见图8。
图8 基于用电特征的响应策略制定
【结语】本文基于负荷、电量数据的季节性、时段性特征,使用DTW聚类算法,以生产经营时段、假日、节日为切入点,从日、周、年三个维度分析用户用电特征,对用户群进行划分,更加精准地为电力企业提供需求侧响应高潜力用户分析。后续可通过追踪用户响应成效(包括,用户参与率、响应成功率等),进一步验证模型应用效果,并可增加售电潜力、季节性波动等分析视角,持续完善潜力用户挖掘模型。
韩欣欣&赵晨&陈曼芝
朗新科技集团 大数据业务部
注:文章仅代表作者观点,欢迎转发和评论。 转发、转载、转帖等须注明“稿件来源:朗新研究院” ,违者朗新研究院将依法追究责任,谢谢!
【延伸阅读】