数据挖掘在用户窃电行为识别中的应用

发布时间：2022-05-28

以往，为发现用户窃电，主要是通过用户举报窃电、定期巡检、定期校验电表等方式，这种方法对人的依赖性很强而且目标不够明确，效率比较低，从用户窃电开始到发现窃电时间跨度较长。随着科学技术的发展，用户窃电手法越来越多样化且越来越隐蔽，更有使用倒表器、移相方式、有线远方控制和无线遥控等智能型窃电^[1]，使得窃电行为被发现越来越困难。目前，也有很多供电企业营销稽查人员利用计量装置的异常报警功能和电量查询功能来对用户用电情况进行监控，但由于存在终端的误报和漏报等情况，往往不能精准快速地定位到窃电用户。

因此，在科学技术快速发展窃电手段也越来越多样化和隐蔽化的今天，窃电行为变得更加个性化、智能化以及科技化，传统的窃电排查方法难以及时、准确地摸排到窃电行为，找到一种更加智能化的反窃电方法尤为重要。使用数据挖掘技术建立窃电用户识别模型，通过对多方面因素的综合分析，自动检测用户的窃电行为。

1 用户窃电行为分析

现阶段用户的窃电行为主要包括以下几种：绕越计量、改动计量装置、断零窃电、断开联片、调接零火线、更换齿轮等，详细如下图所示。

图1 窃电行为词云图

2 基于数据挖掘的用户窃电预测方案

2.1 挖掘模型思路

为了能够更加高效地识别用电客户各式各样的窃电行为，引入大数据挖掘算法，建立智能识别窃电用户的模型，从多方面考量，使得窃电行为无处遁形。CRISP-DM模型是数据挖掘领域中最权威的过程模型，涉及了商业理解、数据理解、数据准备、建立模型、模型评估、结果发布等6 大环节。这个模型强调“数据不仅仅是数据的呈现或以某种方式组织，也不仅仅是数据分析、挖掘、统计或建模，而是一个从业务角度理解商业需求、探索需求解决方案，然后再到开展实践检验和验证方案的完整过程”。

图2 CRISP-DM模型流程图

2.2 C4.5 算法

C4.5 算法，作为数据挖掘中经典算法，是分类决策树算法中的一种常用机器学习算法，它是基于ID3 算法进行改进后的一种重要算法。在构造决策树的过程中，“如何选择分裂属性”和“何时停止分裂”是两大关键问题，在这两大问题上的不同处理方法，产生了不同的决策树算法（CART、ID3 和C4.5）。在如何选取分裂属性方面，Gini 指标、信息增益和信息增益率是衡量一个属性区分数据样本能力的不同度量标准，其中ID3 算法用信息增益，C4.5 算法用信息增益率，CART 决策树用Gini 系数。

在属性选择度量中，假设D 是类标记元组训练集，类标号属性具有m 个不同值，m 个不同类Ci(i=1,2,…，m)，CiD 是D 中Ci 类的元组的集合，|CiD| 和|D| 分别是CiD 和D 的元组个数：

（1）对D 中的元组分类所需的期望信息为，Info(D)亦称为熵。

（2）假定按照属性A 划分D 中的元组，且属性A将D 划分成v 个不同的类，划分之后分类需要的信息为

（3）信息增益即为原来的信息需求与新的信息需求（对 A 划分之后）之间的差，为

（4）信息增益率使用“分裂信息”值将信息增益规范化，分类信息类似于 Info(D)，表示通过将训练数据集D 划分成对应于属性A 测试的v 个输出的v个划分产生的信息，定义为C4.5 算法是以信息增益率进行分裂属性选择，克服了ID3 算法偏向多值属性的不足，相较于CART 和ID3，能很好地完成了在连续值属性上的处理。该算法定义了一套处理不同数据缺失情况的处理策略，其优点是可以对不完整数据集处理得较为完善。

2.3 案例分析

2.3.1 数据输入和特征选取

根据电力企业的用电检查业务指导相关的内容，可基于营销稽查、线损、业扩、计量、电费、客服等专业数据预测用户窃电信息[]。本文建立的用户窃电智能识别模型选取450 条训练数据和50 条测试数据。数据集的特征包括用户类别、电价类别、丰枯类型、用电性质、地区类别、信用级别、业务类别、费用类别、峰谷标志、电量类别、季节类型、违窃标志的12 个字段。

2.3.2 模型构建及模型训练

用户窃电行为分析属于分类预测的应用场景，在模型训练阶段，采用总体表现较优秀的C4.5 决策树算法进行窃电识别模型的训练，并通过输出的决策树归纳识别用户窃电行为的规则。

2.3.3 模型评估

对于分类场景中的二分类问题，可以将分类器预测类别和真实类别，排列组合为四种类别，如下表1 所示。

真正类（true positive TP）：真实类别为正类，预测类别为正类；

（false positive FP）：真实类别为负类，预测类别为正类；

（false negative FN）：真实类别为正类，预测类别为负类；

（true negative TN）: 真实类别为负类，预测类别为负类。

该模型采用的准确率（Accuracy）：

用于衡量所有样本被分类准确的比例。

2.3.4 模型的应用

模型总体的准确率在95% 左右，可用于后续用户窃电情况的分析和预测。并且随着模型输入数据的增加，模型的准确性和可靠性也将得到提升。通过与分类预测器的结合使用，可以实现已经训练好的模型的复用而不用重新训练模型。

3 结论

本文基于数据挖掘的技术，分析用电客户相关的用电特征数据，建立窃电用户识别模型，选用C4.5 决策树算法进行模型的训练，得到了较好的预测结果。该模型能够对用户的窃电行为进行有效而科学的判断，帮电力系统营销稽查相关工作人员及时地研判用户是否存在窃电情况。相比于传统的反窃电技术工作量大、工作效率低，该方法能够提高识别效率，减少供电企业的经济损失。

参考文献：

[1] 曹峥,杨镜非,刘晓娜.BP神经网络在反窃电系统中的研究与应用[J].水电能源科学,2011,29(9):199-202.

[2] 胡琛,数据挖掘技术在电量管理与反窃电系统中的应用与研究[D].武汉:武汉大学,2004．

[3] 蔡嘉荣,王顺意,吴广财.基于机器学习的用户窃电预测及用电检查计划辅助编排研究[J].测试工具与解决方案,2018,54(2):108-109.

（本文来源于《电子产品世界》杂志2022年5月期）

上一篇：计算机视觉在对虾养殖业的应用实践*

下一篇：LED显示屏自动校正方法简介