所谓数据挖掘,是从海量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。也就是根据预定义的商业目标,对大量的企业数据进行探索和分析,揭示其中隐含的商业规律,并进一步将其模型化的先进有效的技术过程。数据挖掘是一门交叉学科,它集成了许多学科中成熟的工具和技术,包括数据库技术、统计学、机器学习、模型识别、人工智能、神经网络等。
数据挖掘能做以下6种不同事情:分类(classification)、估值(estimation)、预测(prediction)、相关性分组或关联规则(affinitygroupingorassociationrules)、聚类(clustering)、描述和可视化(descriptionandvisualization)。
1.1.1分类
分类即区分数据类别。首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。
1.1.2估值
估值与分类相似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出,同时分类的类别是确定数目的,估值的量是不确定的。
1.1.3预测
通常,预测是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。预测其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。
1.1.4相关性分组或关联规则
通过分析数据或记录间的关系,决定哪些事情将一起发生。
1.1.5聚类
聚类是对记录分组,把相似的记录分在一个聚集里。聚类和分类的区别是聚类不依赖于预先定义好的类,不需要训练集。
1.1.6描述和可视化
即对数据进行归约、概化或图形描述等。
1.2数据挖掘在电力企业的使用价值
数据挖掘技术源于商业的直接需求,因此它在各种商业领域都存在广泛的使用价值。下面结合电力企业的行业特点来具体谈一谈数据挖掘在电力企业中的可能作用。
1.2.1指导设备更新
在电力设备的更新中,现在有两种方式:一种是电力设备意外损坏,需要即时更新,这种更新通过电力设备监控系统即可发现,然后予以维修更换;另一种是对老化设备的更新,现在是通过经验来判断,比如说通过使用年限等,可是这样存在很多问题,像有的设备已经到期了,但是保养得好,仍然可用,却要更换,造成浪费,有的设备虽然没到期,但是各种使用参数已经不符合要求了,却没有更换,导致电力的较大损耗。通过数据挖掘技术即可解决后一种方式存在的问题。我们可通过挖掘由故障报修、电力损耗、各种电力参数等数据组成的主题仓库来分析电力设备的故障和老化情况,来最终决定设备的更新.
1.2.2业绩评估
在电力企业中,集团公司如何评价一个分公司的业绩,一直是一件令领导头疼的事,只用利润来分析吧,地区有先进落后之分,况且对电力这个关系国计民生的行业来说,安全或其它方面有时比利润显得更加重要。数据挖掘技术能够最大程度地综合考虑到各方面因素,通过分析由利润、利润增长率、同行对比、投诉举报、生产成本等数据组成的主题仓库来分析对某一地区或分公司的经营情况,同时用最直观的方式,如用图表显示出来,方便领导做出最终的评价。
1.2.3指导电力企业的建设规划
近几年,广东省连续发生电力供应紧张的情况,这其中的问题就是未能把握住电力需求市场发展的趋势,无论是电厂建设,还是电网建设都没有跟上时代的发展。而这方面更是数据挖掘的用武之地,我们可以通过分析由新增用户(报装)、现有用户、用户位置、用户用电量、国家的建设计划等数据组成的主题仓库来指导未来电力企业的建设计划,如在何时、何处建设多大功率的电厂和设置多大容量的电力设备等。
1.2.4指导电力的生产和购买
自从国家提出了电力企业改革方案,到2001年底广东省电力集团公司就完成了厂网分离的改革。而随着改革的完成,许多新的问题将出现在领导面前。比如说电力的购买,以前电厂、电网同属一个集团公司,电网要多少电,电厂发多少电,或是电厂发多少电,电网要多少电。可是现在就不一样了,电网需要电,必须预先购买,而由于电力的特殊性(必须买多少电用多少电),对于什么时候买,买多少,将会是一个让人尤其头疼的事。对此,数据挖掘技术也能给我们提供最大的帮助。我们可以通过挖掘相应的主题仓库来决定如何购买以及电力的调度(以有余补不足),同时亦可以指导发电企业的生产计划。
1.2.5进一步提高服务质量,抓住客户
电力企业改革的最终方向是将输电网与配电网相互分开,各发电企业成为独立的发电企业,通过公平竞争的规则竞价上网,而且允许大的电力用户直接从发电企业购买低价的电力,统一电网或互联电网只负责转运输送。那么以前那种电力企业垄断一切的现象将消失,用户尤其是大用户将能够决定最终使用谁的电。电力企业失去了用户也就等于失去了一切。这两年各电力企业在CRM(即客户关系系统)上投入如此巨大,也是这个原因。而从某种意义上来说,数据挖掘最强的就是这个方面。通过挖掘相关的主题仓库(可以由用户信息,用电信息等数据组成),我们可以对客户有更加深入的了解,并根据不同用户特点采取不同的经营策略,比如说通过价格或其它优惠政策吸引客户甚至引导客户使用电力,从而在未来的竞争中居于更加有利的位置。
1.2.6发现窃电者
对于电网企业来说,最大的损失来自于两个方面,一方面是线损,另外一方面就是用户偷电、窃电。我们可以在最短的时间内通过分析用户数据的奇点,来发现异常数据,最后准确地找出偷电、窃电者,从而将企业的损失减少到最小。
1.2.7减少电力损耗,改善电力质量,减少设备损耗
电力是一种特殊的商品,这种商品的特殊性在于它无法保存,有多少要用多少。然而,发电和用电基本上是两个脱节的环,为了保证电力的质量,同时保证电力设备的安全,必须要对其进行调节。现在采用的方法是修建蓄能电厂,当有剩余电力时将电力储存起来,电力不足时将储存电力释放出来,这是一种比较被动的方法,有一定的局限性。若通过数据挖掘发现用户用电行为规律,通过综合运用安排发电计划、电力调度,电力存储技术将能够积极主动地对电力进行调节,达到减少电力损耗、改善电力质量,减少设备损耗的目的。
1.2.8在其它方面的应用
数据挖掘在电力企业的其它方面也有巨大的用处,比如说指导项目管理、安全管理、资源管理、投资组合管理、活动分析、销售预测、收入预测、需求预测、理赔分析等。而且当使用数据挖掘系统时,用户会对模型进行调优和定制。这将会逐步积累符合企业自身需要的模型库,成为企业知识库的重要组成部分。
2使用数据挖掘的必要性和可行性
2.1我国电力企业信息化现状使采用数据挖掘技术成为可能
以广东省广电集团为例,广东电网现在已经走过了信息化的初始阶段(即仅用计算机完成统计报表,管理信息系统处于单机单项应用的初级阶段),正处于企业信息化的中级阶段(即企业建立了局域网,广电集团已经建立起连接全省的光纤通信网,通过企业信息化建设实现企业业务部门的应用和管理计算机化,如MIS、OA、物资管理、财务管理以及客户服务中心等)。已经对企业的基本信息资源进行了整合,建立了统一的应用平台,同时积累了大量的企业历史数据,而这一切都是使用数据挖掘技术所必需的。
2.2我国电力企业改革的趋势使采用数据挖掘技术成为必然
我国政府为了逐渐打破电力系统的垄断地位,引入竞争机制,首先进行“厂网分家”,为发电竞争模式提供了先决条件,而这一步广电集团业已完成。下一步的发展方向应该是电网转运模式。以上这些改革将极大地打破电力企业现有垄断的格局。为了在未来的竞争中胜出,将要求电力企业必须更快地降低自己的生产经营成本,为客户提供更个性化的服务,对本企业以及对手企业有更深入的了解。而所有这一切,又必须借助现代信息技术去解决,数据挖掘技术将在其中发挥关键的作用。
3电力企业数据挖掘模型的构想
以下将结合我国电力体制改革的大背景构造一个简单的数据挖掘模型,如图1所示。
图1所示模型是一个金字塔式的数据模型。从塔底到塔尖依次为基层单位、县(区)、地市、省级多层分布式的数据仓库体系。基层供电单位的系统是建立在MIS基础之上的,在MIS中已经为各种数据主体建立了统计分析主体数据库。在基层以上的县、市级管理单位则通过采集和汇总基层单位的主题数据库形成自己的统计分析数据基础,进行统计和分析。
4展望
目前电力企业信息化风起云涌,为了在未来的竞争中胜出,各电力企业都加快了自己的信息化进程。纵观2003年电力行业的软件应用项目,从中也可以找寻到一条规律,那就是:电力行业软件系统应用的重点已经从操作层面向管理层面逐渐转移,主要集中在OA系统、电力营销系统、客户关系管理、MIS、ERP系统等。数据挖掘技术必将在其中大放异彩。
参考文献
[1]HANJ,KAMBERM.DataMining:ConceptsandTechniques[M].范明,孟小峰译.北京:机械工业出版社,2001.
[2]林宇.数据仓库原理与实践[M].北京:人民邮电出版社,2003.
[3]曹伟.电力行业的ERP系统综述[EB/OL].http://www.chinabbc.com.cn/e/schemedetail.asp?schemeid=3599,2003.02.10.
[4]刘会霞.信息化:数据挖掘在CRM中的核心作用[EB/OL].