技术中心
 
 

数据挖掘工具

   日期:2006-06-21     作者:管理员    

     本文从数据仓库的组成入手,系统的分析了数据仓库的整个体系结构;着重地介绍了在数据仓库的设计过程中必须注意3个关键的问题:选择数据仓库的目标数据库、数据抽取和转换工具及前端数据访问和分析工具。 


     数据仓库体系结构中存在三个关键问题,即数据仓库的目标数据库选择、数据抽取和转换工具及前端数据访问和分析工具。
 
     一、数据仓库的组成部分
 
    数据仓库技术从本质上讲,是一种信息集成技术,它从多个信息源中获取原始数据,经过加工处理后,存储在数据仓库的内部数据库中。通过向它提供访问工具,为数据仓库的用户提供统一、协调和集成的信息环境,支持企业全局的决策过程和对企业经营管理的深入综合分析。为了达到这样的目标,一个数据仓库一般来说包含以下7个主要组成部分:
 
   (1)数据源:为数据仓库提供源数据,如各种生产系统数据库、OLTP系统的操作性数据,外部数据源等到可以作为数据

仓库的数据源。
 
   (2)数据抽取、转换和装载工具:主要功能是从数据源中抽取数据后检验和整理数据,并根据数据仓库的设计要求重新组织和加工数据,装载到数据仓库的目标数据库中。
 
   (3)数据建模工具:用于为数据仓库的原数据库和目标数据库建立信息模型。
 
   (4)核心仓储:用于存储数据模型和原数据,其中元数据描述数据仓库中元数据和目标数据本身的信息,定义从原数据到目标数据的转换过程。
 
   (5)数据仓库的目标数据库:存储经检验、整理、加工和重新组织后的数据。
 
   (6)前端数据访问和分析工具:供业务人员分析和决策人员访问目标数据库中的数据,并进一步深入分析使用。
 
   (7)数据仓库管理工具:为数据仓库的运行提供管理手段,包括安全管理和存储管理等。 

     可以看到,在一个数据仓库中,源数据来源与已有的生产系统,是操作型数据。提供源数据的数据源可以是各种数据库管理系统,或各种格式的数据文件或外部数据源。由于数据仓库是一种信息集成手段,因此在实际工程中,面对的数据源可能千差万别。只要能够为数据仓库所支持的决策和分析过程提供所需的信息,就可能成为数据仓库的数据源。因此,数据仓库需要有相应的工具从数据源中抽取数据。
 
    数据进入数据仓库之前必须经过检验,以排除数据中可能隐藏的错误。为了满足决策支持和深入分析的需要,数据要经过特别整理、加工和重新组织,然后装载到一个或多个数据仓库的数据库中。所有这些工作都是数据抽取和转换工具完成的,数据仓库中装载数据的数据库即为数据仓库中的目标数据库。为了描述数据检验、整理和加工的需求与相应过程及步骤,必须有数据建模工具(Modeling Tools)。
 
    随着企业业务的发展,数据仓库管理人员可以通过使用数据建模工具,根据企业决策和综合分析的需要,对数据的检验、整理、加工和重新组织的过程进行调整和优化,而有关描述则以数据模型和元数据的形式存放在核心仓储中。在数据仓库的日常运行过程中,需要不断监控数据仓库的状态,包括系统资源的使用情况、用户操作的合法性和数据的安全性等多个方面。为此,在数据仓库系统中专门有数据仓库管理工具负责向数据仓库管理员提供有关的管理功能。为了使数据仓库用户能有效的使用数据仓库中的信息,以实现深层次的综合分析和决策。数据仓库系统要为用户提供一整套数据访问和分析工具,这些工具不但要提供一般的数据访问功能,如查询、汇总和统计等,还要提供对数据的深入分析功能,如数据的比较、趋势分析和模式识别等。而数据仓库的数据访问和分析要在一定程度上面向企业的业务需求,所提供的数据是在业务上有意义的信息,而不只是通用的数据查询和操作功能。


    二、数据仓库体系结构中的关键问题   

    数据仓库系统中有3个关键环节,即源数据的抽取和转换、在目标数据库中存储转换后的数据和为用户提供对目标数据库的透明访问。与此相对应,在数据仓库的设计过程中必须注意3个关键的问题,即选择数据仓库的目标数据库、数据抽取和转换工具及前端数据访问和分析工具。
 
    1 数据仓库的目


























标数据库
 
    作为数据仓库的目标数据库,既可以选用传统的关系型数据库管理系统,也可以选用专用的多维数据库管理系统。对于许多企业来说,并不要求一定选用专用多维OLAP数据库,以支持数据仓库的功能。在许多情况下,可以使用传统的关系型数据库管理系统和企业熟悉的通用数据访问工具来建立数据仓库的目标数据库。目前在市场上可以获得的各个主要的关系数据库管理系统都提供单向的数据复制功能,并能迅速响应大量用户的联机并发查询访问。它们通过使用标准的SQL接口,与标准的数据库查询工具和客户机/服务器工具实现透明的接口,而且多家主要厂商的关系型数据库管理系统的最新产品还能提供复杂查询和分析功能,能作为兼顾操作型数据处理环境和数据仓库应用的数据库引擎。
 
    在某些规模非常大的决策支持应用场合下,专用的多维数据库具有一定的优势。例如,如果要分析一个大型的多维数据库,以发现市场营销的趋势。在这样应用环境下,专用多维数据库由于对多维OLAP的特殊支持,以及在数据库内部紧密集成了如数据复制等支持数据仓库的特殊功能,因而具有一定的
优势。一般认为,传统的关系型数据库管理系统在设计时优化的重点是考虑为OLTP应用提供高性能的支持,因而在决策支持应用环境中往往差强人意,而在专用的多维数据库管理系统中,往往针对为联机查询提供快速响应的需求,特别设计了跨平台的查询引擎,采用入数据分片、存储过程、对循环查询的支持和针对高性能数据仓库操作扩展SQL等技术,因此能在决策支持环境下获得较高的性能。现在,市场上已经出现了支持多维体系结构的OLAP专用数据仓库工具。
 
    选择数据仓库的目标数据库是数据仓库工程的关键决策之一,它将影响数据仓库体系结构的诸多方面,因此,需要认真慎重考虑。传统的关系型数据库管理系统和专用的多维数据库管理系统各有利弊。美国著名的数据仓库工程专家Pieter R. Mimno先生认为,除非业务环境的确要求采用专用的数据库才能解决业务需求,或者需要采用专用的数据库管理系统才能达到业务所需要的性能指标,否则,从节省成本和降低复杂性的角度出发,一般情况下,应优先考虑采用传统的关系型数据库管理系统,这个中肯的意见值得我们在选择数据仓库的数据库时认真考虑。
 
    2 数据抽取和转换工具 
    选定数据仓库的数据库后,如何选用合适的数据抽取和转换工具从数据源中抽取所需要的数据,根据业务需求,对数据进行转换,包括检验、整理、加工和重新组织的功能步骤后,存放到目标数据库中,是数据仓库体系结构设计时要考虑的又一个关键问题。
 
    传统的关系型数据库管理系统支持多种数据复制模型,可以提供整个企业范围内复杂的数据库复制功能,从而满足正常情况下数据仓库对数据抽取功能的要求。这种系统支持一般的数据抽取、数据复制和一定程度上的数据重新组织、聚簇和汇总,但是如果数据源之间的数据存在逻辑上的不一致,需要额外的重新组织和转换加工,那么其功能显得不足。举例而言,传统的关系型数据库管理系统不能自动完成从主机的OLTP系统中抽取源数据,解决数据间的不一致造成的冲突,对数据进行重新组织后转换到目标数据库中的全部过程。因此,只有当源数据完全正确可靠、组织合理且没有任何不一致时,才能直接采用传统的关系型数据库管理系统中的数据复制功能完成数据抽取工作。然而在工程实践中,源数据组织不合理,包含冗余数据,数据在逻辑上冲突和数据定义冲突等问题十分常见,因此,有必要考虑采用特别的数据抽取和转换工具。
 
    专门的数据抽取转换工具提供收集、转换和修订操作型数据的功能,并自动把转换后的数据装载到数据仓库指定的数据库中。目前,市场上已经有一些这样的工具。多个主要的传统关系型数据库管理系统厂商已经开发了其数据库产品与专门的数据抽取和转换工具之间的集成接口,以扩展其数据库产品的功能。因此,采用专用的数据抽取和转换工具十分方便。
   
    一般说来,数据抽取和转换工具主要提供两个方面的功能。首先,这些工具都提供流行的基于视窗的图形用户接口,使得用户(数据仓库管理员)能方便的描述数据抽取和转换的需求。数据转换包括对数据进行匹配、归并、排序、创建新的数据域、选择数据子集、聚簇数据、转换操作型数据、在一个或多个数据库之间解决数据的语法、定义或格式的冲突等操作,其次,这些工具能自动创建运行在数据源所在平台上的程序,自动至此那个数据抽取、检验和重新组织等功能。用户可以为抽取














程序加上转换逻辑。这些工具根据用户的输入建立有关元数据,其中描述了源数据和目标数据的格式,以及如何把源数据转换成目标数据。
 
    综上所述,传统的关系型数据库管理系统也许不能全面满足对数据抽取和转换的功能需要,数据仓库体系结构设计人员可以根据具体的需要选择合适的数据抽取和转换工具,与数据库管理系统相结合,全面实施数据抽取和转换。

 
    3 前端数据访问和分析工具
    从数据源中抽取出相应的数据,经过检验、整理、加工和重新组织后存放到数据仓库的数据库中,下一步就是要考虑如何使用户(业务决策人员、各级管理人员和业务分析人员)能够方便灵活的使用数据仓库中存储的数据,达到数据仓库工程的预定目标。在数据仓库中,这是通过为用户提供一套前端数据访问和分析工具来实现的。目前市场上能获得的数据访问和分析工具种类繁多,主要有关系型查询工具、关系型数据的多维视图工具、DSS/EIS软件包和客户机/服务器工具等4大类。
  
   (1)关系型查询

工具
通用的关系型查询工具提供高度友好的用户接口,可以访问关系型数据。借助这样的工具,一般用户无需技术人员的协助,即可表述查询要求。查询结果能根据用户的需要,形成报表和示意图,这样的工具都支持标准的用户接口,并同时访问多个数据库服务器和数据库管理系统。
 
   (2)关系型数据的多维视图工具  
    这类工具是为采用传统的关系型数据库管理系统作为数据仓库目标数据库的用户而设计的。通过使用这样的工具,虽然数据仓库的数据库是关系型的,但用户可以以多维的方式分析关系型数据。其最大的优点是不必采用专用的多维目标数据库管理系统即可达到多维分析的目的。这类工具具有多种具体的实现手段,一些工具并不在客户机一端形成局部数据库,而只是维护多维视图,另一些工具则从数据仓库中抽取所需的关系型数据子集,在客户机上通过一种称之为数据立方的多维结构方式加以局部存储,还有一些工具则更为先进,为了在关系型数据库上进行多维分析,实现了一个3层的软硬件结构。
 
   (3)DSS/EIS软件包  
    DSS/EIS软件包是更为复杂的工具,用于复杂的多为数据分析,用其可直接提供面向业务的信息分析,如财务报表分析和合并财务报表分析、业务品种利润分析、企业负债分析和管理报表等。
 
   (4)客户机/服务器工具 
    对于那些特定的不能直接采用现有工具和DSS/EIS软件包的业务需求,可以考虑使用通用的客户机/服务器工具开发前端的应用。通过使用这种工具,可以开发特定的功能,满足用户对图形界面、数据操作及数据分析报表等多方面的特殊需求。这些工具都能提供对数据的透明访问,简化对数据库的访问操作,支持多媒体应用,能够迅速构建前端决策支持应用系统,开发成本较低。使用这些工具开发的应用可以通过DDE和OLE接口与第三方产品实现透明连接,因此在开发前端工具的过程中,可以根据需要把很多现成产品连接到其中,如字处理系统和统计软件包等,这对于提供开发效率和系统质量是颇有裨益的。由于通用客户机/服务器工具应用广泛,用户众多,因此在开发客户化的数据访问和分析工具时,应积极考虑使用这样的工具。
 
    面对众多的前端数据访问和分析工具,应该根据功能需求选择,要着眼于工具是否易于使用及功能是否可靠。一般来说,简单的关系型查询工具是和业务分析人员来透明的访问数据,而关系型数据的多维视图则能够提供多维分析的能力,业务专家可以使用DSS/EIS工具分析大量的历史数据,发现业务发展规律,预测未来发展趋势,当要实现特殊的功能时,可以考虑使用通用的客户机/服务器工具。
 





















 
  
  
  
  
 
更多>同类技术
 
全年征稿 / 资讯合作
 
推荐图文
推荐技术
可能喜欢