面向中小企业智能数据处理工具
在这个部分,主要的工作就是两点,即“描述层”的定义与解释。在“描述层”的定义部分,要进行各种不同类型的定义,具体来说就是上一段提到的几种类型,然后将各个类型的定义作为元数据进行存储。在定义的过程中,必然要通过数据库连接工具来对数据库或数据仓库进行访问,再按照数据库的结构和内容来设计各个不同的“描述”。另外,在以后使用本系统的其它主体部分如查询、报表、分析和数据挖掘部分时,将用到“描述层”中定义的“描述”,这是就需要“描述层”的解释部分来进行解释,将“描述”语言翻译为数据库能够接受的语言。
本软件设计中的另一个重点是体现商业智能化的数据挖掘功能,随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,可是目前用于对这些数据进行分析处理的工具却很少。现在所能做到的只是对数据库中已有的数据进行由人驱动的分析,人们通过这些数据所获得的信息量仅仅是整个数据库所包含的信息量的一部分,隐藏在这些数据之后的更重要的信息是关于这些数据的整体特征的描述及对其发展趋势的预测,这些信息在决策生成的过程中具有重要的参考价值。
数据库中的知识发现(KDD)就是利用机器学习的方法从数据库中提取有价值知识的过程,是数据库技术和机器学习两个学科的交叉学科。数据库技术侧重于对数据存储处理的高效率方法的研究,而机器学习则侧重于设计新的方法从数据中提取知识。KDD利用数据库技术对数据进行前端处理,而利用机器学习方法则从处理后的数据中提取有用的知识。KDD与其他学科也有很强的联系,如统计学、数学和可视化技术等等。
在我们的系统中,将实现一个完整的KDD工具,也可以称为数据挖掘(Data Mining)工具。因为我们要面向广大商业用户,所以我们的系统特别注重对用户与数据库交互的支持,由用户根据数据库中的数据,选择一种模型,然后选择有关数据进行知识的挖掘,并不断对模型的数据进行调整优化。整个处理过程分为下面一些步骤:
数据发现:了解任务所涉及的原始数据的数据结构及数据所代表的意义,并从数据库中提取相关数据。
数据清理:对用户的数据进行清理以使其适于后续的数据处理。这需要用户的背景知识,同时也应该根据实际的任务确定清理规则。
模型的确定:通过对数据的分析选择一个初始的模型。模型定义一般分为三个步骤:数据分隔,模型选择和参数选择。在我们的系统中,主要引入了关联规则模型和分类模型。
数据分析:对选中的模型进行详细定义,确定模型的类型及有关属性;通过对相关数据的计算,计算模型的有关参数,得到模型的各属性值;通过测试数据对得到的模型进行测试和评价;根据评价结果对模型进行优化。
输出结果生成:数据分析的结果一般都比较复杂,很难被人理解,将结果以文档或图表形式表现出来则易于被人接受。
在KDD过程中,最重要的是其中的数据挖掘部分,即模型和相关属性的确定。我们计划采用其中应用最广泛的两个模型,分别是关联规则和分类规则,以下作详细的介绍。
关联规则是形式如下的一种规则,“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”(面包+黄油=>牛奶 )。用于关联规则发现的主要对象是事务型数据库,其中最典型的应用则是售货数据,一个事务一般由如下几个部分组成:事务处理时间,一组顾客购买的物品,有时也有顾客标识号(如信用卡号)。如果对这些历史事务数据进行分析,则可对顾客的购买行为提供极有价值的信息。例如,可以帮助如何摆放货架上的商品(如把顾客经常同时买的商品放在一起),帮助如何规划市场(怎样相互搭配进货)。由此可见,从事务数据中发现关联规则,对于改进零售业等商业活动的决策非常重要。随着应用的推广,关联规则已经在许多领域发挥作用,成为最典型的数据挖掘应用。
分类也是数据挖掘中的一项非常重要的任务。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类的应用实例也很多,比较典型的由保险公司的保费设置。保险公司成功的一个关键因素是在设置具有竞争力保费和覆盖风险之间选择一种平衡。
《面向中小企业智能数据处理工具(第4页)》