数据挖掘技术与用户知识获取
摘 要 题】实践研究
【英文摘要】This paper discusses the commonly-used technologies in data mining,and explores&n……
【 正 文】
1 数据挖掘技术概述
随着信息技术的迅速发展,数据库的规模不断扩大,从而产生了大量的数据。为给决策者提供一个统一的全局视角,在许多领域建立了数据仓库。但大量的数据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由此应运而生。数据挖掘技术也正是伴随着数据仓库技术的发展而逐步完善起来的。
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程,它是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。数据挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。数据挖掘是KDD(Knowledge Discovery in Database)中的重要技术,它并不是用规范的数据库查询语言(如SQL)进行查询,而是对查询的内容进行模式的总结和内在规律的搜索。传统的查询和报表处理只是得到事件发生的结果,并没有深入研究发生的原因,而数据挖掘则主要了解发生的原因,并且以一定的置信度对未来进行预测,用来为决策行为提供有利的支持。
2 数据挖掘的常用技术
机器学习、数理统计等方法是数据挖掘进行知识学习的重要方法。数据挖掘算法的好坏将直接影响到所发现知识的好坏,目前对数据挖掘的研究也主要集中在算法及其应用方面。统计方法应用于数据挖掘主要是进行数据评估;机器学习是人工智能的另一个分支,也称为归纳推理,它通过学习训练数据集,发现模型的参数,并找出数据中隐含的规则。其中关联分析法、人工神经元网络、决策树和遗传算法在数据挖掘中的应用很广泛。
1)关联分析法。从关系数据库中提取关联规则是几种主要的数据挖掘方法之一。挖掘关联是通过搜索系统中的所有事物,并从中找到出现条件概率较高的模式。关联实际上就是数据对象之间相关性的确定,用关联找出所有能将一组数据项和另一组数据项相联系的规则,这种规则的建立并不是确定的关系,而是一个具有一定置信度的可能值,即事件发生的概率。关联分析法直观、易理解,但对于关联度不高或相关性复杂的情况不太有效。
2)人工神经元网络(ANN),是数据挖掘中应用最广泛的技术。神经网络的数据挖掘方法是通过模仿人的神经系统来反复训练学习数据集,从待分析的数据集中发现用于预测和分类的模式。神经元网络对于复杂情况仍能得到精确的预测结果,而且可以处理类别和连续变量,但神经元网络不适合处理高维变量,其最大的缺点是不透明性,因为其无法解释结果是如何产生的,及其在推理过程中所用的规则。神经元网络适合于结果比可理解性更重要的分类和预测的复杂情况,可用于聚类、分类和序列模式。
3)决策树(DT)是一种树型结构的预测模型,其中树的非终端节点表示属性,叶节点表示所属的不同类别。根据训练数据集中数据的不同取值建立树的分支,形成决策树。与神经元网络最大的不同在于其决策制定的过程是可见的,可以解释结果是如何产生的。决策树一般产生直观、易理解的规则,而且分类不需太多计算时间,适于对记录分类或结果的预测,尤其适用于当目标是生成易理解、可翻译成SQL或自然语言的规则时。决策树也可用于聚类、分类及序列模式,其应用的典型例子是CART(回归决策树)方法。
4)遗传算法(GA)是一种基于生物进化理论的优化技术。其基本观点是“适者生存”原理,用于数据挖掘中则常把任务表示为一种搜索问题,利用遗传算法强大的搜索能力找到最优解。实际上遗传算法是模仿生物进化的过程,反复进行选择、交叉和突变等遗传操作,直至满足最优解。遗传算法可处理许多数据类型,同时可并行处理各种数据,常用于优化神经元网络,解决其他技术难以解决的问题,但需要的参数太多,对许多问题编码困难,一般计算量大。
3 数据挖掘技术在用户知识获取中的应用
网络的发展为用户提供了多种新的信息服务,因特网以其丰富的内容、强大的功能以及简单的操作,在各种信息服务方式中脱颖而出,成为未来信息服务的主要方向。但当前因特网信息服务中更多的是单向、被动的服务模式,而网上用户信息需求的挖掘,可以改进因特网与用户的交互,使因特网与用户真正融为一体,不再是操作与被操作的关系。数据挖掘技术的应用,使因特网能根据用户的需求采取更主动、更有针对性的服务。并且可以建立一种个性化的信息服务系统,针对不同用户的信息需求,提供不同的信息服务。而个性化服务系统的建立,则依赖于用户信息需求的挖掘。
3.1 用户知识概述
用户知识包括用户的身份、目标、兴趣、系统经验和用户背景知识等。它可通过用户模型来描述,用户模型可以模型化用户的特点、背景知识和经验,使用特定知识获取方法识别和描述用户的各种特征。用户模型可提高人机交互能力,解释和评价系统的执行,使系统发挥主动作用;改进整个系统的执行性能,如帮助识别用户的信息需求;增强系统的灵活性,适用于各类用户。
3.2 用户知识获取方法
用户知识获取有3种基本方式:通过观察获取信息,即观察用户与系统交互中的行为、使用的系统命令和参数;从观察到的事实进行推理,获得未知的信息;从已知实例集合,执行基于实例的推理,激发原型库中的模型,推导出当前用户的初始模型。随着数据挖掘技术的应用,有以下几种常用的知识获取方法。
3.2.1 用户知识的关联分析 对用户数据的挖掘有两方面的内容:一是如何提取用户的信息需求;二是获得用户需求的数据后,如何利用数据挖掘技术对这些数据进行处理,以获取潜在知识及为用户所用。关联分析法的一个主要应用是在零售业,比如在超级市场的销售管理中,条码技术的发展使得数据的收集变得更容易、更快捷,从而存储了大量交易资料。关联规则就是辨别在这些交易项目之间是否存在某种关联关系。例如:关联规则可以表示“购买了项目A和B的顾客中有
3.2.2 组合分析法 由于用户的兴趣是时常变化的,用户行为信息所反映的用户信息需求往往是多条线索混合在一起,这给识别信息需求带来了很大的困难。这种问题的解决,一般需要预先指定一个主题,但这就增加了用户的负担,而且仅用关联法也很难全面获得用户相关信息。人工神经元网络和决策树的方法结合起来能较好地从相关性不强的多变量中选出重要的变量,并从中分析出用户的需求偏好,服务器可根据用户的需求偏好进行主动信息推荐。
3.2.3 分类填表法 用户知识可以由用户主动填写表格来获取,用户设定信息需求可以通过设定关键词或主题词来完成。分类填表法可将用户的信息需求较客观地表达出来。表格的设计可以采用预先分类的方法,将用户的记录分配到已定义好的类中去,从而构造出用户信息的分类模型,利用此模型可将用户数据库中的数据映射到相应的子集中,进行数据预测。这是一种简单实用的方法,但不足之处是难以制作一个完整的分类调查表,将用户的真实意图全部表达出来。
3.2.4 智能代理方法 现在常用的浏览器中,有一个历史菜单栏,当用户在地址栏中输入网址进行浏览时,系统会自动将这个网址记录下来,作为上网的历史记录存放在系统中,方便用户以后使用。这些浏览历史反映了一定时期内用户在网上的信息利用情况,是用于分析用户的信息偏好,确定用户信息需求的一个很好的依据。
利用智能代理(Intelligent Agent)监视用户信息查询过程,是自动获取用户信息需求的一种方法。其方法是在用户的终端上运行一个监视的信息代理(Information Agent),信息代理将用户和浏览时的相关信息不断传送给远端的服务器,服务器将信息进行数据取样和数据调整,利用强大的搜索能力和遗传算法反复学习找到最优解,使得用户信息 《数据挖掘技术与用户知识获取》
本文链接地址:http://www.oyaya.net/fanwen/view/59851.html
【英文摘要】This paper discusses the commonly-used technologies in data mining,and explores&n……
【 正 文】
1 数据挖掘技术概述
随着信息技术的迅速发展,数据库的规模不断扩大,从而产生了大量的数据。为给决策者提供一个统一的全局视角,在许多领域建立了数据仓库。但大量的数据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由此应运而生。数据挖掘技术也正是伴随着数据仓库技术的发展而逐步完善起来的。
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程,它是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。数据挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。数据挖掘是KDD(Knowledge Discovery in Database)中的重要技术,它并不是用规范的数据库查询语言(如SQL)进行查询,而是对查询的内容进行模式的总结和内在规律的搜索。传统的查询和报表处理只是得到事件发生的结果,并没有深入研究发生的原因,而数据挖掘则主要了解发生的原因,并且以一定的置信度对未来进行预测,用来为决策行为提供有利的支持。
2 数据挖掘的常用技术
机器学习、数理统计等方法是数据挖掘进行知识学习的重要方法。数据挖掘算法的好坏将直接影响到所发现知识的好坏,目前对数据挖掘的研究也主要集中在算法及其应用方面。统计方法应用于数据挖掘主要是进行数据评估;机器学习是人工智能的另一个分支,也称为归纳推理,它通过学习训练数据集,发现模型的参数,并找出数据中隐含的规则。其中关联分析法、人工神经元网络、决策树和遗传算法在数据挖掘中的应用很广泛。
1)关联分析法。从关系数据库中提取关联规则是几种主要的数据挖掘方法之一。挖掘关联是通过搜索系统中的所有事物,并从中找到出现条件概率较高的模式。关联实际上就是数据对象之间相关性的确定,用关联找出所有能将一组数据项和另一组数据项相联系的规则,这种规则的建立并不是确定的关系,而是一个具有一定置信度的可能值,即事件发生的概率。关联分析法直观、易理解,但对于关联度不高或相关性复杂的情况不太有效。
2)人工神经元网络(ANN),是数据挖掘中应用最广泛的技术。神经网络的数据挖掘方法是通过模仿人的神经系统来反复训练学习数据集,从待分析的数据集中发现用于预测和分类的模式。神经元网络对于复杂情况仍能得到精确的预测结果,而且可以处理类别和连续变量,但神经元网络不适合处理高维变量,其最大的缺点是不透明性,因为其无法解释结果是如何产生的,及其在推理过程中所用的规则。神经元网络适合于结果比可理解性更重要的分类和预测的复杂情况,可用于聚类、分类和序列模式。
3)决策树(DT)是一种树型结构的预测模型,其中树的非终端节点表示属性,叶节点表示所属的不同类别。根据训练数据集中数据的不同取值建立树的分支,形成决策树。与神经元网络最大的不同在于其决策制定的过程是可见的,可以解释结果是如何产生的。决策树一般产生直观、易理解的规则,而且分类不需太多计算时间,适于对记录分类或结果的预测,尤其适用于当目标是生成易理解、可翻译成SQL或自然语言的规则时。决策树也可用于聚类、分类及序列模式,其应用的典型例子是CART(回归决策树)方法。
4)遗传算法(GA)是一种基于生物进化理论的优化技术。其基本观点是“适者生存”原理,用于数据挖掘中则常把任务表示为一种搜索问题,利用遗传算法强大的搜索能力找到最优解。实际上遗传算法是模仿生物进化的过程,反复进行选择、交叉和突变等遗传操作,直至满足最优解。遗传算法可处理许多数据类型,同时可并行处理各种数据,常用于优化神经元网络,解决其他技术难以解决的问题,但需要的参数太多,对许多问题编码困难,一般计算量大。
3 数据挖掘技术在用户知识获取中的应用
网络的发展为用户提供了多种新的信息服务,因特网以其丰富的内容、强大的功能以及简单的操作,在各种信息服务方式中脱颖而出,成为未来信息服务的主要方向。但当前因特网信息服务中更多的是单向、被动的服务模式,而网上用户信息需求的挖掘,可以改进因特网与用户的交互,使因特网与用户真正融为一体,不再是操作与被操作的关系。数据挖掘技术的应用,使因特网能根据用户的需求采取更主动、更有针对性的服务。并且可以建立一种个性化的信息服务系统,针对不同用户的信息需求,提供不同的信息服务。而个性化服务系统的建立,则依赖于用户信息需求的挖掘。
3.1 用户知识概述
用户知识包括用户的身份、目标、兴趣、系统经验和用户背景知识等。它可通过用户模型来描述,用户模型可以模型化用户的特点、背景知识和经验,使用特定知识获取方法识别和描述用户的各种特征。用户模型可提高人机交互能力,解释和评价系统的执行,使系统发挥主动作用;改进整个系统的执行性能,如帮助识别用户的信息需求;增强系统的灵活性,适用于各类用户。
3.2 用户知识获取方法
用户知识获取有3种基本方式:通过观察获取信息,即观察用户与系统交互中的行为、使用的系统命令和参数;从观察到的事实进行推理,获得未知的信息;从已知实例集合,执行基于实例的推理,激发原型库中的模型,推导出当前用户的初始模型。随着数据挖掘技术的应用,有以下几种常用的知识获取方法。
3.2.1 用户知识的关联分析 对用户数据的挖掘有两方面的内容:一是如何提取用户的信息需求;二是获得用户需求的数据后,如何利用数据挖掘技术对这些数据进行处理,以获取潜在知识及为用户所用。关联分析法的一个主要应用是在零售业,比如在超级市场的销售管理中,条码技术的发展使得数据的收集变得更容易、更快捷,从而存储了大量交易资料。关联规则就是辨别在这些交易项目之间是否存在某种关联关系。例如:关联规则可以表示“购买了项目A和B的顾客中有
95%的人又购买了C和D”。这种关联规则提供的信息可以用作商品销售目录设计、商场布置、生产安排,进行有针对性的市场营销。在搜索页面的设计中也可运用用户的点击率、内容及相关页面,了解用户的偏好和习惯,并用关联分析的方法来获取潜在用户知识,这有助于决定搜索页面的设计和相关知识的链接。
3.2.2 组合分析法 由于用户的兴趣是时常变化的,用户行为信息所反映的用户信息需求往往是多条线索混合在一起,这给识别信息需求带来了很大的困难。这种问题的解决,一般需要预先指定一个主题,但这就增加了用户的负担,而且仅用关联法也很难全面获得用户相关信息。人工神经元网络和决策树的方法结合起来能较好地从相关性不强的多变量中选出重要的变量,并从中分析出用户的需求偏好,服务器可根据用户的需求偏好进行主动信息推荐。
3.2.3 分类填表法 用户知识可以由用户主动填写表格来获取,用户设定信息需求可以通过设定关键词或主题词来完成。分类填表法可将用户的信息需求较客观地表达出来。表格的设计可以采用预先分类的方法,将用户的记录分配到已定义好的类中去,从而构造出用户信息的分类模型,利用此模型可将用户数据库中的数据映射到相应的子集中,进行数据预测。这是一种简单实用的方法,但不足之处是难以制作一个完整的分类调查表,将用户的真实意图全部表达出来。
3.2.4 智能代理方法 现在常用的浏览器中,有一个历史菜单栏,当用户在地址栏中输入网址进行浏览时,系统会自动将这个网址记录下来,作为上网的历史记录存放在系统中,方便用户以后使用。这些浏览历史反映了一定时期内用户在网上的信息利用情况,是用于分析用户的信息偏好,确定用户信息需求的一个很好的依据。
利用智能代理(Intelligent Agent)监视用户信息查询过程,是自动获取用户信息需求的一种方法。其方法是在用户的终端上运行一个监视的信息代理(Information Agent),信息代理将用户和浏览时的相关信息不断传送给远端的服务器,服务器将信息进行数据取样和数据调整,利用强大的搜索能力和遗传算法反复学习找到最优解,使得用户信息 《数据挖掘技术与用户知识获取》