保存桌面快捷方式 - - 设为首页 - 手机版
凹丫丫旗下网站:四字成语大全 - 故事大全 - 范文大全
您现在的位置: 范文大全 >> 理工论文 >> 计算机信息技术 >> 正文

数据 信息与知识


题(Subject-oriented)的集成化的 时变的(time-Variant即提供存贮5-10或更老的数据,这些数据不再更新,供比较以求出趋向及预测用)非破坏性(即只容易输入和访问不容许更新和改变)的数据集中场所。数据仓库的出现,为更深入对数据进行分析提供了条件,针对市场变化的加速人们提出了能实时分析和报表的在线分析手段OLAP(On Line Analytical Processing),它是一种友好而灵活的工具,它能允许用户以交互方式浏览数据仓库对其中数据进行多维分析,能及时地从变化和不太完整的数据中提出与企业经营动作有关的信息。例如能对数据中的异常和变化行为进行了解,OLAP是数据分析手段的一大进步,以往的分析工具所得到的报告结果能回答“什么”(What),而OLAP的分析结果能回答“为什么”(Why)。但上述分析手段是建立在用户对深藏在数据中的某种知识有预感和假设的前提下。而由于数据仓库(通常数据贮藏量以TB计)及联网界面上的数据来源于多种信息源,因此其中埋藏着丰富的不为用户所知的有用信息和知识,而要使企业能及时迅速准确地作出经营动作的决策,以适应变化迅速的市场环境,就需要有一种基于计算机与信息技术的智能化自动工具,来发掘埋藏在数据中的各类知识。这种手段不应再基于用户假设,而应能自身生成多种多种假设,再用数据仓库或联网的数据进行检验和验证,然后返回对用户 最有用的结果。同时这种工具还应能适应现实世界中数据的多种特性(即量大 含噪声 不完整 动态 稀疏性 异质 非线性等)。要达到上述要求,只借助于一般数学分析和算法是无能为力的。多年来,数理统计技术以及人工智能和知识工程等领域的研究成果,诸如推理 归纳学习 机器学习 知识获取 模糊理论 神经元网络 进化算法 模式识别 粗糙集理论等等分支给开发上述工具提供了坚实而丰富的理论和技术基础。九十年代中期以来,许多软件开发商,基于上述技术和市场需求,开发了名目繁多的数据发掘(DM--Data Mining)和知识发现(KDD--Discovery from Data)工具和软件,DM和KDD形成了近年来软件开发市场的热点,并且已不断出现成套软件和系统,并开始朝智能化整体解决方案发展,这是从数据到知识前进过程中又一个里程碑(见图2)

 

图3 数据发掘过程

从数据中获取有用信息或知识,是一个完整的对数据进行加工 处理的过程。如图3所示,其中DM是关键的一步。[1]挑选:按一定的标准从数据源中挑选或切取一组数据,形成目标数据。[2]净化和预处理:将不必要或影响分析进程的部分数据删去。[3]转换:将预处理后的数据进行某些转换使之成为可用和可导引的数据。[4]数据发掘:这是关键的阶段,从数据中抽取出信息的模式。所谓模式,可以作如下定义:给定一组事实(数据)F,一种语言L,和某种可信度测量C,模式就是一种用L的描述方式S,它以可信度C对F的一个子集Fs各事实间的关系进行描述,这种描述在某种意义上比枚举Fs中所有事实上要简单得多。[5]解释赋义或可视化:将模式解释为可以支持决策的知识,例如预测 分类 汇总数据内容和解释所观察到的现象等。上述阶段之间也许还需要某种迭代分析.(见图3)从上述过程可以看出,从数据中获取知识是涉及多个领域内技术融合的综合应用(见图4)

 

 

数据库 模式识别

技术

 

机器学 可视化

习技术 技术

 

AI技术 统计学

 

图4 DM(KDD)与相关技术

三 KDD(DM)的任务 技术和应用

利用DM(KDD)技术可以完成多项决策所需任务,但大致可分为下述几方面:[1]预测:从事例中求得模式,构造模型以预测目标度量。[2]分类:找出一函数能使每事例映射到某种离散类别之一。[3]查出关系:搜索到对某选定目标变量最有影响的其它独立变量。[4]显式模型:找出描述不同变量间依赖关系的显式公式。[5]聚类:认定出描述数据的类别的有限分组。[6]偏离检测:从数据已有或期望值中找出某些关键测度显著的变化。

由于上述任务的不同,就需要采用不同的技术方法和手段,因而在市面也出现种类繁多的商品

《数据 信息与知识(第2页)》
本文链接地址:http://www.oyaya.net/fanwen/view/140154.html

★温馨提示:你可以返回到 计算机信息技术 也可以利用本站页顶的站内搜索功能查找你想要的文章。