粗集方法在KDD系统中的应用与研究
2. KDD系统中粗集方法的基本特征
粗集(Rough Set)理论和模糊集(Fuzzy Set)理论都是针对不确定性问题提出的,它们既相互独立,又相互补充。粗集方法与传统的统计及模糊集方法不同的是:后者需要依赖先验知识对不确定性的定量描述,如统计分析中的先验概率、模糊集理论中的模糊度等等;而前者只依赖数据内部的知识,用数据之间的近似来表示知识的不确定性。用粗集来处理不确定性问题的最大优点在于,它不需要关于数据的预先或附加的信息,而且容易掌握和使用。粗集中不精确的要领包含下近似和上近似两个定义,前者指的是所有对象都一定被包含,后者指的是所有对象可能被包含。
粗集的一些理论和方法可用来从数据库中发现分类规则。其基本思想是,将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间的上下近似关系生成判定规则。
粗集理论中的信息系统可用一个四元组来表示:S={R,A,V,f}。其中R是一个非空集合,表示数据库中的所有记录(Record);A表示数据库中的全部属性(Attribute);V是属性值组成的集合;f是属性和记录的函数,f(a,e)的值确定记录e关于属性a的取值。对于属性集A中的任意一个属性a,如果记录