网络信息挖掘系统评价初探
常可以从产品推出时间、更新频率、公司创立时间、拥有客户数量、客户涉及领域等多个方面综合考虑。
2)易用性。这个指标主要从用户端角度来考虑的,又可以分为如下4个子指标:①挖掘过程的清晰度;②无技术术语;③熟悉的环境;④可视化的报告。
3)投资回报率(Return on Investment,ROI)。这个指标通常被认为是一个主观性很强、不易衡量的指标,因为对它的评价很大程度上依赖于开展的个别项目以及挖掘专家的专业知识和技能。然而它仍不失为衡量网络信息挖掘系统商业能力的重要指标之一。在电子商务环境下,网络可以使投资回报率的评测较易实现,结果更为客观。这个指标的评价,一方面可以通过各个网络信息挖掘软件的新闻报道进行分析,另一方面如果可以获得网络信息挖掘软件提供商或领域专家的客观评价则更好。
3.2 算法能力
算法能力指标用于评价在系统挖掘网络信息过程中某种算法的有效性。该指标下目前仅列出了8个子指标,即8种算法:①决策树;②神经网络;③回归;④Radial Basis Functions;⑤最近邻;⑥Nearest Mean Kohonen和自组织图(Self-organizing Maps);⑦聚类;⑧关联规则。
由于新的挖掘算法不断出现,可能这里列出的算法不完整,在具体评价时可添加。
3.3 网络信息挖掘过程能力
这个角度的评价是以往的数据挖掘系统评价所缺乏的,因此本文所提出的网络信息挖掘系统的评价体系中特别加入这个指标。它主要被用来评价网络信息挖掘系统在网络信息挖掘过程的各个阶段所表现的能力。具体分为如下5个子指标:①商业问题理解;②数据准备:数据选择,数据预处理,数据转换;③网络信息挖掘模型;④模型评价;⑤模型应用。
一般的网络信息挖掘系统都遵循这样的5个基本阶段。当然有些系统可能也有略微的差别,如WUM6.0的挖掘过程重点就是在前3个阶段。
3.4 电子商务应用能力
应用能力角度的评价也是数据挖掘系统评价中所忽视的,同时由于网络信息挖掘在电子商务方面的应用点在不断增多,本文特别设置从电子商务应用能力角度评价的指标。根据目前掌握的应用情况,又具体分为如下5个子指标:①站点布局/设计;②交叉销售;③促销(Up-sells);④个性化/推荐;⑤早期预警。
如果新的应用层面出现,可以考虑添入新的子指标。
4 初步评价分析
目前,笔者仅根据在网上可获取的信息来对各种系统的相应属性进行评价。目前可以得到的结果如下。
1)网络信息挖掘软件与数据挖掘软件的关联。本文调查的网络信息挖掘软件的提供商中一些是比较熟知的提供数据挖掘软件的公司,如Clementine网络信息挖掘应用模板(Clementine Web Mining)的提供者就是SPSS公司,该模板是该公司Clementine的应用模板之一。又如Web-hound的提供者是SAS公司。可见,越来越多的数据挖掘软件公司将目光投入到网络信息挖掘及其应用中。当然这个充满前景的领域也吸引了众多新的拥有网络信息挖掘先进技术的小公司的加盟。
2)产品的成熟度和提供商的实力比较。通过对这19种软件产品的成熟度和提供商的实力进行评价,发现大概有1/3的网络信息挖掘软件的商业能力超过了普通水平(见图1)。原来数据挖掘系统领域的领先者,像SPSS公司和SAS公司,在网络信息挖掘系统领域仍然保持很强的商业能力。当然,本文的评价中还有NetTracker的商业能力也获得了较好的评价。调查中大概有一半的软件产品的商业能力处于普通水平之下。另外表1中Analog和WUM6.0仍为研究原型系统,故本次调查暂不对其商业能力进行评价。
附图
图1 商业能力评价(产品成熟度和提供商实力)
当然;由于笔者主要通过网站调查,对信息的理解往往带有个人主观色彩,在评价结果中不可避免存在偏差。
5 未来工作
笔者认为此类评价工作应该将专家调查和二手信息收集相结合。可以利用专家调查法获得较为科学的指标权重,进一步完善本文所建立的网络信息挖掘系统的评价指标体系。另外可以尝试利用现有的数据集进行一些可能的测试工作,如网络信息挖掘准确度的定量评价。
综上所述,网络信息挖掘发展方兴未艾。从国内外现状看,网络信息挖掘系统评价工作也仅处于起步阶段。希望本文所提出的网络信息挖掘系统评价体系和初步的评价结果对国内进一步开展这方面的研究有所裨益。
【参考文献】
1 Elder J,Abbott D W.A Comparison of Leadin
Conference on Knowledge Discovery & Data Mining. New York:[s.n],1998
2 King M A,Elder J F,et al.Evaluation of Fourteen Desktop Data Mining
Tools,Im:1998 IEEE International Conference on Systems, Man,and Cybernetics,San Diego:[s.n],1998
3 Abbott D W,Matkovsky I P,Elder J F.An Evaluation of High-end Data Mining Tools for Fraud Detection.In:1998 IEEE International Conference on Systems,Man,and Cybernetics.San Diego:[s.n], 1998
4 Goebel N,Gruenwald L.A Survey of Data Mining and Knowledge Discovery Software
Tools.ACM SIGKDD,1999(6)
5 Han J Kamber M.数据挖掘:概念与技术.北京:机械工业出版社,2001
6 Berson A,el al,构建面向CRM的数据挖掘应用.贺奇等译.北京:人民邮电出版社,2001
7 朱爱群.客户关系管理与数据挖掘.北京:中国财政经济出版社,2001
8 http://www.kdnuggets.com/polls/dm_tools_2001_october.htm
9 http://www.kdnuggets.com/soft ware/web.Html
本文链接地址:http://www.oyaya.net/fanwen/view/59792.html
2)易用性。这个指标主要从用户端角度来考虑的,又可以分为如下4个子指标:①挖掘过程的清晰度;②无技术术语;③熟悉的环境;④可视化的报告。
3)投资回报率(Return on Investment,ROI)。这个指标通常被认为是一个主观性很强、不易衡量的指标,因为对它的评价很大程度上依赖于开展的个别项目以及挖掘专家的专业知识和技能。然而它仍不失为衡量网络信息挖掘系统商业能力的重要指标之一。在电子商务环境下,网络可以使投资回报率的评测较易实现,结果更为客观。这个指标的评价,一方面可以通过各个网络信息挖掘软件的新闻报道进行分析,另一方面如果可以获得网络信息挖掘软件提供商或领域专家的客观评价则更好。
3.2 算法能力
算法能力指标用于评价在系统挖掘网络信息过程中某种算法的有效性。该指标下目前仅列出了8个子指标,即8种算法:①决策树;②神经网络;③回归;④Radial Basis Functions;⑤最近邻;⑥Nearest Mean Kohonen和自组织图(Self-organizing Maps);⑦聚类;⑧关联规则。
由于新的挖掘算法不断出现,可能这里列出的算法不完整,在具体评价时可添加。
3.3 网络信息挖掘过程能力
这个角度的评价是以往的数据挖掘系统评价所缺乏的,因此本文所提出的网络信息挖掘系统的评价体系中特别加入这个指标。它主要被用来评价网络信息挖掘系统在网络信息挖掘过程的各个阶段所表现的能力。具体分为如下5个子指标:①商业问题理解;②数据准备:数据选择,数据预处理,数据转换;③网络信息挖掘模型;④模型评价;⑤模型应用。
一般的网络信息挖掘系统都遵循这样的5个基本阶段。当然有些系统可能也有略微的差别,如WUM6.0的挖掘过程重点就是在前3个阶段。
3.4 电子商务应用能力
应用能力角度的评价也是数据挖掘系统评价中所忽视的,同时由于网络信息挖掘在电子商务方面的应用点在不断增多,本文特别设置从电子商务应用能力角度评价的指标。根据目前掌握的应用情况,又具体分为如下5个子指标:①站点布局/设计;②交叉销售;③促销(Up-sells);④个性化/推荐;⑤早期预警。
如果新的应用层面出现,可以考虑添入新的子指标。
4 初步评价分析
目前,笔者仅根据在网上可获取的信息来对各种系统的相应属性进行评价。目前可以得到的结果如下。
1)网络信息挖掘软件与数据挖掘软件的关联。本文调查的网络信息挖掘软件的提供商中一些是比较熟知的提供数据挖掘软件的公司,如Clementine网络信息挖掘应用模板(Clementine Web Mining)的提供者就是SPSS公司,该模板是该公司Clementine的应用模板之一。又如Web-hound的提供者是SAS公司。可见,越来越多的数据挖掘软件公司将目光投入到网络信息挖掘及其应用中。当然这个充满前景的领域也吸引了众多新的拥有网络信息挖掘先进技术的小公司的加盟。
2)产品的成熟度和提供商的实力比较。通过对这19种软件产品的成熟度和提供商的实力进行评价,发现大概有1/3的网络信息挖掘软件的商业能力超过了普通水平(见图1)。原来数据挖掘系统领域的领先者,像SPSS公司和SAS公司,在网络信息挖掘系统领域仍然保持很强的商业能力。当然,本文的评价中还有NetTracker的商业能力也获得了较好的评价。调查中大概有一半的软件产品的商业能力处于普通水平之下。另外表1中Analog和WUM6.0仍为研究原型系统,故本次调查暂不对其商业能力进行评价。
附图
图1 商业能力评价(产品成熟度和提供商实力)
当然;由于笔者主要通过网站调查,对信息的理解往往带有个人主观色彩,在评价结果中不可避免存在偏差。
5 未来工作
笔者认为此类评价工作应该将专家调查和二手信息收集相结合。可以利用专家调查法获得较为科学的指标权重,进一步完善本文所建立的网络信息挖掘系统的评价指标体系。另外可以尝试利用现有的数据集进行一些可能的测试工作,如网络信息挖掘准确度的定量评价。
综上所述,网络信息挖掘发展方兴未艾。从国内外现状看,网络信息挖掘系统评价工作也仅处于起步阶段。希望本文所提出的网络信息挖掘系统评价体系和初步的评价结果对国内进一步开展这方面的研究有所裨益。
【参考文献】
1 Elder J,Abbott D W.A Comparison of Leadin
g Data Mining Tools In: Fourth Annual
Conference on Knowledge Discovery & Data Mining. New York:[s.n],1998
2 King M A,Elder J F,et al.Evaluation of Fourteen Desktop Data Mining
Tools,Im:1998 IEEE International Conference on Systems, Man,and Cybernetics,San Diego:[s.n],1998
3 Abbott D W,Matkovsky I P,Elder J F.An Evaluation of High-end Data Mining Tools for Fraud Detection.In:1998 IEEE International Conference on Systems,Man,and Cybernetics.San Diego:[s.n], 1998
4 Goebel N,Gruenwald L.A Survey of Data Mining and Knowledge Discovery Software
Tools.ACM SIGKDD,1999(6)
5 Han J Kamber M.数据挖掘:概念与技术.北京:机械工业出版社,2001
6 Berson A,el al,构建面向CRM的数据挖掘应用.贺奇等译.北京:人民邮电出版社,2001
7 朱爱群.客户关系管理与数据挖掘.北京:中国财政经济出版社,2001
8 http://www.kdnuggets.com/polls/dm_tools_2001_october.htm
9 http://www.kdnuggets.com/soft ware/web.Html
《网络信息挖掘系统评价初探(第2页)》