摘 要:数据挖掘作为一项从海量数据中提取知识的信息技术引起了国内外学术界和产业界的广泛关注,它在商业方面的成功应用使得软件开发商不断开发新的数据挖掘工具,改进现有的数据挖掘工具,一时之间数据挖掘工具可谓琳琅满目,于是出现了如何合理选择挖掘工具的问题。鉴于此,本文提出并讨论了五点关于合理选择数据挖掘工具的技巧。
(本文来源于图老师网站,更多请访问http://m.tulaoshi.com/bianchengyuyan/)关键词:数据挖掘;数据挖掘工具;数据仓库
随着数据库和计算机网络的广泛应用,加上先进的数据自动生成和采集工具的使用,人们拥有的数据量急剧增大。然而数据的极速增长与数据分析方法的改进并不成正比,一方面人们希望在已有的大量数据的基础上进行科学研究、商业决策、企业管理,另一方面传统的数据分析工具很难令人满意的对数据进行深层次的处理,这样二者之间的矛盾日益突出,正是在这种状况下,数据挖掘应运而生。数据挖掘作为一项从海量数据中提取知识的信息技术是一个"以发现为驱动"的过程,已经引起了学术界和产业界的极大重视。特别是从1989年8月在美国底特律召开的第11届国际人工智能联合会议上首次出现数据库中的知识发现概念以来,数据挖掘在国际国内都受到了前所未有的重视,目前数据挖掘广泛应用于各个领域,如地理学、地质学、生物医学等等,总之数据挖掘的出现使数据库技术进入了一个更高级的阶段,不仅能对过去的数据进行查询和遍历,还能够找出以往数据间潜在的联系,促进信息的传播。
数据挖掘技术概述
1、数据挖掘的定义
数据挖掘是一个从数据中提取模式的过程,是一个受多个学科影响的交叉领域,包括数据库系统、统计学、机器学习、可视化和信息科学等;数据挖掘反复使用多种数据挖掘算法从观测数据中确定模式或合理模型,是一种决策支持过程。通过预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。由于传统的事物型工具(如查询工具、报表工具)无法回答事先未定义的综合性问题或跨部门/机构的问题,因此其用户必须清楚地了解问题的目的。数据挖掘就可以回答事先未加定义的综合性问题或跨部门/机构的问题,挖掘潜在的模式并预测未来的趋势,用户不必提出确切的问题,而且模糊问题更有利于发现未知的事实。
(本文来源于图老师网站,更多请访问http://m.tulaoshi.com/bianchengyuyan/)2、数据挖掘的主要方法和途径
数据挖掘有很多种分类方法,如按发现的知识种类,挖掘的数据库类型,挖掘方法,挖掘途径,所采用的技术等等。下面只讨论四个应用比较广泛的方法:
关联规则(Association Rule)
在数据挖掘领域中,关联规则应用最为广泛,是重要的研究方向。表示数据库中一组对象之间某种关联关系的规则,一般来讲,可以用多个参数来描述一个关联规则的属性,常用的有:可信度,支持度,兴趣度,期望可信度,作用度。
离群数据(Outlier)
离群数据就是明显偏离其他数据、不满足数据的一般模式或行为、与存在的其他数据不一致的数据。数据挖掘的大部分研究忽视了离群数据的存在和意义,现有的方法往往研究如何减少离群数据对正常数据的影响,或仅仅把其当作噪音来对待。这些离群数据可能