本文学习来源于《数据挖掘理论与技术》(电子工业出版社)
数据挖掘方法可以是基于数学理论的,也可以是非数学的;可以是演绎的,也可以是归纳的。从研究的历史看,它们是数据库、人工智能、数理统计、计算机科学以及其它方面的学者和工程技术人员,在数据挖掘的探讨性研究过程中创立的理论体系。1997年,Mannila对当时流行的数据挖掘的理论框架做出了综述。结合最新的研究成果,有下面一些重要的理论框架可以准确地解释数据挖掘的概念与技术特点。
数据挖掘与数据库中的知识发现(KDD)既有联系又有区别,从数据处理的不同层面,分析出数据挖掘自身的特点。
KDD 可看成数据挖掘的一个特例数据挖掘是KDDI过程的一个步骤KDDI与数据挖掘含义相同根据数据挖掘的方法可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法中可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析等),以及模糊集、粗糙集、支持向量机等。 机器学习方法可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。 神经网络方法可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)。 数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。