内容纲要
数据挖掘:从海量数据中提取或挖掘知识的过程,分类、聚类、关联规则和离群点分析是数据挖掘的重要功能。
- 分类是找出描述和区分数据类的模型,以便能够使用模型来预测类标号未知的对象,典型的方法:决策树(ID3、C4\5、K最近邻、贝叶斯、人工神经网络、支持向量机(SVM))
- 聚类:按物以类聚的方法,K-means发现相关的观测值组群,使组内的观测值尽量相似,相似的即为一类。常见有K-means和Apriori
- 序列模式分析:侧重点是分析数据间的前后因果关系。
- 关联分析:挖掘出隐藏在数据间的相互关系。
- 离群点分析:异常检测,其目标是发现与大部分其他对象不同的对象。
- 回归分析:确定两种或以上的变量相互依赖的定量关系的一种统计分析方法。
- 决策树:构建树结构进行分析。
- 神经网络:类似统计学中的判别、回归、聚类等功能。
- 遗传算法:三个基本过程:繁殖(选择)→ 交叉 → 变异。
- 关联规则挖掘算法(数据之间存在关系的规则)。