课程介绍
数据仓库与数据挖掘-课程简介
(1)培养目标
本课程介绍数据仓库和数据挖掘技术,主要包括数据概念、数据仓库模型、知识类型,数据预处理、数据分类、数据回归、关联挖掘、数据聚类、异常检测、数据可视化等方法,以及大数据挖掘平台的设计与实现。
课程旨在使学生掌握海量数据仓库存储与挖掘的基本原理,利用数据预处理、关联规则挖掘、聚类分析、分类挖掘、异常检测等算法,研制软件工具,解决实际工程中海量数据的高效管理与深度利用问题。
(2)内容设置
[1] 概述
数据挖掘的社会需求、数据挖掘的定义、数据挖掘的分类、数据挖掘的步骤;
[2] 数据仓库与联机分析处理
数据仓库与数据库的区别、数据仓库定义、数据仓库的系统结构、数据仓库的数据组织形式、数据仓库的数据模型、什么是联机分析处理、OLAP的多维数据存储、OLAP的分类;
[3] 数据预处理
为什么要数据预处理、数据清理、数据集成与数据变换、数据归约、数据压缩与数值归约、数据离散化;
[4] 关联规则挖掘
什么是关联规则挖掘、关联规则挖掘示例、Apriori算法、频繁项集生成规则、Apriori算法分析与改进、FP-Growth算法;
[5] 多值关联规则与多层关联规则
什么是多值关联规则、多值关联规则挖掘中的连续属性划分、多值关联规则合并、从下向上的频繁项集搜索方式、自上向下的频繁项集搜索方式、多层关联规则的社会需求、同层关联规则挖掘算法;
[6] 项约束型关联规则
什么是项约束性关联规则挖掘、项约束性关联规则挖掘算法Direct、项约束性关联规则挖掘Direct+;
[7] 分类算法
分类分析的基本思路、决策树分类模型、最近邻KNN、支持向量机SVM、贝叶斯分类;
[8] 聚类分析
距离与相似性度量、划分聚类Kmeans算法、K中心点算法思想、K中心点PAM算法示例、层次聚类分析、密度聚类分析;
[9] 序列模式挖掘
序列模式挖掘的基本原理、序列模式挖掘AprioriAll算法的实现过程、序列模式挖掘AprioriSome算法、序列模式挖掘DynamicSome算法、有时间约束的序列模式挖掘GSP算法原理、有时间约束的序列模式挖掘GSP算法示例。
(3)主要教学方式
本课程教学采用课堂教学和实验相结合、辅以小组讨论和综述报告的教学方式,加强实例教学,以增强学生的学习兴趣,培养学生发现问题并解决问题的能力。
(4)先修课要求
程序设计基础、数据库系统原理、数据结构。
联系电话:010-58807943
邮编:100875
地址:北京市海淀区新外大街19号电子楼