教学大纲(每年会轮流使用R与Python语言授课)
MOOC网址:https://www.icourse163.org/course/CUFE-1463189161?from=searchPage

第一章:数据与数据价值(4学时)
1 本章教学内容:(1) 基于数据的管理决策(1学时),(2) 数据、大数据与人工智能(1学时),(3)数据仓库与多维数据模型(2学时)。
2 本章教学要求:通过本章课程的学习,要求学生深刻理解数据与大数据,掌握数据如何服务于商业价值的创造,了解大数据的一般商业应用案例。
3 本章教学重点:(1)大数据的特征,(2)管理的本质,(3)数据仓库与数据库区别,(4)多维数据模型;(5)维表和事实表,(6)MOLAP和ROLAP
4 本章教学难点:(1)多维数据模型;(2)用户兴趣建模;(2)数据仓库。
第二章:R语言与数据分析计算(6学时)
1 本章教学内容:(1)R语言简介与R安装 (1学时),(2) R对象、程序流程控制及程序编写(4学时),(3) R ggplot2包的应用(1学时)。
2 本章教学要求:通过本章课程的学习,要求学生了解R语言的优势,发展历史,以及特点,能够下载与正确安装Microsoft R Open,以及使用R做优化求解分析,理解R函数的基本构成与常用的R对象,掌握R语言的一般统计数据应用,读取外部数据源数据,掌握apply函数,能够编写中等难度的R函数。
3 本章教学重点:(1)R语言的函数与常用对象(向量、因子、矩阵、列表、数据框等),(2)R语言读取数据,(3)apply函数族,(4)R语言的一般统计数据应用,(5) ggplot2包的使用。
4 本章教学难点:(1)R语言的函数与常用对象。
第三章:数据的探索与预处理(8学时)
1 本章教学内容:(1) 数据的准确性检验,数据的抽取与数据的特征 (1学时);(2)数据可视化与案例分析(2学时);(3) 缺失值处理与案例分析(1学时);(4) 离群点的处理(1学时);(5) 正态、线性与方差齐性(1学时);(6) 数据的转化与编码(1学时);(7) 多重共线性与奇异性(1学时)。
2 本章教学要求:通过本章课程的学习,要求学生了解:数据的准确性检验,颜色映射与色彩空间,图表用色建议。 理解:数据对象,数据特征,不同图类型和应用场景,tableau字段类型,数据类型,详细级别和数据聚合,维度的聚合方式和度量的聚合方式,数据缺失模式与机制,缺失值的处理。掌握:数据整理与清理的基本步骤和常用方法,Tableau的使用,数据清理与整理的R操作。
3 本章教学重点:(1)数据缺失机制、模式及缺失值处理和相应R操作;(2)基于统计量的数据特征分析;(3)数据可视化及基于Tableau的数据可视化实现;(4)离群点的检测与处理;(5)数据的转化、正态性和方差齐性检验方法。
4 本章教学难点:(1)数据缺失机制;(2)Tableau的LOD应用。
思政内容
本章在数据可视化讲授内容中设置了十九大报告词云图,基于大数据技术的城市多部门联动智慧治理平台保护人民生命财产安全等增强学生的爱党爱国情怀。
第四章:ANOVA与回归模型 (6学时)
1 本章教学内容:(1)基本原理与概念 (0.5学时);(2) 单因素与双因素方差分析(1学时);(3)线性回归模型与R实例(2学时);(4) 二值因变量回归模型与R实例(1学时);(5)非线性回归模型(1.5学时)。
2 本章教学要求:通过本章课程的学习,要求学生了解:过度拟合与欠拟合,模型的偏差与方差,二值因变量模型极大似然估计,效用理论和指标模型,多元自适应回归MARS,多元自适应回归样条MARS,广义加性/相加模型GAM,Regression trees回归树,Support Vector Regression支持向量回归;理解:方差分析与线性回归的基本原理与概念,高斯-马尔可夫定理,经典线性回归模型的基本假设,能够对违背基本假设的情景选择合适的处理方法,最小二乘估计,多项式回归,特征选择,回归子集选择,线性回归的正则化,逐步回归,交叉验证方法,非线性模型;掌握:单因素和多因素方差分析,线性回归模型系数显著性检验与评价,岭回归,Lasso回归,弹性网回归,probit模型和logit模型,二值因变量模型拟合优度指标,以及R操作。
3 本章教学重点:(1)多因素方差分析,(2)多元线性回归模型,(3)线性回归模型过拟合问题,(4)线性回归模型的共线性和异方差问题(5)逻辑回归模型 (6)交叉验证
4 本章教学难点:(1)ANOVA交互作用,(2)二值因变量回归模型,(3)多元自适应回归MARS,多元自适应回归样条MARS,广义加性/相加模型GAM,Regression trees回归树,Support Vector Regression支持向量回归
第五章:关联规则挖掘(2学时)
1 本章教学内容:(1)关联规则与Apriori算法 (1学时);(2) 基于R语言的商品零售购物篮分析实例(1学时);
2 本章教学要求:通过本章课程的学习,要求学生了解关联规则进行推荐的基本思想,理解与掌握关联规则基本概念,理解关联规则挖掘的基本步骤,理解频繁项集产生和Apriori算法,熟悉使用Apriori算法构建商品购物篮关联规则模型的流程以及基于R Apriori包进行购物篮分析。
3 本章教学重点:(1)关联规则,(2)频繁项集,(3)Apriori算法和序列挖掘算法,(4)基于R的购物篮分析实操
4 本章教学难点:(1)支持度、置信度与提升度之间的联系;(2)R Apriori包的使用。
第六章:主成分分析与因子分析(2学时)
1 本章教学内容:(1)主成分分析基本原理与R实现 (1学时),(2)因子分析的基本原理与R实现(1学时)。
2 本章教学要求:通过本章课程的学习,要求学生理解主成分分析、探索性因子分析和验证性因子分析的基本原理,掌握如何使用R软件进行相应的分析和对结果的解读与理解。
3 本章教学重点:(1)主成分分析的基本原理,(2)因子分析的基本原理,(3)基于R的因子分析与主成分分析实现。
4本章教学难点:(1)主成分分析与因子分析的异同
第七章:分类与聚类算法(4学时)
1 本章教学内容:(1)聚类分析的原理与主要算法 (1学时);(2)分类算法定义与主要分类算法(2学时);(3)聚类分析和分类分析的R案例实现(1学时)。
2 本章教学要求:分类是经管类研究生在实证研究中经常需要处理的问题。通过本章课程的学习,要求学生了解两步聚类,理解聚类和分类算法的基本原理与常用的聚类与分类分析算法,掌握如何使用软件进行相应的分析和对结果的解读与理解。
3 本章教学重点:(1)数据相似性测量;(2)k-means聚类、层次聚类以及密度聚类分析原理与R实现;(3)分类算法(朴素贝叶斯分类器,最近邻分类器,决策树分类器,神经网络分类器,SVM分类器,和贝叶斯判别);(4)组合分类器(随机森林和梯度提升机)。
4 本章教学难点:(1)基于R的各类算法交叉验证的实现。
二、教学方式
课堂教学+学生实践(上课需自带便携式计算机)。
三、考核方式与成绩评定
四次平时的个人与小组课业+期末闭卷考试。成绩构成:50%的平时课业+50%的期末案例分析。平时课业教师将提供案例所用的数据,要求学生使用本课程的方法与技术,使用R软件进行分析得出结果。期末闭卷考试主要考察对理论知识的理解和掌握程度。
四、教材及主要参考书目
教材:
[1] Robert I. Kabacoff. R in action: Data analysis and graphics with R. 2nd ed. [M]. Manning Publications, 2015.
参考书目:
[1] Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani.An Introduction to Statistical Learning with Applications in R (2nd) [M]. Springer, 2020.
[2] Wolfgang Karl Hardle, Léopold Simar. Applied Multivariate Statistical Analysis 4th ed.[M]. Springer, 2015.
五、在线慕课资源
R语言数据分析与挖掘 https://www.icourse163.org/course/CUFE-1463189161?from=searchPage
应用统计与R语言 https://www.icourse163.org/course/NJU-1463195163?from=searchPage
大数据中的R语言编程 https://www.icourse163.org/course/QDU-1206499802?from=searchPage
多元统计分析与R语言建模 https://www.icourse163.org/course/JNU-1002335007?from=searchPage

