课程的主要内容从两条主线开展,一条围绕数据科学的体系:数据收集、数据预处理、数据存储、数据分析、数据挖掘、数据可视化、数据产品等;一条围绕着人工智能的诸多专题方向,简要包括:人工智能的宏观概念,数据分析基础,数据挖掘,机器学习,深度学习,神经网络,统计分析,前沿跟踪等。
Part I 人工智能概述
1.1 人工智能的前世今生
1.2 人工智能的机遇和挑战
Part II 数据科学ABC与数据挖掘
2.1人工智能时代下的数据科学之美
2.2 源数据分析与预处理
2.2.1数据类型概述
包括:数值型的数据(连续、离散,二值、三值,低维、高维等),非数值型的数据(图片、语音等),结构化数据,非结构化数据等。
2.2.2源数据的清洗、存储和管理
包括:数据清理、数据集成和变换、数据归约以及离散化和概念分层生成,数据的基本统计量梳理,数据去噪、分布、容错,低维数据分布检验和矫正,高维数据特征值与分布检验,结构化数据模型及数据库,非结构化数据模型及数据库管理,关系型数据库和非关系型数据库,数据类型间的转换和管理,数据离散化,概念分层等。
Part III 统计机器学习
3.1 基础导学统计学
包括:概率论、数理统计与参数估计基础:Taylor展式、牛顿法、梯度、指数族分布、共轭分布、统计量、切比雪夫不等式、大数定理、中心极限定理、参数估计方法;线性代数基础:向量、矩阵、方程、特征向量;凸优化:凸集、凸函数、凸优化、KKT条件;最小二乘法、梯度下降、稀疏、过拟合、Logistic回归。
3.2 有监督学习
包括:回归问题(Regression):给定数据集中每个样本的正确答案,运用到机器学习中,推出一个连续的输出,如线性回归(Linear Regression);分类问题(Classification):给定数据集中每个样本的正确答案,运用到机器学习中,推出一组离散的结果,如逻辑回归(Logistic Regression)。
3.3 贝叶斯决策理论
包括:Bayesian Decision Theory (excluding Belief Networks)基本理论和算法设计思想,经典算法分析。贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:(1)已知类条件概率密度参数表达式和先验概率;(2)利用贝叶斯公式转换成后验概率;(3)根据后验概率大小进行决策分类。
3.4 参数估计
包括:Parametric Model Estimation思想,经典算法分析。点估计和置信区间估计的基本概念;两种基本的点估计方法;有效估计和C-R下界;充分统计量。
要求理解参数估计解决问题的基本思想,掌握几种点估计方法的优缺点,掌握如何对常见点估计结果进行评价,掌握大样本极大似然估计的近似分步,以及置信区间估计的定义和常用求解方法,明确点估计与置信区间估计的主要区别,并能够运用参数估计方法解决实际问题。
3.5 降维算法
包括:常用降维方法:PCA、SVD、LDA(Linear Discriminant Analysis);降维的目的与意义。要求理解降维的一般方法,及其在机器学习应用中的使用目的和意义。重点掌握主成分分析方法。通过经典降维算法范例学习掌握数据降维法的一般方法和应用技巧,通过作业掌握主成分分析法的算法设计方法和基本设计技巧。
3.6 支持向量机与核方法
包括:支持向量机算法:最大边际,Lagrange对偶性,最小最大化方法;核方法:核函数方法原理、特点,常用核函数及核函数参数估计的常用方法。
要求理解支持向量机与核方法的基本设计思想及其与其他有监督学习算法的联系与区别。掌握几种基本的核函数实现方法,包括线性核、多项式核、径向基核和Sigmoid核。通过支持向量机算法求解分类问题和拟合问题加深对SVM算法设计思想的理解。通过作业掌握基于核函数的算法分析与设计方法和求解技巧。
Part IV 神经网络与深度学习
4.1 深度前馈神经网络
包括:感知机;前馈神经网络中前向计算与反向传播算法;反向传播算法分析;过度拟合与正则化;深度前馈神经网络的优化及扩展。要求理解反向传播算法的原理及深度神经网络在训练期间梯度消失等缺陷问题,掌握在反向传播算法中误差反向传播过程和正则化方法,了解深度前馈网络改进及优化方法。
4.2 卷积神经网络与循环递归神经网络
包括:卷积运算与池化;卷积神经网络;卷积神经网络应用;循环与递归神经网络;LSTM模型;循环与递归神经的应用。
要求理解卷积神经网络中的局部感受野及权值复用的思想和观点,掌握卷积神经网络及循环递归神经网络等技术,由此进一步掌握卷积神经网络在如机器视觉及自然语言处理中的一些典型应用方法,了解如限制玻尔兹曼机等其它深度网络技术。
4.3 自动编码器与生成对抗神经网络
包括:监督学习与无监督学习;自动编码器与深度自动编码器;自动编码器应用;生成对抗神经网络;生成对抗神经网络应用。
Part V 前沿跟踪
5.1 自然语言处理
5.2 机器视觉
5.3 量子机器学习
5.3.1 量子力学基础
包括:量子力学基本回顾,态叠加原理、量子力学中的算符、密度矩阵;复合体系,直积态和纠缠态、约化密度矩阵;量子测量及相关问题,量子测量基础、广义测量和POVM测量、测量导致的退相干。
5.3.2 量子机器学习
包括:量子 K-means 算法,算法的基本思路和算法的核心流程思想;量子支持向量机,算法的核心思路;量子神经网络,发展历程、算法的核心思路;量子主成分分析算法(Quantum principal component analysis,QPCA);量子版本的玻尔兹曼机(restricted Boltzmann machine,RBM);HHL 量子代数方法,线性方程组求解问题的计算机处理方案,量子版本下HHL解决问题的方案及优点;量子隐马尔科夫过程。
5.4 增强学习
5.5 对抗生成网络
5.6 区块链与应用
Part VI 经典案例分析与实战