《机器学习(第2版)》第1~6章 考前速记

按"高频考点"整理,覆盖定义、分类、公式、算法步骤与对比,适合考前快速过一遍。


第1章 机器学习基础

1.1 机器学习的定义与核心要素

1.2 机器学习五大学派(高频)

学派 来源 核心方法/代表
符号主义 逻辑学、哲学 符号表示知识 + 规则推理;专家系统、知识工程
贝叶斯分类 概率论(贝叶斯定理) 条件概率分类;情感分类、垃圾邮件过滤
联结主义 神经科学 神经网络;BP算法
进化计算 达尔文进化论 遗传算法、进化策略;基因编码+种群+交叉变异
行为主义 心理学(行为主义理论) 强化学习;环境反馈→策略优化

1.3 机器学习、人工智能、数据挖掘的关系

1.4 数据挖掘五大常见任务

  1. 异常检测:识别不符合预期模式的样本(又叫离群值、偏差、例外),用于入侵检测、欺诈检测、疾病检测。
  2. 关联规则学习:发现变量间的强规则(如购物篮分析 {面包,牛奶}→{酸奶})。
  3. 聚类:探索性分析,按相似性分簇。
  4. 分类:根据已知特征判断新样本类别。
  5. 回归:研究自变量与因变量关系,找误差最小的拟合函数。

1.5 机器学习三大学习方式

类型 特点 常见算法
有监督学习 从有标记数据学习模型 分类:逻辑回归、决策树、KNN、随机森林、SVM、朴素贝叶斯;数值预测:线性回归、KNN、GBDT、AdaBoost
无监督学习 输入样本无标记,自动学习特征 聚类、关联分析;神经网络中的SOM、ART
强化学习 观察动作-环境反馈学习策略 源于行为主义,目标最大化预期利益

"没有免费的午餐"原则:不存在在任何情况下都表现最优的算法,需用多种方法训练比较后选择最优。

1.6 五大分类算法概览(第3、6、7、8章详述)

1.7 聚类算法五大类概览(第4章详述)

类型 思想 代表算法
基于划分 距离划分为k个簇,迭代至中心收敛 k-均值、k-medoids、k-prototype
基于密度 密度大于阈值则合并为簇,可过滤噪声,簇可任意形状 DBSCAN、OPTICS
基于层次 自底向上聚合或自顶向下分裂,B+树思想 BIRCH、CURE
基于网格 划分网格单元后聚类,与样本量无关 STING、CLIQUE
基于模型 假设数据满足某分布模型 GMM(统计)、SOM(神经网络)

1.8 关联分析三大算法

1.9 回归分析五种类型

类型 特点
线性回归 自变量连续,直线建模;对异常值敏感;多重共线性/自相关/异方差影响大;常用逐步回归(前进法/后退法)选变量
逻辑回归 输出概率值,Sigmoid映射到[0,1],用于分类
多项式回归 拟合曲线关系,易过拟合
岭回归 在最小二乘基础上加L2惩罚,舍弃无偏性换稳健性,适合共线性数据
LASSO回归 加L1惩罚,同时做变量筛选与复杂度调整,擅长多重共线性/含噪数据

1.10 深度学习模型速览

1.11 机器学习流程七步(高频简答)

  1. 明确目标任务——定性问题用分类,定量问题用回归;细分用聚类,找关联用关联分析。
  2. 收集数据——数据要有代表性、覆盖性,注意样本不平衡、数据量级评估。
  3. 数据预处理——归一化、离散化、缺失值处理、去共线性;数据探索发现噪声/分布问题。
  4. 数据建模——特征选择(相关系数、卡方检验、互信息、条件熵),划分训练集/测试集/验证集。
  5. 模型训练——调超参数,要求对算法原理理解深入。
  6. 模型评估——测试集评估泛化能力;过拟合→正则化/增加数据/降低复杂度;欠拟合→增加特征/提高复杂度;常用交叉验证、学习曲线。
  7. 模型应用——工程结果导向,关注准确度、时间复杂度、空间复杂度、稳定性。

第2章 机器学习基本方法

2.1 统计分析基础概念

2.2 损失函数与风险函数(高频)

损失函数 公式要点
0-1损失 预测错=1,预测对=0;不考虑误差程度
平方损失 (y-f(x))²,非负、放大差值
绝对损失 |y-f(x)|
对数损失 -log₂p(y|x),基于最大似然思想

2.3 正则化与交叉验证(高频)

交叉验证四种方式对比

方法 做法 特点
Holdout检验 随机分训练/测试两部分 简单,严格意义上不算交叉验证
简单交叉验证 随机分两部分,多条件训练选误差最小模型
k折交叉验证 分k份,k-1份训练、1份测试,重复k次取平均 k越大偏误越小但计算量越大,常取k=10
留一交叉验证 k=N(样本数),每次留1个测试 结果可靠但计算成本极高

2.4 常见概率分布

分布 要点
均匀分布 概率等距分布,连续/离散两种
正态分布N(μ,σ²) 集中性、对称性、变动性;μ决定中心,σ决定陡峭程度
t分布 小样本、方差未知时估计均值;自由度越大越接近正态;改进了Z检验
卡方分布χ² k个独立标准正态变量平方和;用于拟合优度检验、独立性检验
F分布 非对称、两个自由度,用于似然比检验
二项分布 n次伯努利试验成功次数;n=1时为0-1分布
0-1分布 单次试验,发生概率p、不发生1-p
泊松分布 单位时间内随机事件发生次数(如服务器请求数)

2.5 参数估计三方法对比(高频)

方法 思想
最大似然估计(MLE) 找θ使p(X|θ)最大,不依赖先验知识,点估计,小样本不准确
贝叶斯估计 结合先验p(θ)与观测数据,求后验分布p(θ|X)
最大后验估计(MAP) 求使p(θ|X)最大的θ,等价于max{p(X|θ)p(θ)},比贝叶斯估计计算量小

先验概率p(θ)确定→用MAP或贝叶斯估计;无先验信心→用MLE。

2.6 假设检验

2.7 线性回归评价指标(高频公式)

2.8 正则化回归对比(高频)

回归 损失函数惩罚项 退化关系
岭回归 λΣθⱼ² (L2)
LASSO回归 λΣ|θⱼ| (L1)
弹性网络 λ₁Σθⱼ² + λ₂Σ|θⱼ| λ₂=0→岭回归;λ₁=0→LASSO

非线性回归常见变量变换:y=x/(ax+b) → 令y₁=1/y, x₁=1/x 得 y₁=a+bx₁;y=axᵇ → 取对数 lny=lna+blnx。

2.9 逻辑回归(高频)

2.10 判别分析:LDA vs QDA(高频对比)

对比项 LDA QDA
协方差矩阵假设 各类共用同一协方差矩阵 各类协方差矩阵不同
边界 线性边界 二次(非线性)边界
适用场景 协方差矩阵难估计准确(样本少);方差低 样本量大或类间协方差差异大;相对误差更低

LDA降维步骤:①计算各类样本均值向量;②计算类内散度矩阵Sw和类间散度矩阵Sb;③求Sw⁻¹Sb的特征值/特征向量;④按特征值排序选前k个构成投影矩阵U;⑤Y=XU得到新空间样本。

2.11 降维方法对比(高频)

方法 类型 要点
PCA 线性、无监督 求协方差矩阵特征值/特征向量,取最大k个对应方向投影;步骤:去均值→求协方差矩阵C=(1/m)XXᵀ→特征值分解→取前k个特征向量→Y=PX
SVD 线性 A=USVᵀ,解决PCA在数据量大时协方差矩阵求解低效问题
LDA 线性、有监督 见2.10
LLE(局部线性嵌入) 非线性流形 假设数据是高维空间中嵌入的低维流形;步骤:①找k近邻②计算局部重建权重矩阵③由权重和近邻算输出值;不适用于封闭球面数据
拉普拉斯特征映射(LE) 非线性、基于图 相似点在降维后空间也接近;步骤:①KNN构无向图②构权重矩阵③求Ly=λDy的最小m个非零特征值对应特征向量

2.12 特征工程三部分

2.13 模型训练常见术语


第3章 决策树与分类算法

3.1 决策树基本结构

决策树由决策节点(属性测试)、分支(划分输出)、叶节点(类别)组成;从根节点自顶向下,每个决策节点划分一次,最终落到叶节点完成分类。一般用贪心算法逐节点构建局部最优树。

3.2 四大决策树算法对比(最高频考点)

算法 分支属性度量 树结构 特点
ID3 信息增益 Gain(S,A) 多路划分 偏向选择取值多的属性;只能处理离散属性;信息增益越大说明该属性划分后纯度提升越多
C4.5 信息增益率 Gain_ratio(A)=Gain(A)/分裂信息 多路划分 改进ID3偏向多值属性问题;内置连续属性离散化
C5.0 信息增益率改进+Boosting 比C4.5构建更快、树更小;可设权重/错分成本;用提升法组合多棵树
CART Gini指数 二叉树(二分递归分割) Gini(S)=1-Σpᵢ²;标称属性有q个取值时有2^(q-1)-1种二元划分方式

关键公式

3.3 连续属性离散化

3.4 过拟合与剪枝(高频)

3.5 分类性能评价指标(极高频)

混淆矩阵四类:TP(真正类)、FN(假反类)、FP(假正类)、TN(真反类)

指标 公式 含义
准确率Accuracy (TP+TN)/(TP+FN+FP+TN) 整体正确率
精确率Precision TP/(TP+FP) 预测为正中实际为正的比例
召回率Recall TP/(TP+FN) 实际为正中被正确预测的比例(查全率)
F值/F1 F1=2·Precision·Recall/(Precision+Recall) 精确率与召回率的调和平均

3.6 模型评价方法对比

方法 做法 特点
保留法(Holdout) 按比例(如7:3)分训练/检验集 简单但样本不够大时效果差
蒙特卡洛交叉验证 多次随机划分训练/检验取平均 也叫重复随机二次采样验证;样本可能重复或未被抽到
k折交叉验证 分k份轮流做检验集 每个样本恰好作检验1次;常用10折
留一法 k=N,每次留1个测试 彻底交叉验证;方差高、计算量大
留p法 每次留p个测试,C(n,p)种划分 覆盖最全但计算复杂度极高
自助法(Bootstrap) 有放回抽样构建训练集,未抽到的做检验集 对小数据集效果好

3.7 集成学习五大算法(极高频)

算法 核心思想
装袋法(Bagging) 又称引导聚集(Bootstrap Aggregating);多次有放回采样得m个训练集,各训练一个模型,分类取多数投票/回归取平均;降低方差,不易过拟合
提升法(Boosting/AdaBoost) 同一训练集但样本带权重,T轮迭代:分错样本权重增加、分对样本权重降低;最终模型按各弱分类器权重αⱼ加权投票:H(x)=sign(Σαⱼhⱼ(x));αⱼ=½ln((1-εⱼ)/εⱼ)
GBDT 梯度提升决策树;用损失函数的负梯度近似残差,每棵树拟合前面所有树的残差;回归树节点取该节点样本均值
XGBoost GBDT优化版:损失函数加正则项Ω(f)=γT+½λΣwⱼ²(T=叶节点数,w=叶节点权重);用泰勒二阶展开近似目标函数;贪心搜索最优分裂点;可处理缺失值(自动选择默认分支)
随机森林 Bagging的扩展,专为决策树设计;每次从所有M个属性中随机选F个候选属性再选最优分支属性(F常取小于log₂(M+1)的最大整数);F=1→纯随机;F=M→退化为Bagging

Bagging vs Boosting:Bagging并行训练、降方差;Boosting串行训练、调权重、降偏差。 极限随机森林(Extra Trees):在随机森林基础上,候选特征的分裂阈值也随机生成,方差更小,效果通常优于随机森林。


第4章 聚类分析

4.1 聚类算法五大类与良好聚类特征

4.2 聚类评价指标(高频)

外部指标(基于4种关系SS/SD/DS/DD,a/b/c/d为对应数目,a+b+c+d=Cₙ²):

指标 公式
Rand统计量 R=(a+d)/(a+b+c+d)
F值/F-Score P=a/(a+b), R=a/(a+c), F=(β²+1)PR/(β²P+R)
杰卡德系数 J=a/(a+b+c)
FM指数 FM=√[(a/(a+b))·(a/(a+c))]

以上4个指标值越大,聚类结果与参考模型越吻合,越好。

内部指标

指标 含义 越大/越小越好
紧密度CP 簇内样本到聚类中心的平均距离 越小越好(簇内相似度高)
分隔度SP 各簇中心两两间平均距离 越大说明簇间相似度低
戴维斯-堡丁指数DBI 簇内距离之和与簇间距离之比的最大值 越小越好
邓恩指数DVI 簇间最短距离 / 簇内最大距离 越大越好

4.3 距离度量公式(高频)

距离 公式(m维样本xᵢ,xⱼ) 备注
欧氏距离 √Σ(xᵢₖ-xⱼₖ)² 最常用
曼哈顿距离 Σ|xᵢₖ-xⱼₖ| 城市街区距离
切比雪夫距离 max|xᵢₖ-xⱼₖ| 国际象棋国王步数
闵可夫斯基距离 (Σ|xᵢₖ-xⱼₖ|ᵗ)^(1/t) t=1→曼哈顿;t=2→欧氏;t→∞→切比雪夫

4.4 基于划分的聚类(极高频)

k-均值算法步骤:①随机选k个初始质心;②每个样本归入最近质心的簇;③重新计算各簇质心;④重复②③直到划分不再变化(J(c,μ)=Σ‖x⁽ⁱ⁾-c⁽ⁱ⁾‖²最小,即SSE最小,贪心求解)。

k-medoids:用真实样本点(非均值)作中心代表簇,对噪声更稳健但速度慢,不适合大数据。典型实现:PAM(围绕中心点划分)。

k-prototype:综合k-均值+k-众数,引入权重γ处理数值+分类混合型数据;数值属性按均值计算中心,分类属性按频率最大值计算中心。

4.5 基于密度的聚类(高频)

DBSCAN核心概念

OPTICS:改进DBSCAN对参数敏感的问题,生成"增广簇排序"(线性表),可从排序中得到任意(ε,MinPts)下DBSCAN的结果;引入核心距离(使o成为核心对象的最小ε)和可达距离(max{核心距离(o), dist(o,q)});运行效率低于DBSCAN。

4.6 基于层次的聚类(高频)

BIRCH(利用层次方法的平衡迭代归约和聚类)

CURE(使用代表点聚类)

4.7 基于网格的聚类

4.8 基于模型的聚类:GMM + EM算法(高频)

4.9 模糊聚类与SOM


第5章 文本分析

5.1 文本分析流程

文本获取 → 分词 → 文本特征提取与表示 → 特征选择 → 知识提取/信息挖掘 → 具体应用。

5.2 文本特征提取四方法(极高频)

方法 核心公式/思想
TF-IDF tf(w,d)=count(w,d)/size(d);idf=log₂[n/docs(w,D)];TF-IDF=tf×idf。词在本文档高频且在语料库中低频→区分能力强
信息增益 引入特征前后信息熵之差,衡量特征带来的信息量;H(x)=-Σpᵢlog₂pᵢ
互信息MI MI(t,Cᵢ)=p(t,Cᵢ)log₂[p(t,Cᵢ)/(p(t)p(Cᵢ))];点互信息PMI(x,y)=log₂[p(x,y)/(p(x)p(y))],用于词语相关性/情感分析/语言通顺度判断
卡方统计量χ² χ²=Σ(xᵢ-E)²/E;原假设"特征词t与类别c不相关",χ²越大越相关;缺点:"低频词缺陷",常与词频结合使用

卡方与互信息主要用于有监督文本分类;无监督文本分类一般用TF-IDF。

5.3 词嵌入与语言模型

5.4 向量空间模型VSM(高频)

5.5 知识图谱(高频)

基本概念

存储方式对比

方式 特点
三元组表 简单易懂,但表庞大、查询效率低,大型系统少用
类型表 按类型分表(学生表/课程表),结构清晰但冗余多、空字段多
图结构(如Neo4j) 实体为节点、关系为边,符合现实逻辑,支持图查询;Neo4j优点是图查询语言完善,缺点是分布式存储代价高

知识图谱挖掘算法

知识图谱构建三阶段:①信息抽取(命名实体识别、关系抽取、属性抽取);②知识融合(实体链接、知识合并,统一为XML/RDF/OWL);③知识加工(评估后入库)。

5.6 词法分析

中文分词三方法

方法 代表 特点
基于词典 正向最大匹配MM、反向最大匹配RMM 简单高效,但无法识别"词中词"、依赖词典质量,maxLen难估计
基于统计 HMM、N-gram 全切分+统计模型选最优;可发现新词,是目前主流;时空复杂度高
基于规则 依赖语言学规则,仍处实验阶段

英文分词"3S步骤":拆分单词(Split)→ 去除停用词(Stop Word)→ 提取词干(Stemming,如Porter Stemming)。

命名实体识别(NER):主流基于统计——ME、SVM、HMM、CRF;HMM速度快适合实时场景,CRF引入上下文信息识别未知词;中英文通用NER的F1值可达90%以上。

**词义消歧(WSD)**三类方法:基于词典(覆盖度计算,依赖WordNet/HowNet,粒度粗)、有监督(词汇/句法/语义特征)、无监督和半监督(依赖大规模未标注语料+句法分析)。

5.7 句法分析与语义分析

5.8 文本分析五大应用

应用 要点
文本分类 基于规则(决策树)/基于机器学习(贝叶斯、SVM、ME)/基于神经网络(CNN保留词序提取特征、RNN/LSTM处理长距离依赖)
信息抽取 关系抽取输出三元组(实体A,关系,实体B);事件抽取含事件类型+元素
问答系统 流程:问题理解(事实型/交互型/枚举型分类)→文本信息抽取→知识推理;三类:检索式(如IBM Watson)、社区问答(UGC)、知识库问答("实体-关系-实体")
情感分析 基于词典(情感词+程度词+否定词,需窗口分析)、基于机器学习(LSA+SVM/CNN+Softmax,如SnowNLP)、概念级技术(知识本体+语义网络)
自动摘要 抽取式(主流,按权重选句子组合)、抽象式(理解语义生成,少用)、生成式(seq2seq+注意力机制等)

第6章 神经网络

6.1 神经网络三大分类

类型 特点 代表
前馈神经网络 信号单向传递,BP算法反向传播误差调权重 感知机、BP神经网络、RBF网络
反馈神经网络 内部神经元间有反馈,可用无向完全图表示 Hopfield网络、BAM、Elman网络
自组织神经网络 无监督竞争学习,自动产生不同响应 SOM/Kohonen网络(详见4.9节)

6.2 感知机与BP神经网络(极高频)

6.3 RBF网络

6.4 反馈神经网络:Hopfield/BAM/Elman

6.5 激活函数对比(高频)

函数 值域 主要优点 主要缺点
Sigmoid (0,1) 可表示概率,导数易计算 两端梯度消失,值域不对称
Tanh (-1,1) 零中心、可微、反对称 仍有梯度消失
ReLU [0,+∞) 收敛快、计算简单、无梯度消失 x<0时输出0,可能"死亡神经元";需设较小学习率
Leaky ReLU (-∞,+∞) 解决死亡神经元(负区给小斜率γ≈0.01) 效果不稳定
PReLU γ通过训练学习得到
ELU 负值区软饱和,激活均值接近0,抗噪 计算稍复杂
Softmax (0,1),和为1 多分类输出概率分布 仅用于输出层
Maxout 拟合任意凸函数,无梯度消失 参数量k倍增加,计算慢

激活函数性质:非线性、可微性(影响反向传播)、单调性(影响收敛)、f(x)≈x(小值时训练更快更稳定)、输出有界性、计算简单性、归一化。

选择建议:二分类输出层用Sigmoid;隐层通用ReLU(注意学习率,出现死亡神经元可换Leaky ReLU/PReLU/RReLU/Maxout);尽量避免Sigmoid,Tanh效果通常不如ReLU/Maxout。

6.6 损失函数对比(高频)

损失函数 公式/要点 适用场景
交叉熵(Softmax形式) L=-Σyₙln ŷₙ 多分类,常与Softmax结合避免数值不稳定
交叉熵(Sigmoid形式) L=-(1/N)Σ[yₙlogŷₙ+(1-yₙ)log(1-ŷₙ)] 二分类;结合Sigmoid求导可消去Sigmoid导数项,缓解学习缓慢;缺点是可能梯度爆炸
MAE(平均绝对误差/L1损失) (1/n)Σ|ŷᵢ-yᵢ| 假设误差服从拉普拉斯分布;对离群点不敏感
MSE(均方误差/L2损失) (1/2n)Σ(ŷᵢ-yᵢ)² 假设误差服从正态分布;用于线性回归;对离群点敏感、收敛更快
Huber损失 |y-ŷ|≤δ时为平方项,否则为线性项 MAE与MSE折中,δ→0近似MAE,δ→∞近似MSE

6.7 学习率与优化算法(高频)

自适应优化算法对比

算法 核心思想
AdaGrad 按参数历史梯度平方和调整学习率,更新频率低的参数步长大;缺点:分母累加趋于0导致训练提前结束
AdaDelta 改进AdaGrad,用滑动平均E[g²]代替累加和,避免学习率过早趋0
Momentum(动量法) vₜ=γvₜ₋₁+η∇J(θ),θₜ=θₜ₋₁-vₜ;模拟惯性,加速一致方向、抑制振荡
RMSProp 辛顿提出,对AdaGrad改进,引入衰减系数β(常取0.9)做移动平均
Adam 结合一阶矩(动量)和二阶矩(RMSProp)估计,并做偏差修正;β₁常取0.9,β₂常取0.999;适合稀疏梯度和非稳态问题

梯度下降三种训练方式对比

方式 每次用样本数 特点
BGD(批量梯度下降) 全部n个 方向正确但慢、内存消耗大
SGD(随机梯度下降) 1个 快但波动大,可能跳出局部极小
MBGD(小批量梯度下降) K个(1<K<n) 折中方案,常用,Batch Size常50~256

6.8 过拟合与正则化(高频)

方法 要点
L1/L2参数范数惩罚 L1产生稀疏解,L2产生较小解;J(w)=J₀(w)+λ·(范数项)
数据增强 增加/平衡样本,如图像平移、缩放、翻转
提前终止 验证集准确率下降时停止训练
权重衰减 wₜ₊₁=(1-λ)wₜ-ηgₜ;标准SGD下与L2正则化效果相近
Bagging等集成 训练多个模型表决结果(模型平均)
Dropout 按概率p保留神经元(伯努利分布),训练时随机丢弃部分神经元,相当于多模型集成;前向传播激活值需除以p放大
批标准化(BN) 解决**内部协方差偏移(ICS)**问题;对每层输入按批次归一化为均值0方差1的分布,再引入可学习参数γ、β恢复表达能力;提升训练速度、加快收敛、可用更大学习率;batch size过小则统计量不准确

6.9 数据预处理

6.10 权重初始化方法(高频)

方法 适用场景 要点
高斯初始化 通用 固定均值(如0)和方差(如0.01)的高斯分布
Xavier初始化 Tanh激活 Var(Wⁱ)=2/(nᵢ+nᵢ₊₁),保持多层后输出分布良好
He初始化 ReLU/Leaky ReLU激活 W~N(0, 2/n̂ᵢ),n̂ᵢ=hᵢ×widᵢ×dᵢ(卷积层高×宽×核数)

同层权重初始化为相同常数或全0 → 网络无法正常训练(梯度恒为0)。

6.11 训练中常见问题(高频)

6.12 网络模型效果评价


速查:跨章节高频对比清单