机器学习(一)概述
基本概念
机器学习方法可以粗略地分为三个基本要素:模型、学习准则、优化算法
模型
线性模型:
非线性模型:
损失函数
0-1 损失函数
虽然 0-1 损失函数能够客观地评价模型的好坏,但其缺点是数学性质不是很好:不连续且导数为 0,难以优化.因此经常用连续可微的损失函数替代.
平方损失函数
交叉熵损失函数 一般用于分类问题,样本标签
并满足
我们可以用一个 𝐶 维的 one-hot 向量 𝒚 来表示样本标签
交叉熵参标签的真实分布 𝒚 和模型预测分布 𝑓(𝒙; 𝜃) 之间的交叉熵为
Hinge 损失函数
二分类问题
𝑦 的取值为
其中
风险最小化准则
实际上无法计算其期望风险 ℛ(𝜃),我们可以计算的是经验风险(Empirical Risk),即在训练集上的平均损失:
因此,一个切实可行的学习准则是找到一组参数
这就是经验风险最小化(Empirical Risk Minimization,ERM)准则.
结构风险最小化
为了解决过拟合问题,一般在经验风险最小化的基础上再引入参数的正则化(Regularization)来限制模型能力
其中
优化算法
参数与超参数
参数:模型
超参数:用来定义模型结构或优化策略的
常见的超参数包括:聚类算法中的类别个数、梯度下降法中的步长、正则化项的系数、神经网络的层数、支持向量机中的核函数等.超参数的选取一般都是组合优化问题,很难通过优化算法来自动学习.
因此,超参数优化是机器学习的一个经验性很强的技术,通常是按照人的经验设定,或者通过搜索的方法对一组 超参数组合进行不断试错调整.
梯度下降法
以构造一个凸函数作为优化目标,利用凸优化中一些高效、成熟的优化方法
提前停止
除了训练集和测试集之外,有时也会使用一个验证集来进行模型选择
在每次迭代时,把新得到的模型
如果在验证集上的错误率不再下降,就停止迭代
随机梯度下降法
在每次迭代时只采集一个样本,计算这个样本损失函数的梯度并更新参数
当经过足够次数的迭代时,随机梯度下降也可以收敛到局部最优解
小批量梯度下降法
第 𝑡 次迭代时,随机选取一个包含 𝐾 个样本的子集 𝒮𝑡,计算这个子集上每个样本损失函数的梯度并进行平均,然后再进行参数更新:
在实际应用中,小批量随机梯度下降法有收敛快、计算开销小的优点,因此逐渐成为大规模的机器学习中的主要优化算法 [Bottou, 2010].
最大似然估计(MLE)与深度学习应用
- 直觉理解 最大似然估计(Maximum Likelihood Estimation, MLE)的核心思想是:找到一组参数,使得数据在这个模型下出现的概率最大。
你可以把它想象成一个“最合适的解释”:
- 假设你是一个侦探,你看到了一些证据(数据)。
- 你有多个假设(不同的参数值)。
- 你的任务是找出最可能导致这些证据的那个假设(最大似然的参数)。
- 具体例子:抛硬币 假设你有一枚硬币,但你不确定它是公平的(即正反面概率是否都是 0.5)。你想估计它正面朝上的概率 ( )。
观察数据 你进行了 10 次实验,结果如下(1 表示正面,0 表示反面): 1, 0, 1, 1, 0, 1, 1, 0, 1, 0 在这个实验里,硬币正面朝上了 6 次,反面朝上了 4 次。
建立模型 我们假设每次投掷的结果 ( X ) 服从伯努利分布:
如果我们认为每次投掷是独立的(iid 假设),那么 10 次投掷的总概率(似然函数)就是:
- 求最大似然估计 我们要找一个 (
),使得这个似然函数最大:
通常,我们会取对数方便计算(因为对数函数是单调的,不影响最大值):
对 ( $$ ) 求导,令导数为 0:
解出:
所以,最大似然估计给出的最佳参数是 (
- MLE 在深度学习中的作用
在神经网络和深度学习中,我们通常训练模型来估计 (
) 的概率分布,其中:
- (
) 是输入(比如一张图片)。 - (
) 是标签(比如“猫”或“狗”)。 - (
) 是神经网络的参数(权重和偏置)。
训练的目标是找到最优的参数 (
- MLE 在分类问题中的应用
如果我们做一个手写数字识别(MNIST)任务,假设神经网络的输出是 10
个类别(数字 0 到 9),那么我们可以把每个类别的概率 (
) 视为一个多项分布,对应的似然函数是:
取对数后,最大化似然函数等价于最小化交叉熵损失:
这正是深度学习中常用的交叉熵损失函数(Cross-Entropy Loss)!
- MLE 在回归问题中的应用 如果我们做房价预测,假设房价 (
) 服从正态分布:
最大化似然函数等价于最小化均方误差(MSE):
这就是深度学习中最常见的回归损失函数。
- 总结
- 最大似然估计(MLE) 的目标是找到最合适的参数,使得数据在这个模型下的概率最大。
- 简单例子:抛硬币,MLE 估计正面概率就是“正面次数 / 总次数”。
- 在深度学习中:
- 分类问题(比如 MNIST):MLE 对应于交叉熵损失。
- 回归问题(比如房价预测):MLE 对应于均方误差(MSE)。
- Title: 机器学习(一)概述
- Author: Ryan Lu
- Created at : 2025-02-08 10:07:55
- Updated at : 2025-11-13 03:13:49
- Link: http://ryan-hub.site/ac9c92126db1/
- License: This work is licensed under CC BY-NC-SA 4.0.