ref: https://www.bilibili.com/video/BV1Gy4y1M7Cu 17:00 / 17:45
李沐 39 实战 Kaggle 比赛:图像分类(CIFAR-10)【动手学深度学习v2】QA
正则化Regularization
是一种在机器学习和深度学习中常用的技术,其主要目的是防止模型过拟合。过拟合是指模型在训练数据上表现很好,但在未见过的新数据上表现较差。正则化通过向模型的损失函数添加一个惩罚项来实现这一目的,这有助于限制模型的复杂度,从而提高模型的泛化能力。
常见的正则化方法包括L1正则化和L2正则化:
- L1 正则化(也称为Lasso正则化):
L1正则化通过向损失函数添加权重参数的绝对值之和来工作。这种方法可以导致模型中的一些权重参数变为零,从而产生一个稀疏模型。L1正则化的公式可以表示为:
$\[ L = L_0 + \lambda \sum_{i=1}^n |w_i| \]$
其中,$\(L_0\)$ 是原始的损失函数,$\(\lambda\)$ 是正则化强度,$\(w_i\)$ 是模型权重。
- L2 正则化(也称为Ridge正则化):
L2正则化通过添加权重参数的平方和来减小所有权重的值,这有助于处理“过拟合”问题。与L1正则化不同,L2正则化不会导致稀疏模型,因为它不会将权重直接设为零。L2正则化的公式如下:
$\[ L = L_0 + \lambda \sum_{i=1}^n w_i^2 \]$
在这里,$\(L_0\)、\(\lambda\)$ 和 $\(w_i\)$ 的含义与L1正则化中的相同。
这两种正则化方法各有优势:L1正则化可以通过产生稀疏权重矩阵来帮助进行特征选择,而L2正则化通常可以提供更好的泛化能力,因为它倾向于更平滑的权重调整。
在实际应用中,选择哪种正则化方法取决于具体问题的需求以及数据的特性。有时,研究人员也会同时使用L1和L2正则化,这种方法被称为Elastic Net正则化。