Classifier-free Guidance

2025年9月15日

15:26

初次接触扩散模型时，我们通常首先学习前向过程（从图像到噪声）和后向过程（从噪声到图像）。前向过程的图像通常是由噪声生成的，无需任何特定条件。然而，我们常常希望控制生成的图像，例如只生成狗或猫。

在这种情况下，我们需要引入条件控制 text condition y，这需要理解分类器引导和无分类器引导。

Classifier Guidance

从score function的角度，未引入条件控制之前，我们需要学习每一步的score function，，引入条件控制之后，score function变成了

利用贝叶斯公式，可以分为两项，

上面的score funtion是推理时的score function的公式，由两项组成，一个是原始的score funtion ，第二项是，这一项即classifier对输入x的梯度（而不是对classifier 参数的梯度）

similar to how gradient back-propagation is done during classifier model training, we calculate the gradient. The difference is that, while training a classifier model requires obtaining gradients of the weight parameters for updating via gradient descent, here we only need to retain the gradient with respect to the ‘input’.

此外，还可以通过引入超参数控制classifier guaidance的强度

Classifier Guidance 的核心是：通过一个额外训练的分类器，将 “类别信息” 注入扩散模型的去噪过程。具体来说，它利用贝叶斯公式将 “有条件 score”（给定类别y时的去噪梯度）分解为 “无条件 score”（无类别约束的去噪梯度）和 “分类器梯度”（类别对噪声样本的判别梯度）的组合，从而在推理时实现类别引导。

训练阶段的 score function

Classifier Guidance 的训练过程涉及两个独立的模型：

扩散模型（去噪网络）：仅训练其拟合无条件 score，即，扩散模型的训练目标与普通扩散模型一致（仅拟合去噪所需的无条件梯度）。
分类器（Classifier）：单独训练一个分类器，目标是拟合类别后验概率(p(y|x_t))。分类器的输入是噪声样本x_t和时间步t，输出是类别y的对数概率。训练目标通常是交叉熵损失（在带噪样本上预测真实类别y）。