当前位置：首页>深圳>西湖大学+港中文(深圳)最新研究:无需梯度,一招让AI画图更懂你,速度提升3.5倍!

西湖大学+港中文(深圳)最新研究:无需梯度,一招让AI画图更懂你,速度提升3.5倍!

2026-06-08 16:01:00

龙哥推荐理由：
继今年1月解读了阿里关于密集奖励对齐的DenseGRPO后，这次西湖大学&港中深带来的DrPO又玩出了新花样！它核心解决的是一个非常实际的问题：如何在不依赖奖励模型反向传播（即无需梯度）的情况下，高效地对单步文生图模型进行偏好对齐。这就像给模型请了一个不用付“过路费”的导师，直接通过样本间的“引力”和“斥力”来调整方向，省时省力效果还棒，尤其在处理巨型、不可微的奖励模型时优势巨大。科研价值和实用潜力都非常在线！

原论文信息如下：

论文标题:
Drifting Preference Optimization for One-Step Generative Models

发表日期:
2026年06月

发表单位:
西湖大学, 香港中文大学(深圳)

原文链接:
https://arxiv.org/pdf/2606.02535v1.pdf

项目链接:
https://ugvly.github.io/DrPO/

话说这两年，AI画图卷得飞起。从Midjourney到DALL·E，从Stable Diffusion到各种一步生成的Turbo模型，生成一张图的时间从几十秒压缩到了眨眼之间。特别是SD-Turbo、SDXL-Turbo这类单步生成模型（One-Step Generative Models），输入一个提示词，一次前向传播就直接出图，速度快到飞起，简直就是实时交互和边缘设备的福音。🤚

但是，速度快不代表效果好。这些一步生成模型虽然快，但生成的图片往往在审美偏好、构图细节、文本对齐等方面差点意思。于是，研究者们尝试用人类反馈（RLHF）或偏好优化来给模型“上上色”，让它更懂人类的喜好。然而，这里就出现了一个巨大的尴尬——标准的对齐方法，比如DPO、PPO，通常需要访问模型的策略概率、去噪轨迹，或者需要可微分的奖励函数来反向传播梯度。对于一步生成模型来说，这些东西要么算不了（没有明确的对数概率），要么算起来贵得要死（比如用一个大视觉语言模型当奖励模型，反向传播一次能让你等到花都谢了）。

可以这么说，一步生成模型的对齐问题，成了“爱恨纠葛”的中心：我们想要又快又好的图，但想要对齐偏好，就得牺牲速度或成本，两难全啊！

创新解法：无需梯度的“漂移”对齐术

西湖大学和香港中文大学（深圳）的研究者们最近提出了一种全新的方法——Drifting Preference Optimization（DrPO）。这名字不太好记，但它的思路极有创意：既然直接算奖励函数的梯度太贵或者不可能，那咱们就不算！咱们换一种方式——通过样本之间的“吸引力”和“排斥力”来隐式地模拟梯度。

DrPO的核心灵感源于漂移模型（Drifting Models）[Deng et al., 2026]。漂移模型是一种训练一步生成模型的非似然方法，它不需要显式的密度估计，而是通过在一个小批量样本中构造特征空间中的“漂移场”来指导模型更新。简单说，就是给每个生成样本算一个“移动方向”，让它朝着更好的样本“漂”过去，远离更差的样本。DrPO把这个思想从分布匹配（匹配真实数据分布）迁移到了偏好对齐（匹配人类偏好分布）。

具体是怎么做的呢？对于每个提示词（prompt），DrPO先从当前生成器中采样一批候选图像，然后用一个目标奖励模型（比如HPSv3、PickScore）对这些样本进行排序。接着，挑出得分高的样本作为“正样本”，得分低的作为“负样本”。再通过一个特征空间中的核函数（比如RBF函数），计算每个当前生成样本相对于这些正负样本的“偶极偏好场”（dipole preference field）。这个场会让生成的图像在特征空间中朝着高分样本拉近，远离低分样本。最关键的是，整个过程完全不需要对奖励模型求导，所以即使是超大模型或不可微的规则评分，都能轻松驾驭。

图1：DrPO概览。左图：微调网络时漂移场的构建。对于一个当前策略样本（黑色点），收集N个随机配对，奖励高的标记为正（红点），低的为负（蓝点）。结合p_θ和p_ref引起的自排斥与吸引力，合成最终回归目标z*（棕色点）。右图：固定测试提示在在线微调过程中的定性样本。

而且，DrPO还巧妙地引入了一个“参考漂移”项（reference drift），由一个冻结的基础生成器提供。这个参考漂移相当于一个正则化项，防止模型在优化偏好时偏离原始分布太远，保持了生成图片的多样性。

核心机制：偶极场+参考漂移，双剑合璧

下面深入拆解 DrPO 的两大核心组件。

偶极偏好场（Dipole Preference Field）

设当前生成器为 g_θ，输入噪声 ε 和条件 c，生成图像 x = g_θ(ε, c)，然后通过一个固定的特征提取器 φ 得到特征 z = φ(x)。在训练迭代中，我们为同一个条件生成 K 个候选样本 x₁...x_K。然后用目标奖励 R 对它们排序，抽取 M 个奖励-有序对（reward-ordered pairs），形成正样本集 A⁺ 和负样本集 A⁻。接着，定义偶极奖励函数：

R_dipole(z) = exp(γ Σⱼ [k(z, a_j⁺) - k(z, a_j⁻)])，其中 k 是一个特征空间的核函数（例如RBF），γ 是偶极强度。这个函数会对接近正样本的特征给予高值，对接近负样本的给予低值。对其求对数梯度，得到偏好场 V_pref：

偶极偏好场的梯度表达式，通过核函数加权吸引正样本、排斥负样本。

这个场是局部的：远离所有样本的点几乎不受影响。这正好阻止了模型在缺乏证据的区域瞎猜。

参考漂移（Reference Drift）

在经典RLHF中，我们有一个参考分布 q_ref 来防止模型走偏。DrPO 中用了一个冻结的基础生成器 g_ref（通常是训练前的原始模型）。我们从 g_ref 采样同样的噪声，得到参考特征集 R。然后类似地构造参考漂移 V_ref，使当前生成器的特征分布不至于跟参考分布差得太远。最终的目标漂移场为：

V_DrPO(z_i) = V_pref(z_i) + λ V_ref(z_i)，然后给每个当前特征加上一个比例系数 η，并停止梯度，得到回归目标 z_i^* = sg(z_i + η V_DrPO(z_i))。

损失函数就是简单的 L2 回归损失：

DrPO的最终损失函数：让模型特征逼近由漂移场引导的目标特征。

整个流程就像给每个样本配了一个“指南针”，指往更好方向，还配了一个“锚”，保证不跑太远。而且，这个指南针完全不依赖奖励模型的梯度，所以那些超大、不可微、或者需要大量计算的奖励模型（比如HPSv3、GenEval规则评分）都能直接用。

实验鉴真金：效果与效率的双重胜利

理论再漂亮，也得看实战。DrPO 在 SD-Turbo 和 SDXL-Turbo 两个一步生成模型上进行了测试，对比了多种方法，包括需要奖励梯度的 DRaFT、VGG-Flow1-step，以及不需要梯度的一步DPO、PSO、GRPO等。

首先看 SDXL-Turbo 的结果（表1）：

可以看到，DrPO 在不需要奖励梯度的情况下，在 Pick-a-Pic v2 测试集上将 PickScore（PS）从基线的 22.45 提升到了 23.66，Aesthetics（AES）从 6.059 提升到 6.717，ImageReward（IR）从 9.36 提升到 12.46。这个提升幅度在无梯度方法中是最高的，甚至接近了需要梯度的 DRaFT（24.45/6.712/12.70）。考虑到 DRaFT 需要对奖励模型反向传播，这个成绩相当亮眼。

再看 SD-Turbo 的结果（表2）：

同样，DrPO 在无梯度方法中领先，提升了 PickScore 从 21.88 到 23.49，AES 从 6.054 到 6.485，IR 从 5.75 到 9.54。

除了这些标量指标，论文还使用了 Qwen3-VL 作为外部 VLM 裁判，进行成对偏好评估。结果如图2所示，DrPO 生成的图像在两个测试集上都被 VLM 显著偏好（红色条表示 DrPO 偏好，蓝色条为对比方法偏好）：

图2：Qwen3-VL成对偏好评估。红色为DrPO偏好，蓝色为对比基线偏好。

更让人惊喜的是效率。当使用 HPSv3 这种大型 VLM 奖励模型时，DrPO 将每次更新的时间从基线（DRaFT）的 21.62 秒降低到了 6.17 秒，获得了 3.51 倍的加速！这是因为 DrPO 完全去掉了奖励模型的反向传播。

图5：HPSv3训练效率对比。DrPO去除奖励模型反向传播，加速3.51倍。

此外，DrPO 还能直接处理不可微的奖励，比如 GenEval 的组合性评分（对象存在、计数、颜色、位置等）。表3显示，在几乎所有子任务上，DrPO 都带来了提升。

图8：DrPO在GenEval提示上的生成样例。

稳与省：消融实验揭示的设计秘诀

DrPO 论文进行了大量的消融实验，揭示了各个设计选择的影响。

候选数量越多，效果越好

如表4(a)所示，当每批次候选数量 K 从16增加到32时，PickScore 和 AES 持续上升（PS从23.24到23.57，AES从6.409到6.599）。更大的候选池提供了更稳定的成对估计，使漂移场更可靠。

特征提取器至关重要

表4(b)显示，使用 latent-MAE 特征（来自漂移模型的预训练编码器）效果最好，而直接使用 VAE 的原始潜变量特征会导致严重退化（PS降到20.52，AES降到4.543）。这说明漂移场需要一个语义丰富且各向同性的特征空间。DINOv2 特征也有效，但略逊于 latent-MAE。

核函数与速度尺度不敏感

表4(c)和4(d)表明，不同核函数（余弦、RBF、指数、拉普拉斯）下性能稳定；速度尺度η在一定范围内（β=1000到10000）性能波动不大，说明方法对超参数不敏感，容易调。

参考漂移优于感知损失

表5对比了不使用参考、使用感知损失（LPIPS）和 DrPO 的参考漂移。参考漂移在 CLIP、HPSv2 等指标上表现更好，且能更好地平衡多样性和对齐度。

通过消融实验，可以确认 DrPO 的设计是目前最优组合：使用 latent-MAE 特征、RBF 核函数、适中的速度尺度，并启用参考漂移。

总结与展望：一步对齐的未来在“漂移”

DrPO 的出现，为一步生成模型的偏好对齐提供了一条新思路。它巧妙地将“漂移模型”的思想与偏好排序结合，完全避开了奖励模型的反向传播，极大地拓宽了可使用的奖励模型范围（包括那些超大、不可微的）。而且训练效率极高，做到了又快又好。

当然，它也有局限。目前的方法高度依赖特征提取器 φ 的质量。如果 φ 不能捕捉到我们真正关心的属性（比如精确的物体计数、复杂的空间关系、精细的字体识别等），那么漂移场可能会在特征空间里很平滑，但在实际偏好上错位。未来的工作可以尝试设计自适应的特征提取器，或者融合多个特征源来提升鲁棒性。

另外，论文初步探索了离线版本的 DrPO，即不再在每次迭代中在线采样和排序，而是利用固定的偏好对数据集来构造漂移场。初步结果显示这种方法也能提升性能，但空间还很大。如果离线 DrPO 能被充分开发，那么将极大降低训练成本，让高质量对齐变得更加普及。

龙迷三问

下面是龙哥对于大家可能的一些问题的解答：

DrPO 与 DPO 本质区别是什么？DPO 通过优化策略与参考策略之间的对数概率比来隐式地拟合偏好，它需要知道生成图片的概率（似然）。对于一步生成模型，这个概率难以计算，所以 DPO 的一步变种效果很差。DrPO 完全避开了概率，转而使用特征空间中的几何关系（吸引/排斥）来直接构造更新方向。顺带一提，DPO 的英文全称是 Direct Preference Optimization（直接偏好优化），DrPO 是 Drifting Preference Optimization（漂移偏好优化）。

“漂移模型”和“漂移偏好优化”是什么关系？漂移模型（Drifting Models）是 Deng et al. 2026 年提出的一种训练一步生成模型的方法，通过小批量样本构造特征空间的漂移场来实现分布匹配。DrPO 借用了这个框架，但是把目标从“匹配数据分布”改为了“匹配偏好分布”——即用奖励模型排序构造正负样本，形成偏好漂移场。所以 DrPO 可以看作是漂移模型在偏好对齐领域的应用和扩展。

DrPO 能不能用于多步扩散模型？论文专注于一步生成模型，但核心思想（在特征空间中构建偏好漂移场）原则上可以扩展到多步模型。不过多步模型有去噪轨迹，可能会有更高效的直接方法（比如 Diffusion-DPO）。DrPO 的真正优势在于“无需奖励梯度”，这在一步模型上体现最明显。如果要用于多步，可能需要调整参考漂移的构造方式。

如果你还有哪些想要了解的，欢迎在评论区留言或者讨论~