腾讯混元公布 SRPO 技术，解决大模型生图「过油」问题

2025 年 9 月 18 日

腾讯混元团队发布 SRPO（语义相对偏好优化）研究成果，提供文生图模型强化算法，解决开源文生图模型 Flux 皮肤质感「过油」问题，使人像真实感提升 3 倍。传统在线强化学习方法依赖预训练奖励模型，存在成本高、泛化性差等问题，SRPO 通过语义偏好实现奖励模型在线调整，添加控制提示词定向调整优化目标。针对语义引导存在的奖励破解风险，提出「语义相对偏好优化」策略及 Direct-Align 策略，降低重建误差，支持优化生成轨迹前半段。SRPO 训练效率高，10 分钟训练效果超 DanceGRPO，定量指标达 SOTA 水平，人类评估的真实度和美学优秀率提升超 3 倍，训练时间降低 75 倍。