腾讯混元公布 SRPO 技术,解决大模型生图「过油」问题
周四

腾讯混元团队发布 SRPO(语义相对偏好优化)研究成果,提供文生图模型强化算法,解决开源文生图模型 Flux 皮肤质感「过油」问题,使人像真实感提升 3 倍。传统在线强化学习方法依赖预训练奖励模型,存在成本高、泛化性差等问题,SRPO 通过语义偏好实现奖励模型在线调整,添加控制提示词定向调整优化目标。针对语义引导存在的奖励破解风险,提出「语义相对偏好优化」策略及 Direct-Align 策略,降低重建误差,支持优化生成轨迹前半段。SRPO 训练效率高,10 分钟训练效果超 DanceGRPO,定量指标达 SOTA 水平,人类评估的真实度和美学优秀率提升超 3 倍,训练时间降低 75 倍。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟