AMD 携手 IBM 和 Zyphra,历时 1 年多,成功使用 AMD 硬件训练出首个大型混合专家(MoE)基础模型 ZAYA1。该模型完全基于 AMD 硬件生态系统构建,训练在 IBM 云上进行,使用 AMD Instinct MI300X GPU 等。三方搭建了 128 个节点、共 1024 块 GPU 的训练集群,实际训练性能超 750 PFLOPs,Zyphra 开发了优化训练框架。ZAYA1 预训练用 14 万亿 tokens 数据,采用分阶段课程学习策略。基准测试显示其综合性能与 Qwen3 系列相当,优于 SmolLM3、Phi4 等。其优异性能得益于采用 CCA 注意力机制和改进线性路由两项关键创新。目前公布的是基础模型预览,未来将发布完整后训练版本并分享评测和经验。