Kimi Linear 架构核心是 Kimi Delta Attention(KDA)线性注意力模块,通过精细门控机制有效利用循环神经网络有限状态记忆。Kimi Linear 模型在任务上性能优异,效率实现巨大突破,与 full attention 模型相比,能减少 75% 的 Key-Value(KV)缓存使用量,处理百万级长下文时解码吞吐量提升 6 倍,可作为全注意力架构「即插即用」替代品,提升性能并增强效率。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验