英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

2025 年 1 月 13 日

英伟达推出了名为 Nemotron-CC 的大型英文 AI 训练数据库，包含 6.3 万亿个 Token，其中 1.9 万亿为合成数据。该数据库旨在解决现有公开数据库规模和质量的局限性，提供高质量数据以推动大语言模型训练。Nemotron-CC 基于 Common Crawl 网站数据构建，经过严格处理后提取高质量子集 Nemotron-CC-HQ。与业界领先的 DCLM 相比，使用 Nemotron-CC-HQ 训练的模型在 MMLU 基准测试中分数提高了 5.6 分。英伟达已将 Nemotron-CC 公开，并将在 GitHub 公布相关文档。