英伟达推出了名为Nemotron-CC的大型英文AI训练数据库,包含6.3万亿个Token,其中1.9万亿为合成数据。该数据库旨在解决现有公开数据库规模和质量的局限性,提供高质量数据以推动大语言模型训练。Nemotron-CC基于Common Crawl网站数据构建,经过严格处理后提取高质量子集Nemotron-CC-HQ。与业界领先的DCLM相比,使用Nemotron-CC-HQ训练的模型在MMLU基准测试中分数提高了5.6分。英伟达已将Nemotron-CC公开,并将在GitHub公布相关文档。