英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC
1 月 13 日

英伟达推出了名为Nemotron-CC的大型英文AI训练数据库,包含6.3万亿个Token,其中1.9万亿为合成数据。该数据库旨在解决现有公开数据库规模和质量的局限性,提供高质量数据以推动大语言模型训练。Nemotron-CC基于Common Crawl网站数据构建,经过严格处理后提取高质量子集Nemotron-CC-HQ。与业界领先的DCLM相比,使用Nemotron-CC-HQ训练的模型在MMLU基准测试中分数提高了5.6分。英伟达已将Nemotron-CC公开,并将在GitHub公布相关文档。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。
二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟