智源研究院发布大型开源文本数据集CCI 4.0,包含中英双语数据,总规模达35TB。CCI 4.0首次采用CoT方法合成推理轨迹数据,提升模型推理能力,其中合成数据规模比现有最大开源数据集提升近20倍。该数据集经过严格处理与评审,确保安全合规,有效提升模型训练效率和性能。数据集由多个机构共同贡献,已支持超500家单位的大模型研发。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验