财经

英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

来源: 作者:自媒体小编 2025-01-15 11:20:02 我要评论

1 月 13 日消息,据英伟达官方博客,英伟达宣布推出一款名为 Nemotron-CC 的大型英文 AI 训练数据库,总计包含 6.3 万亿个 Token

1 月 13 日消息,据英伟达官方博客,英伟达宣布推出一款名为 Nemotron-CC 的大型英文 AI 训练数据库,总计包含 6.3 万亿个 Token,其中 1.9 万亿为合成数据。英伟达声称该训练数据库可以帮助为学术界和企业界进一步推动大语言模型的训练过程。 目前,业界各类 AI 模型的具体性能主要取决于相应模型的训练数据。然而现有公开数据库在规模和质量上往往存在局限性,英伟达称 Nemotron-CC 的出现正是为了解决这一瓶颈,该训练数据库 6.3 万亿 Token 的规模内含大量经过验证的高质量数据,号称是「训练大型语言模型的理想素材」。 数据来源方面,Nemotron-CC 基于 Common Crawl 网站数据构建,并在经过严格的数据处理流程后,提取而成高质量子集 Nemotron-CC-HQ。 在性能方面,英伟达称与目前业界领先的公开英文训练数据库 DCLM(Deep Common Crawl Language Model)相比,使用 Nemotron-CC-HQ 训练的模型在 MMLU(Massive Multitask Language Understanding)基准测试中的分数提高了 5.6 分。 进一步测试显示,使用 Nemotron-CC 训练的 80 亿参数模型在 MMLU 基准测试中分数提升 5 分,在 ARC-Challenge 基准测试中提升 3.1 分,并在 10 项不同任务的平均表现中提高 0.5 分,超越了基于 Llama 3 训练数据集开发的 Llama 3.1 8B 模型。

 

转载请注明出处。

本站页面、图片和视频等资料部分由互联网编辑生成,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,若本站收录的页面无意侵犯了贵司版权,请 联系我们

网友点评
0相关评论