英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC_财经_资讯

1 月 13 日消息，据英伟达官方博客，英伟达宣布推出一款名为 Nemotron-CC 的大型英文 AI 训练数据库，总计包含 6.3 万亿个 Token，其中 1.9 万亿为合成数据。英伟达声称该训练数据库可以帮助为学术界和企业界进一步推动大语言模型的训练过程。目前，业界各类 AI 模型的具体性能主要取决于相应模型的训练数据。然而现有公开数据库在规模和质量上往往存在局限性，英伟达称 Nemotron-CC 的出现正是为了解决这一瓶颈，该训练数据库 6.3 万亿 Token 的规模内含大量经过验证的高质量数据，号称是「训练大型语言模型的理想素材」。数据来源方面，Nemotron-CC 基于 Common Crawl 网站数据构建，并在经过严格的数据处理流程后，提取而成高质量子集 Nemotron-CC-HQ。在性能方面，英伟达称与目前业界领先的公开英文训练数据库 DCLM（Deep Common Crawl Language Model）相比，使用 Nemotron-CC-HQ 训练的模型在 MMLU（Massive Multitask Language Understanding）基准测试中的分数提高了 5.6 分。进一步测试显示，使用 Nemotron-CC 训练的 80 亿参数模型在 MMLU 基准测试中分数提升 5 分，在 ARC-Challenge 基准测试中提升 3.1 分，并在 10 项不同任务的平均表现中提高 0.5 分，超越了基于 Llama 3 训练数据集开发的 Llama 3.1 8B 模型。

转载请注明出处。

• 2月中国汽车品牌出口榜：比亚迪(BYD)超越奇瑞	• 曝腾讯向NVIDIA采购数十亿元H20芯片！致产品一
• 华为笔记本再无Windows可用知情人士回应：美国	• 不只iPhone 苹果[Apple]iPad和Mac去年四季度在
• 雷军自豪官宣：小米汽车获国际设计界“奥斯卡”	• 沈阳让小米SU7 Ultra车主签安全承诺书引热议：
• 消息称苹果[Apple]华为平板电脑去年Q4在国内市	• 四部门联合发布《人工智能生成合成内容标识办法
• 理想汽车2024年总营收1445亿元，净利润80亿元下	• 在英特尔九任CEO中陈立武将是上任时最年长的