中国科技网

AI
手机 电脑 数码 智车 AI 苹果 直播
当前位置: 首页 > AI > 正文

英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

2025-01-15 07:59:01 来源:IT之家 A+A-

1 月 13 日消息,据英伟达官方博客,英伟达宣布推出一款名为 Nemotron-CC 的大型英文 AI 训练数据库,总计包含 6.3 万亿个 Token,其中 1.9 万亿为合成数据。英伟达声称该训练数据库可以帮助为学术界和企业界进一步推动大语言模型的训练过程。

目前,业界各类 AI 模型的具体性能主要取决于相应模型的训练数据。然而现有公开数据库在规模和质量上往往存在局限性,英伟达称 Nemotron-CC 的出现正是为了解决这一瓶颈,该训练数据库 6.3 万亿 Token 的规模内含大量经过验证的高质量数据,号称是“训练大型语言模型的理想素材”。

数据来源方面,Nemotron-CC 基于 Common Crawl 网站数据构建,并在经过严格的数据处理流程后,提取而成高质量子集 Nemotron-CC-HQ。

在性能方面,英伟达称与目前业界领先的公开英文训练数据库 DCLM(Deep Common Crawl Language Model)相比,使用 Nemotron-CC-HQ 训练的模型在 MMLU(Massive Multitask Language Understanding)基准测试中的分数提高了 5.6 分。

进一步测试显示,使用 Nemotron-CC 训练的 80 亿参数模型在 MMLU 基准测试中分数提升 5 分,在 ARc-Challenge 基准测试中提升 3.1 分,并在 10 项不同任务的平均表现中提高 0.5 分,超越了基于 Llama 3 训练数据集开发的 Llama 3.1 8B 模型

英伟达官方表示,Nemotron-CC 的开发过程中使用了模型分类器、合成数据重述(Rephrasing)等技术,最大限度地保证了数据的高质量和多样性。同时他们还针对特定高质量数据降低了传统的启发式过滤器处理权重,从而进一步提高了数据库高质量 Token 的数量,并避免对模型精确度造成损害。

注意到,英伟达已将 Nemotron-CC 训练数据库已在 Common Crawl 网站上公开(点此访问),英伟达称相关文档文件将在稍晚时候于该公司的 GitHub 页中公布。

Tags:英伟达
(责任编辑:Diy92)

推荐阅读 相关文章

传OpenAI拟扩员至8000人 年底从4500人增加

有消息称OpenAI计划在今年底前将员工规模从目前的约4500人扩充至8000人,扩员重点集中在模型安全、多模态研发...[详细]

2026-03-28 09:34:26

马斯克宣布Grok Computer智能体即将上线

马斯克日前在社交平台宣布,xAI开发的Grok Computer智能体即将上线,定位为具备自主任务执行与多工具调用能力的...[详细]

2026-03-28 09:34:26

MiniMax高峰期限流 MiniMax M2.7模型热度超预期

MiniMax官方确认,因M2.7模型在近期高峰时段用户请求量远超预期,已启动临时限流措施以保障服务稳定性。M2.7模...[详细]

2026-03-28 09:34:26

小米MiMo大模型联合多Agent框架 首周限免开放

小米发布MiMo大模型并与自研多Agent框架深度整合,首周面向开发者与特定用户限免开放。MiMo在多轮对话、跨模...[详细]

2026-03-28 09:34:26

美团开源LongCat大模型 Flash-Prover 刷新SOTA

美团近日宣布开源LongCat大模型及其配套Flash-Prover推理验证框架,LongCat在多项长文本理解与生成任务中刷新...[详细]

2026-03-28 09:34:26

欧盟启动对 AI 全产业链反垄断审查 英伟达 Meta 等巨头成为重点调查对象

欧盟委员会正式宣布对人工智能全产业链发起反垄断审查,英伟达、Meta 等科技巨头被列为首批重点调查对象。审...[详细]

2026-03-16 07:26:24

英伟达拟下周亮相 NemoClaw 项目 正与谷歌等洽谈共建数字员工方案

有消息称英伟达即将推出代号 NemoClaw 的类小龙虾形态智能体系统,计划下周对外亮相,并已与谷歌等科技巨头接洽...[详细]

2026-03-14 10:58:15

Wayve完成D轮12亿美元融资 软银微软英伟达Uber及三大车企联合参与

Wayve完成D轮12亿美元融资,软银、微软、英伟达、Uber及梅赛德斯-奔驰、日产、Stellantis三大车企联合参与,刷...[详细]

2026-03-10 13:01:37

英伟达 N1X 芯片传二季度亮相 联想 戴尔抢先首发

有消息称英伟达 N1X 芯片将于今年二季度正式登场,联想与戴尔将率先推出搭载该芯片的产品,引发行业对新一代计...[详细]

2026-03-08 10:33:06

英伟达Vera Rubin平台核心内存供应商敲定 韩系厂商包揽HBM4订单

据半导体供应链分析机构SemiAnalysis披露的研究笔记及多家行业媒体确认,英伟达下一代AI计算平台"Vera Rubin"...[详细]

2026-02-16 17:04:14

联系方式

商务QQ:19667318