科技中国

AI
手机 电脑 数码 智车 AI 苹果 直播
当前位置: 首页 > AI > 正文

英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

2025-01-15 07:59:01 来源:IT之家 A+A-

1 月 13 日消息,据英伟达官方博客,英伟达宣布推出一款名为 Nemotron-CC 的大型英文 AI 训练数据库,总计包含 6.3 万亿个 Token,其中 1.9 万亿为合成数据。英伟达声称该训练数据库可以帮助为学术界和企业界进一步推动大语言模型的训练过程。

目前,业界各类 AI 模型的具体性能主要取决于相应模型的训练数据。然而现有公开数据库在规模和质量上往往存在局限性,英伟达称 Nemotron-CC 的出现正是为了解决这一瓶颈,该训练数据库 6.3 万亿 Token 的规模内含大量经过验证的高质量数据,号称是“训练大型语言模型的理想素材”。

数据来源方面,Nemotron-CC 基于 Common Crawl 网站数据构建,并在经过严格的数据处理流程后,提取而成高质量子集 Nemotron-CC-HQ。

在性能方面,英伟达称与目前业界领先的公开英文训练数据库 DCLM(Deep Common Crawl Language Model)相比,使用 Nemotron-CC-HQ 训练的模型在 MMLU(Massive Multitask Language Understanding)基准测试中的分数提高了 5.6 分。

进一步测试显示,使用 Nemotron-CC 训练的 80 亿参数模型在 MMLU 基准测试中分数提升 5 分,在 ARc-Challenge 基准测试中提升 3.1 分,并在 10 项不同任务的平均表现中提高 0.5 分,超越了基于 Llama 3 训练数据集开发的 Llama 3.1 8B 模型

英伟达官方表示,Nemotron-CC 的开发过程中使用了模型分类器、合成数据重述(Rephrasing)等技术,最大限度地保证了数据的高质量和多样性。同时他们还针对特定高质量数据降低了传统的启发式过滤器处理权重,从而进一步提高了数据库高质量 Token 的数量,并避免对模型精确度造成损害。

注意到,英伟达已将 Nemotron-CC 训练数据库已在 Common Crawl 网站上公开(点此访问),英伟达称相关文档文件将在稍晚时候于该公司的 GitHub 页中公布。

Tags:英伟达
(责任编辑:Diy92)

推荐阅读 相关文章

训练时间可缩短一半,阿里云正式推出自驾模型加速框架PAI-TurboX

6月23日消息,阿里云今日宣布推出面向自动驾驶领域模型的训练、推理加速框架PAI-TurboX。据介绍,该框架可提升...[详细]

2025-06-25 09:37:18

小米:我们无计划造油车

6月23日消息,今日有网友在小米创办人、董事长兼CEO雷军的评论区询问:"雷总,咱啥时候组建车队?",雷军回复称:"这是...[详细]

2025-06-25 09:37:18

广汽三大自主品牌即将推出赛马机制,但资源不会平均分配

6月23日消息,据第一财经报道,广汽集团董事长、总经理冯兴亚上周就广汽集团改革等多个热点话题进行了回应。过...[详细]

2025-06-25 09:37:18

李想、雷军互发“贺电”,分别祝贺小米 YU7、理想 i8销量大卖

6月23日消息,今天中午,雷军在微博上介绍了小米首款SUV"为何不是最热门的6座车"。随后,理想汽车CEO李想转发这则...[详细]

2025-06-25 09:37:18

据称自动驾驶科技公司文远知行已悄悄提交香港上市申请

6月23日消息,据界面新闻今日援引知情人士消息,自动驾驶科技公司文远知行已秘密提交香港上市申请。查询获悉,文...[详细]

2025-06-25 09:37:18

据称DeepSeek-R2 AI模型开发进度因美国英伟达 H20芯片出口限制而推迟

6月27日消息,据外媒TheInformation 报道,由于美国当局策略致英伟达H20芯片在中国内地供应短缺,继而导致DeepSee...[详细]

2025-06-27 09:54:28

英伟达 RTX5050笔记本显卡跑分被曝光:OpenCL跑分较RTX4050高11% 8GB显存

6月17日消息,科技媒体 notebookcheck 昨日发布博文,报道称英伟达笔记本电脑版GeForceRTX5050显卡现身GeekBenc...[详细]

2025-06-17 12:09:00

英伟达 RTX3080Ti 20GB FE显卡研发样品正式现身eBay拍卖

6月17日消息,eBay 用户 malumarbor 早前以拍卖的形式上架了一张英伟达GeForceRTX3080Ti20GB显卡,值得注意的是...[详细]

2025-06-17 12:09:00

英伟达旗舰显卡价格发生松动,RTX5090初显降价趋势

6月15日消息,近期,英伟达旗下的旗舰显卡系列 ——BlackwellRTX50系列终于迎来了价格调整,不过其价格...[详细]

2025-06-19 07:34:28

小米 YU7搭第3代骁龙8座舱SoC芯片,搭配700TOPS 英伟达 DRIVE AGX 车载计算平台

5月22日消息,在目前正在进行的小米15周年战略新品发布会中,雷军介绍了小米YU7车型的座舱智能化方面信息。该车...[详细]

2025-05-23 14:21:44

联系方式

商务QQ:19667318