科技中国

AI
手机 电脑 数码 智车 AI 苹果 直播
当前位置: 首页 > AI > 正文

谷歌发布 FACTS Grounding 基准:Gemini、GPT-4o、Claude 当评委,成 AI 大语言模型“幻觉照妖镜”

2024-12-18 17:11:15 来源:IT之家 A+A-

12 月 18 日消息,谷歌 DeepMind 团队于 12 月 17 日发布博文,宣布推出 FACTS Grounding 基准测试,评估大型语言模型(LLMs)根据给定材料是否准确作答,并避免“幻觉”(即捏造信息)的能力,从而提升 LLMs 的事实准确性,增强用户信任度,并拓展其应用范围。

数据集

在数据集方面,ACTS Grounding 数据集包含 1719 个示例,涵盖金融、科技、零售、医疗和法律等多个领域,每个示例包含一篇文档、一条要求 LLM 基于文档的系统指令和随附的提示词。

示例文档长度不一,最长可达 32000 个 token(约 20000 字)。用户请求涵盖摘要、问答生成和改写等任务,但不包含需要创造力、数学或复杂推理的任务。附上演示图片如下:

数据集分为 860 个“公共”示例和 859 个“私有”示例,目前已发布公共数据集供评估使用,私有数据集用于排行榜评分,以防止基准污染和排行榜作弊。

评估方案

在评估方案上,FACTS Grounding 采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作为评委,评估答案的充分性、事实准确性和文档支持性。

评估分为两个阶段:首先评估响应是否符合资格,即是否充分回答了用户请求;然后评估响应的事实准确性,即是否完全基于所提供的文档,有没有出现“幻觉”,然后基于该模型在所有示例上的平均得分,最终计算得出。

在 FACTS Grounding BenchmARk 中,谷歌的 Gemini 模型在事实准确的文本生成方面取得了最高分。

附上参考地址

  • Google DeepMind launches new AI fact-checking benchmark with Gemini in the lead

  • FACTS Grounding: A new benchmark for evaluating the factuality of large language models

Tags:FACTS Grounding
(责任编辑:Diy92)

推荐阅读 相关文章

训练时间可缩短一半,阿里云正式推出自驾模型加速框架PAI-TurboX

6月23日消息,阿里云今日宣布推出面向自动驾驶领域模型的训练、推理加速框架PAI-TurboX。据介绍,该框架可提升...[详细]

2025-06-25 09:37:18

小米:我们无计划造油车

6月23日消息,今日有网友在小米创办人、董事长兼CEO雷军的评论区询问:"雷总,咱啥时候组建车队?",雷军回复称:"这是...[详细]

2025-06-25 09:37:18

广汽三大自主品牌即将推出赛马机制,但资源不会平均分配

6月23日消息,据第一财经报道,广汽集团董事长、总经理冯兴亚上周就广汽集团改革等多个热点话题进行了回应。过...[详细]

2025-06-25 09:37:18

李想、雷军互发“贺电”,分别祝贺小米 YU7、理想 i8销量大卖

6月23日消息,今天中午,雷军在微博上介绍了小米首款SUV"为何不是最热门的6座车"。随后,理想汽车CEO李想转发这则...[详细]

2025-06-25 09:37:18

据称自动驾驶科技公司文远知行已悄悄提交香港上市申请

6月23日消息,据界面新闻今日援引知情人士消息,自动驾驶科技公司文远知行已秘密提交香港上市申请。查询获悉,文...[详细]

2025-06-25 09:37:18

谷歌发布 FACTS Grounding 基准:Gemini、GPT-4o、Claude 当评委,成 AI 大语言模型“幻觉照妖镜”

12 月 18 日消息,谷歌 DeepMind 团队于 12 月 17 日发布博文,宣布推出 FACTS Grounding 基准测试,评估大型语言...[详细]

2024-12-18 17:11:15

联系方式

商务QQ:19667318