当前位置：首页 > AI > 正文

谷歌发布 FACTS Grounding 基准：Gemini、GPT-4o、Claude 当评委，成 AI 大语言模型“幻觉照妖镜”

2024-12-18 17:11:15 来源：IT之家 A+A-

12 月 18 日消息，谷歌 DeepMind 团队于 12 月 17 日发布博文，宣布推出 FACTS Grounding 基准测试，评估大型语言模型（LLMs）根据给定材料是否准确作答，并避免“幻觉”（即捏造信息）的能力，从而提升 LLMs 的事实准确性，增强用户信任度，并拓展其应用范围。

数据集

在数据集方面，ACTS Grounding 数据集包含 1719 个示例，涵盖金融、科技、零售、医疗和法律等多个领域，每个示例包含一篇文档、一条要求 LLM 基于文档的系统指令和随附的提示词。

示例文档长度不一，最长可达 32000 个 token（约 20000 字）。用户请求涵盖摘要、问答生成和改写等任务，但不包含需要创造力、数学或复杂推理的任务。附上演示图片如下：

数据集分为 860 个“公共”示例和 859 个“私有”示例，目前已发布公共数据集供评估使用，私有数据集用于排行榜评分，以防止基准污染和排行榜作弊。

评估方案

在评估方案上，FACTS Grounding 采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作为评委，评估答案的充分性、事实准确性和文档支持性。

评估分为两个阶段：首先评估响应是否符合资格，即是否充分回答了用户请求；然后评估响应的事实准确性，即是否完全基于所提供的文档，有没有出现“幻觉”，然后基于该模型在所有示例上的平均得分，最终计算得出。

在 FACTS Grounding Benchmark 中，谷歌的 Gemini 模型在事实准确的文本生成方面取得了最高分。

附上参考地址

Google DeepMind launches new AI fact-checking benchmark with Gemini in the lead
FACTS Grounding: A new benchmark for evaluating the factuality of large language models

Tags：FACTS Grounding

(责任编辑：Diy92)

科技网

谷歌发布 FACTS Grounding 基准：Gemini、GPT-4o、Claude 当评委，成 AI 大语言模型“幻觉照妖镜”

数据集

评估方案

相关话题

今日专题

美国企业AI成本飙升 DeepSeek成为B2B市场新宠

热点聚焦

软银孙正义称OpenAI正用AI设计AI模型比人类聪明万倍的ASI两年内到来

2026世界杯扩大AI审核实时过滤超3万个关键词2秒隐藏不当评论

微软MAI系列AI模型训练数据曝光仅商业授权说法存在出入

OpenAI为ChatGPT个人用户开放锁定模式降低数据泄露风险

比亚迪澄清人形机器人尧舜禹等消息均不属实

OpenAI芯片团队元老Clive Chan出走跳槽至Anthropic

热点推荐

消息称OpenAI将对ChatGPT进行大升级打造为超级应用

卢伟冰晒小米Mimo大模型写的北京卷作文 2026高考语文落幕

英国警方被叫停使用AI撰写法庭陈述担忧虚假内容扰乱司法

美国全面推进AI军事应用特朗普要求90天内修订自主武器规则

疑似三星Galaxy Watch9与Watch Ultra 2通过3C认证充电速度仍为10W

微软警告Claude Code存在漏洞可能导致GitHub账号凭证泄露

今日话题

小岛秀夫谈AI艺术创作称有生之年恐无法见证

阿里千问对外开放“AI办事”能力首家接入东方航空支持查航班买机票

特斯拉Model S/X产线将为Optimus机器人让路最早7月启动投产

OpenAI发布ChatGPT团队工作流AI智能体 7*24小时自动化处理长周期任务

全国首个汕头完成“Token出海”全链路闭环验证打通跨境AI服务链路

OpenAI在美国推出ChatGPT临床医生版完成认证后可免费使用

今日热点