Google 发布全新 FACTS 基准测试,专门用来检测 AI 是否产生不实内容,即使是自家 Gemini 3 Pro 正确率也低于 70%,凸显 AI 模型的内容问题。

随着生成式 AI (Generative AI) 应用日益普及,大型语言模型 (LLM) 最令人头痛的「幻觉」 (Hallucination) 问题 —— 即 AI 一本正经地胡说八道,始终是业界极力想解决的痛点。为了更精确量化 AI 到底「有多诚实」,Google 联合旗下的 Google DeepMind、Google Cloud 与 Kaggle 团队,发表一套名为 FACTS (Factuality Assessment for Contemporary Text Synthesis, 当代文本综合事实性评估) 的全新评估基准。

不同于传统仅针对文本生成的测试,FACTS 基准由四个针对不同能力的子测试组成,宛如一场全方位的 AI 体检:

・M-FACTS (多模态测试):考验 AI 的「眼力」与知识结合能力。例如给 AI 看一张特定型号的火车照片,不仅要能辨识型号,还要能回答该型号的制造年份等深层资讯,而非仅描述图片外观。

・P-FACTS (参数化测试):这是纯粹的「随堂考」。AI 必须在不联网的情况下,仅凭训练时内建的数据库回答困难问题。Google 特别采用「对抗性筛选」,只保留那些现有模型容易答错的题目,确保鉴别度。

・S-FACTS (搜寻测试):模拟 AI 作为代理人 (Agent) 的能力。AI 必须懂得自行拆解复杂问题 (例如:「某编剧最早发行的电影是哪部?」),执行多次搜寻,并且整合资讯。

・D-FACTS (文档理解测试):测验 AI 的「忠实度」。给定一份文件,AI 必须严格根据内容回答,严禁「脑补」添加文档中未提及的资讯。

评测结果:Gemini 3 Pro 险胜,GPT-5 展现「诚实的无知」

在导入双重自动评判机制 (由 AI 裁判员检查核心事实覆盖率与矛盾性) 后,测试结果显示目前市面上的顶级模型仍有约 30% 的错误率。

而 Google 自家的 Gemini 3 Pro 以 68.8% 的准确率位居榜首,其次是 Gemini 2.5 Pro (62.1%) 与 OpenAI 的 GPT-5 (61.8%)。

有趣的是,测试揭露了不同模型的「性格」差异。Gemini 系列倾向于提供详尽的资讯 (宁可多说),但在多模态测试中有时会因此夹杂不精确的内容;而 GPT-5 与 Claude 系列则表现出「精准至上」的特质,遇到不确定的问题倾向于承认「不知道」或拒绝回答。这种「诚实的无知」 (Honest Ignorance) 在某些专业场景下,反而比强行回答更有价值。

Fact 基准说明

详细排行

新闻原文

https://mashdigi.com/google-launches-new-facts-benchmark-test-specifically-designed-to-catch-ai-lying-even-the-most-powerful-model-achieves-less-than-70-accuracy/


📌 转载信息
原作者:
josenlou
转载时间:
2026/1/1 15:32:04