【人工智能】AI 越来越强大但其幻觉却越来越糟糕

人工智能‌ 33
  OpenAI 等公司推出的新一波“推理”系统正在更频繁地产生错误信息。甚至连这些公司自己都不知道原因。

  OpenAI 等公司推出的新一波“推理”系统正在更频繁地产生错误信息。甚至连这些公司自己都不知道原因。

  多年来,这种现象引发了人们对这些人工智能系统可靠性的担忧。尽管这些系统在某些情况下颇具实用性——例如撰写学期论文、汇总办公文档以及生成计算机代码,但它们产生的错误可能会引发一系列问题。

  与谷歌和必应等搜索引擎集成的人工智能机器人,有时会生成荒谬错误的搜索结果。比如,当你询问它们西海岸有一场精彩的马拉松比赛时,它们可能会推荐费城的比赛;要是它们告知你伊利诺伊州的家庭数量,所引用的来源可能根本不包含这一信息。

  对于许多人而言,这些“幻觉”或许算不上什么大问题,但对于那些使用该技术处理法庭文件、医疗信息或敏感商业数据的人来说,这无疑是一个严重的问题。

  “你需要花费大量时间去甄别哪些回答是符合事实的,哪些又与事实不符。” Okahu 联合创始人兼首席执行官普拉蒂克·维尔马(Pratik Verma)说道。Okahu 是一家致力于帮助企业解决人工智能系统“幻觉”问题的公司。“如果不能妥善处理这些错误,基本上就等于让人工智能系统的价值大打折扣,而这些系统本应为你自动执行任务。”

  两年多来,OpenAI 和谷歌等公司一直在稳步改进各自的人工智能系统,并降低了此类错误的发生频率。然而,随着新推理系统的应用,错误率又有所上升。根据 OpenAI 自身的测试,其最新系统出现“幻觉”的频率比之前的系统更高。

  该公司发现,其性能最强大的系统 o3 在运行 PersonQA 基准测试(该测试涉及回答有关公众人物的问题)时,出现“幻觉”的概率高达 33%,这一概率比 OpenAI 之前的推理系统 o1 高出一倍多。而新款 o4-mini 出现“幻觉”的概率更高,达到了 48%。

  在运行另一项名为 SimpleQA 的测试(该测试询问的是更一般的问题)时,o3 和 o4-mini 出现“幻觉”的概率分别为 51% 和 79%,而之前的系统 o1 出现“幻觉”的概率为 44%。

  多年来,这种现象引发了人们对这些系统可靠性的担忧。尽管它们在某些情况下很有用——比如撰写学期论文、汇总办公文档和生成计算机代码——但它们的错误可能会造成问题。

  与谷歌和必应等搜索引擎绑定的人工智能机器人有时会生成错误得可笑的搜索结果。如果你问它们西海岸有一场精彩的马拉松比赛,它们可能会推荐费城的比赛。如果它们告诉你伊利诺伊州的家庭数量,它们可能会引用一个不包含该信息的来源。

  对于许多人来说,这些幻觉可能不是什么大问题,但对于任何使用该技术处理法庭文件、医疗信息或敏感商业数据的人来说,这是一个严重的问题。

  “你需要花费大量时间去弄清楚哪些回答符合事实,哪些又不符合,” Okahu联合创始人兼首席执行官 Pratik Verma 说道,Okahu 是一家帮助企业解决幻觉问题的公司。“如果不能妥善处理这些错误,基本上就等于抹杀了人工智能系统的价值,而这些系统本应为你自动执行任务。”

  两年多来,OpenAI 和谷歌等公司稳步改进了各自的人工智能系统,并降低了此类错误的发生频率。但随着新推理系统的使用,错误率也在上升。根据 OpenAI 自身的测试,最新的系统出现幻觉的频率比之前的系统更高。

  该公司发现,其最强大的系统 o3 在运行 PersonQA 基准测试(该测试涉及回答有关公众人物的问题)时,出现幻觉的概率高达33%。这比 OpenAI 之前的推理系统 o1 出现幻觉的概率高出一倍多。而新款 o4-mini 出现幻觉的概率则更高:高达 48%。

  在运行另一项名为 SimpleQA 的测试(该测试询问的是更一般的问题)时,o3 和 o4-mini 的幻觉出现率分别为 51% 和 79%。而之前的系统 o1的幻觉出现率为 44%。

  OpenAI 在一篇详细介绍相关测试的论文中指出,需要进行更多研究才能理解这些结果产生的原因。由于人工智能系统学习的数据量庞大,超出了人类的理解范畴,技术人员很难确定其行为背后的具体缘由。

  “幻觉现象在推理模型中并非天生就更为普遍,尽管我们正积极努力降低在 o3 和 o4-mini 模型中观察到的较高幻觉发生率。”该公司发言人加比·拉伊拉(Gaby Raila)表示,“我们将持续研究所有模型中的幻觉问题,以提高模型的准确性和可靠性。”

  华盛顿大学教授、艾伦人工智能研究所研究员汉娜·哈吉希尔兹(Hannaneh Hajishirzi)所在的团队最近发明了一种方法,能够将系统的行为追溯到其训练所使用的各个数据片段。然而,由于系统需要从海量数据中学习,并且几乎可以生成任何内容,这种新工具无法解释所有问题。“我们仍然不清楚这些模型究竟是如何运作的。”她说。

  独立公司和研究人员的测试表明,谷歌和 DeepSeek 等公司的推理模型的幻觉发生率也在上升。

  自 2023 年末以来,阿瓦达拉先生的公司 Vectara 一直在追踪聊天机器人偏离事实的频率。该公司要求这些系统执行一项简单且易于验证的任务:总结特定的新闻文章。即便如此,聊天机器人仍然会持续编造信息。

  Vectara 最初的研究估计,在这种情况下,聊天机器人至少有 3% 的时间会编造信息,有时这一比例甚至高达 27%。

  在此后的一年半时间里,OpenAI 和谷歌等公司已将这一数字降至 1% 或 2% 左右。其他公司,例如旧金山的初创公司 Anthropic,其聊天机器人编造信息的比例则徘徊在 4% 左右。但随着推理系统的出现,这项测试中的幻觉率有所上升。DeepSeek 的推理系统 R1 出现幻觉的概率高达 14.3%,OpenAI 的 o3 模型则攀升至 6.8%。

  (《》已起诉 OpenAI 及其合作伙伴微软,指控他们侵犯与人工智能系统相关的新闻内容版权。OpenAI 和微软否认了这些指控。)

  多年来,像 OpenAI 这样的公司一直秉持着一个简单的理念:输入到 AI 系统中的互联网数据越多,系统的性能就越好。但他们几乎已用尽互联网上所有的英文文本,这意味着他们需要采用一种新的方法来改进聊天机器人。

  因此,这些公司更加依赖一种被科学家称为强化学习的技术。通过这一过程,系统可以通过反复试验来学习行为。强化学习在数学和计算机编程等某些领域效果显著,但在其他领域则表现不足。

  爱丁堡大学研究员劳拉·佩雷斯 - 贝尔特拉奇尼(Laura Perez-Beltrachini)表示:“这些系统的训练方式使得它们会专注于一项任务,而逐渐遗忘其他任务。”她也是密切研究幻觉问题团队的一员。

  另一个问题是,推理模型的设计初衷是花时间“思考”复杂问题,最终确定答案。当它们试图一步步解决问题时,每一步都有可能产生幻觉。随着思考时间的延长,错误可能会不断加剧。

  最新的机器人会向用户展示每个步骤,这意味着用户也可能看到每个错误。研究人员还发现,在很多情况下,机器人显示的步骤与其最终给出的答案并无关联。

  爱丁堡大学人工智能研究员、Anthropic 研究员阿约·普拉迪普塔·格马(Aryo Pradipta Gema)表示:“系统展示的想法并不一定是它真正在思考的内容。”

扫码二维码