斯坦福大学的最新研究发现,备受欢迎的生成式人工智能(AI)聊天机器人 ChatGPT 在处理不
同任务时,其性能在几个月内出现了波动。
斯坦福大学的研究团队对 ChatGPT 在不同时间段内处理任务的表现进行了评估。他们发现,
ChatGPT 的能力出现了不一致的变化。目前,ChatGPT 存在两个版本,一个是免费的 GPT-3.5
模型,另一个是更智能、更快速的付费 GPT-4 版本。研究人员观察到,GPT-4 在 3 月份能够有
效解决数学问题,质数识别准确率高达 97.6%。但在三个月后,准确率降至仅有 2.4%。与此同
时,GPT-3.5 的性能却有所提升,从 7.4% 的准确率上升到了 86.8%。
研究人员还发现,在编写代码和进行视觉推理方面也存在类似的波动。斯坦福大学计算机科学教
授 James Zou 表示:“当我们对大型语言模型进行微调以提高其在某些任务上的性能时,可能
会导致一些意想不到的后果,可能会损害该模型在其他任务上的表现…… 这些模型在回答问题时
存在各种相互依赖性,这可能导致一些恶化现象。”
研究人员认为,这些结果实际上并未真正反映出 ChatGPT 性能的准确状态,而是显示了微调模
型所带来的意外后果。基本上,修改模型的某一部分以改进一项任务时,其他任务可能会受到影
响。为什么会出现这种情况很难确定,因为没有人知道 ChatGPT 的具体工作原理,而且其代码
也不是开源的。
随着时间的推移,研究人员还观察到,ChatGPT 的回答不仅变得不够准确,还停止了解释其推
理过程。
由于 ChatGPT 的工作方式,研究和评估其性能变化可能相当具有挑战性。这项研究强调了对于
驱动类似 ChatGPT 的大型语言模型(LLM)性能变化的观察和评估的必要性。该研究已在 arXiv
上发布,正在等待同行评审。
版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。
发表评论