斯坦福大学研究揭示：AI 聊天机器人 ChatGPT 表现存在波动性

潘金金 2023-09-08 阅读:1013793 评论:0

斯坦福大学的最新研究发现，备受欢迎的生成式人工智能（AI）聊天机器人 ChatGPT 在处理不同任务时，其性能在几个月内出现了波动。斯坦福大学的研究团队对 ChatGPT 在不同时间段内处理任务的表现进行了评估。他们发现，ChatGPT 的...

斯坦福大学的最新研究发现，备受欢迎的生成式人工智能（AI）聊天机器人 ChatGPT 在处理不

同任务时，其性能在几个月内出现了波动。

斯坦福大学的研究团队对 ChatGPT 在不同时间段内处理任务的表现进行了评估。他们发现，

ChatGPT 的能力出现了不一致的变化。目前，ChatGPT 存在两个版本，一个是免费的 GPT-3.5

模型，另一个是更智能、更快速的付费 GPT-4 版本。研究人员观察到，GPT-4 在 3 月份能够有

效解决数学问题，质数识别准确率高达 97.6%。但在三个月后，准确率降至仅有 2.4%。与此同

时，GPT-3.5 的性能却有所提升，从 7.4% 的准确率上升到了 86.8%。

研究人员还发现，在编写代码和进行视觉推理方面也存在类似的波动。斯坦福大学计算机科学教

授 James Zou 表示：“当我们对大型语言模型进行微调以提高其在某些任务上的性能时，可能

会导致一些意想不到的后果，可能会损害该模型在其他任务上的表现…… 这些模型在回答问题时

存在各种相互依赖性，这可能导致一些恶化现象。”

研究人员认为，这些结果实际上并未真正反映出 ChatGPT 性能的准确状态，而是显示了微调模

型所带来的意外后果。基本上，修改模型的某一部分以改进一项任务时，其他任务可能会受到影

响。为什么会出现这种情况很难确定，因为没有人知道 ChatGPT 的具体工作原理，而且其代码

也不是开源的。

随着时间的推移，研究人员还观察到，ChatGPT 的回答不仅变得不够准确，还停止了解释其推

理过程。

由于 ChatGPT 的工作方式，研究和评估其性能变化可能相当具有挑战性。这项研究强调了对于

驱动类似 ChatGPT 的大型语言模型（LLM）性能变化的观察和评估的必要性。该研究已在 arXiv

上发布，正在等待同行评审。

版权声明

本文仅代表作者观点，不代表百度立场。
本文系作者授权百度百家发表，未经许可，不得转载。

上一篇：Opera GX 浏览器集成 Aria 聊天机器人，利用 GPT 技术提供智能聊天 下一篇：充电桩行业崭露头角，新能源汽车股价低迷中的亮点

斯坦福大学研究揭示：AI 聊天机器人 ChatGPT 表现存在波动性

版权声明

发表评论

最近文章

努比亚Z60 Ultra：真全面屏的领航者

迎接中国大飞机C919首次商业飞行

iPhone闹钟问题引发热议微博热搜成焦点

随机文章

热门文章

苹果放弃自家5G基带梦想，曲折历程一览

充电桩行业崭露头角，新能源汽车股价低迷中的亮点

星巴克董事会迎来前阿里高管张蔚，曾是央视主持人

外星人AURORA R16台式机亮相，搭载i7和RTX 4070，售价仅22999元

华为Mate60卫星通信功能引争议，网友疑虚假宣传

最近发表

标签列表

斯坦福大学研究揭示：AI 聊天机器人 ChatGPT 表现存在波动性

版权声明

相关阅读

ChatGPT Plus会员即将获得自动上下文推测功能的测试版本

联合飞机发布全场景消防救援无人机解决方案

韩国斗山机器人公司登场！首日股价翻倍，助力协作机器人崛起

杭州亚运会：科技创新与数字浙江的巅峰交汇

OpenAI：ChatGPT Plus全球联网，估值达900亿美元

Reid Hoffman：AI是增强智能，Alpha世代将引领AI时代

发表评论

最近文章

随机文章

热门文章

最近发表

标签列表