斯坦福大学研究揭示:AI 聊天机器人 ChatGPT 表现存在波动性

潘金金 2023-09-08 阅读:1013793 评论:0
斯坦福大学的最新研究发现,备受欢迎的生成式人工智能(AI)聊天机器人 ChatGPT 在处理不同任务时,其性能在几个月内出现了波动。斯坦福大学的研究团队对 ChatGPT 在不同时间段内处理任务的表现进行了评估。他们发现,ChatGPT 的...

斯坦福大学的最新研究发现,备受欢迎的生成式人工智能(AI)聊天机器人 ChatGPT 在处理不

同任务时,其性能在几个月内出现了波动。

image.png

斯坦福大学的研究团队对 ChatGPT 在不同时间段内处理任务的表现进行了评估。他们发现,

ChatGPT 的能力出现了不一致的变化。目前,ChatGPT 存在两个版本,一个是免费的 GPT-3.5 

模型,另一个是更智能、更快速的付费 GPT-4 版本。研究人员观察到,GPT-4 在 3 月份能够有

效解决数学问题,质数识别准确率高达 97.6%。但在三个月后,准确率降至仅有 2.4%。与此同

时,GPT-3.5 的性能却有所提升,从 7.4% 的准确率上升到了 86.8%。


研究人员还发现,在编写代码和进行视觉推理方面也存在类似的波动。斯坦福大学计算机科学教

授 James Zou 表示:“当我们对大型语言模型进行微调以提高其在某些任务上的性能时,可能

会导致一些意想不到的后果,可能会损害该模型在其他任务上的表现…… 这些模型在回答问题时

存在各种相互依赖性,这可能导致一些恶化现象。”


研究人员认为,这些结果实际上并未真正反映出 ChatGPT 性能的准确状态,而是显示了微调模

型所带来的意外后果。基本上,修改模型的某一部分以改进一项任务时,其他任务可能会受到影

响。为什么会出现这种情况很难确定,因为没有人知道 ChatGPT 的具体工作原理,而且其代码

也不是开源的。


随着时间的推移,研究人员还观察到,ChatGPT 的回答不仅变得不够准确,还停止了解释其推

理过程。


由于 ChatGPT 的工作方式,研究和评估其性能变化可能相当具有挑战性。这项研究强调了对于

驱动类似 ChatGPT 的大型语言模型(LLM)性能变化的观察和评估的必要性。该研究已在 arXiv

 上发布,正在等待同行评审。


版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

分享:

扫一扫在手机阅读、分享本文

发表评论
热门文章
  • 苹果放弃自家5G基带梦想,曲折历程一览

    苹果放弃自家5G基带梦想,曲折历程一览
    自2019年收购英特尔基带芯片业务以来,苹果自研基带芯片的发展一直备受业界关注。从iPhone信号问题到苹果自研芯片的崛起,苹果在多个产品中实现了芯片自主研发,提升了整体使用体验,成为全球顶尖芯片公司。然而,在苹果自研基带芯片的征程中,基带芯片却成为一个例外。最近的消息显示,苹果已经减少了对自研5G基带芯片团队的投资和人员配备,预计将放弃这个项目。这一决定或许源于自研基带芯片项目面临的超出预期的困难。回顾苹果基带芯片的发展历程,从2007年初代iPhone搭载德国西门子基带芯...
  • 充电桩行业崭露头角,新能源汽车股价低迷中的亮点

    充电桩行业崭露头角,新能源汽车股价低迷中的亮点
    近两年来,新能源汽车行业的投资焦点主要集中在整车制造商和零部件供应商身上。显而易见的是,2020年至2022年期间,比亚迪股价增长超过4.5倍,宁德时代股价也上涨了2.7倍。与整车制造商和核心零部件供应商的股价热度相比,充电桩行业的股价表现相对较平稳。在2020年至2022年期间,充电桩龙头企业特锐德的股价波动较小。但在今年初以来,充电桩板块开始逆势崛起。新能源板块在年初至今下跌了超过25%,而充电桩板块则逆势上涨了12%。那么,为什么充电桩行业能够在新能源产业股价普遍低迷的...
  • 星巴克董事会迎来前阿里高管张蔚,曾是央视主持人

    星巴克董事会迎来前阿里高管张蔚,曾是央视主持人
    美国当地时间9月13日,星巴克官网正式宣布,创始人霍华德·舒尔茨将退出董事会,并将享受名誉董事长的荣誉终身待遇。随着霍华德的离职,星巴克董事会决定推选前阿里高管张蔚作为新一任董事。张蔚,生于1970年,被冠以“哈佛学霸”的美誉,她的职业生涯涵盖了通用电气、贝恩资本、阿里巴巴、拉尔夫·劳伦等知名企业,履历相当亮眼。然而,引人熟知的还是她在央视担任副业的一段经历。多年前,她曾兼职担任央视《对话》栏目的主持人,与孙正义、李开复等知名嘉宾展开了精彩的对话。她在主持工作中表现亮眼,留下...
  • 外星人AURORA R16台式机亮相,搭载i7和RTX 4070,售价仅22999元

    外星人AURORA R16台式机亮相,搭载i7和RTX 4070,售价仅22999元
    快科技最新消息,外星人最新推出的AURORA R16台式机已经上市,仅售22999元。AURORA R16采用了全新的Legend 3设计,焕然一新的机身设计不仅增强了散热效能,还带来更加高效的通风系统。这一优化设计使得电脑在性能强劲的同时,降低了平均噪音水平约20%,CPU温度下降了10%,GPU温度下降了6%。Aurora R16的外形尺寸为458.4 x 197 x 418 mm,重量为15.374kg。这不仅减少了占地面积,还最大程度地提高了空间的利用率,总体积减少了...
  • 华为Mate60卫星通信功能引争议,网友疑虚假宣传

    华为Mate60卫星通信功能引争议,网友疑虚假宣传
    自发布以来,华为Mate60系列一直备受瞩目,不仅因为国产芯片,还因卫星通信功能备受关注。然而,最近卫星通信功能引发争议,网友对其真实性提出质疑。争议的起因是中国卫通在互动平台表示,公司的卫星通信终端与华为Mate 60 pro没有合作。这一言论引发了质疑声,华为终端BG CTO李小龙也在微博上发布了相关解释。首先,华为Mate60 Pro的卫星通信合作与中国卫通确实没有直接关联。华为合作的卫星是中国电信自己的“天通卫星”,而不是中国卫通的卫星。这一点至关重要,因为华为目前使...