用户和研究人员最近的观察表明,OpenAI 开发的著名人工智能 (AI) 模型 ChatGPT 可能出现性能下降的迹象。 然而,这些感知变化背后的原因仍然是争论和猜测的话题。
上周,斯坦福大学和加州大学伯克利分校合作开展的一项研究发表在 ArXiv 预印本档案中,强调了自 3 月 13 日首次亮相以来的几个月内,GPT-4 及其前身 GPT-3.5 的反应存在明显差异。
准确反应下降
最引人注目的发现之一是 GPT-4 在回答复杂数学问题时的准确性降低。 例如,虽然该模型在 3 月份在回答有关大规模素数的查询时表现出很高的成功率 (97.6%),但在 6 月份正确回答同一提示的准确率却骤降至仅 2.4%。
该研究还指出,虽然旧版本的机器人为他们的答案提供了详细的解释,但最新的迭代似乎更加沉默寡言,即使在明确提示的情况下也经常放弃逐步解决方案。 有趣的是,在同一时期,GPT-3.5 在解决基本数学问题方面表现出了改进的能力,尽管它仍然在处理更复杂的代码生成任务方面遇到困难。
这些发现引发了关于该主题的在线讨论,特别是在普通 ChatGPT 用户中,他们长期以来一直想知道该程序被“阉割”的可能性。 许多人在 Reddit 等平台上分享了他们的经验,其中一些人猜测 GPT-4 的性能是否真的在恶化,或者用户是否越来越清楚该系统的固有局限性。 一些用户讲述了人工智能未能按照要求重组文本的例子,而是选择了虚构的叙述。 其他人则强调了该模型在解决基本问题任务(涵盖数学和编码)方面的困难。
编码能力变化、猜测等等
研究团队还深入研究了 GPT-4 的编码能力,发现其编码能力似乎有所退化。 当使用在线学习平台 LeetCode 的问题测试模型时,只有 10% 的生成代码符合该平台的指南。 这与 3 月份观察到的 50% 的成功率相比显着下降。
OpenAI 更新和微调其模型的方法一直有些神秘,让用户和研究人员猜测幕后发生的变化。 随着全球对人工智能监管及其道德使用的关注和不断立法,透明度越来越受到政府监管机构甚至日益频繁出现的人工智能技术产品日常用户的关注。
虽然该模型的响应似乎缺乏早期版本中观察到的深度和基本原理,但最近的研究确实注意到了一些积极的进展:GPT-4 表现出对某些类型攻击的更强的抵抗力,并显示出对有害提示做出反应的倾向降低。
OpenAI 的产品副总裁 Peter Welinder 在研究发布前一个多星期回应了公众的担忧,表示 GPT-4 并未被“简化”。 他建议,随着越来越多的用户使用 ChatGPT,他们可能会更加适应它的局限性。
虽然这项研究提供了有价值的见解,但它提出的问题多于它给出的答案。 人工智能模型的动态性质,加上其开发的专有性质,意味着用户和研究人员必须经常应对不确定性的环境。 随着人工智能继续塑造技术和通信的未来,对透明度和问责制的呼声可能只会越来越大。