Skip to content

GPT-5提升有限,AI发展是否已入瓶颈期

OpenAI最新发布的大语言模型,其性能提升幅度未能给业界带来惊喜。这一结果让人们开始质疑,人工智能行业依靠现有技术路径还能否实现下一次重大突破。

人工智能领域的最新进展,与其说是一次巨大的飞跃,不如说是一次谨慎的微调。在GPT-4驱动ChatGPT风靡全球两年后,OpenAI终于发布了其新一代模型GPT-5。外界曾普遍期望GPT-5能再次带来颠覆性的性能飞跃,然而,它与Anthropic的Claude、谷歌的Gemini等顶尖模型的差距并未显著拉开。这似乎在暗示,业界或许需要探索全新的范式,才能构建出更强大的AI系统。

当然,OpenAI在官方声明中盛赞GPT-5是“智能上的重大飞跃”,称其在编程、数学、写作、健康信息和视觉理解方面均有显著提升,并承诺大幅减少“AI幻觉”(即AI将虚假信息当作事实呈现)的发生频率。在一项衡量“高经济价值的复杂知识工作表现”的内部基准测试中,OpenAI表示,GPT-5在处理法律、物流、销售和工程等40多个行业的专业任务时,“约有一半的情况下,其表现能媲美甚至超越人类专家。”

然而,在公开的第三方基准测试中,GPT-5相较于竞争对手的领先模型,并未展现出压倒性优势。尽管它比GPT-4有所进步,但其进步的幅度,远不及当年GPT-4相较于GPT-3的飞跃。许多ChatGPT用户的反馈也印证了这一点,社交媒体上充斥着GPT-5无法回答一些看似简单问题的案例,用户的失望情绪显而易见。

“许多人期待的是一次突破,但这显然不是,”英国爱丁堡大学的米雷拉·拉帕塔(Mirella Lapata)评价道,“这更像是一次常规升级,感觉只是在循序渐进。”

目前,衡量GPT-5性能最全面的数据依然来自OpenAI内部,因为只有他们才能完整地测试该模型。丹麦哥本哈根信息技术大学的安娜·罗杰斯(Anna Rogers)指出,关于这些内部测试的细节外界知之甚少。“因此,这类说法很难作为严肃的科学论据来公开讨论。”

在该模型发布前的新闻发布会上,OpenAI首席执行官萨姆·奥特曼(Sam Altman)曾宣称:“GPT-5首次真正让你感觉像在与任何领域的博士级专家交谈。” 但罗杰斯对此提出质疑,认为这一说法缺乏基准测试的支持,并且博士学位与通用智能之间并无必然联系。她说:“高智商的人不一定拥有博士学位,而拥有博士学位也并不意味着高智商。”

GPT-5看似有限的改进,可能预示着整个AI领域正面临一个更普遍的难题。直到最近,人们普遍认为,只要不断增加训练数据和算力,大语言模型(LLM)的性能就会随之变强(即“规模定律”)。但最新的模型似乎打破了这一定律,各大公司也未能找到比现有范式更优的AI系统设计方案。“现在大家的技术路线都大同小异,”拉帕塔说,“无非就是用海量数据进行预训练,再通过后续流程进行微调。”

然而,英国谢菲尔德大学的尼科斯·阿莱特拉斯(Nikos Aletras)认为,由于我们不清楚GPT-5等模型的具体技术细节,现在就断言大模型发展已遭遇瓶颈还为时过早。“在缺乏技术信息的情况下,我们无法做出这样的论断。”

为了提升效率,OpenAI也在探索其他方法,例如为GPT-5引入了新的“路由系统”。不同于以往由用户选择模型,新系统会自动分析用户请求,并将其分配给最适合处理该任务的特定模型,以优化算力使用。

拉帕塔认为这种方法未来可能会被更广泛地采用。“复杂的推理模型需要耗费大量的计算资源、时间和金钱,”她说,“如果能用一个更小的模型解决问题,那无疑是高效的。” 但这一改变也引发了部分用户的不满,奥特曼为此表示公司正考虑优化这一流程。

当然,AI的未来也并非一片黯淡。就在上个月,OpenAI的另一个模型在顶级的数学和编程竞赛中斩获金牌,这是一年前任何顶尖AI都无法完成的壮举。尽管其工作原理的细节依然保密,但OpenAI的员工表示,这证明了系统已具备更强的通用推理能力。

阿莱特拉斯认为,这些竞赛有助于测试模型处理未见过数据的能力,但这仍是一种相对狭隘的智能测试。拉帕塔则补充说,提升模型在某一领域的表现,有时可能会牺牲其在其他领域的性能,而这种此消彼长的关系很难追踪。

GPT-5有一个领域的改进尤为突出——那就是价格。以撰写本文时为例,Anthropic最强的Claude模型处理同等数量请求的成本是GPT-5的近10倍。但这种极具颠覆性的低价策略能否长久,也引发了新的担忧:如果收入无法覆盖其建设和运行数据中心的高昂成本,OpenAI的商业模式将面临考验。“这个定价太疯狂了,便宜到我无法理解他们如何盈利,”拉帕塔说。

顶尖AI模型之间的竞争已进入白热化阶段,因为所有人都相信,率先取得决定性领先的玩家将赢得大部分市场份额。“这些科技巨头都想成为唯一的赢家,但这太难了,”拉帕塔感叹道,“在这个行业,你的领先优势最多只能保持几个月。”