近日,OpenAI推出下一代模型o3,无论在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3都妥妥超越o1。但是,据《华尔街日报》报道,OpenAI的新人工智能项目落后于计划,并已经产生巨额费用。目前还不清楚它何时,甚至是否会成功,因为世界上似乎没有足够的数据来使其足够智能。
据悉,该项目的正式名称为GPT-5,代号为Orion,已经进行了18个多月。知情人士透露称,OpenAI最亲密的合作伙伴和最大投资者微软原本预计会在2024年中期左右看到新模型。OpenAI也已经至少进行了两次大规模训练,耗时数月处理海量数据,目的是让新模型“Orion”更智能。
然而,据接近项目的人士透露,每次训练都出现了新问题,软件的表现未能达到研究人员的预期。即使在最佳情况下,Orion的表现比OpenAI当前的模型有所提升,但尚不足以证明维持新模型运行所需的巨大成本是合理的。基于公开数据和私人估算,仅一次为期六个月的训练运行,计算成本就可能高达约5亿美元。
OpenAI和其CEO山姆·奥尔特曼(Sam Altman)两年前推出ChatGPT,给硅谷带来了巨大冲击。人工智能被寄予厚望,也不断展现出重大进展,并渗透到我们生活的各个方面。分析师预测,未来几年科技巨头可能会在AI项目上投入高达1万亿美元。
这些期望的重担大部分落在了AI浪潮核心的OpenAI身上。2023年10月,投资者对OpenAI的估值高达1570亿美元,这很大程度上是基于奥尔特曼的预测:GPT-5将在多个领域和任务上实现“显著的飞跃”。
GPT-5被寄望于解锁新的科学发现,同时能够胜任日常人类任务,比如预约和预订机票。研究人员希望它能比当前的AI犯更少的错误,或至少在有疑问时承认自己的不确定性——这是现有模型难以实现的挑战,当前的AI常常自信地输出错误答案,这种现象被称为“幻觉”。
AI聊天机器人依赖于一种名为大型语言模型(LLM)的底层技术。消费者、企业和政府已经在依赖它们,完成从编写代码到改进营销文案和规划活动等任务。OpenAI目前的模型是GPT-4,这是自2015年公司成立以来开发的第四个LLM。
一位前OpenAI高管表示,GPT-4表现得像一个聪明的高中生,而预期中的GPT-5在某些任务上的表现将相当于拥有博士学位。今年早些时候,奥尔特曼在斯坦福大学的一次演讲中告诉学生,OpenAI可以“以很高的科学确定性”表示,GPT-5会比当前的模型更加智能。
从GPT-4在2023年3月推出后,OpenAI就开始致力于GPT-5的开发。然而,开发LLM系统既是一门科学,也是一种艺术。世界上最受尊敬的AI科学家以其直觉而闻名,他们往往知道如何取得更好的结果。
在模型训练期间,系统会被喂入数以万亿计的文本片段(称为“tokens”)。一次大规模训练运行可能需要几个月时间,依赖数万个昂贵且需求旺盛的英伟达芯片。在训练运行期间,研究人员可能需要连续数周甚至数月埋头于电脑前,试图将人类知识注入AI系统。
奥尔特曼曾表示,训练GPT-4的成本超过了1亿美元,而未来的AI模型预计成本将超过10亿美元。一次失败的训练运行就像一枚火箭在发射后不久爆炸一样令人沮丧。
在2023年中,OpenAI启动了一次双重测试训练运行,但过程缓慢,表明大规模训练运行将需要极长时间,这会导致费用暴涨。此外,被称为“Arrakis”的项目结果显示,创建GPT-5可能不会像预期那样顺利。
为增强Orion模型,OpenAI尝试引入更多多样化的高质量数据。然而,公共互联网已经无法满足数据需求。过去,OpenAI依赖从互联网上抓取的数据,比如新闻文章、社交媒体帖子和科学论文,但为提升Orion的智能,OpenAI需要更多数据,而目前的数据已显不足。
为了解决这一问题,OpenAI开始从零创造数据。
公司聘请了软件工程师和数学家,撰写新代码并解决数学问题,同时分享他们的思路。这种方法不仅为模型提供更多语言学习素材,还为其未来处理类似问题提供了解决思路的“地图”。
此外,OpenAI还开始开发“合成数据”,即由AI生成的数据。然而,这种方法存在反馈环路问题,可能导致AI产生不合逻辑的答案。
尽管面临技术和资源的双重挑战,OpenAI的研究人员依然尝试结合“更多数据”与“更优质数据”两种方法。
OpenAI的内部动荡加剧了挑战。今年以来,包括首席科学家Ilya Sutskever和首席技术官Mira Murati在内的多位核心员工离职。此外,AI实验室之间的竞争也日益激烈,部分科技公司甚至减少了发表科学论文的数量,以保护研究成果不被泄露。
即便如此,OpenAI并未放弃。今年5月,公司尝试再次启动针对Orion的大规模训练运行。然而,训练过程中发现数据的多样性不足,这一问题直到训练开始后才显现出来,导致OpenAI不得不匆忙寻找更广泛的数据。
一些研究人员认为,OpenAI过去依赖的“多即是好”的策略已经遇到了瓶颈。
OpenAI的研究人员开始探索新的方法——“推理能力”。这一方法让AI通过更长时间的“思考”解决从未见过的难题。
“推理”模型能够在每次回答问题时生成多个答案并进行分析,从中选出最优答案。这种方法不仅能处理更复杂的任务,还能通过解释其推理过程让模型从每次回答中学习。
尽管如此,这一过程依然昂贵。例如,为单一问题生成多个答案将显著增加计算成本。尽管Orion面临诸多挑战,奥尔特曼最近宣布计划开发一款推理能力更强的新模型,但并未透露是否会被命名为GPT-5,也未说明具体发布时间。