OpenAI周二宣布,正式推出两款开源AI推理模型,其能力与公司现有的o系列相近。OpenAI在声明中表示,这两款模型均可通过开发者平台Hugging Face免费下载,并称它们在多个开放模型评估基准中表现为“最先进”。
两款新模型分别为更强大的GPT-oss-120b和轻量级的GPT-oss-20b,其中前者可在单张英伟达GPU上运行,后者则可在配备16GB内存的消费级笔记本电脑上运行。
此次发布标志着,OpenAI自六年前开源GPT-2以来,首次重返开源语言模型领域。
在媒体简报中,OpenAI指出,其开源模型可将复杂指令发送至云端AI模型执行。如果GPT-oss模型无法处理某些任务(如图像处理),开发者可将其接入公司更强大的闭源模型,实现协同运作。
虽然OpenAI早期曾开源AI模型,但此后转向封闭源代码的商业化路径,以推动通过API向企业和开发者销售模型访问权限的业务扩张。
不过,首席执行官山姆·奥尔特曼(Sam Altman)今年1月曾坦言,在开源与否的问题上,OpenAI“站在了历史的错误一边”。
如今,随着中国AI实验室如DeepSeek、阿里巴巴的通义(Qwen)和Moonshot AI等快速崛起,陆续发布多个全球领先的开源模型,OpenAI正面临前所未有的竞争压力。另外,尽管Meta曾在开源领域占据主导地位,但其Llama系列在过去一年中逐渐落后。
此外,特朗普政府也在今年7月公开呼吁,美国AI公司应更多开源,以加快具“美国价值观”的AI技术在全球的推广。
OpenAI此次发布GPT-oss模型,显然旨在同时争取开发者社群与政策制定者的支持。奥尔特曼在外媒的声明中表示:
“自2015年成立以来,OpenAI的使命就是确保通用人工智能(AGI)造福全人类。我们很高兴看到,世界各地正基于一个源于美国、体现民主价值观、完全免费并惠及大众的开源AI技术栈进行开发。”
OpenAI表示,其目标是让GPT-oss模型在同类开源模型中脱颖而出,且这一目标已初步实现。
在Codeforces编程竞赛测试(包括工具使用)中,GPT-oss-120b和GPT-oss-20b分别得分2622与2516,优于DeepSeek的R1模型,略逊于OpenAI自家的o3和o4-mini模型。
在人类终极考试(HLE),即一项多学科众包问答挑战中,两款模型分别取得19%与17.3%的得分,虽然仍低于o3,但已超越DeepSeek和Qwen等主流开源模型。
但是,特别值得关注的是,两款GPT-oss模型的“幻觉”率明显高于OpenAI最新的o3与o4-mini模型。
OpenAI曾指出,o系列模型的幻觉问题正在加剧,但成因尚未完全明了。公司在白皮书中解释称:
“这是可以预期的结果,因为体积更小的模型缺乏足够的世界知识,更容易产生幻觉。”
以PersonQA(OpenAI内部测试模型人物知识准确率的基准)为例,GPT-oss-120b和GPT-oss-20b的幻觉率分别为49%与53%;相比之下,o1模型仅为16%,o4-mini为36%,显示出开源模型在事实准确性方面仍存在明显差距。
OpenAI表示,这两款开源模型采用与闭源模型相近的训练流程。其架构为“专家混合”(Mixture-of-Experts, MoE),通过仅激活部分参数实现运行效率最大化。
例如,GPT-oss-120b虽然拥有1170亿参数,但每个token仅激活其中的5.1亿。
此外,模型还经过高算力强化学习(RL)后训练,在模拟环境中借助英伟达GPU集群学习如何判断对错。这一方法也曾用于o系列模型,并帮助其发展出“思维链”(chain-of-thought)式推理路径,即在回答问题前进行多步逻辑推导。
因此,OpenAI认为GPT-oss特别适用于AI代理应用,能在推理中调用外部工具,如网页搜索或Python代码执行。
不过,值得注意的是,当前两款模型仅支持文本输入输出,尚不具备图像、音频等多模态处理能力。
GPT-oss-120b与GPT-oss-20b均以Apache 2.0协议发布,该协议被广泛认为是最宽松的开源许可之一,允许企业在无需授权或付费的前提下将模型应用于商业场景。
不过,与AI2等研究机构推出的“完全开源”模型不同,OpenAI明确表示不会公开训练数据来源。考虑到当前已有多起针对AI企业的版权诉讼,这一保守策略并不令人意外。
据悉,OpenAI曾多次推迟GPT-oss的发布,部分原因正是为应对安全问题。除常规政策外,白皮书还指出,公司曾专门评估GPT-oss模型是否可能被“恶意微调”,用于网络攻击、生物武器研发等高风险用途。
经内部与第三方测试,OpenAI判断GPT-oss模型虽在某些生物学任务中表现有所提升,但尚未达到“高风险”门槛,即便遭遇有针对性的微调,也不太可能造成实质威胁。
尽管GPT-oss目前在开源领域处于领先地位,但业内关注的焦点正逐步转向即将发布的DeepSeek R2模型,以及Meta旗下Superintelligence Lab的全新开源产品。