六年来首次开源，OpenAI放出两款o4-mini级的推理模型-市场参考-金十数据

六年来首次开源，OpenAI放出两款o4-mini级的推理模型

OpenAI宣布开源两款大语言模型，可在本地运行，也可接入闭源模型协同运作，但并未公开训练数据来源。此举能否挽回失地，直面越发激烈的竞争？

OpenAI周二宣布，正式推出两款开源AI推理模型，其能力与公司现有的o系列相近。OpenAI在声明中表示，这两款模型均可通过开发者平台Hugging Face免费下载，并称它们在多个开放模型评估基准中表现为“最先进”。

两款新模型分别为更强大的GPT-oss-120b和轻量级的GPT-oss-20b，其中前者可在单张英伟达GPU上运行，后者则可在配备16GB内存的消费级笔记本电脑上运行。

此次发布标志着，OpenAI自六年前开源GPT-2以来，首次重返开源语言模型领域。

在媒体简报中，OpenAI指出，其开源模型可将复杂指令发送至云端AI模型执行。如果GPT-oss模型无法处理某些任务（如图像处理），开发者可将其接入公司更强大的闭源模型，实现协同运作。

虽然OpenAI早期曾开源AI模型，但此后转向封闭源代码的商业化路径，以推动通过API向企业和开发者销售模型访问权限的业务扩张。

不过，首席执行官山姆·奥尔特曼（Sam Altman）今年1月曾坦言，在开源与否的问题上，OpenAI“站在了历史的错误一边”。

如今，随着中国AI实验室如DeepSeek、阿里巴巴的通义（Qwen）和Moonshot AI等快速崛起，陆续发布多个全球领先的开源模型，OpenAI正面临前所未有的竞争压力。另外，尽管Meta曾在开源领域占据主导地位，但其Llama系列在过去一年中逐渐落后。

此外，特朗普政府也在今年7月公开呼吁，美国AI公司应更多开源，以加快具“美国价值观”的AI技术在全球的推广。

OpenAI此次发布GPT-oss模型，显然旨在同时争取开发者社群与政策制定者的支持。奥尔特曼在外媒的声明中表示：

“自2015年成立以来，OpenAI的使命就是确保通用人工智能（AGI）造福全人类。我们很高兴看到，世界各地正基于一个源于美国、体现民主价值观、完全免费并惠及大众的开源AI技术栈进行开发。”

模型性能表现

OpenAI表示，其目标是让GPT-oss模型在同类开源模型中脱颖而出，且这一目标已初步实现。

在Codeforces编程竞赛测试（包括工具使用）中，GPT-oss-120b和GPT-oss-20b分别得分2622与2516，优于DeepSeek的R1模型，略逊于OpenAI自家的o3和o4-mini模型。

在人类终极考试（HLE），即一项多学科众包问答挑战中，两款模型分别取得19%与17.3%的得分，虽然仍低于o3，但已超越DeepSeek和Qwen等主流开源模型。

但是，特别值得关注的是，两款GPT-oss模型的“幻觉”率明显高于OpenAI最新的o3与o4-mini模型。

OpenAI曾指出，o系列模型的幻觉问题正在加剧，但成因尚未完全明了。公司在白皮书中解释称：

“这是可以预期的结果，因为体积更小的模型缺乏足够的世界知识，更容易产生幻觉。”

以PersonQA（OpenAI内部测试模型人物知识准确率的基准）为例，GPT-oss-120b和GPT-oss-20b的幻觉率分别为49%与53%；相比之下，o1模型仅为16%，o4-mini为36%，显示出开源模型在事实准确性方面仍存在明显差距。

OpenAI表示，这两款开源模型采用与闭源模型相近的训练流程。其架构为“专家混合”（Mixture-of-Experts, MoE），通过仅激活部分参数实现运行效率最大化。

例如，GPT-oss-120b虽然拥有1170亿参数，但每个token仅激活其中的5.1亿。

此外，模型还经过高算力强化学习（RL）后训练，在模拟环境中借助英伟达GPU集群学习如何判断对错。这一方法也曾用于o系列模型，并帮助其发展出“思维链”（chain-of-thought）式推理路径，即在回答问题前进行多步逻辑推导。

因此，OpenAI认为GPT-oss特别适用于AI代理应用，能在推理中调用外部工具，如网页搜索或Python代码执行。

不过，值得注意的是，当前两款模型仅支持文本输入输出，尚不具备图像、音频等多模态处理能力。

GPT-oss-120b与GPT-oss-20b均以Apache 2.0协议发布，该协议被广泛认为是最宽松的开源许可之一，允许企业在无需授权或付费的前提下将模型应用于商业场景。

不过，与AI2等研究机构推出的“完全开源”模型不同，OpenAI明确表示不会公开训练数据来源。考虑到当前已有多起针对AI企业的版权诉讼，这一保守策略并不令人意外。

据悉，OpenAI曾多次推迟GPT-oss的发布，部分原因正是为应对安全问题。除常规政策外，白皮书还指出，公司曾专门评估GPT-oss模型是否可能被“恶意微调”，用于网络攻击、生物武器研发等高风险用途。

经内部与第三方测试，OpenAI判断GPT-oss模型虽在某些生物学任务中表现有所提升，但尚未达到“高风险”门槛，即便遭遇有针对性的微调，也不太可能造成实质威胁。

尽管GPT-oss目前在开源领域处于领先地位，但业内关注的焦点正逐步转向即将发布的DeepSeek R2模型，以及Meta旗下Superintelligence Lab的全新开源产品。

风险提示及免责条款：市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

郑尧