AI播客:换个方式听新闻 下载mp3
OpenAI重磅推出GPT-5,面向ChatGPT免费用户和付费订阅者。总的来说,GPT-5在智能水平、速度和准确性上均有显著提升,但仍未达到人工通用智能(AGI)。
该公司推出了GPT-5-mini和GPT-5-nano两个变体,分别面向不同用户群体。GPT-5在编码基准测试中表现优异,健康相关问题回答能力也大幅提升,且幻觉率降低。
公司CEO萨姆·阿尔特曼(Sam Altman)在当地时间周三的新闻发布会上表示,GPT-5是迈向人工通用智能(AGI)的重要一步,尽管它尚未完全达到AGI的标准。AGI被定义为一种在大多数经济价值工作中超越人类的高自主性系统。GPT-5仍缺乏一些关键特质,例如部署后持续学习的能力。
OpenAI声称,GPT-5比之前的模型更智能、更快、更有用且更准确,幻觉率也更低。阿尔特曼将GPT-5的改进比作iPhone从像素化到视网膜显示屏的转变,并称其为“首次真正感觉像是与任何主题的专家,甚至是博士级别的专家交谈”。
此次发布还包括两个新的模型变体:轻量级的GPT-5-mini和更快、更便宜的GPT-5-nano(仅在API中提供)。免费用户将获得GPT-5和GPT-5-mini的访问权限,而每月20美元的Plus订阅用户将获得相同的模型,但使用限制大幅提高。
每月200美元的Pro级别提供无限制的GPT-5访问权限,以及更强大的GPT-5-pro和GPT-5-thinking版本,后者允许模型比平时更长时间地处理查询。
Pro用户还可以选择使用旧版模型。大多数用户无需再手动选择模型,因为聊天界面会根据查询的复杂性和用户的订阅级别自动选择合适的版本。
从下周开始,Pro用户将能够将他们的Gmail、谷歌联系人和谷歌日历连接到ChatGPT,其他订阅级别将在未指定的日期获得访问权限。
用户还可以选择聊天颜色,并从四个预设个性中选择——愤世嫉俗者、机器人、倾听者和书呆子。OpenAI计划将这些个性融入高级语音模式。
OpenAI的API将为用户提供所有三种模型,并提供可选的控制功能,以在详细或直接回应之间切换。GPT-5比之前的模型能够保留更多信息,其上下文窗口为256,000个token,比公司之前o3模型的200,000个token有所增加。这意味着它可以更好地理解长对话、文档或代码,而不会丢失上下文。
OpenAI在博客中表示,GPT-5在多项编程基准测试中全面超越了此前的模型,包括SWE-Bench Verified(得分74.9%)、SWE-Lancer(GPT-5-thinking得分55%)以及Aider Polyglot(得分88%)。这些测试分别用于评估模型的漏洞修复能力、完成自由职业式编程任务的表现,以及跨多种编程语言的适应性。
在周三的新闻发布会上,OpenAI后训练负责人扬·杜布瓦(Yann Dubois)现场向GPT-5下达指令,请它为自己的伴侣(英语使用者)“制作一个美观、互动性强的法语学习网页应用”,并要求包含每日进度记录、抽认卡和测验等多样化活动,同时希望整体风格具备“高度吸引力”。
约一分钟后,AI便生成了成品。虽然这只是一次预设演示,但成品网站界面精致,功能完全契合他的要求。
“它是出色的编程协作伙伴,也擅长具备自主性的任务。”后训练负责人米歇尔·波克拉斯(Michelle Pokrass)评价道,“它能够高效执行长链条任务和工具调用(这意味着它能更好地判断何时、如何使用网页浏览器或外部API等功能),可以精准遵循复杂指令,并在执行前给出清晰的操作说明。”
OpenAI还称,GPT-5是“迄今在健康相关问题上表现最优秀的模型”。在HealthBench、HealthBench Hard和HealthBench Consensus三项健康领域基准测试中,系统卡(记录产品技术能力及研究结果的文档)显示,GPT-5-thinking的表现较前代模型“有显著提升”。
在HealthBench Hard中,GPT-5-thinking得分25.5%,相比o3的31.6%有所进步,且所有分数均由两名及以上医生验证。
在减少虚构信息方面,波克拉斯表示新模型有明显改善。OpenAI安全研究负责人亚历克斯·比尤特尔(Alex Beutel)补充,他们已“大幅降低GPT-5的欺骗倾向”。
“我们已采取措施,减少GPT-5-thinking在任务中出现欺骗、投机或取巧的倾向,尽管这些缓解措施并不完美,还需更多研究。”系统卡指出,
“尤其是,我们让模型在无法完成任务时能够优雅地失败。”
在关闭网页浏览功能的测试中,研究人员发现,GPT-5的虚构率比GPT-4o低26%,而GPT-5-thinking较o3的虚构率下降幅度更高,达65%。
对于可能具备双重用途(既有潜在风险也可能无害)的提示,比尤特尔称,GPT-5会采用“安全完成”策略,即在确保安全的前提下尽可能给出有用回答。据介绍,OpenAI已投入超过5000小时的红队测试,并与外部机构合作验证,以确保系统稳健性。
目前,OpenAI表示ChatGPT的周活跃用户已接近7亿,其中付费企业用户500万,使用API的开发者400万。
“这个模型的整体体验非常好,我相信用户会切实感受到这一点。”ChatGPT负责人尼克·特利(Nick Turley)表示,“尤其是那些平时并不关注模型细节的普通用户。”