ChatGPT的高级语音模式(AVM)现在有视频和屏幕共享功能了!该功能将于周四开始向付费的ChatGPT Plus和Pro订阅者推出,企业和教育客户则将于一月份获得该功能。
在“12 Days of OpenAI”活动的第六天,这家人工智能初创公司宣布,ChatGPT可以识别摄像头拍摄到的或设备屏幕上显示的物体,并通过其高级语音模式功能进行响应。用户可以使用手机摄像头与ChatGPT聊天,模型将“看到”您所看到的内容。
此前,OpenAI在5月份推出GPT-4o模型时就预告了该功能。该初创公司表示,AVM由OpenAI的原生多模式4o模型提供支持,这意味着它可以处理音频输入,并以自然的对话方式做出响应。
OpenAI的视频模式感觉就像视频通话,因为ChatGPT会实时响应用户在视频中显示的内容。它可以看到用户周围的事物,识别物体,甚至记住自我介绍的人。在直播中,该公司首席产品官(CPO)Kevin Weil和其他团队成员演示了ChatGPT协助如何制作手冲咖啡。他们通过将摄像机对准冲咖啡的动作,AVM引导团队完成了冲泡过程,证明它了解咖啡机的原理。
另外,ChatGPT还可以识别屏幕上的内容。在演示中,OpenAI研究人员触发了屏幕共享,然后打开消息应用程序,请求ChatGPT帮助回复通过短信收到的照片。
这一期待已久的消息是在谷歌推出下一代旗舰模型Gemini 2.0的一天后发布的。新的Gemini 2.0可以处理视觉和音频输入,并具有更多代理功能,这意味着它可以代表用户执行多步骤任务。 Gemini 2.0的代理功能目前有三个不同名称的研究原型:用于通用AI助手的Project Astra、用于特定AI任务的Project Mariner ,以及用于开发人员的Project Jules。
另外,上周,微软也发布了Copilot Vision的预览版,它可以让Pro订阅者在浏览网页时打开Copilot聊天。 Copilot Vision可以查看屏幕上的照片,甚至可以帮忙玩地图猜谜游戏。谷歌的Project Astra也可以用同样的方式读取浏览器。
OpenAI也不甘示弱,其演示展示了ChatGPT的视觉模式如何准确识别物体,甚至是可中断的,其中还包括语音模式下的圣诞老人语音选项,声音低沉、欢快,还有很多“ho-ho-hos(呵呵呵)”。用户可以通过点击ChatGPT中的雪花图标与OpenAI版本的圣诞老人聊天。媒体开玩笑说道,目前尚不清楚到底是真正的圣诞老人为AI训练贡献了自己的声音,还是OpenAI在未经事先同意的情况下使用了他的声音。
此前,具有视觉功能的高级语音模式已被多次推迟。据报道,部分原因是OpenAI在准备好之前就早早宣布了该功能。今年4月,OpenAI承诺将在“几周内”向用户推出高级语音模式。几个月后,该公司仍表示需要更多时间。