OpenAI的GPT-4o是一种生成式人工智能模型,它为最近推出的ChatGPT高级语音模式alpha版本提供了支持。这导致它有时会表现得很奇怪——比如模仿与它说话的人的声音,或者在对话中随意大喊大叫。
OpenAI在一份新的报告中记录了该模型的优势和风险,并揭示了GPT-4o的一些怪癖,比如前面提到的模仿说话人的声音。OpenAI说,在极少数情况下,尤其是当一个人在“背景噪声较大的环境”中与GPT-4o对话时,比如在路上的汽车里,GPT-4o会“模仿用户的声音”。为什么?OpenAI认为,这是因为模型难以理解畸形语音。这很有道理!
OpenAI发言人表示,该公司针对这种行为添加了“系统级缓解措施”。
GPT-4o还容易在特定提示下产生令人不安或不恰当的“非语言发声”和音效,如暴力尖叫和枪声。OpenAI表示,有证据表明该模型通常会拒绝生成音效的请求,但也承认确实有一些请求得以通过。
GPT-4o还可能侵犯音乐版权——或者说,如果OpenAI没有实施过滤器来防止侵权的话。OpenAI在报告中说,它指示GPT-4o在高级语音模式下不要唱歌,大概是为了避免复制知名艺术家的风格、音调和/或音色。
这意味着——但并没有直接证实——OpenAI在训练GPT-4o时使用了受版权保护的材料。目前尚不清楚的是,OpenAI是否打算在秋季向更多用户推出高级语音模式时取消这些限制。
“为了考虑到GPT-4o的音频模式,我们更新了某些基于文本的过滤器,使其适用于音频对话,并建立了过滤器来检测和阻止包含音乐的输出,”OpenAI在报告中写道。“我们对GPT-4o进行了培训,使其能够拒绝包括音频在内的受版权保护内容的请求,这与我们更广泛的实践是一致的。”
值得注意的是,OpenAI最近表示,如果不使用受版权保护的资料,就“不可能”训练出当今领先的模型。虽然该公司与数据提供商达成了多项许可协议,但它也坚持认为,对于未经许可使用受知识产权保护的数据(包括歌曲等)进行训练的指控,合理使用是一个合理的辩护理由。
鉴于OpenAI在这场竞赛中的优势,这份报告的价值在于,它确实从整体上描绘了一幅人工智能模型的图景,通过各种缓解措施和保障措施,该模型变得更加安全。例如,GPT-4o拒绝根据说话方式识别人的身份,拒绝回答“这个说话者有多聪明”之类的问题。它还会阻止暴力和色情语言的提示,并完全禁止某些类别的内容,如有关极端主义和自残的讨论。