2月16日,正值国内春节假期,但一条重磅消息炸醒了国内正在休假的科技爱好者。当地时间2月15日,OpenAI发布文生视频模型Sora。尽管在“文字转视频”领域已经出现了不少颇受好评的AI产品,但Sora的视频产出质量远在预期之外,连友商CEO都感到深深的压力,吓出了一句“Game on(游戏开始)”。
“文生视频AI”也是生成式AI的一种,它能够根据用户输入的提示词、文本指令生成动态的视频。只是早期(也就是不到一年前)的文生视频非常简单,动画形式偏多,比如展现“一只小熊在水槽边洗盘子”的效果,画质也较为粗糙。而且普遍一次能生成的视频也非常短,通常时长上限为3、4秒。
而此次问世的Sora之所以震撼,就是因为在时长、内容等等方面都有“核弹”级别的突破。首先是生成的视频时长限制被拉长到60秒,这几乎是其他主流模型的15倍;其次自带蒙太奇剪辑,多角度镜头流畅切换;还有画面能呈现相对复杂的场景,以及主体角色自然生动的行为表情。
这些突破就形成了近来民众讨论时被频频提到的“真实感”——视频主体与背景搭配比较和谐,同个视频内实现多角度镜头,分镜切换符合逻辑,这都体现出Sora理解真实世界的能力,尤其是对于光影反射、运动方式、镜头移动等细节处理得十分优秀,极大地提升了这种拍电影一般的真实感。虽然Runway的Gen-2和Pika Labs的Pika 1.0在此前已经是文生视频AI的领军人物,但面对Sora的模拟效果,还是被网友调侃为遭到“降维打击”。
尽管OpenAI官网上展现出来的样片质量已经相当高,但现阶段Sora仍有非常宽广的“进步空间”。比如当前Sora就没办法在镜头轨迹中区分运动方向,所以就可能会出现在人跑步机上反向跑的情况;再比如,Sora不太会准确呈现交互关系,所以当角色咬了一口蛋糕时,那块蛋糕可能还是完整的。
像Sora这样的文生视频AI可能在哪些方面得到应用呢?开发团队和分析人士目前的观点是:在电影制作、广告营销、教育培训、游戏制作等方面,文生视频AI都有巨大的潜力空间。
更多财料趣图请戳↓