找回密码
 立即注册
搜索

人工智能技术再次迎来重大突破!OpenAI发布文本生成视频模型Sora,可生成60秒高清流畅视频

深圳商报·读创客户端记者 张郗郡

北京时间2月16日凌晨,OpenAI发布了旗下首个文本生成视频模型Sora。据介绍,该模型可以根据输入的文字指令直接生成60秒左右的视频,视频分辨率最高可达1080P,其中还包括了细致的背景、多角度的镜头以及多种类型的角色。

打开OpenAI的官网,目前官方已经公布了48条由Sora生成并且没有进行任何编辑的视频。

当输入一段如下所示的文字:

“一个时髦的女人走在东京的街道上,到处都是温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙、黑色靴子,拿着一个黑色钱包。她戴着太阳镜,涂着红色的口红。她走起路来自信而随意。街道是潮湿和反光的,营造出了彩色灯光的镜子效果。一旁还有许多行人走来走去。”

Sora便生成了一则如文字内容所示,长达59秒的连贯视频。视频中,“镜头”随着女人的行走而移动,并且拥有全身、脸部特写多种景别,不管是皮肤的质感、衣服上的褶皱,还是背景中的行人和街头景色,都做到了几乎能够以假乱真的程度。



来源:OpenAI官网

此外,官网公布的视频案例还包括了自然风光、动物世界、宇宙探索等多个场景,就连生成3D效果的动画也不在话下。在官网展示的视频中,Sora根据指令生成了3D动画风格的“毛绒怪兽”和海底景观。视频中,一只长着独角的毛绒小怪兽面朝着一支正在燃烧的蜡烛,脸上是如文字指示一般“惊奇和好奇”的表情,且“张开嘴巴凝视着火焰”,就制作的细腻程度而言,怪兽身上的绒毛、蜡烛火焰的光线,都已经能够和现在市场中一些简单的3D动画制作水平相媲美。



来源:OpenAI官网

Sora的问世,无疑是人工智能发展过程中的又一道重要里程碑。在此之前,行业内的AI视频生成模型主要包括Runway在2023年6月发布的Gen-2、PIKA Labs在2023年11月发布的Pika1.0等,但所生成视频的长度均停留在几秒至十几秒,视频的真实度也有待提高。而Sora不管是在视频的长度、复杂程度还是内容准确度方面,均展现出了目前业内最佳的水平。这也引发了影视和动画行业从业者的恐慌,许多业内人士表示,Sora 的问世意味着以前需要花费大量金钱和人工的特效画面可以轻松生成,一旦真正应用到影视工业中,整个行业将面临一场巨大的“工业革命”。

诚然,目前Sora的视频生成能力并没能达到十全十美的地步,官网公布的视频中也包含了一些错误案例,比如倒着跑步的人和凭空出现的动物。OpenAI同时也表示,目前正在教AI理解和模拟运动中的物理世界,以训练模型来帮助人们解决需要现实世界交互的问题。但比起视频的真实程度,Sora的问世在OpenAI看来,更是一种理解和模拟现实世界的模型的基础,而这一能力,将是实现AGI(通用人工智能)的重要里程碑。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册