2月份,我们在SORA上推送了第一个故事; OpenAI 刚刚发布了 SORA 的第一个剪辑,我们当时将其描述为视频中的 DALL·E 的视频版本。 SORA 是一种扩散模型,与任何竞争对手相比,它生成的视频更长、更有凝聚力。通过一次为模型提供多个帧的预见,他们解决了确保主题即使暂时离开视野也保持一致的挑战性问题。 SORA 可以一次性生成整个视频,长度可达一分钟。当时,OpenAI 还发布了技术说明,表明它可以(在未来)扩展生成的视频,使其更长或无缝混合两个视频。
在过去的几周里,几个精选的制作团队已获得对 SORA 的有限访问权限。其中最引人注目的团队之一是Shy Kids团队,他们制作了 SORA 短片《Air Head》。西德尼·利德担任这部电影的制片人。沃尔特·伍德曼担任编剧兼导演,帕特里克·塞德伯格负责后期制作。多伦多团队被称为朋克摇滚皮克斯,他们的作品获得了艾美奖提名并入围奥斯卡奖长名单。
各个剪辑对于它们所代表的技术而言都是非凡且令人瞠目结舌的,但剪辑的使用取决于您对隐式或显式镜头生成的理解。假设你要求 SORA 在厨房里拍摄一张桌上有香蕉的长镜头。在这种情况下,它将依靠对香蕉性的隐式理解来生成显示香蕉的视频。通过训练数据,它学习了香蕉的隐含方面:例如“黄色”、“弯曲”、“有深色末端”等。它没有实际记录的香蕉图像。它没有“香蕉库存库”数据库;它的压缩隐藏空间或“潜在空间”比香蕉小得多。每次运行时,它都会显示对该潜在空间的另一种解释。你的提示回应了对香蕉性的隐含理解。
Air Head仅使用 SORA 生成的素材,但其中大部分都经过了分级、处理和稳定,并且所有这些素材都经过了升级或提升。团队使用的剪辑以较低的分辨率生成,然后使用 SORA 或 OpenAI 之外的 AI 工具进行压缩。 “您可以达到 720 P(分辨率),”Patrick 解释道。 “我相信 1080 功能已经推出,但需要一段时间(渲染)。我们以 480 度的速度完成了所有的Air Head,然后使用Topaz进行直立。”
提示“时间”:老虎机。
原始提示会自动扩展,但也会沿着时间线显示。 “您可以进入那些较大的关键帧,并根据您想要生成的更改开始调整信息。”帕里克解释说,“对于这些不同的行为在实际生成中发生的位置有一点时间控制,但这并不精确……这有点像老虎机一样,无法确定它是否真正实现了这些目标。”事已至此。”当然,Shy Kids 正在开发最早的原型,而 SORA 仍在不断开发中。
OpenAI 试图保持尊重,不允许生成侵犯版权的材料或生成看似来自他人的图像。例如,如果您提示诸如未来宇宙飞船中的 35mm 胶片、一名男子拿着光剑向前走, SORA 将不允许生成该剪辑,因为它太接近星球大战了。但害羞的孩子们在早期测试中意外地遇到了这一点。帕特里克回忆道,当他们最初坐下来只是想测试 SORA 时,“我们在角色背后拍摄了一个镜头;这有点像阿罗诺夫斯基的跟随镜头。我认为这只是我愚蠢的大脑,因为我很累,但我把‘阿罗诺夫斯基式射击’放进去,然后被击中了,不能这样做。”他回忆道。Hitchcock Zoom是另一个现在通过技术术语渗透而出现的东西,但 SORA 出于版权目的拒绝了这一提示。
帕特里克本人为桑尼配音。 “有时我们会觉得这部电影需要另一个节奏。所以我会写另一行,记录下来,并提出更多的 SORA 代,这是帖子中该工具的另一个强大用途:当你处于角落,并且需要填补空白时,这是一个很棒的工具这是一种开始集思广益的方式,然后将剪辑吐出来,看看可以用什么来解决节奏问题。”
概括
SORA 是非凡的; Shy Kids 团队仅用 3 人的团队在大约 1.5 至 2 周内制作了《Air Head》 。该团队已经在制作一部精彩的、有自我意识的、或许还有讽刺意味的续集。 “后续内容是对气球人桑尼的新闻报道,以及他对名声的反应以及随后与世界的争吵,”帕特里克说。 “我们正在探索新技术!”该团队希望在实验中更具技术性,将 SORA 元素的 AE 合成融入到真实的实景镜头中,并使用 SORA 作为补充视觉特效工具。
SORA 非常新,甚至 OpenAI 为 SORA 勾勒和演示的基本框架也尚未可供早期测试使用。目前形式的 SORA 是否会很快发布还值得怀疑,但它在特定类型的隐式图像生成方面是一个令人难以置信的进步。对于高端项目,可能需要一段时间才能达到导演所要求的具体程度。对于许多其他人来说,它“足够接近”,同时提供令人惊叹的图像。Air Head仍然需要大量的编辑和人力指导来制作这部引人入胜且有趣的故事电影。 “我只是觉得人们必须将 SORA 作为他们流程中真实的一部分;然而,如果他们不想参与类似的事情,也没关系。”