Meta两小步，AIGC电影一大步

米塔之家 · 2023-12-01 11:37:22

AI在电影制作中的技术应用正迅速变革着影视行业的生产，但这些应用目前更多局限在某个单独生产环节，比如影像生成、后期制作、特效设计、配音配乐等。Meta在最近打包上线了两个关联的电影AI工具，让影像素材生成和剪辑工作得以丝滑对接。

Meta的影像技术新突破

就像《复仇者联盟》的导演乔·鲁索所预判的一样，在不久的将来，我们将看到完全由人工智能生成的电影和电视节目了。起因是Meta在最近推出了新的人工智能工具Emu Video，由之前的图像生成工具Emu演变而来。这个新工具可以响应各种输入：仅文本、仅图像以及文本和图像，通过这些指令自动生成影像素材，例如：一只狗在草地上奔跑，便可以生成一个四秒的视频片段。

Meta将Emu Video的工作过程分为两个步骤：首先，生成以文本提示为条件的图像，然后生成以文本和生成的图像为条件的视频。这种视频生成的拆分方法使Meta能够有效地训练视频生成模型。当然，用户在尝试了一个提示后，生成的图像可能并不是他们想的那样，所以Emu Video支持用户在此前基础上持续调整提示，直到得到最满意的结果。

Emu Video的工作过程。图片来源：Meta

配合Emu Video，Meta还推出了AI视频剪辑工具Emu Edit，对人工智能视频模型进行补充编辑。通过Emu Edit，用户可以用自然语言的描述来修改和剪辑他们的视频，例如：相同的剪辑模板，但以慢动作展示画面，本地和全局编辑，删除和添加背景，颜色和几何变换、检测和分割素材等。与当今许多生成型人工智能模型不同，Emu Edit可以更精确地遵循用户指令，确保与指令无关的素材保持不变。例如，用户输入指令，要求在棒球帽上添加文字「Aloha！」时，棒球帽的自身状态会保持不变。

虽然现在的视频生成技术已经不是什么新鲜事了，但Emu Video能以512×512，每秒16帧的规格进行剪辑，在保真度方面是目前最好的，以至于很难用肉眼区分出Emu Video成品与真实拍摄成品。Emu Video产出的视觉素材用在当前的电影或电视节目中已不会显得格格不入。

Emu Video生成的素材在保真度方面是目前最好的。图片来源：Tech Crunch

Emu Video依然有弊端

在制作简单的、静态场景为主的影像素材方面，Emu Video似乎是目前最成功的AI工具。它能够通过瀑布和城市天际线的视频来表现时间流逝感，但这些场景多少偏离了照片现实主义所需要的立体、动漫、剪纸工艺和蒸汽朋克等风格化表达。Emu Video生成的黎明时分的埃菲尔铁塔的片段太像一幅画了，埃菲尔铁塔反射在塞纳河上，写实却平静得像一张电子贺卡。

Emu Video生成的场景多少偏离了照片现实主义。图片来源：Tech Crunch

然而，即使在Emu Video最好的作品中，人工智能产生的怪异感也会悄悄出现。比如一些怪异的物理现象和附属物品：滑板会在平行的地面移动，人物的脚趾蜷缩在脚后面，物体经常在没有逻辑的情况下从视野中出现和消失。

Emu Video的作品存在的最大问题是素材产量高，但没有中心主题，这似乎源于该模型基础架构对动作和动词没有很强的把握，或许这也是AIGC迈向院线电影制作最大的难点。例如，在Emu Video完成的片段中，一只可爱的拟人化浣熊会拿着吉他，但它不会弹拨吉他，即使这个片段的生成指令和标题中包含弹拨一词。两只独角兽下棋的场面只是在某种意义上，它们坐在棋盘前，表现出思考的样子，却丝毫不移动棋子。很明显，离AIGC电影进入大银幕，Meta还有大量工作要做。