机器之心发布
机器之心编辑部
可灵,视频生成领域的佼佼者,近来动作不断。继发布可灵 1.6 后,又公开了多项研究揭示视频生成的洞察与前沿探索 ——《快手可灵凭什么频繁刷屏?揭秘背后三项重要研究》。可灵近一年来的多次迭代展现出惊人的技术进步,让我们看到了 AI 创作的无限可能,也让我们思考视频生成技术面临的挑战。
视频作为一种时空连续的媒介,对时间维度的连贯性有很高的要求。模型需要确保视频中的每一帧画面都能自然衔接,包括物体运动、光照变化等细节都需要符合现实世界的规律。另一个挑战是用户意图在视频中的精确表达。当创作者想要实现特定的视觉效果时,仅依靠文本描述往往难以准确传达他们的创作意图。这两个挑战直接导致了视频生成的“抽卡率”高,用户难以一次性获得符合预期的生成结果。
针对这些挑战,一个核心解决思路是:通过多模态的用户意图输入来提升视频生成的可控性,从而提升成功率。可灵团队沿着这一思路,在四个控制方向上做了代表性的探索:
这一系列研究成果充分展现了可灵在视频生成领域的系统性探索。通过更好地理解和整合多模态用户意图,降低生成“抽卡率”,可灵正在逐步实现让 AI 视频创作更加精确、可控且易用的目的。
多机位同步视频生成 ——SynCamMaster
Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠 AI 就能够创作出好的视频。然而,我们所常见的大荧幕上的电影通常是由多个摄像机同步拍摄后再剪辑而成的,导演可以根据人物情绪变化或故事情节发展切换镜头,以达到更好的视觉效果。例如,在拍摄两人交谈的场景时,镜头通常根据说话人在两人间切换,并在交谈结束后切换到对整个场景拍摄的镜头。而如今的视频生成模型均无法实现 “多机位同步” 视频生成,限制了 AI 影视制作的能力。
近期,可灵研究团队在 “多视角同步视频生成” 领域做出了首次尝试,推出了基于文本的“多视角同步” 视频生成模型 SynCamMaster,该模型可以根据用户提供的文字描述和相机位姿信息,生成时序同步的多段不同视角视频。
视频链接:
https://mp.weixin.qq.com/s/3NI9YITmCrd8cDT1YMlA9A?token=1323334260&lang=zh_CN
SynCamMaster 支持多种相机视角变化,例如改变相机方位角、俯仰角、距离远近等,在 AI 影视制作、虚拟拍摄等场景有较强的应用价值。此外、该工作提出了多视角同步视频数据集 SynCamVideo-Dataset用于多视角视频生成的研究。
1. SynCamMaster 效果展示:支持多种相机视角变化
a) 相机方位角变化
b) 相机俯仰角变化
c) 相机远近变化
d) 相机方位角、俯仰角同时变化
可以观察到,SynCamMaster 可以根据用户输入的文本描述及相机位姿生成多段时序同步视频,在保证同步性的同时支持大幅度的视角变化。
2. SynCamMaster 的方法和创新点
如下图所示,SynCamMaster 基于预训练的 “文本 - 视频” 生成模型,在每个 Transformer Block 中插入两个新组件:
在训练时只更新新组件参数,预训练的文本 - 视频生成模型保持冻结状态。
SynCamMaster 的主要创新点为:
3. 训练数据集:SynCamVideo 数据集
数据收集过程。图(a),从镜头运动的视频中采样视频帧以构造 “多视角图像数据”,示例图像来自 DL3DV-10K;图(b),通过 Unreal Engine 5 渲染的 “多视角视频数据”;图(c),利用通用视频数据作为正则化。
SynCamVideo 数据集是使用 Unreal Engine 5 渲染的多摄像机同步视频数据集。它包含 1,000 个不同的场景,每个场景由 36 个摄像机拍摄,总计36,000 个视频。SynCamVideo 以 50 种不同的动物为 “主要拍摄对象”, 20 个不同地点作为背景。在每个场景中,从 50 种动物中选择 1-2 个拍摄对象并沿着预定义的轨迹移动,背景从 20 个位置中随机选择,36 个摄像机同时记录拍摄对象的运动。渲染场景示例如下:
每个场景中的摄像机都放置在距离场景中心 3.5m - 9m 的半球形表面上。为了最小化渲染视频与真实世界视频的域偏移,研究者将每个摄像机的仰角限制在 0°- 45° 之间,方位角限制在 0°- 360° 之间。每个摄像头都在上述约束条件下随机采样,而不是在各个场景中使用相同的摄像头位置。上图显示了一个示例,其中红星表示场景的中心点(略高于地面),视频由同步相机渲染,以捕捉主要拍摄对象(在本例中是一只山羊和一只熊)的运动。
4. SynCamMaster 实验结果
上图中研究者将 SynCamMaster 与最先进的方法进行了比较。研究者使用 SynCamMaster 合成多视角图像(M.V. 图像)作为基线方法的参考图像(以蓝色框表示)。据观察,基线方法无法生成多视角同步视频。例如,蓝色巴士可能在一个镜头中停留在原地,在另一个镜头中向前移动。而 SynCamMaster 可以合成符合相机姿势和文本提示的视图对齐视频。更多结果请访问项目主页(https://jianhongbai.github.io/SynCamMaster)查看。
5. 总结
在本文中,研究者提出了 SynCamMaster ,一种基于文本和相机位姿的“多视角同步” 视频生成模型,该模型可以根据用户提供的文字描述和相机位姿信息,生成符合文本描述的时序同步的多段不同视角视频。SynCamMaster 支持多种相机视角变化,例如改变相机方位角、俯仰角、距离远近等。此外、研究者还提供了多视角同步视频数据集 SynCamVideo-Dataset用于多视角视频生成的研究。
精准控制视频中物体的 3D 轨迹 ——3DTrajMaster
除了多机位同步生成,虚拟拍摄的真正落地亟需精准的物体可控性。试想一下,如果我们可以精准控制视频中每个主体的 3D 时空位置,那么就可以拍摄出针对物体的定制化特效,进一步促进 AI 电影的进展。
可灵研究团队提出了 3DTrajMaster 的多物体 3D 位姿可控的视频生成模型。该方法通过逐主体相对应的 3D 轨迹控制视频生成中多个主体在 3D 空间中的运动,相比与传统在 2D 空间的表征 (边界框、点轨迹等) 是一种更本真的物体运动建模方式。这里的 3D 轨迹指可控制 6 个自由度,即控制主体的 3D 位置和朝向。
1. 3DTrajMaster 性能展示
以下展示了 3DTrajMaster 的广泛特征:
(1) 泛化到多种主体:包括人、动物、机器人、飞机、汽车,甚至抽象的火焰、云雾等。
(2) 泛化到多样的背景:如下所示可以将一只考拉以相同的 3D 轨迹生成在城市、森林、沙漠、海滩、冰川、洞穴等不同的场景中。
(3) 生成复杂的 3D 轨迹:支持多个主体的 3D 遮挡、180 度 / 连续 90 度的转弯、大角度的变向、原地转圈等
(4) 精细化控制物体细节:可改变人的穿着、发型、身材、性别、佩戴等,也可以改变其它物体 (如动物、车) 的整体定性描述
2. 3DTrajMaster 方法介绍
3DTrajMaster 的训练涵盖两个阶段。首先,它通过训练 LoRA (具体为基模型的自注意力、跨注意力和线性映射层)作为域自适应器来减轻训练数据集(通过 UE 引擎采集的运动轨迹 - 视频 pair)带来的负面影响。
其次,该方法选择了一种通用的方法在 2D 空间自注意力层之后插入 object injector 来插入成对的文本实体提示和 3D 轨迹。具体而言,实体通过文本编码器被投影到隐空间向量中,并利用可学习的位姿编码器投影成和 3D VAE 编码后对齐的位姿序列,然后与实体嵌入融合形成实体和轨迹的对应关系。这种对应关系嵌入与视频隐空间向量相连接,并被馈送到门控自注意力层进行进一步的运动融合。最后,修改后的隐向量返回到 DiT 块中的剩余层中。
在推理阶段,该方法将退火采样策略融入了 DDIM 采样:在较为初始的推理过程步骤中,主体和相对应的轨迹插入模型中以确定总体的多物体运动轨迹,而在后续阶段它们被舍弃,模型退回到最基础的文生视频过程。
3. UE 渲染的标注物体 6DoF 位姿的数据集合 360°-Motion
高质量的训练数据对于模型的训练至关重要,但是目前从通用的视频数据中标注物体的 6DoF 位姿数据非常困难:
为了解决这个问题,可灵研究团队通过 UE 平台构建了合成的 360°-Motion 数据集。如下图所示,团队首先收集了 70 个可驱动运动的人和动物 3D 资产,并进一步用 GPT-4V 给资产打上相应的文本标注。然后,研究团队采用了 GPT 生成复杂的多物体运动轨迹 (含 3D 位置和朝向,在 5×5 平方米的运动平台上),涵盖 96 个运动轨迹模版。其次,研究团队收集了 9 个 3D UE 平台 (涵盖城市、沙漠、森林和 5 个投影到 3D 空间的 HDRIs),并将 3D 资产与生成的 3D 轨迹组合放置在 UE 平台中。最后安置 12 个相机环绕拍摄多物体的运动,获得 54,000 组训练视频数据。
4. 3DTrajMaster 效果对比
相比 SOTA 的基准 Direct-a-Video、MotionCtrl、Tora 等,3DTrajMaster可以在 3D 空间进一步控制物体的位置和朝向,同时它可以学到多主体和相对应的 3D 轨迹对应关系,而这是之前 2D 运动表征的方法普遍缺失的。当多物体在 3D 空间中存在运动的遮挡,这个难点会变得更加突出。
相比逐场景优化的 TC4D,3DTrajMaster 这种 feed-forward 的方法可以实现 700× 的提速,并且具有更高质量的现实画质和渲染更多样的背景。
5. 总结与未来展望
3DTrajMaster 展示了强大的视频生成和 3D 交互的可能性。在未来,更复杂的运动表征 (如人跳舞、挥舞手等局部运动,一个男人举起一只狗等交互运动) 也可以通过类似的 structured 运动表征进行建模,其中核心的是构建高质量的运动表征数据。同时,更加复杂的文本提示词输入和更多的主体输入也是可以进一步改进的点,这些都将为高质量可控的虚拟视频拍摄打下基础。
独特的视频艺术风格呈现 ——StyleMaster
创作者们不再满足于简单的视频生成,而是追求更具艺术性和个性化的创作表达。风格控制其能够赋予视频独特的艺术气质。然而,现有的视频风格化方法面临着两个主要挑战:难以准确提取和迁移参考图像的风格特征,以及在视频风格转换时出现时序不连贯、内容难以保持的问题,这严重限制了 AI 视频艺术创作的表现力。
StyleMaster,通过进一步提升参考图像中的风格和内容的解耦能力来提升生成视频中的风格准确度,引入内容控制模块以及运动提升模块来改善内容一致性与时序稳定性。
1. StyleMaster 效果展示
以下展示了 StyleMaster 的多方面性能。
视频风格迁移:给定任意源视频,StyleMaster 能在内容保持良好的前提下根据提供的风格参考图将其转换至对应风格。并且在时序上保持良好的一致性和流畅度。
风格化视频生成:给定文字 prompt 和风格图像,StyleMaster 能生成风格准确、文本对齐的高质量视频。并且,对于不同的 prompt 和风格图都具有良好的泛化性。
相同风格,不同 prompt 效果:
相同 prompt,不同风格图效果:
图像风格迁移:与其他图像风格迁移方法相比,StyleMaster 能够更好地对齐参考图中的风格,例如使用诺贝尔获奖图风格对人物风格化时,StyleMaster 能更好地将图片转变为线条风,而不是保留过多细节,仅仅改变图像的颜色。
2. StyleMaster 方法介绍
自动化风格配对数据集构建
StyleMaster 提出创新解决方案来完成风格数据集的自动构建。通过 model illusion(模型幻觉)技术,预训练的文生图模型可自动生成配对数据。具体通过预定义的物体列表和风格描述列表,随机选择风格和物体生成配对图像。由于生成的配对图像本质是像素重排,能完美保证风格一致性,且完全自动化。
双重特征提取机制
优化与控制
交互式视频游戏生成 ——GameFactory
视频模型在视频生成和物理模拟中的潜力使其成为未来游戏引擎的有力候选者。AI 驱动的引擎能够通过自动化生成游戏内容,显著减少传统开发中的工作量。然而,现有研究多局限于过拟合特定游戏(如《DOOM》、《Minecraft》、《Super Mario Bros》等),限制了模型创建全新游戏场景的能力,同时高昂的动作标注数据成本进一步增加了实现泛化的难度。因此,提升场景泛化能力成为生成式游戏引擎发展的关键方向。
为解决这一挑战,可灵研究团队提出了 GameFactory 框架。通过结合少量 Minecraft 的高质量动作标注数据与预训练视频生成模型,GameFactory 探索了一条基于在开放域非标注视频数据上预训练的经济可行路径。
该方法能够将从小规模标注数据集中学习到的物理控制知识泛化到开放域场景,不仅显著提升了场景泛化能力,还为解决具身智能、自动驾驶等复杂领域的问题带来了更多可能。
其核心创新包括多阶段解耦训练策略,将游戏风格学习与动作控制学习分离,避免生成内容受特定风格限制;自回归生成机制,支持无限长的动作可控视频生成,满足持续游戏的实际需求;以及开源高质量数据集 GF-Minecraft,有效克服传统标注数据中的人类偏差,为未来的研究提供了坚实基础。
1. GameFactory 效果展示
以下展示 GameFactory 的效果:
(1)开放域的可控游戏视频生成能力。如下所示,利用预训练视频大模型的强大生成先验,GameFactory 将能够生成训练时没有见过的游戏场景,并泛化游戏动作的控制能力。(2)无限长可控游戏视频的生成能力。如下所示,展示了 GameFactory 通过自回归的方式生成几十秒可控游戏长视频的效果。
视频链接:
https://mp.weixin.qq.com/s/3NI9YITmCrd8cDT1YMlA9A?token=1323334260&lang=zh_CN
2. GameFactory 方法介绍
下图展示了GameFactory 的设计思想,如何利用预训练的大型视频生成模型与动作控制模块生成新游戏。蓝色上半部分展示了通过海量无标注开放领域数据预训练的大型视频生成模型,具备强大的开放领域视频生成能力,提供丰富的生成基础;绿色下半部分则展示了从少量标注的游戏动作数据中训练出的动作控制模块如何与预训练模型结合,生成受动作控制的动态内容。通过将两者有机结合,GameFactory 能够实现从视频生成到动作控制的泛化,最终支持创建新游戏及其他受控场景的开发。
下图展示的是动作控制模块,其是视频生成模型实现互动性的关键设计。
如图中(a)部分所示,通过与 Transformer 结构的深度结合,让模型具备响应用户输入的能力。如图中(b)部分所示,模块针对连续的鼠标信号和离散的键盘指令设计了不同的处理机制。此外如图(c)中所示,模块引入了动作分组机制,解决了动作信号与潜在特征在时间粒度上的不匹配问题,同时设计了了滑动窗口机制捕捉延迟动作对多帧画面的影响。
通过这一架构,视频生成模型不仅能生成高质量内容,还能动态响应用户指令,为互动式视频和游戏生成带来新的可能。
下图展示了一个分阶段的训练策略,旨在实现动作控制与开放领域内容生成的有效结合。
这种设计将风格学习与动作控制分离,不仅保留了开放领域的生成能力,还通过动作控制模块实现了场景泛化和用户指令的响应,充分展示了模型的灵活性和适应性。
下图展示了自回归视频生成的过程,包括训练阶段和推理阶段。在训练阶段(左图),模型使用前面若干帧作为条件帧,预测后续的帧。条件帧的数量是随机选定的,损失函数专注于预测噪声帧的部分,从而优化模型的生成能力。在推理阶段(右图),模型通过自回归的方式逐帧生成视频内容,每次使用历史视频的潜在特征作为条件,逐步生成新的帧。这样的设计保证了训练时的多样性和推理时生成内容的连贯性,能够生成高质量、动态一致的视频内容。
3. GF-Minecraft 数据集
GF-Minecraft 数据集的设计充分考虑了动作可控视频生成的核心需求,具有以下显著特点。
首先,数据集通过可自定义的动作序列实现了低成本的大规模数据采集,同时确保动作序列具有随机性和多样性,从而覆盖了低概率但关键的动作组合。
其次,Minecraft 平台的多样化开放世界环境以及丰富的动作空间为捕捉场景物理动态提供了理想条件。
为了增强多样性,数据采集预设了三种生物群落(森林、平原、沙漠)、三种天气状态(晴天、下雨、雷暴)和六种时间段(如日出、正午、午夜),生成了超过 2,000 个视频片段,每个片段包含 2,000 帧,并配有由 MiniCPM-V 多模态语言模型生成的文本描述。这些设计使得该数据集能够有效支持动作可控和场景泛化的视频生成模型训练,尤其在多样性和场景描述的精细度上提供了极大优势。下面是一个数据标注的示例:
4. 未来展望
展望未来,可灵研究团队提出的 GameFactory 不仅是一个用于创建新游戏的工具,更是一个具有广泛应用潜力的通用世界模型。该模型能够将从小规模标注数据集中学到的物理知识泛化到开放领域场景,解决包括自动驾驶和具身智能等领域中的关键挑战,这些领域同样面临缺乏大规模动作标注数据集的问题。
在本文中,研究团队通过 GameFactory 提出了一种利用生成式交互视频来创建新游戏的框架,填补了现有研究在场景泛化能力上的重要空白。然而,生成式游戏引擎的研究仍面临诸多挑战,例如关卡和玩法的多样性设计、玩家反馈系统、游戏内对象的操控、长上下文记忆,以及实时游戏生成等复杂问题。GameFactory 是可灵在这一领域迈出的第一步,未来将继续努力,向实现一个全面的生成式游戏引擎目标迈进。
结语
视频生成本身时空建模难度高,准确体现用户意图在视频中是一项巨大的挑战,这些挑战导致视频生成的 “抽卡率” 较高。为了应对这些问题,核心思路是通过多模态的用户意图输入来提升视频生成的可控性和精确性。可灵在三维空间控制(SynCamMaster)、运动轨迹控制(3DTrajMaster)和内容风格控制(StyleMaster)三个方向上进行了具有代表性的探索。此外,通过多轮次的多模态用户意图交互(GameFactory),展示了视频生成技术在游戏创作等领域的广阔应用前景。这些技术通过更好地理解和整合多模态用户意图来降低视频生成的 “抽卡率”。
可灵正在用技术创新推动着视频生成领域走向更远的未来。在这个充满无限可能的领域,期待看到更多令人欣喜的发展,让 AI 创作的边界不断拓展,让创作者能够更自由地表达他们的想象力;让视频生成能够为更多领域带来新探索的可能性。
欢迎大家在可灵 AI 平台体验最新最强的视频生成技术:https://klingai.kuaishou.com/。欢迎大家关注可灵 AI 研究的最新进展,一起思考、探索视频生成的新前景。欢迎大家加入可灵 AI 团队(欢迎联系 zhangluowa@kuaishou.com),共同创造未来的视频生成!