2024-09-18 16:42:23|已浏览:39次
视频也可以用扩散模型来生成了,效果很能打:新SOTA已达成 | 谷歌 欲解视频生成模型一致性难题 中国版“Sora”Vidu发布“一张图片锁定主体”能力,
视频也可以用扩散模型来生成了,效果很能打:新SOTA已达成 | 谷歌
丰色 发自 凹非寺
量子位 | 公众号 QbitAI
扩散模型最近是真的有点火。
前有OpenAI用它打败霸榜多年的GAN,现在谷歌又紧随其后,提出了一个视频扩散模型。
和图像生成一样,初次尝试,它居然就表现出了不俗的性能。
比如输入“fireworks”,就能生成这样的效果:
满屏烟花盛放,肉眼看上去简直可以说是以假乱真了。
为了让生成视频更长、分辨率更高,作者还在这个扩散模型中引入了一种全新的采样方法。
最终,该模型在无条件视频生成任务中达到全新SOTA。
一起来看。
由图像扩散模型扩展而成
这个扩散视频模型,由标准的图像扩散模型UNet扩展而成。
UNet是一种神经网络架构,分为空间下采样通道和上采样通道,通过残差连接。
该网络由多层2D卷积残差块构建而成,每个卷积块后面跟着一个空间注意块。
通过固定帧数的块,以及在空间和时间上分解的3D U-Net,就可以将它扩展为视频模型。
具体来说:
先将每个二维卷积更改为三维卷积(space-only),比如将3x3卷积更改为1x3x3卷积(第一轴(axis)索引视频帧,第二轴和第三轴索引空间高度和宽度)。
每个空间注意块中的注意力仍然专注于空间维度。
然后,在每个空间注意块之后,插入一个时间注意块;该时间注意块在第一个轴上执行注意力,并将空间轴视为批处理轴(batch axes)。
众所周知,像这样在视频Transformer中分对时空注意力进行分解,会让计算效率更高。
由此一来,也就能在视频和图像上对模型进行联合训练,而这种联合训练对提高样本质量很有帮助。
此外,为了生成更长和更高分辨率的视频,作者还引入了一种新的调整技术:梯度法。
它主要修改模型的采样过程,使用基于梯度的优化来改善去噪数据的条件损失,将模型自回归扩展到更多的时间步(timestep)和更高的分辨率。
评估无条件和文本条件下的生成效果
对于无条件视频生成,训练和评估在现有基准上进行。
该模型最终获得了最高的FID分数和IS分数,大大超越了此前的SOTA模型。
对于文本条件下的视频生成,作者在1000万个字幕视频的数据集上进行了训练,空间分辨率为64x64px;
在此之前,视频生成模型采用的都是各种GAN、VAE,以及基于流的模型以及自回归模型。
所以这也是他们首次报告扩散模型根据文本生成视频的结果。
下图则显示了无分类器引导对该模型生成质量的影响:与其他非扩散模型一致,添加引导会增加每个单独图像的保真度(右为该视频扩散模型,可以看到它的图片更加真实和清晰)。
△ 图片为随机截取的视频帧
最后,作者也验证发现,他们所提出的梯度法在生成长视频时,确实比此前的方法更具多样性,也就更能保证生成的样本与文本达成一致。
△ 右为梯度法
论文地址:
https://arxiv.org/abs/2204.03458
项目主页:
https://video-diffusion.github.io/
欲解视频生成模型一致性难题 中国版“Sora”Vidu发布“一张图片锁定主体”能力
每经记者 李少婷 每经编辑 魏官红
9月11日,生数科技举办媒体开放日活动,发布“主体参照”(Subject Consistency)功能,该功能能够实现对任意主体的一致性生成,让视频生成更加稳定、可控。据了解,目前该功能面向用户免费开放。
此前的4月底,由生数科技和清华大学联合研发的原创视频大模型Vidu面向全球发布,7月底正式上线,全面开放使用。
生数科技CEO唐家渝在开放日上对包括《每日经济新闻》记者在内的媒体记者表示,“主体参照”功能意在解决视频模型存在的“不可控”的局限性。当前,视频模型存在连续性弱、输出随机的局限性。连续性弱是指无法保证每次生成视频时主体、场景、风格等的一致性,涉及复杂交互的情况下尤为明显。输出随机是指输出结果随机性比较大,需要不断生成尝试,对于运镜、光效等细节还无法实现精细准确的控制。
生数科技CEO唐家渝 图片来源:每经记者 李少婷 摄
此前,业界尝试采用“先AI生图、再图生视频”的方法,通过AI绘图工具生成分镜头画面,先在图片层面保持主体一致,然后再将画面转化为视频片段并进行剪辑合成。
“主体参照”功能下,用户上传任意主体的一张图片,即可锁定该主体的形象,通过描述词任意切换场景,输出主体一致的视频。该功能不局限于单一对象,面向“任意主体”,包括人物、动物、商品,还有动漫角色、虚构主体等。