视频版Stable Diffusion：英伟达做到最高1280×2048、最长47秒

返回首页　

设为首页　

加入收藏　

今天是:

网站首页电脑主板电脑cpu 电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修

视频版Stable Diffusion：英…
满功耗RTX4060显卡+H55i7处理…
如何去选择一个好的台式电脑…
显卡天梯图2020年12月完整版…
2023台北电脑展5月底开幕英伟…
查看显卡型号电脑怎么查看显…
电脑主板待机电压？
主板cmos电路待机电压
主板B760和B660区别是什么？…
电脑电源待机5V坏了(电脑主板…
笔记本电脑桥待机电压怎么看…
电脑硬盘分区合并怎么操作？…
Omdia：苹果计划2027年推出3…
卖不动了！全球PC出货量暴跌…
钛度首款4K MiniLED显示器M3…
苹果头显最新爆料：适配大部…
消息称苹果计划在2027年推出…
如何升级您的笔记本电脑：逐…
笔记本换cpu手把手教你笔记本…
酷睿I7 12700H是几核处理器 …
笔记本这样升级让你的电脑翻…
2023年哪一款笔记本电脑值得…
电脑如何查看配置参数
电脑主机配置大佬麻烦给看看
教你怎么查看电脑配置
电脑配置怎么看？这3种方法就…
如何查看电脑硬件配置查看电…
5000多块的轻薄本能不能做照…
用了这么多年 Rust 终于搞明…
为什么Android开发使用Java而…
最新资讯_存储_DIY电脑硬件频…
2304分区4K高刷HDMI21 全能电…
群创首发无限拼接AMminiLED公…
新技术突破！芝加哥大学开发…
长信科技2023年第一季度营收…
新技术突破！芝加哥大学开发…
PC过冬厂商难熬CPU、GPU、SS…
根号二笔记本电脑新款发布性…
碧蓝档案国际服电脑版哪个模…
CPU为什么很少会坏？答案揭晓
她走了一辈子“匍匐在地擦干…
电脑配置-数码-PC区-虎扑社区
公司电脑老哥们能帮忙看看这…
华硕首款接口背插主板 B760M…
老哥们请教一下这台电脑配置…
黑苹果注入EDID让Intel 500系…
在计算机存储器中存储英文字…
boss内存条有几种英文表达？…
人们通常购买或升级内存条来…
在计算机存储器中存储英文字…

专题栏目

您现在的位置：电脑评测网 >> 电脑内存 >> 正文

高级搜索

视频版Stable Diffusion：英伟达做到最高1280×2048、最长47秒

作者：佚名文章来源：本站原创点击数：更新时间：2023/4/26 21:35:16 | 【字体：小大】

　　死亡火枪ox在生成式 AI 盛行的今天，英伟达在文本生成视频领域更进了一步，实现了更高分辨率、更长时间。

　　要说现阶段谁是 AI 领域的「当红辣子鸡」？生成式 AI 舍我其谁。包括 ChatGPT 等对话式 AI 聊天应用、Stable Diffusion 等 AI 绘画神器在内，生成式 AI 展示的效果深深地抓住了人们的眼球。

　　我们以图像生成模型为例，得益于底层建模技术最近的突破，它们收获了前所未有的关注。如今，最强大的模型构建在生成对抗网络、自回归 transformer 和扩散模型（diffusion model, DM）之上。其中扩散模型的优势在于能够提供稳健和可扩展的训练目标，并且参数密集度通常低于基于 transformer 的竞品模型。

　　虽然图像领域取得了长足进步，但视频建模却落后了，这主要归咎于视频数据训练的高昂计算成本以及缺乏大规模公开可用的通用数据集。目前视频合成虽有丰富的研究文献，但包括先前视频 DM 在内的大多数工作仅能生成分辨率较低且往往较短的视频。

　　因此，如何生成分辨率更高、更长的视频成为一个热门研究课题。近日慕尼黑大学、英伟达等机构的研究者利用潜在扩散模型（latent diffusion model, LDM）实现了高分辨率的长视频合成。相关论文已经发表在 arXiv 上。

　　在论文中，研究者将视频模型应用于真实世界问题并生成了高分辨率的长视频。他们关注两个相关的视频生成问题，一是高分辨率真实世界驾驶数据的视频合成，其在自动驾驶环境中作为模拟引擎具有巨大潜力；二是文本指导视频生成，用于创意内容生成。

　　为此，研究者提出了视频潜在扩散模型（Video LDM），并将 LDM 扩展到了计算密集型任务 —— 高分辨率视频生成。与以往视频生成 DM 工作相比，他们仅在图像上预训练 Video LDM（或者使用可用的预训练图像 LDM），从而允许利用大规模图像数据集。

　　接着将时间维度引入潜在空间 DM、并在编码图像序列（即视频）上仅训练这些时间层的同时固定预训练空间层，从而将 LDM 图像生成器转换为视频生成器（下图左）。最后以类似方式微调 LDM 的解码器以实现像素空间中的时间一致性（下图右）。

　　此外，为了进一步提高空间分辨率，研究者对像素空间和潜在 DM 上采样器进行时间对齐，将它们转换为时间一致的视频超分辨率模型。在 LDM 的基础上，本文方法以计算和内存高效的方式生成了全局连贯的长视频。对于非常高分辨率的合成，视频上采样器只需要在本地运行，保持了较低的训练和计算要求。

　　最后，研究者进行了消融实验，在分辨率为 512×1024 的真实驾驶场景视频上对其方法进行了测试，实现了 SOTA 视频质量，并合成了几分钟的视频。此外，他们还微调了 Stable Diffusion，将它变成一个高效、强大的文本到视频生成器，分辨率最高可达 1280 × 2048。

　　通过将经过训练的时间层迁移至不同的微调文本到图像 LDM，研究者首次展示了个性化的文本到视频生成，并希望自己的工作为高效的数字内容创建和自动驾驶模拟开辟新的途径。

　　我们来看几个文本到视频生成示例，比如「弹电吉他的泰迪熊、高分辨率、4K」。

　　这部分中，研究者描述了为实现高分辨率视频合成，对预训练图像 LDM 和 DM 上采样器进行视频微调。

　　研究者高效训练视频生成模型的关键思路在于：重用预训练的固定图像生成模型，并利用了由参数 θ 参数化的 LDM。具体而言，他们实现了两个不同的时间混合层，即时间注意力和基于 3D 卷积的残差块。研究者使用正弦嵌入为模型提供了时间位置编码。具体流程如下图 4 所示。

　　研究者还训练模型作为给定多个（首个）S 上下文帧的预测模型，通过引入时间二元掩膜 m_S 来实现。该掩膜 mask 了模型必须预测的 T − S 帧。此外研究者将该掩膜和 masked 编码视频帧馈入到模型中进行调节。

　　在推理过程中，为了生成长视频，研究者迭代地应用了采样过程，将最新的预测重新用作新的上下文。第一个初始序列通过从基础图像模型中合成单个上下文帧来生成，并基于此生成了一个新序列。然后以两个上下文帧为条件对动作进行编码。

　　高分辨率的特点不仅在于高空间分辨率，还在于高时间分辨率，即高帧率。为此研究者将高分辨率视频的合成过程分为了两部分，第一部分包括上文中的将潜在图像转换为视频生成器和用于长视频的预测模型，它们可以生成具有较大语义变化的关键帧，但受限于内存只能在较低帧率运行。第二部分则引入了一个额外模型，其任务是在给定关键帧之间进行插值。

　　研究者在实现过程中使用了掩膜调节机制。不过与预测任务不同，他们需要 mask 进行插值的帧，否则该机制保持不变，即图像模型被细化为视频插值模型。

　　尽管 LDM 机制提供了很好的原始分辨率，但研究者的目标是将它推进到百万像素级别。他们从级联 DM 中获得灵感，并使用 DM 将 Video LDM 输出放大 4 倍。对于驾驶视频合成实验，研究者使用了像素空间 DM，并将分辨率扩大至 512×1024；对于文本到视频模型，他们使用了 LDM 上采样器，将分辨率扩大至 1280 × 2048。

　　研究者专注于驾驶场景视频生成和文本到视频，因此使用了两个相关数据集，一个是真实驾驶场景（RDS）视频的内部数据集；另一个是 WebVid-10M 数据集，它将公开可用的 Stable Diffusion 图像 LDM 转换为了 Video LDM。

　　研究者在 RDS 数据集上训练 Video LDM pipeline，包括一个 4 倍像素空间视频上采样器。下表 1 显示了无上采样器时，128×256 分辨率下 Video LDM 的主要结果。研究者展示了有和无拥挤和白天 / 夜晚条件下其模型的性能。可以看到，Video LDM 通常优于 LVG，并且在一定条件下进一步降低了 FVD。

　　下表 2 显示了人类评估结果。就真实性而言，研究者的样本通常优于 LVG，并且来自条件模型的样本也优于无条件样本。

　　研究者将其视频微调像素空间上采样器与独立逐帧图像上采样做了比较，并使用了 128 × 256 30 fps 的真值视频进行调节，如下表 3 所示。

　　在下图左 1（底部）和图右 7（顶部）中，研究者展示了来自组合 Video LDM 和视频上采样器模型的条件样本。他们生成了高质量的视频。此外，研究者使用其预测方法生成了时间连贯的多分钟高分辨率驾驶长视频。

　　研究者没有先训练自己的 Image LDM 主干，其 Video LDM 方法可以利用并将现有的 Image LDM 转换为视频生成器。在本文中，他们将 Stable Diffusion 转换为了文本到视频生成器。

　　具体地，研究者使用 WebVid-10M 文本字幕视频数据集，训练了一个时间对齐版本的 Stable Diffusion 来做文本条件视频生成。他们在来自 WebVid 的帧上对 Stable Diffusion 的空间层进行简单微调，然后插入时间对齐层并训练它们（分辨率为 320 × 512）。研究者还在这些对齐层中添加了文本条件。

　　此外，研究者进一步对公开可用的潜在 Stable Diffusion 上采样器进行视频微调，使它支持 4 倍放大并生成分辨率为 1280 × 2048 的视频。研究者生成了由 113 帧组成的视频，并可以渲染成 4.7 秒的 24 fps 或 3.8 秒 30 fps 的片段。相关样本如上图 1 和下图 6 所示。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

电脑内存录入：admin 责任编辑：admin
	上一个电脑内存： 5000多块的轻薄本能不能做照片堆栈？实测给你答案下一个电脑内存：没有了

　栏目文章

视频版Stable Diffusion：英伟达做到最高1280… (04-26)	5000多块的轻薄本能不能做照片堆栈？实测给你… (04-26)
用了这么多年 Rust 终于搞明白了内存分布！ (04-26)	为什么Android开发使用Java而不是C++？ (04-26)
最新资讯_存储_DIY电脑硬件频道-YESKY天极网 (04-26)	在计算机存储器中存储英文字母“J”时的是它的… (04-25)
boss内存条有几种英文表达？比如system memor… (04-25)	人们通常购买或升级内存条来提高计算机性能内… (04-25)
在计算机存储器中存储英文字母A时的是它的（）… (04-25)	内存英文缩写(手机文件夹全是英文占内存不敢删… (04-25)
内存written什么意思其实内存出现问题的可能… (04-25)	高带宽内存需求强劲海内外大厂加速布局算力产… (04-25)
微星上架创造者Z17HX studio笔记本电脑仅供3… (04-25)	【视频】3699 一加Ace2原神定制礼盒发布 18GB… (04-25)
广州海关发布知识产权保护案例涉侵权内存卡、… (04-25)	如何彻底清理华为手机垃圾释放大量内存华为手… (04-24)
大佬帮我升级一下电脑配置 (04-23)	【世界聚看点】KINGXCON金士刚内存：以其精湛… (04-23)
夸克网盘电脑端备份功能太强大了谁在说文件过… (04-23)	三星稳居内存芯片市场领导地位但技术优势正在… (04-23)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	电脑评测网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！