秦筝缓弦歌结局3 月 22 日消息,近日,阿里达摩院已在 AI 模型社区“魔搭”ModelScope 上线了“文本生成视频大模型”。
根据官方介绍,目前文本生成视频大模型,由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这 3 个子网络组成,整体模型参数约 17 亿,目前仅支持英文输入。扩散模型采用 Unet3D 结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。
官方介绍称,本模型适用范围较广,能基于任意英文文本描述进行推理,生成视频。一些文本生成视频示例如下:
据了解,模型已经在创空间和huggingface上线,可以直接体验,也可以参考该页面自行搭建。模型需要硬件配置大约是 16GB 内存和 16GB GPU 显存。在 ModelScope 框架下,通过调用简单的 Pipeline 即可使用当前模型,其中,输入需为字典格式,合法键值为 text,内容为一小段文本。该模型暂仅支持在 GPU 上进行推理。
从试玩的结果来看,目前能生成的视频长度多在 2-4 秒,生成等候时间从 20 多秒到 1 分多钟不等。
重要公告速递:中芯国际一季度净利润同比下降44%、棒杰股份董事长及其一致行动人拟增持公司股份、沃尔德拟以2000万元-4000万元回购股份
北向资金逢低“扫货”中特估?还有这些后援团即将上线亚洲杯抽签:国足与卡塔尔黎巴嫩塔吉克同组
4月社融增量为1.22万亿元,M2同比增长12.4%;新增信贷7188亿元
关于同花顺软件下载法律声明运营许可联系我们友情链接招聘英才用户体验计划有害信息举报
涉未成年人违规内容举报算法推荐专项举报不良信息举报电话举报邮箱:增值电信业务经营许可证:B2-20090237
|