|
小小说网今天,腾讯混元正式发布并开源HunyuanVideo1.5。这是一款基于 Diffusion Transformer(DiT)架构、参数仅为8.3B的轻量级视频生成模型,只需一张14G显存的消费级显卡,就能在本地流畅运行。
这意味着,无论是个人开发者、创作者还是中小企业,都能低成本地「搓」视频。目前,HunyuanVideo1.5已接入腾讯元宝最新版,支持两种创作方式:输入文字描述,如「一只猫被UFO抓走」,即可生成视频;或上传图片并添加简单指令,让静态图像变为动态视频。企业用户可访问GitHub仓库下载部署。
别看它身材小,本事却不输顶尖闭源模型。为了实现「小而美」,我们没有走拼参数、堆显卡的路子,而是用上了稀疏注意力机制等巧劲,把每一分算力都用到刀刃上,兼顾了生成效果与推理效率。
HunyuanVideo1.5采用多模态大语言模型(MLLM)作为文本编码器,可以精确理解中英文。无论你写的是中文还是英文,不管一句话里包含多少角色、动作有多复杂,甚至「笑着笑着就哭了」的细腻情绪,都能原汁原味地还原出来。
提示词:一个人在电话里对家人报喜不报忧,用轻快的声音聊天。他脸上努力维持着开朗的笑容,但眼眶却不由自主地泛红,在挂断电话的瞬间,笑容瞬间垮掉,化为一声无声的叹息,手疲惫地捂住眼睛。
这种敏锐的理解力,同样体现在「图生视频」上。给它一张参考图,它就能在保持人物样貌不崩、背景不穿帮的前提下,完美继承原图的光影与色调,哪怕加入新元素也能与整体风格浑然一体。
它能看懂各种风格化表达的指令。不管你想要的是写实画面、动画质感,还是赛博朋克、科幻风,只要你在提示词里写清楚,它就能安排得明明白白。
更让人惊喜的是,它攻克了视频生成令人头疼的「写字」难题。引入 byT5 模型对OCR文本独立编码,它可以「准确写字」了。想要工整的印刷体、潇洒的书法,或是赛博朋克的霓虹灯招牌,它都能准确生成,文字工整、位置合理,再也不用担心出现文字乱码了。
提示词:一张铺开的中国宣纸上,浓墨滴入水中,晕染出壮丽的山水画轮廓。山峰、云雾、孤舟在墨色中自然形成。随后,这些水墨元素巧妙地流动、重组,在画面的留白处汇聚成Hunyuan Video 1.5的书法字体。优雅,诗意,文化底蕴。
HunyuanVideo1.5 生成的画面主打一个「符合物理规律」:玻璃碎片会自然下落,水流有合理的波纹与速度,用力捏易拉罐时金属会真实地受力变形。为了更好地实现这种真实感,模型创新采用稀疏注意力机制(SSTA)——集中算力去处理正在运动的物体和关键场景,自动忽略静止不变的背景。
同时,模型采用轻量化高性能架构,把高清视频的画面信息(空间)和动作信息(时间)大幅压缩,不仅提高了推理效率,也保障了动作的流畅。
即便是人物蹦跳、转身、骑车这种大幅度的快速动作,它也能稳住,生成的肢体动作连贯自然,不会出现手脚扭曲或者身体变形的「恐怖」视感,真正做到逻辑在线、物理守恒。
//电影美学镜头:支持推拉跟拍运镜,智能提升画质至1080p HunyuanVideo1.5 还能给你整点「艺术范」。它采用了多阶段渐进式训练,就像拍电影一样,先出粗剪版,再反复打磨光影、色调和构图,最终呈现出的画面细节丰富,自带电影级的高级质感。
它还听得懂专业的镜头语言——无论是推进特写、拉远全景,还是复杂的跟拍运镜,它都能精准执行,让画面不再是死板的定格动画,而是充满节奏感的动态视觉。
视频生成完成后,它还自带一套高效的「后期团队」。通过超分系统,它能将画面智能提升至1080p高清分辨率。这可不是简单的拉伸放大,而是会智能修补画面瑕疵、补充纹理细节——比如让猫咪的毛发更清晰可见。从运镜拍摄到后期精修,它把视频生成的「大片感」拉满了。
|