提速 8 倍!探花 视频
速率更快、后果更好的混元视频模子——FastHunyuan来了!
新模子仅用1 分钟就能生成5 秒长的视频,比之前提速8 倍,尺度也从 50 步减少到了6 步,以致画面细节也更传神了。
和芜俚速率的混元对比一下,蓝本 50 步才略生成 1 条视频,而刻下新模子在换取的时刻里不错生成8 条:
再来望望和 Sora 的画濒临比,不错看到 Fast-Hunyuan 和 Sora 两者的后果都更传神一些,衣裳、生果和山岭的细节也相配明晰。
以致在一些物理细节的交融上,Fast-Hunyuan 比 Sora 还强,比如底下拿取柠檬的视频:
更进击的是,Fast-Hunyuan 的代码也开源了,这下无须为 Sora 的订阅费和名额发愁了。
盘问团队来自加州大学圣地亚哥分校(UCSD)的Hao AI实践室,他们主要专注机器学习算法和散播式系统的盘问。
混元官方账号还成心发博感谢了他们:
有网友看完后直呼,混元才是最佳的开源视频模子。
独创性的视频 DiT 蒸馏配方
团队是若何作念到 8 倍提速的情况下还能提高视频明晰度呢?
底下就一齐来看一下 Fast-Hunyuan 的时间旨趣——
最初,他们拓荒了全新的视频 DiT 蒸馏配方。
具体来说,他们的蒸馏配方基于阶段一致性(Phased Consistency Model, PCM)模子。
在尝试使用多阶段蒸馏后发现后果莫得显耀转变,最终他们选拔保捏单阶段拓荒,与原始 PCM 模子的成立通常。
其次,团队使用了 OpenSoraPlan 中的MixKit 数据集进行了蒸馏。
为了幸免在磨真金不怕火进程中启动文本编码器和 VAE,团队还预惩办了所迥殊据,用来生成文本镶嵌和 VAE 潜在变量。
在推理阶段,用户不错通过 FSDP、序列并行和选拔性激活查验点进行可推广磨真金不怕火,模子不错近乎线性推广到 64 个 GPU。测试代码在 Python 3.10.0、CUDA 12.1 和 H100 上启动。
最低硬件要求如下:
40 GB GPU 内存,每个 GPU 配备 lora
30 GB GPU 内存,每 2 个 GPU 配备 CPU 卸载和 LoRa。
此外,他们还勾通了瞻望算潜变量和瞻望算文本镶嵌,用户不错把柄我方的硬件要求选拔不同的微调相貌来实行号召,也维持图像和视频的搀和微调。
模子已于 2024 年 12 月 17 日发布了 v0.1 版块。
改日的拓荒计较还包括添加更多蒸馏要领(如散播匹配蒸馏)、维持更多模子(如 CogvideoX 模子)以及代码更新(如 fp8 维持、更快的加载和保存模子维持)等等。
One More Thing
除了加快模子,混元还预报了环球都相配期待的图像到视频生收遵守。
最快1 月份,也等于下个月就不错看到!期待住了。
GitHub:https://github.com/hao-ai-lab/FastVideo
HuggingFace:https://huggingface.co/FastVideo/FastHunyuan
参考皆集:
[ 1 ] https://x.com/TXhunyuan/status/1869282002786292097
— 完 —
点这里� � 关心我,铭记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿发扬日日重逢 ~