智谱开源图生视频模型amp视频标注模型

长话短说

就在刚刚,智谱开源了 CogVideoX 系列图生视频模型 CogVideoX-5B-I2V ,及其背后的标注模型 cogvlm2-llama3-caption

进一步的

在 CogVideoX-5B-I2V 中,允许输入「一张图像」+「提示词」,生成视频。 至此,CogVideoX系列模型已经支持文生视频、视频延长、图生视频三种任务。 地址 在这 :

https://huggingface.co/THUDM/CogVideoX-5b-I2V

而 cogvlm2-llama3-caption ,则负责将视频数据,转换成文本描述,在这:

https://huggingface.co/THUDM/cogvlm2-llama3-caption

效果

输入是「狗狗」图片 +「开心狗狗」文字:

智谱开源图生视频模型amp视频标注模型-2

输出是开心狗狗:

智谱开源图生视频模型amp视频标注模型-3

输入是「天命人」图片:

智谱开源图生视频模型amp视频标注模型-4

输出是「广智救我」动态壁纸:

智谱开源图生视频模型amp视频标注模型-5

参数

包括之前的几个模型,参数信息如下:

智谱开源图生视频模型amp视频标注模型-6

更新记录

在过去的1个月里,CogVideo 做了一堆的更新,梳理如下:

🔥 更新: 2024/9/16

添加自动化生成视频工具,你可以使用本地开源模型 + FLUX + CogVideoX 实现自动生成优质视频。

https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/tools/llm_flux_cogvideox/llm_flux_cogvideox.py

🔥 更新: 2024/9/15

CogVideoX LoRA 微调权重导出并在 diffusers 库中测试通过。

https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/sat/README_zh.md

🔥 更新: 2024/8/29

使用 pipe.enable_sequential_cpu_offload() 和 pipe.vae.enable_slicing() 加入到 CogVideoX-5B 的推理代码中,可以将显存占用下降至 5GB。

🔥 更新: 2024/8/27

CogVideoX-2B 模型开源协议已经修改为 Apache 2.0 协议。

🔥 更新: 2024/8/27

智谱开源 CogVideoX 系列更大的模型 CogVideoX-5B 。本次更新,大幅度优化了模型的推理性能,推理门槛大幅降低,您可以在 GTX 1080TI 等早期显卡运行 CogVideoX-2B,在 RTX 3060 等桌面端甜品卡运行 CogVideoX-5B 模型。

🌱 Source: 2022/5/19

智谱开源了 CogVideo 视频生成模型 ,这是首个开源的基于 Transformer 的大型文本生成视频模型,您可以访问 ICLR'23 论文 查看技术细节。性能更强,参数量更大的模型正在到来的路上~,欢迎关注。

版权声明:
作者:小火箭
链接:https://www.xiaohuojian9.top/229.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>