视频生成模型 Zeroscope开源免费无水印

生活网6月26日消息:据huggingface 页面显示，一款名为 Zeroscope_v2_576w 的视频生成模型现已开源。
Zeroscope_v2_576w 基于 Modelscope 打造，是一个具有17亿个参数的多级文本到视频扩散模型。它根据文本描述生成视频内容。并且提供更高的分辨率，没有 Shutterstock 水印，并且宽高比更接近16:9 。
Zeroscope 具有两个组件: Zeroscope_v2567w，专为以576x320像素的分辨率快速创建内容以探索视频概念而设计。然后可以使用 Zeroscope_v2XL 将优质视频升级到1024x576的“高清”分辨率。
对于视频生成，该模型需要7.9GB 的 VRam（分辨率为576x320像素、帧速率为每秒30?。┖?5.3GB 的 VRam(分辨率为1024x576像素、帧速率为每秒) 。因此，较小的型号应该可以在许多标准显卡上运行。
Zeroscope 的训练涉及将偏移噪声应用于9，923个剪辑和29，769个标记?。扛鲋“?4帧。偏移噪声可能涉及视频帧内对象的随机移动、帧时序的轻微变化或轻微的失真。
训练期间引入的噪声增强了模型对数据分布的理解。因此，该模型可以生成更多样化的真实视频，并更有效地解释文本描述的变化。
【视频生成模型 Zeroscope开源免费无水印】根据拥有 Modelscope 经验的 Zeroscope 开发者“Cerspense”的说法，用24GB VRam 微调模型并不“超级困难” 。他在微调过程中删除了 Modelscope 水印。
他将自己的模型描述为“旨在挑战 Gen-2”，即 Runway ML 提供的商业文本到视频模型。根据 Cespense 的说法，Zerscope 完全免费供公众使用。
目前，文本到视频仍处于起步阶段。人工智能生成的剪辑通常只有几秒钟长，并且存在许多视觉缺陷。然而，图像人工智能模型最初面临类似的问题，但在几个月内就实现了照片级真实感。但与这些模型不同的是，视频生成无论是训练还是生成都需要消耗更多的资源。
谷歌已经推出了Phenaki 和 Imagen Video，这两种文本到视频模型能够生成高分辨率、更长、逻辑连贯的剪辑，尽管它们尚未发布。meta 的Make-a-Video（文本转视频模型）也尚未发布。
目前，只有Runway 的 Gen-2已商用，并且现已在 iPhone 上提供。Zeroscope 标志着第一个高质量开源模型的出现。

视频生成模型 Zeroscope开源免费无水印

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)

视频生成模型 Zeroscope开源 免费无水印

推荐阅读

视频生成模型 Zeroscope开源免费无水印