视频生成模型 Zeroscope开源 免费无水印
生活网6月26日 消息:据huggingface 页面显示 , 一款名为 Zeroscope_v2_576w 的视频生成模型现已开源 。
Zeroscope_v2_576w 基于 Modelscope 打造,是一个具有17亿个参数的多级文本到视频扩散模型 。它根据文本描述生成视频内容 。并且提供更高的分辨率,没有 Shutterstock 水印 , 并且宽高比更接近16:9 。
Zeroscope 具有两个组件: Zeroscope_v2567w,专为以576x320像素的分辨率快速创建内容以探索视频概念而设计 。然后可以使用 Zeroscope_v2XL 将优质视频升级到1024x576的“高清”分辨率 。
对于视频生成,该模型需要7.9GB 的 VRam(分辨率为576x320像素、帧速率为每秒30?。┖?5.3GB 的 VRam(分辨率为1024x576像素、帧速率为每秒) 。因此,较小的型号应该可以在许多标准显卡上运行 。
Zeroscope 的训练涉及将偏移噪声应用于9,923个剪辑和29,769个标记?。扛鲋“?4帧 。偏移噪声可能涉及视频帧内对象的随机移动、帧时序的轻微变化或轻微的失真 。
训练期间引入的噪声增强了模型对数据分布的理解 。因此,该模型可以生成更多样化的真实视频,并更有效地解释文本描述的变化 。
【视频生成模型 Zeroscope开源 免费无水印】根据拥有 Modelscope 经验的 Zeroscope 开发者“Cerspense”的说法,用24GB VRam 微调模型并不“超级困难” 。他在微调过程中删除了 Modelscope 水印 。
他将自己的模型描述为“旨在挑战 Gen-2”,即 Runway ML 提供的商业文本到视频模型 。根据 Cespense 的说法,Zerscope 完全免费供公众使用 。
目前,文本到视频仍处于起步阶段 。人工智能生成的剪辑通常只有几秒钟长,并且存在许多视觉缺陷 。然而 , 图像人工智能模型最初面临类似的问题,但在几个月内就实现了照片级真实感 。但与这些模型不同的是,视频生成无论是训练还是生成都需要消耗更多的资源 。
谷歌已经推出了Phenaki 和 Imagen Video,这两种文本到视频模型能够生成高分辨率、更长、逻辑连贯的剪辑,尽管它们尚未发布 。meta 的Make-a-Video(文本转视频模型)也尚未发布 。
目前,只有Runway 的 Gen-2已商用,并且现已在 iPhone 上提供 。Zeroscope 标志着第一个高质量开源模型的出现 。
推荐阅读
- 李彦宏:百度文心大模型3.5版推理速度提升17倍
- 一加8T在新视频中被嘲讽 建议新版本
- 大公无私成语故事 大公无私成语故事视频
- 佳木斯健身操第一套完整版视频
- 手机腾讯视频下载的视频怎么传到电脑 手机腾讯视频下载的视频怎么传到电脑上苹果
- cp2自动程序是什么
- 梨花酒的酿制方法视频
- 单移门轨道尺寸要留几公分 单轨道移门安装视频
- 监控无网络视频 监控无网络视频解决办法
- yoo视频被裁撤 yoo视频收益
