下载APP
    扫描二维码
    下载潮新闻客户端
    读报

    阿里通义开源新模型,指定首尾图片可生成延时摄影、变身等特效视频

    潮新闻 记者 张云山2025-04-18 02:00全网传播量32.2万
    00:00
    00:00
    014月17日晚,阿里开源通义万相首尾帧生视频14B模型,支持根据首尾图片生成720p高清视频。
    02该模型是业界首个开源的百亿级首尾帧生视频模型,用户可在官网免费体验或下载后二次开发。
    03模型引入额外条件控制机制,实现流畅精准的首尾帧变换,支持复杂、个性化的视频生成任务。
    04用户可通过上传不同图片,生成四季交替或运镜控制的视频,镜头丰富且保持与图片一致性。
    05通义万相文生和图生视频模型今年2月开源后,迅速成为开源社区热度最高的大模型之一。
    以上内容由传播大模型和DeepSeek生成,仅供参考

    4月17日晚,阿里开源通义万相首尾帧生视频14B模型,这是业界首个开源的百亿级参数规模首尾帧生视频模型,它可根据用户指定的开始和结束图片,生成一段能衔接首尾画面的720p高清视频,满足延时摄影、变身等更可控、更定制化的视频生成需求。用户可在通义万相官网直接免费体验该模型,或在GitHub、Hugging Face、魔搭社区下载模型本地部署后进行二次开发。

    阿里开源通义万相首尾帧生视频14B模型

    首尾帧生视频比文生视频、单图生视频的可控性更高,是最受AI视频创作者欢迎的功能之一,但这类模型的训练难度较大,对模型的指令遵循、视频内容与首尾帧一致性、视频过渡自然流畅性等均有高要求。

    据介绍,基于现有的Wan2.1文生视频基础模型架构,通义万相首尾帧生视频模型进一步引入了额外的条件控制机制,通过该机制可实现流畅且精准的首尾帧变换;在训练阶段,团队还构建了专门用于首尾帧模式的训练数据,同时针对文本与视频编码模块、扩散变换模型模块采用了并行策略,这些策略提升了模型训练和生成效率,也保障了模型具备高分辨率视频生成的效果。

    基于该模型,用户可完成更复杂、更个性化的视频生成任务,可以实现同一主体的特效变化、不同场景的运镜控制等视频生成。例如,上传相同位置不同时间段的两张外景图片,输入一段提示词,通义万相首尾帧生成模型即可生成一段四季交替变化或者昼夜变化的延时摄影效果视频;上传两张不同画面的场景,还可通过推进、拉镜、摇镜等运镜控制衔接画面,在保证视频和预设图片一致性前提下,同时让视频拥有更丰富的镜头。

    今年2月,通义万相Wan2.1文生视频和图生视频模型开源后,迅速登上Hugging Face模型热榜和模型空间榜棒首,其在GitHub上已斩获超10k star,模型下载量超过220万,是开源社区热度最高的大模型之一。

    通义万相首尾帧生视频

    (图源受访者)

    “转载请注明出处”