阿里AI进展更新：开源视频生成...

发布者：乐晴

-通义万相是阿里云通义系列中的AI创作大模型，2023年7月7日正式上线。

-今年1月，万相2.1进行了重磅升级，同时支持文生视频、图生视频、视频编辑、文生图和视频生音频等多种任务。

-是首个能够生成中英文文本的视频模型，无需外部插件就能生成文字，并支持中英文文字特效生成。

-在视频生成方面，万相2.1 ，支持无限长1080P视频的高效编解码。

-在权威评测榜单VBench中，

-14B万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出。

-1.3B版本测试结果不仅超过了更大尺寸的开源模型，甚至还接近部分闭源模型，同时能在消费级显卡运行，适用于二次模型开发和学术研究。

整体效果上，语义理解、物理真实性、复杂运动的表现，万相2.1 14B在开源视频模型里都处于第一梯队。

万相自研了专为视频生成设计的新型因果3DVAE架构，是一种专为视频生成设计的新型因果架构，结合了变分自编码器（VAE）和三维卷积神经网络（3D CNN）的特点，用于生成时空一致的视频帧序列。3DVAE可扩展的预训练策略、大规模数据链路构建以及自动化评估指标。

万相2.1开源将对内容创作、影视视频创作、广告设计等多个领域产生影响。

国内部分相关厂商中，万兴科技“天幕”多媒体大模型是国内首个专注于以视频创意应用为核心的多媒体大模型，涵盖语言、音频、图像、视频等多模态能力，已经接入多个AI模型；丝路视觉与阿里巴巴共同持有瑞云科技股权，阿里云与瑞云科技达成战略合作，搭建面向全球的视觉云计算平台；因赛集团InsightGPT先结合图像、视频大模型等多种算法，再结合音频模型整体渲染后最终合成完整视频；虹软科技布局视觉大模型+XR相关技术，虹软利用ArcMuse技术引擎产生图片、视频、数字人以及3D内容等；华策影视率先试点AI剧本-分镜-成片全流程；当虹科技AIGC视频内容智能生成系统融合了大模型技术；视觉中国为阿里等大模型提供合规数据服务。

大模型的视觉理解能力是AI前沿研究方向之一。国内机器视觉设备和系统核心参与厂商包括矩子科技、天准科技、精测电子等；此外以凌云光、天准、奥普特、海康等为代表的本土企业已经掌握核心部件技术及独立软件算法能力。

视频生成模型对算力需求较文本显著提升。模型开源后-AI视频应用需求增长-推理算力需求攀升-硬件设备市场扩大-国产算力硬件和GPU等厂商需求提升。

👉🏻 👉🏻

*本文仅作为行业分析参考，不构成投资建议！