字节豆包视频生成模型梳理

发布者：乐晴

豆包今天发布视频生成模型“VideoWorld”，是豆包模型的又一重大更新。该模型由豆包大模型团队与北京交通大学、中国科学技术大学联合提出，并在近期正式开源。

-VideoWorld -可以通过浏览视频数据，让机器掌握推理、规划和决策等复杂能力 -现有模型大多依赖语言或标签数据学习知识，很少涉及纯视觉信号的学习

-VideoWorld利用潜在动态模型（LDM），将视频帧间的视觉变化信息压缩为紧凑的潜在编码。在推理过程中，模型可以通过解码器将潜在编码转换回像素空间，生成新的视频帧

-仅300M参数量下，VideoWorld已取得可观的模型表现，可提高轻量化模型的灵活性和可部署性

-VideoWorld在围棋对战中达到了专业5段9x9的水平，还能在多种环境中执行机器人任务

-AI视觉学习需要大模型理解物品、空间和场景的整体含义，并根据识别内容进行复杂的逻辑计算，根据图像信息更细腻地表述并创作

-深度学习模型通过大量的数据训练，自动提取图像中的特征，并实现对图像信息的准确分析和理解；多模态AI视觉大模型，能够同时处理文本和音频甚至视频等多种数据类型，实现跨模态的智能交互。

-海康威视、大华股份等厂商AI技术在视频处理领域，以及终端人脸识别和行为分析等方面具有优势；数码视讯等在视频编解码领域拥有较强技术实力；商汤科技、虹软科技、奥比中光、凌云光、格灵深瞳、云从科技、依图科技等厂商在AI视觉领域深度布局。

机器视觉产业链包括：硬件制造商、软件、设备及系统集成、视觉系统方案。主要由光学成像、图像传感器、图像处理、输入输出以及显示模块五大核心组件构成。

-机器视觉产业链的基础层主要提供核心软硬件，包括光源、镜头、工业相机、图像采集卡、机器视觉软件等，海康、奥普特、联创电子、北京君正、宇瞳、虹软等是各细分环节代表厂商。

-全球市场格局方面，机器视觉市场的高端市场主要被美、德、日品牌占据，以美国康耐视、德国巴斯勒、日本基恩士和欧姆龙等为主。

-国内机器视觉设备和系统核心参与厂商包括矩子科技、天准科技、精测电子等；此外以天准、奥普特、海康、凌云光等为代表的本土企业已经掌握核心部件技术及独立软件算法能力。

应用方面：AI视觉学习能力提升，token调用量持续增长，有望催发更多的AI应用。由于VideoWorld模型能够仅凭视觉信息执行任务，因此未来在自动驾驶、智能监控等领域也将具有广泛的应用潜力。

1、豆包视觉理解模型核心图形处理芯片：ISP解析 2、字节多模态AI数字人模型OmniHuman简析 3、字节SeedEdge项目简析

*本文仅作为行业分析参考，不构成投资建议！