字节多模态AI数字人模型简析

发布者：乐晴

字节跳动研究团队近日发布了全新端到端多模态AI数字人模型OmniHuman

该模型被认为是AI跨入“视觉图灵”时代的标志

-OmniHuman 是一个端到端的多模态条件人像视频生成框架

-能够基于单张图像和运动信号（如音频、视频或两者）生成人像动画视频，生成的人物可以在视频中自然运动

-OmniHuman采用基于DiT架构的多模态运动条件混合训练策略，解决了高质量数据稀缺的问题，提高数字人模型的训练效率和生成效果

-科技媒体TechSpot称这可能是目前最逼真的深度仿真算法

-该技术创新将为AI数字人带来全新变革，目前方案已经落地即梦AI，相关功能将于近期开启测试

-即梦AI是字节正在研发的一站式AI创意创作平台，能够将文本生成视频，未来有望与剪映等视频编辑工具整合，丰富抖音的内容生态

-字节计划未来将OmniHuman应用于更多场景，如虚拟主播、在线教育、娱乐互动等

-豆包大模型：是具备多模态能力的“模型家族”，包括通用模型、角色扮演模型、语音识别模型、文生图模型等，能够处理文本、语音、图像等多种类型的数据

-豆包大模型24年5月发布，12月的火山引擎Force大会上，字节发布了豆包视觉理解模型、豆包3D生成模型，以及全面升级的豆包通用模型pro、音乐模型和文生图模型等；截至25年1月，豆包模型日均tokens使用量达到约6万亿

-SeedEdge：字节豆包大模型团队1月启动了SeedEdge研究项目，旨在加码AGI通用人工智能研究，其核心目标是做比预训练和大模型迭代更长期，更基础的AGI前沿研究

--火山方舟：字节跳动旗下火山引擎发布的大模型服务平台，对接多家大模型提供商，帮助企业为不同场景选择合适的模型

-----

数字人有望成为 AI大模型的服务入口，在帮助企业实现降本增效的同时，实现 toB 服务在 toC 侧的变现闭环

AI数字人应用&AI垂类应用部分可参考：

公开资料显示，中广天择与字节跳动共同出品的内容产品《你好，儿科医生》已经播出三季，目前在内容生产领域已有AI能力的应用，后续将深化音视频数据在大模型建设的合作

引力传媒基于自有营销电商行业模型自研推出“创意助手”、“视频助手”和“通用助手”三大AIGC产品应用，与今日头条、抖音等超过两百家的优质移动媒体建立了长期渠道合作关系

天娱数科在虚拟人直播电商领域有长期布局，控股子公司山西鹏景科技有限公司获得今日头条授权的巨量引擎全国地区除独代范围以外综合代理商

蓝色光标是最早一批与TikTok（抖音国际版）合作的官方出海代理商之一，2019年蓝色光标成为TikTok官方认可的入海代理商，支持企业国际化营销需求；与字节旗下火山引擎达成深度合作，双方基于火山方舟、豆包·视频生成模型、扣子专业版智能体开发平台，在视频生成、视频服务解决方案以及营销行业智能体应用等领域展开深入合作

-2024年字节跳动的资本开支达到800亿元，接近百度、阿里巴巴、腾讯三家的总和；字节正在打造自主可控的大规模数据中心集群，为AI大模型的发展提供强大的算力支持；早前字节已经发布了关于自建数据中心变电站设计框架的采购寻源公告，计划3月完成。

-2025年字节有望持续在端侧AI和AI应用端的重点发力

1、字节SeedEdge项目简析 2、AI SoC芯片：终端产品算力提供者 3、字节情感大模型核心环节梳理 4、字节自建数据中心变电站简析

附：3篇字节相关报告供学习参考，星球网页端也可以下载阅读。

*本文仅用于行业分析参考，不构成投资建议！