250529--国泰海通计算机...

发布者：Vito的行研札记

·数学模型特性：DeepSeek于五一前推出的数学模型在数学领域能力强大，但用户难以感知其优势。与评价两极分化的其他数学模型不同，该模型强大之处未被明显体会。 ·0528版本更新：0528版本的DeepSeek模型在开源和闭源模型中属第一梯队，多模态未更新，主要优化推理维度。新增自适应调整思考长度机制，类似千问3，即简单问题（如HTML编程）思考快，复杂逻辑推理问题思考慢。实测中，该模型输出吐字程度提升不明显，疑似算力不足。 ·意图识别优化：DeepSeek模型在意图识别上改进显著，从机械回答转向揣测用户意图，如面对‘9.11和9.8谁大’的问题会调侃用户。意图识别模块已嵌入模型，为智能体开发奠定基础。

·数据依赖突破：推理模型技术进展突破传统，减少对大量标注数据的依赖。通过训练模型‘自信度’（类似人类内心信念）驱动发展，避免传统模式仅能在数学、代码、理化生等偏逻辑理工科领域发展的局限，难以拓展至文学、创意等缺乏标准化数据的领域。经自信度训练，模型在小学数学、高中数学及代码问题上效果提升。 ·跨模态推理拓展：推理机制从文本向视觉领域泛化效果良好。以字节豆包视频通话模型为例，该模型于2025年2月提出、5月推出，效果显著优于纯语音模型。其具备动态感知能力，能察觉镜头移动并提醒用户。在具体应用中，模型仅通过不到1/4身体图像（无头部、脚部、胳膊，仅显示上半身白色衣服）即可判断对象为男生，并分析场景。该模型在家庭讲解、教育解题、旅游讲解、超市货架导购、体重目标控制、工业视觉及医疗片子诊断等多场景有落地潜力。此前超80%上述领域已有尝试或运营付费项目，模型推出将为这些领域带来较好效果。

·Google VEO3特性：Google VEO3模型被视为视频生成领域的‘Sora时刻’，核心技术亮点显著。其在长镜头、时空一致性及画质上进步明显，精确控制性强；能从文本直出包含声音、字幕的视频，一步到位完成制作。物理建模能力突出，输入‘杯子掉地上’‘下雨天雨落在伞上’‘切菜’等文本，能生成对应场景画面并区分不同声音。该模型使用成本高，优惠前几个月约120多刀，月费约1500元，普通C端用户难承受。 ·影视与自媒体适配：影视领域与自媒体对VEO3模型接受度不同。影视领域自2024年形成AI应用雏形，因早期大模型精确控制性不足，至今仍沿用图像→视频流程，认为此举精确性更高，对文本直出视频模式未适应。而自媒体注重效率、分发速度和趣味性，更适配VEO3文本直出的一步到位模式。 ·国内模型表现：国内可宁卫与豆包模型在视频生成方面有进展。可宁卫近期推出2.1版本（品质版、大师版），稳定性强，经短视频生态数据训练，适配企业需求，5秒视频收费约10元，10秒约20元，企业接受度高。豆包模型用千万级真实场景数据（含光照干扰、物体遮挡等）训练，可识别丁达尔效应等泛生活场景；采用边看边思考技术，类似人类逻辑，区别于传统单模态模型‘劲思考’模式。不过，该模型在中文领域处理中国特色视频生成时理解能力弱，部分场景需输入英文达理想效果。

·R1 0528版本优势：R1 0528版本代码能力提升显著，在代码领域开源界居首、闭源界位列前二，对比Cloud、Solid、欧派家居R4等模型表现出色。性价比极高，价格为全球同类模型最低，同预算下能获得最佳效果。比它强的模型贵5倍以上，甚至可达10倍；比它便宜的模型效果则远不如它。 ·R1现存问题：R1模型算力紧缺，若维持现有的日活规模，需将算力拓展5倍以上才能提升使用体验。此外，其吐词速度不如字节豆包系列模型。 ·R2模型预期：DeepSeek下一代模型（R2）技术方向为：在推理领域，从代码、数学领域向多领域拓展，需依靠新算法和数据集；优化性价比；增强意图识别灵活性，适配复杂场景；提升情感交互能力，成为更生动、个性化的伙伴。R2在文本模态下更加拟人，多模态暂不整合到文本模型。重点优化推理速度、加强国产卡支持，推动更多模型优化国产卡训练效果。

·代码领域进展：AI在代码领域的应用逐步深入。开发者已全员使用VS Code叠加AI功能，VS Code作为全球用户量最大的代码编译器，官方正推进AI与软件深度融合并征求开发者反馈与需求。企业层面，美团等公司现已有30%-40%的代码由模型生成，预计今明两年这一比例或提升至70%。从模型能力看，DGP最新模型的代码能力进步显著，其版本间的进步幅度超过早期V2/V3阶段；局部效果提升超10%，部分领域效果提升超50%，与国外先进代码模型相比在多个维度效果领先。大模型难以完全替代模型开发程序员（因模型需持续开发且难以达到完全通用），但能提升业务繁琐性程序工作的效率。 ·Agent落地场景：Agent短期可落地的重点领域包括：一是B端企业数据平台，当前企业（含政府领域）的数据模块多为封闭状态（仅通过内网连接但模块间数据无关联），需人工导出Excel手动关联，而Agent可实现数据自动关联计算，覆盖ERP、CRM、建筑信息化系统、招聘系统等场景。二是教育领域，适配流程化应用需求。三是AI智能设备领域，包括AI笔记本、手机、眼镜（如字节模型支持AI眼镜边看边规划、导航及深度交流），此类设备因算力有限需借助外部调用完成计算并呈现结果。四是个人/家庭场景，用户对安全性需求大（参考Mano Messa国外版本曾有数百万人排队使用），适配办公套件发展。

·降价驱动因素：模型降价受短期价格战与长期技术进步双重驱动。短期，国内企业降价有价格战特征，头部企业如阿里、智谱、DeepSeek、字节等，因技术可降低模型成本，价格战消耗小，主要以低价抢占用户。长期，技术进步是主因，模型侧技术仍有发展空间。如自适应推理技术能降低成本；新型训练思路（如‘confidence is all you need’训练模型内在信心指数）可节省成本。成本下降预计，2025年底单次TOKEN推理成本将较当前降1/3到1/5；2026年在此基础上再降1/2到1/5。 ·Agent算力消耗：Agent任务算力消耗显著高于普通模型。推理模型调用量是普通模型的10 50倍；带Agent的任务因多步校验和反复调试，算力消耗更高。处理简单问题时平均分为10 15步，每步含5 8小步；编程等复杂场景，需多次调试（如插件下载失败重试），调用量可达普通模型的10 100倍。如生成PPT，带Agent产品耗时是普通产品近10倍；编程中插件下载问题会增加TOKEN消耗。

A: 下一代模型将重点拓展推理能力，当前推理模型效果主要集中在代码、数学等领域，未来需通过新AI算法和数据集实现跨领域覆盖；同时需提升性价比，并通过灵活意图识别适配复杂场景，实现多领域横向扩展。在文本模态方面，模型将优化情感交互能力，向更生动、个性化的伙伴方向进化，提升拟人化效果；多模态暂不直接整合到文本模型中。R2版本将聚焦模型本身的进化，重点提升推理速度，强化对国产算力的支持，后续或推动行业发布更多强调国产卡优化效果的模型。

A: AI在代码领域表现突出，当前已实现全员使用vs code叠加AI功能，vs code官方正深度融合AI并收集开发者反馈。企业层面，美团等公司已有30%-40%的代码由模型生成，预计今明两年该比例或提升至70%，主要因DGP最新模型代码能力进步显著，局部效果提升超10%，部分领域超50%，且在多维度效果优于国外先进代码模型。AI编程产品需结合智能体与工具调用，而非仅将编译器与AI简单结合，当前仍处初期阶段，但今年有望推出优质产品。

A: 短期内Agent 最可能率先落地的领域包括：B端企业及政府数据平台，该领域数据结构封闭，模块间数据无关联，Agent可通过工具调用实现封闭模块间的数据自动关联与计算，适配ERP、CRM、建筑信息化、招聘系统等流程；教育领域，其流程化特点适配Agent应用；高性能计算设备领域，因设备算力有限需借助外部调用实现计算与功能呈现；个人及家庭住宿领域，用户对安全性需求大，且适配办公套件发展。

A: 国内企业降价存在一定价格战因素，但阿里、智谱、DeepSeek、字节等头部企业已通过技术实现模型低成本化，降价对其成本消耗有限且可抢占用户。当前大模型技术尚未完全收敛，推理成本仍有下降空间，预计今年底模型单次TOKEN推理成本将降至当前的1/3-1/5，明年在此基础上再降1/2-1/5。技术层面，自适应推理、基于模型信心的训练等新方法可降低成本，短中期内技术进步仍是价格下降的主要驱动因素。