250529--国泰海通计算机...
发布者:Vito的行研札记
·数学模型特性:DeepSeek于五一前推出的数学模型在数学领域能力强大,但用户难以感知其优势。与评价两极分化的其他数学模型不同,该模型强大之处未被明显体会。 ·0528版本更新:0528版本的DeepSeek模型在开源和闭源模型中属第一梯队,多模态未更新,主要优化推理维度。新增自适应调整思考长度机制,类似千问3,即简单问题(如HTML编程)思考快,复杂逻辑推理问题思考慢。实测中,该模型输出吐字程度提升不明显,疑似算力不足。 ·意图识别优化:DeepSeek模型在意图识别上改进显著,从机械回答转向揣测用户意图,如面对‘9.11和9.8谁大’的问题会调侃用户。意图识别模块已嵌入模型,为智能体开发奠定基础。
·数据依赖突破:推理模型技术进展突破传统,减少对大量标注数据的依赖。通过训练模型‘自信度’(类似人类内心信念)驱动发展,避免传统模式仅能在数学、代码、理化生等偏逻辑理工科领域发展的局限,难以拓展至文学、创意等缺乏标准化数据的领域。经自信度训练,模型在小学数学、高中数学及代码问题上效果提升。 ·跨模态推理拓展:推理机制从文本向视觉领域泛化效果良好。以字节豆包视频通话模型为例,该模型于2025年2月提出、5月推出,效果显著优于纯语音模型。其具备动态感知能力,能察觉镜头移动并提醒用户。在具体应用中,模型仅通过不到1/4身体图像(无头部、脚部、胳膊,仅显示上半身白色衣服)即可判断对象为男生,并分析场景。该模型在家庭讲解、教育解题、旅游讲解、超市货架导购、体重目标控制、工业视觉及医疗片子诊断等多场景有落地潜力。此前超80%上述领域已有尝试或运营付费项目,模型推出将为这些领域带来较好效果。
·Google VEO3特性:Google VEO3模型被视为视频生成领域的‘Sora时刻’,核心技术亮点显著。其在长镜头、时空一致性及画质上进步明显,精确控制性强;能从文本直出包含声音、字幕的视频,一步到位完成制作。物理建模能力突出,输入‘杯子掉地上’‘下雨天雨落在伞上’‘切菜’等文本,能生成对应场景画面并区分不同声音。该模型使用成本高,优惠前几个月约120多刀,月费约1500元,普通C端用户难承受。 ·影视与自媒体适配:影视领域与自媒体对VEO3模型接受度不同。影视领域自2024年形成AI应用雏形,因早期大模型精确控制性不足,至今仍沿用图像→视频流程,认为此举精确性更高,对文本直出视频模式未适应。而自媒体注重效率、分发速度和趣味性,更适配VEO3文本直出的一步到位模式。 ·国内模型表现:国内可宁卫与豆包模型在视频生成方面有进展。可宁卫近期推出2.1版本(品质版、大师版),稳定性强,经短视频生态数据训练,适配企业需求,5秒视频收费约10元,10秒约20元,企业接受度高。豆包模型用千万级真实场景数据(含光照干扰、物体遮挡等)训练,可识别丁达尔效应等泛生活场景;采用边看边思考技术,类似人类逻辑,区别于传统单模态模型‘劲思考’模式。不过,该模型在中文领域处理中国特色视频生成时理解能力弱,部分场景需输入英文达理想效果。
·R1 0528版本优势:R1 0528版本代码能力提升显著,在代码领域开源界居首、闭源界位列前二,对比Cloud、Solid、欧派家居R4等模型表现出色。性价比极高,价格为全球同类模型最低,同预算下能获得最佳效果。比它强的模型贵5倍以上,甚至可达10倍;比它便宜的模型效果则远不如它。 ·R1现存问题:R1模型算力紧缺,若维持现有的日活规模,需将算力拓展5倍以上才能提升使用体验。此外,其吐词速度不如字节豆包系列模型。 ·R2模型预期:DeepSeek下一代模型(R2)技术方向为:在推理领域,从代码、数学领域向多领域拓展,需依靠新算法和数据集;优化性价比;增强意图识别灵活性,适配复杂场景;提升情感交互能力,成为更生动、个性化的伙伴。R2在文本模态下更加拟人,多模态暂不整合到文本模型。重点优化推理速度、加强国产卡支持,推动更多模型优化国产卡训练效果。
·代码领域进展:AI在代码领域的应用逐步深入。开发者已全员使用VS Code叠加AI功能,VS Code作为全球用户量最大的代码编译器,官方正推进AI与软件深度融合并征求开发者反馈与需求。企业层面,美团等公司现已有30%-40%的代码由模型生成,预计今明两年这一比例或提升至70%。从模型能力看,DGP最新模型的代码能力进步显著,其版本间的进步幅度超过早期V2/V3阶段;局部效果提升超10%,部分领域效果提升超50%,与国外先进代码模型相比在多个维度效果领先。大模型难以完全替代模型开发程序员(因模型需持续开发且难以达到完全通用),但能提升业务繁琐性程序工作的效率。 ·Agent落地场景:Agent短期可落地的重点领域包括:一是B端企业数据平台,当前企业(含政府领域)的数据模块多为封闭状态(仅通过内网连接但模块间数据无关联),需人工导出Excel手动关联,而Agent可实现数据自动关联计算,覆盖ERP、CRM、建筑信息化系统、招聘系统等场景。二是教育领域,适配流程化应用需求。三是AI智能设备领域,包括AI笔记本、手机、眼镜(如字节模型支持AI眼镜边看边规划、导航及深度交流),此类设备因算力有限需借助外部调用完成计算并呈现结果。四是个人/家庭场景,用户对安全性需求大(参考Mano Messa国外版本曾有数百万人排队使用),适配办公套件发展。
·降价驱动因素:模型降价受短期价格战与长期技术进步双重驱动。短期,国内企业降价有价格战特征,头部企业如阿里、智谱、DeepSeek、字节等,因技术可降低模型成本,价格战消耗小,主要以低价抢占用户。长期,技术进步是主因,模型侧技术仍有发展空间。如自适应推理技术能降低成本;新型训练思路(如‘confidence is all you need’训练模型内在信心指数)可节省成本。成本下降预计,2025年底单次TOKEN推理成本将较当前降1/3到1/5;2026年在此基础上再降1/2到1/5。 ·Agent算力消耗:Agent任务算力消耗显著高于普通模型。推理模型调用量是普通模型的10 50倍;带Agent的任务因多步校验和反复调试,算力消耗更高。处理简单问题时平均分为10 15步,每步含5 8小步;编程等复杂场景,需多次调试(如插件下载失败重试),调用量可达普通模型的10 100倍。如生成PPT,带Agent产品耗时是普通产品近10倍;编程中插件下载问题会增加TOKEN消耗。
A: 下一代模型将重点拓展推理能力,当前推理模型效果主要集中在代码、数学等领域,未来需通过新AI算法和数据集实现跨领域覆盖;同时需提升性价比,并通过灵活意图识别适配复杂场景,实现多领域横向扩展。在文本模态方面,模型将优化情感交互能力,向更生动、个性化的伙伴方向进化,提升拟人化效果;多模态暂不直接整合到文本模型中。R2版本将聚焦模型本身的进化,重点提升推理速度,强化对国产算力的支持,后续或推动行业发布更多强调国产卡优化效果的模型。
A: AI在代码领域表现突出,当前已实现全员使用vs code叠加AI功能,vs code官方正深度融合AI并收集开发者反馈。企业层面,美团等公司已有30%-40%的代码由模型生成,预计今明两年该比例或提升至70%,主要因DGP最新模型代码能力进步显著,局部效果提升超10%,部分领域超50%,且在多维度效果优于国外先进代码模型。AI编程产品需结合智能体与工具调用,而非仅将编译器与AI简单结合,当前仍处初期阶段,但今年有望推出优质产品。
A: 短期内Agent 最可能率先落地的领域包括:B端企业及政府数据平台,该领域数据结构封闭,模块间数据无关联,Agent可通过工具调用实现封闭模块间的数据自动关联与计算,适配ERP、CRM、建筑信息化、招聘系统等流程;教育领域,其流程化特点适配Agent应用;高性能计算设备领域,因设备算力有限需借助外部调用实现计算与功能呈现;个人及家庭住宿领域,用户对安全性需求大,且适配办公套件发展。
A: 国内企业降价存在一定价格战因素,但阿里、智谱、DeepSeek、字节等头部企业已通过技术实现模型低成本化,降价对其成本消耗有限且可抢占用户。当前大模型技术尚未完全收敛,推理成本仍有下降空间,预计今年底模型单次TOKEN推理成本将降至当前的1/3-1/5,明年在此基础上再降1/2-1/5。技术层面,自适应推理、基于模型信心的训练等新方法可降低成本,短中期内技术进步仍是价格下降的主要驱动因素。