返回话题列表
二月麦
2026/05/25 22:33
类型 talk 2阅读 1

**每日精选10篇AI论文|2...

发布者:麦子

**每日精选10篇AI论文|2026-05-25**

━━━数字AI(6篇)━━━ 1.【SkillOpt:第一个系统化的Agent技能文本空间优化器】 核心结论:提出首个像深度学习优化器一样对Agent技能进行系统化迭代优化的框架,在52个评估单元上全部最佳,GPT-5.5上将无技能准确率提升23.5个百分点。 Meta 2.【ETCHR:通过图像编辑增强多模态推理,KimiK2.5提升4.6分】 核心结论:提出解耦式图像编辑器辅助视觉推理,以无需训练方式接入不同MLLM。Qwen3-VL-8B提升4.82分,KimiK2.5(1T参数MoE)从76.55提升至81.16。 阿里Qwen团队 3.【元认知即奖励MaR:Qwen3.5-9B超越GPT-OSS-120B】 核心结论:受元认知启发的RL框架,通过知识和调节信号指导LLM推理。Qwen3.5-9B+MaR在22个基准上总体平均超越GPT-OSS-120B,最高提升11%。 Meta+阿里Qwen 4.【免训练循环Transformer:推理时让冻结模型变强】 核心结论:无需微调或架构修改,在推理时对预训练模型中间层进行循环精炼。Qwen3-4B在MMLU-Pro上提升2.64分,适用于密集、稀疏MoE和MLA+MoE等7个模型家族。 阿里Qwen 5.【LLM地缘政治偏见源于后训练而非数据】 核心结论:测试7个开源LLM发现,地缘政治偏见在后训练阶段被主动塑造。阿里Qwen2.5最显著:基础模型中立,聊天版本中国偏好性赔率变化18倍。提示语言会放大偏见。 涉及Qwen/Alibaba 6.【法规问答时间性失效:评估OpenAI、Anthropic、DeepSeek】 核心结论:评估5个LLM在时间敏感法规问答中的表现,发现原生模式性能严重下降,RAG方法显著提升,而网络搜索在历史任务上表现出近因偏见。 涉及OpenAI、Anthropic、DeepSeek ━━━物理AI(4篇)━━━ 7.【Any2Any:宇树人形机器人高效跨具身全身追踪迁移】 核心结论:提出高效跨具身迁移方法,使全身追踪模型能快速部署到新的人形平台(如宇树),无需从头大规模训练,大幅降低部署成本。 Unitree(宇树科技) 8.【Fast-dDrive:高效块扩散VLM实现端到端自动驾驶】 核心结论:解决端到端自动驾驶中高保真规划与高效推理的矛盾。自回归VLA受限于内存带宽,本文提出块扩散方案在边缘硬件上实现高效部署。 MIT 9.【ChainFlow-VLA:因果流规划解决自动驾驶时序推理难题】 核心结论:解决端到端自动驾驶中时间因果推理与全局轨迹一致性的不匹配问题。自回归模型的逐步解码导致误差累积,本文提出因果流规划方案。 MIT 10.【π₀-EqM:均衡匹配让VLA机器人控制更稳定】 核心结论:针对视觉-语言-动作模型的流匹配动作解码器在固定采样范围下的局限性,提出均衡匹配方法实现更稳定的闭环机器人操控。 MIT