250530--“新版Deep...
发布者:Vito的行研札记
·测评方向说明:本次测评有两个核心方向,一是测试调用MCP类Agent工具的准确率,包括将旧版本未完成的任务重新交给新版本模型并观察效果;二是评估代码生成的质量和效率,此次模型更新重点优化了推理、深度思考文本生成及代码生成功能。此外,Agent任务对代码能力要求高,完整的Agent任务需调用多个工具,单次出错会影响整体回答的正确率。测评使用CLion工具及0528版本R1模型。
·GDP数据爬取测试:在爬取过去十年中国GDP数据并整理保存的任务测试中,旧版本DeepSeekR1的8题正确率为4/8,0528新版本提升至6/8。旧版本失败的核心原因在于调用工具时会全量爬取网页内容,导致超出64K的上下文限制。新版本改进体现在两方面:一是上下文长度增加至128K(网页端仍限制为64K),二是工具调用精准度提升,减少不相关内容爬取。对比其他模型,Claude 3.7正确率为7/8,Claude 4正确率为8/8,是当前表现最好的模型。测试过程中,R1曾尝试使用fair retrieve工具成功,但Fetch工具容易失败,后续转用世界银行API,因无API支持转而通过命令行安装工具包,最终未能完成;Claude 4则成功完成任务,生成包含CSV文件、解释文档、季度数据及关键结论的高质量结果。 ·旅游规划任务测试:旅游规划任务要求调用4 5个MCP工具(包括和风天气、百度地图、Minimax生成图片、OneDrive部署网页、文件系统写入文件等),生成两人四天预算5000元的旅游规划网页,需包含每日天气、交通、花费时间及穿搭图片,并最终部署返回网页链接。模型表现方面,Claude 3.7、GROK 3、Claude 4可完成该任务,GPT 4.1则无法完成。R1在测试中遇到和风天气工具参数问题,需寻找替代工具(如通过百度地图获取天气数据)。Claude 4完成质量更高,虽未生成穿搭图片(用小图标替代),但排版更优且正确率更高;R1生成质量一般,存在工具调用失败情况(如生成图片工具失败),但整体结果仍算通过。 ·工具调用问题分析:R1工具调用的核心问题在于工具失败后备用方案不足。例如,Fetch工具在各模型中均易失败(包括Readcloud、GPT等),R1在Fetch失败后未选择其他MCP工具,而是尝试换用世界银行API或命令行安装工具包,导致任务难以完成。Claude模型则表现更优,如Claude 4熟悉各MCP工具下的小函数,工具调用失败后可快速寻找替代:当和风天气工具参数出错时,Claude 4转而使用百度地图中获取天气的工具,成功获取合肥2025年5月30日起的天气数据。R1旧版本问题更多集中在工具调用本身易出错,新版本则主要问题在于工具失败后备用工具切换能力不足。 ·长上下文能力验证:新版本R1的上下文长度增加至128K,显著提升了任务完成质量。长上下文支持下,模型对话时间延长,可连续解决复杂问题。例如,一道Readcloud 3.7、Clover均未做对的难题,旧版本R1虽完成但质量不高,新版本R1可连续运行近20分钟,通过不断修改和尝试最终高质量完成任务,结果质量优于旧版本。
·测试任务设计:测试任务为设计含科技感的动物消消乐游戏,针对旧版本R1可能无法生成或效果不好的问题,用新版本进行测试。测试目标是对比R1新版本与旧版本及Claude模型的生成质量,Claude 3.7、Claude 4可一次成功。 ·生成效果分析:R1新版本生成的游戏可运行但存在瑕疵,未实现消消乐逻辑、科技感展示不足。Claude 4生成质量更高,代码可直接运行。R1生成质量低于Claude 3.7、4,但优于旧版本。 ·模型对比结论:R1代码生成水平接近GROK 2.5 Pro、GPT4.1,在代码生成与Agent能力上接近O3 Mini,但与Claude系列存在差距。Claude以代码为优势,工具调用质量更优,R1在复杂任务中的表现落后于Claude 3.7、4。
·Agent能力总结:在Agent能力方面,当前版本较原先R1版本有进步,调用工具正确率、上下文长度和规划思考长度均增加,整体正确率从4/8提升至6/8。但新增的两道题完成不稳定,原因是R1出错后寻找替代方案的能力弱于Clouds 3.7。此外,与CloudModel系列模型有差距,CloudModel3.7正确率为7/8,CloudModel 4为8/8。 ·代码能力总结:代码生成能力上,针对生成类似风格游戏网页的两个小项目,旧版本无法完成,更新后能使游戏运行,但存在明显瑕疵。与Cudeco 4相比,当前版本代码生成质量仍有进步空间。
A: 这道题。这个 DeepSeekR1出错主要是因为他能够找到官方的网站是哪一个,比如说国家统计局,还有一些官方做的历年数据收入报告,但是它有一个问题就是在调用工具了之后,会把那个网页的所有内容都爬下来。而不进行一个区分,包括如果是一个几十页的研官方研究报告的话,他会把这个报告从目录开始就把它爬下来 那我们知道一次回答是有这个上下文限制的比如说64K 这样的一个水平,他把这个报告全都给他,在回答里面返回了,再加上原先的思考过程等等,一下子就超出了这个上下文的限制导致他就没有办法实现这个任务。这也是因为在模型没有去去把这个去去运行,包括使用这个工具的时候做一个参数上的变化,这也是他代码能力不强的体现,那现在我们测试这个模型的时候,上,昨昨天刚出来是,他是做对了的。
A: 早期版本存在工具调用缺陷,爬取网页内容时未区分相关性,会完整爬取包含目录的几十页官方报告等内容,导致结合思考过程后超出上下文限制,无法完成任务,这也反映了模型代码能力不足。当前能力提升主要得益于两方面改进:一是能够更精准定位目标资料;二是上下文长度延长,0528版本支持在CLion中设置最长128K的上下文,有效缓解了内容超限问题。
A: 任务执行过程中首先调用了fetch工具,但该工具成功率较低。任务规划步骤基本正确,包括通过中国国家统计局查找并调用fetch工具获取数据、解析后保存为CSV文件及来源说明至readme文件。主要问题集中在工具调用与参数设置,且当前MCP工具成熟度不足,与大模型连接易出错。后续因考虑中国国家统计局网站可能存在反爬虫机制,任务步骤更新为尝试使用世界银行数据,但因无世界银行API,转而计划通过电脑内置命令安装相关工具包,而此步骤通常难以完成,最终任务未成功。
A: 目前可完成该题的模型包括cloud 3.7、cloud 4、GROCO 3、Gemini 2.5 Pro。
A: 当前正在运行已编写的Python代码。若调用工具需通过命令行执行,任务通常无法实现,因此本次执行方向存在问题。在Fetch失败后,未选择其他MCP工具,而是尝试通过更换网站并使用API方式解决,此方式易失败,反映出任务执行步骤尚未固定,部分问题仍存在不稳定性。
A: 之前未使用Fetch工具,而是使用了fair retrieve并成功。FetchAPI均容易失败,可能是工具本身问题或MCP原因,多次修改后仍经常失败。
A: 当前未成功,因认为代码存在问题已重新修改,但预计可能仍无法成功。
A: 当前所讨论的思路仍为采用世界银行API。
A: 该题目需从非规范化网站爬取并整理数据,关键在于能否实现数据的精准搜索。推荐使用Readcloud 4,其效果良好;Claude 4的结果质量优于3.7版本。当前已通过code 4打开官方网站。
A: 网站未使用Flash技术,而是采用Playwright技术。此外,R1首次选择工具错误,选用了新闻头条工具。
A: 这一个这一个 Cloud 3.7,Grock 3,Cloud 4能做出出来,像 GPT-4.1就有点不行。
A: cos题及Cloud 4均已成功完成。
A: 第二道题的难点在于需调用4~5个MCP工具,且正确率要求极高。R1本次选择的工具包括和风天气、百度地图、Minimax生成图片、OneDrive部署网页及file system写入文件,规划合理且细节考虑更细致。4已完成该题,生成内容包含CSV文件、解释说明文档、季度数据及关键结论,质量显著优于3.7版本,且在搜索过程中会主动记录重要信息。
A: Cluey速度更快,原因是DeepSeekR1的思考过程更长。
A: 模型提升的主要能力是函数调用能力,但生成质量尚未完全成熟,存在工具调用失败的情况,但仍能输出有效结果。Cloud 4部署后生成的网页排版优于3.7版本,虽未生成今日穿搭图片,但仍被判定正确,且速度更快、正确率更高。Claude 4为当前最强模型;R1使用和风天气MCP查询天气时存在参数问题。
A: 此前测试结果显示该题答案正确。
A: Cloud 熟悉 MCP 工具下的小函数,当某个工具出错时,可通过熟悉的小函数找到替代工具,例如使用百度地图获取天气的工具进行查找,Cloud 4 即采用此方法。
A: 是的,当前系统经常出错的核心原因及瑕疵点在于MCP使用错误后的退路未妥善处理。
A: 老版本DeepSeekR1的主要问题更多体现在使用工具时出错。
A: 原先存在4/8的问题,现在增至6/8,目前重点关注其中两道题。
A: 新版本代码指令遵从性显著增强,例如按要求生成Jupyter运行的IPYNB格式文件;代码生成能力相比上一版本提升,能够按指定科技风格完成设计,但生成质量仍低于Claude 3.7和Claude 4;生成速度与此前版本相近;整体效果接近GPT4.1和GROK2.5 Pro水平;与以代码为优势的Claude 3.7、Claude 4仍存在差距,自增强后MCP工具调用质量提升显著。
A: Claude 3.7与Claude 4在该案例中的表现效果相近,因该类型题目对二者而言均非难题。
A: 该项目属于较为复杂的小项目。
A: DeepSeekR1已完成运行并呈现结果。
A: A键功能能力方面,相比R1版本有进步,调用工具正确率、上下文长度及规划思考长度均提升,整体正确率从4/8提升至6/8,实现较大突破;但原未完成的两道题仍存在不稳定情况,主要因出错后寻找替代方案的能力弱于Claude 3.7;与Claude Model系列模型相比仍有差距。编程能力方面,更新后可完成两个有难度的小项目并使其运行,但存在明显瑕疵;与当前最优模型Claude 4相比仍有进步空间。