250530--“新版Deep...

发布者：Vito的行研札记

·测评方向说明：本次测评有两个核心方向，一是测试调用MCP类Agent工具的准确率，包括将旧版本未完成的任务重新交给新版本模型并观察效果；二是评估代码生成的质量和效率，此次模型更新重点优化了推理、深度思考文本生成及代码生成功能。此外，Agent任务对代码能力要求高，完整的Agent任务需调用多个工具，单次出错会影响整体回答的正确率。测评使用CLion工具及0528版本R1模型。

·GDP数据爬取测试：在爬取过去十年中国GDP数据并整理保存的任务测试中，旧版本DeepSeekR1的8题正确率为4/8，0528新版本提升至6/8。旧版本失败的核心原因在于调用工具时会全量爬取网页内容，导致超出64K的上下文限制。新版本改进体现在两方面：一是上下文长度增加至128K（网页端仍限制为64K），二是工具调用精准度提升，减少不相关内容爬取。对比其他模型，Claude 3.7正确率为7/8，Claude 4正确率为8/8，是当前表现最好的模型。测试过程中，R1曾尝试使用fair retrieve工具成功，但Fetch工具容易失败，后续转用世界银行API，因无API支持转而通过命令行安装工具包，最终未能完成；Claude 4则成功完成任务，生成包含CSV文件、解释文档、季度数据及关键结论的高质量结果。 ·旅游规划任务测试：旅游规划任务要求调用4 5个MCP工具（包括和风天气、百度地图、Minimax生成图片、OneDrive部署网页、文件系统写入文件等），生成两人四天预算5000元的旅游规划网页，需包含每日天气、交通、花费时间及穿搭图片，并最终部署返回网页链接。模型表现方面，Claude 3.7、GROK 3、Claude 4可完成该任务，GPT 4.1则无法完成。R1在测试中遇到和风天气工具参数问题，需寻找替代工具（如通过百度地图获取天气数据）。Claude 4完成质量更高，虽未生成穿搭图片（用小图标替代），但排版更优且正确率更高；R1生成质量一般，存在工具调用失败情况（如生成图片工具失败），但整体结果仍算通过。 ·工具调用问题分析：R1工具调用的核心问题在于工具失败后备用方案不足。例如，Fetch工具在各模型中均易失败（包括Readcloud、GPT等），R1在Fetch失败后未选择其他MCP工具，而是尝试换用世界银行API或命令行安装工具包，导致任务难以完成。Claude模型则表现更优，如Claude 4熟悉各MCP工具下的小函数，工具调用失败后可快速寻找替代：当和风天气工具参数出错时，Claude 4转而使用百度地图中获取天气的工具，成功获取合肥2025年5月30日起的天气数据。R1旧版本问题更多集中在工具调用本身易出错，新版本则主要问题在于工具失败后备用工具切换能力不足。 ·长上下文能力验证：新版本R1的上下文长度增加至128K，显著提升了任务完成质量。长上下文支持下，模型对话时间延长，可连续解决复杂问题。例如，一道Readcloud 3.7、Clover均未做对的难题，旧版本R1虽完成但质量不高，新版本R1可连续运行近20分钟，通过不断修改和尝试最终高质量完成任务，结果质量优于旧版本。

·测试任务设计：测试任务为设计含科技感的动物消消乐游戏，针对旧版本R1可能无法生成或效果不好的问题，用新版本进行测试。测试目标是对比R1新版本与旧版本及Claude模型的生成质量，Claude 3.7、Claude 4可一次成功。 ·生成效果分析：R1新版本生成的游戏可运行但存在瑕疵，未实现消消乐逻辑、科技感展示不足。Claude 4生成质量更高，代码可直接运行。R1生成质量低于Claude 3.7、4，但优于旧版本。 ·模型对比结论：R1代码生成水平接近GROK 2.5 Pro、GPT4.1，在代码生成与Agent能力上接近O3 Mini，但与Claude系列存在差距。Claude以代码为优势，工具调用质量更优，R1在复杂任务中的表现落后于Claude 3.7、4。

·Agent能力总结：在Agent能力方面，当前版本较原先R1版本有进步，调用工具正确率、上下文长度和规划思考长度均增加，整体正确率从4/8提升至6/8。但新增的两道题完成不稳定，原因是R1出错后寻找替代方案的能力弱于Clouds 3.7。此外，与CloudModel系列模型有差距，CloudModel3.7正确率为7/8，CloudModel 4为8/8。 ·代码能力总结：代码生成能力上，针对生成类似风格游戏网页的两个小项目，旧版本无法完成，更新后能使游戏运行，但存在明显瑕疵。与Cudeco 4相比，当前版本代码生成质量仍有进步空间。

A: 这道题。这个 DeepSeekR1出错主要是因为他能够找到官方的网站是哪一个，比如说国家统计局，还有一些官方做的历年数据收入报告，但是它有一个问题就是在调用工具了之后，会把那个网页的所有内容都爬下来。而不进行一个区分，包括如果是一个几十页的研官方研究报告的话，他会把这个报告从目录开始就把它爬下来那我们知道一次回答是有这个上下文限制的比如说64K 这样的一个水平，他把这个报告全都给他，在回答里面返回了，再加上原先的思考过程等等，一下子就超出了这个上下文的限制导致他就没有办法实现这个任务。这也是因为在模型没有去去把这个去去运行，包括使用这个工具的时候做一个参数上的变化，这也是他代码能力不强的体现，那现在我们测试这个模型的时候，上，昨昨天刚出来是，他是做对了的。

A: 早期版本存在工具调用缺陷，爬取网页内容时未区分相关性，会完整爬取包含目录的几十页官方报告等内容，导致结合思考过程后超出上下文限制，无法完成任务，这也反映了模型代码能力不足。当前能力提升主要得益于两方面改进：一是能够更精准定位目标资料；二是上下文长度延长，0528版本支持在CLion中设置最长128K的上下文，有效缓解了内容超限问题。

A: 任务执行过程中首先调用了fetch工具，但该工具成功率较低。任务规划步骤基本正确，包括通过中国国家统计局查找并调用fetch工具获取数据、解析后保存为CSV文件及来源说明至readme文件。主要问题集中在工具调用与参数设置，且当前MCP工具成熟度不足，与大模型连接易出错。后续因考虑中国国家统计局网站可能存在反爬虫机制，任务步骤更新为尝试使用世界银行数据，但因无世界银行API，转而计划通过电脑内置命令安装相关工具包，而此步骤通常难以完成，最终任务未成功。

A: 目前可完成该题的模型包括cloud 3.7、cloud 4、GROCO 3、Gemini 2.5 Pro。

A: 当前正在运行已编写的Python代码。若调用工具需通过命令行执行，任务通常无法实现，因此本次执行方向存在问题。在Fetch失败后，未选择其他MCP工具，而是尝试通过更换网站并使用API方式解决，此方式易失败，反映出任务执行步骤尚未固定，部分问题仍存在不稳定性。

A: 之前未使用Fetch工具，而是使用了fair retrieve并成功。FetchAPI均容易失败，可能是工具本身问题或MCP原因，多次修改后仍经常失败。

A: 当前未成功，因认为代码存在问题已重新修改，但预计可能仍无法成功。

A: 当前所讨论的思路仍为采用世界银行API。

A: 该题目需从非规范化网站爬取并整理数据，关键在于能否实现数据的精准搜索。推荐使用Readcloud 4，其效果良好；Claude 4的结果质量优于3.7版本。当前已通过code 4打开官方网站。

A: 网站未使用Flash技术，而是采用Playwright技术。此外，R1首次选择工具错误，选用了新闻头条工具。

A: 这一个这一个 Cloud 3.7，Grock 3，Cloud 4能做出出来，像 GPT-4.1就有点不行。

A: cos题及Cloud 4均已成功完成。

A: 第二道题的难点在于需调用4~5个MCP工具，且正确率要求极高。R1本次选择的工具包括和风天气、百度地图、Minimax生成图片、OneDrive部署网页及file system写入文件，规划合理且细节考虑更细致。4已完成该题，生成内容包含CSV文件、解释说明文档、季度数据及关键结论，质量显著优于3.7版本，且在搜索过程中会主动记录重要信息。

A: Cluey速度更快，原因是DeepSeekR1的思考过程更长。

A: 模型提升的主要能力是函数调用能力，但生成质量尚未完全成熟，存在工具调用失败的情况，但仍能输出有效结果。Cloud 4部署后生成的网页排版优于3.7版本，虽未生成今日穿搭图片，但仍被判定正确，且速度更快、正确率更高。Claude 4为当前最强模型；R1使用和风天气MCP查询天气时存在参数问题。

A: 此前测试结果显示该题答案正确。

A: Cloud 熟悉 MCP 工具下的小函数，当某个工具出错时，可通过熟悉的小函数找到替代工具，例如使用百度地图获取天气的工具进行查找，Cloud 4 即采用此方法。

A: 是的，当前系统经常出错的核心原因及瑕疵点在于MCP使用错误后的退路未妥善处理。

A: 老版本DeepSeekR1的主要问题更多体现在使用工具时出错。

A: 原先存在4/8的问题，现在增至6/8，目前重点关注其中两道题。

A: 新版本代码指令遵从性显著增强，例如按要求生成Jupyter运行的IPYNB格式文件；代码生成能力相比上一版本提升，能够按指定科技风格完成设计，但生成质量仍低于Claude 3.7和Claude 4；生成速度与此前版本相近；整体效果接近GPT4.1和GROK2.5 Pro水平；与以代码为优势的Claude 3.7、Claude 4仍存在差距，自增强后MCP工具调用质量提升显著。

A: Claude 3.7与Claude 4在该案例中的表现效果相近，因该类型题目对二者而言均非难题。

A: 该项目属于较为复杂的小项目。

A: DeepSeekR1已完成运行并呈现结果。

A: A键功能能力方面，相比R1版本有进步，调用工具正确率、上下文长度及规划思考长度均提升，整体正确率从4/8提升至6/8，实现较大突破；但原未完成的两道题仍存在不稳定情况，主要因出错后寻找替代方案的能力弱于Claude 3.7；与Claude Model系列模型相比仍有差距。编程能力方面，更新后可完成两个有难度的小项目并使其运行，但存在明显瑕疵；与当前最优模型Claude 4相比仍有进步空间。