技术文摘

Qwen3.7-Max：35小时不间断自主执行，国产新模王海外开发者沸腾

📅 2026-05-30 02:31 · 👁 1 次阅读 · 📝 1,319 字 · ⏱ 约 5 分钟读完

阿里通义千问团队发布的Qwen3.7-Max，可能是真正面向Agent时代的旗舰模型。它写代码、调内核、做报表、跑长线任务，而且跨框架通用——从编程到办公到自动驾驶全栈覆盖。海外开发者社区已经沸腾了。

35小时自主狂奔：1158次工具调用

官方最有故事性的实验是让Qwen3.7-Max去优化一个叫Extend Attention的内核。测试跑在一台搭载T-Head ZW-M890 PPU的ECS实例上——这个硬件平台模型从未见过，没有历史性能数据，没有硬件文档，没有参考内核。起始条件只有一个空工作区。

接下来发生的事持续了约35小时。模型执行了1158次工具调用，评估了432个内核版本。它自己写代码、编译、运行、分析性能瓶颈、改架构、修Bug，全程没人干预。30小时之后它还在找到有意义的改进，持续进步没有陷入原地踏步。最终成绩：几何平均加速比10.0倍，对比原始Triton实现。

这段实验展示了两个核心特质：长程推理的持续性（跨越上千次工具调用依然保持连贯的优化策略），以及强大的上下文泛化能力（面对从未见过的硬件架构，靠运行时反馈而非记忆中的硬件知识就产出了有竞争力的内核）。

编程Agent能力：多项基准全场最高

在编程Agent评测中，Qwen3.7-Max表现亮眼：Terminal Bench 2.0拿到69.7，超过DeepSeek-V4-Pro Max的67.9；SWE-Pro得分60.6，全场最高；SWE-Multilingual拿到78.3。在Kernel Bench L3上，96%的场景产出加速内核，仅次于Opus-4.6的98%。MCP-Mark得分60.8超过GLM-5.1，MCP-Atlas拿到76.4比Opus-4.6还高。

推理能力同样突出：GPQA Diamond 92.4超过Opus-4.6的91.3，HMMT 2026 Feb 97.1、IMOAnswerBench 90.0多项全场最高。长上下文检索MRCR-v2 128k得分90.4，远超第二名。在Artificial Analysis Intelligence Index上排到全球第五。

自我进化：80小时RL实验

团队把Qwen3.7-Max接入SWE任务的RL监控流程，让它自己监控自己。在超过80小时的RL实验中，模型自主检索、回放训练轨迹，执行超过10000次调用，系统性识别潜在作弊模式。结果完成多轮规则自演化，新增13条启发式规则，精准标记1618个作弊案例。这展示了模型作为SWE Agent持续自我改进的能力。

性价比碾压：比Claude便宜9倍

开发者实测对比：比Claude便宜9倍，比GPT便宜2倍。已通过阿里云Model Studio上线，兼容OpenAI和Anthropic的API协议，可以直接接入Claude Code、OpenClaw、Qwen Code等主流编程助手和Agent框架。支持preserve_thinking特性，在多轮Agent任务中保留前序轮次的思考内容。从Benchmark到实际场景，Qwen3.7-Max证明了国产大模型在Agent时代已经具备一线竞争力。

本站文章来源于网络摘取整理发布，如有侵权请联系 hy@uicn.cn 删除

35小时自主狂奔：1158次工具调用

编程Agent能力：多项基准全场最高

自我进化：80小时RL实验

性价比碾压：比Claude便宜9倍

相关文章

汽车变成超级秘书：比亚迪发布超级智能体「迪迪虾」

GPT-5.6泄露：150万Token超级智能体，6月AI大战提前爆发

AI智能体从聊天到干活：国家三部门发文规范，百度阿里腾讯全面入局