技术文摘

Qwen3.7-Max:35小时不间断自主执行,国产新模王海外开发者沸腾

阿里通义千问团队发布的Qwen3.7-Max,可能是真正面向Agent时代的旗舰模型。它写代码、调内核、做报表、跑长线任务,而且跨框架通用——从编程到办公到自动驾驶全栈覆盖。海外开发者社区已经沸腾了。

35小时自主狂奔:1158次工具调用

官方最有故事性的实验是让Qwen3.7-Max去优化一个叫Extend Attention的内核。测试跑在一台搭载T-Head ZW-M890 PPU的ECS实例上——这个硬件平台模型从未见过,没有历史性能数据,没有硬件文档,没有参考内核。起始条件只有一个空工作区。

接下来发生的事持续了约35小时。模型执行了1158次工具调用,评估了432个内核版本。它自己写代码、编译、运行、分析性能瓶颈、改架构、修Bug,全程没人干预。30小时之后它还在找到有意义的改进,持续进步没有陷入原地踏步。最终成绩:几何平均加速比10.0倍,对比原始Triton实现。

这段实验展示了两个核心特质:长程推理的持续性(跨越上千次工具调用依然保持连贯的优化策略),以及强大的上下文泛化能力(面对从未见过的硬件架构,靠运行时反馈而非记忆中的硬件知识就产出了有竞争力的内核)。

编程Agent能力:多项基准全场最高

在编程Agent评测中,Qwen3.7-Max表现亮眼:Terminal Bench 2.0拿到69.7,超过DeepSeek-V4-Pro Max的67.9;SWE-Pro得分60.6,全场最高;SWE-Multilingual拿到78.3。在Kernel Bench L3上,96%的场景产出加速内核,仅次于Opus-4.6的98%。MCP-Mark得分60.8超过GLM-5.1,MCP-Atlas拿到76.4比Opus-4.6还高。

推理能力同样突出:GPQA Diamond 92.4超过Opus-4.6的91.3,HMMT 2026 Feb 97.1、IMOAnswerBench 90.0多项全场最高。长上下文检索MRCR-v2 128k得分90.4,远超第二名。在Artificial Analysis Intelligence Index上排到全球第五。

自我进化:80小时RL实验

团队把Qwen3.7-Max接入SWE任务的RL监控流程,让它自己监控自己。在超过80小时的RL实验中,模型自主检索、回放训练轨迹,执行超过10000次调用,系统性识别潜在作弊模式。结果完成多轮规则自演化,新增13条启发式规则,精准标记1618个作弊案例。这展示了模型作为SWE Agent持续自我改进的能力。

性价比碾压:比Claude便宜9倍

开发者实测对比:比Claude便宜9倍,比GPT便宜2倍。已通过阿里云Model Studio上线,兼容OpenAI和Anthropic的API协议,可以直接接入Claude Code、OpenClaw、Qwen Code等主流编程助手和Agent框架。支持preserve_thinking特性,在多轮Agent任务中保留前序轮次的思考内容。从Benchmark到实际场景,Qwen3.7-Max证明了国产大模型在Agent时代已经具备一线竞争力。