阿里发布Qwen3.7-Max:GPQA和HMMT双超Opus 4,国产大模型再突破
5月下旬,阿里巴巴发布智能体旗舰模型 Qwen3.7-Max,在多项关键基准测试中实现重大突破。GPQA(研究生级别问答)和 HMMT(哈佛-MIT数学竞赛)两项评测双双超越 Anthropic 的 Opus 4。
技术亮点
Qwen3.7-Max 是阿里通义千问系列的最新旗舰,主打智能体能力和复杂推理。相比前代版本,在以下方面有显著提升:
- 数学推理:HMMT数学竞赛题目得分大幅提升
- 科学问答:GPQA研究生级别科学推理超越Opus 4
- 代码生成:HumanEval评测接近国际顶尖水平
- 长文本理解:支持128K上下文窗口
国产大模型崛起
据行业平台 Openrate 统计,2026年5月中国大模型API调用量已全球领先。从DeepSeek到Qwen,国产大模型在推理能力、性价比和产业落地三个维度上全面发力。
阿里云智能CTO周靖人在发布会上表示:"Qwen3.7-Max不仅是技术指标的突破,更是AI能力从实验室走向产业化的关键一步。我们已经在金融、医疗、教育等场景中看到令人振奋的应用案例。"