GLM-5.2 登顶开源模型基准榜：753B MoE 架构如何做到 1M 上下文 + Agent 级推理

如果你关注开源大模型的格局变化，这两天应该已经看到消息了：智谱 AI（Z.ai）的 GLM-5.2 在 Artificial Analysis Intelligence Index v4.1 上拿到 51 分，成为当前得分最高的开源权重模型。875 分的 HN 热度也说明社区对此的关注度不低。

但"登顶基准榜"这件事本身并不稀缺——每隔几周就有新模型刷一波排名。真正值得拆解的问题是：GLM-5.2 做对了什么，让它在 Agent 场景下同时跑赢了 DeepSeek V4 Pro 和 MiniMax-M3？

先看基本面

GLM-5.2 是一个 753B 总参数的 MoE（混合专家）模型，每次推理激活约 40B 参数。和它的前身 GLM-5.1 参数规模完全相同，但在 Intelligence Index 上高出 11 分。架构代号叫 glm_moe_dsa——DSA 即 DeepSeek Sparse Attention，一种轻量级的稀疏注意力方案。

许可证是 MIT，没有地区限制，没有技术访问门槛。这一点在当前中美 AI 竞争的语境下值得单独提一句：很多"开源"模型在许可证或访问上藏着条件，GLM-5.2 没有。

在 HuggingFace 上，zai-org/GLM-5.2 和 zai-org/GLM-5.2-FP8 都可下载。FP8 版本已经累计近 2.5 万次下载，社区里的 GGUF 量化版本也在快速跟进——这说明实际有人在跑这个模型，不只是看个热闹。

IndexShare：GLM-5.2 的真正技术突破

如果你只看 benchmark 数字，会觉得 GLM-5.2 只是"分数更高了"。但仔细看技术细节，它的核心创新在于 IndexShare（arxiv:2603.12201）。

问题出在长上下文场景。DSA 的思路是用一个轻量级 indexer 为每个 query 选择 top-k 最相关的 token，把核心注意力的复杂度从 O(L²) 降到 O(Lk)。但 indexer 本身仍然是 O(L²) 的——上下文越长，indexer 的计算开销越大，成为瓶颈。

IndexShare 的解法很直觉：让相邻的稀疏注意力层共享同一个 indexer。具体来说，每 4 层共享一次 indexer，把每 token 的 FLOPs 在 1M 上下文长度下降低了 2.9 倍。

用人话说就是：以前每个注意力层都要自己算一遍"哪些 token 最相关"，现在 4 层共用一个答案，省了大量重复计算。这不是精度换速度的妥协，而是工程层面的优化——共享 indexer 的精度损失被控制在可接受范围内。

另一个改进是 MTP（Multi-Token Prediction）层的优化，用于投机解码（speculative decoding），接受长度提升了最多 20%。这意味着生成速度更快，每个 token 的推理成本更低。我们在之前的 dflash-ddtree-speculative-decoding-llm-inference 文章中讨论过投机解码对推理效率的影响，GLM-5.2 的 MTP 优化走的是类似的技术路线。

基准表现：不只是"总分最高"

总分 51 的 Intelligence Index 是一个加权综合分。更有参考价值的是看各个子项：

推理能力：

HLE（Humanity’s Last Exam）：40.5%（GLM-5.1 为 31%，提升近 10 个点）
AIME 2026：99.2%——接近满分，比 GPT-5.5 的 98.3% 还高
GPQA Diamond：91.2%
CritPt 科学推理：20.9%（从 GLM-5.1 的 4.6% 跳升，提升 +16 点）

代码能力：

SWE-bench Pro：62.1%（开源模型领先，但 Claude Opus 4.8 有 69.2%）
TerminalBench v2.1：81.0%（接近 Claude Opus 的 85% 和 GPT-5.5 的 84%）
DeepSWE：46.2%（GLM-5.1 只有 18%，提升极其显著）
FrontierSWE：74.4%（GLM-5.1 仅 30.5%，提升了 44 个点）

Agent 能力：

GDPval-AA v2：1524 Elo——开源模型第一，与 GPT-5.5（1514）持平
MCP-Atlas：76.8%
Tool-Decathlon：48.2%

坦白说，AIME 99.2% 这种数字已经到了"考试满分"的范畴，边际差异不太有参考价值。真正有意义的是 FrontierSWE 从 30.5% 到 74.4% 的跃升——这说明 GLM-5.2 在长时程 Agent 任务上有了质的变化，不是靠刷题刷出来的。

成本与效率：Pareto 前沿上的位置

Artificial Analysis 给出了一个 Intelligence vs Cost per Task 的分析。GLM-5.2 的 API 定价是 $1.4/$4.4/$0.26（input/output/cache hit，每百万 token），每个 task 大约 $0.46。

作为对比：

GLM-5.1：$0.25/task
Kimi K2.6：$0.31/task
MiniMax-M3：$0.18/task
DeepSeek V4 Pro (max)：$0.05/task

GLM-5.2 的单任务成本不算低。但它每任务消耗 43k output tokens（其中 37k 是推理 token），比 GLM-5.1 的 26k 多了不少。这说明 GLM-5.2 在任务上"思考"得更深——更多的推理 token 换来了更高的准确率。

这是一个典型的性能-成本权衡。如果你的场景是高吞吐量的简单任务，DeepSeek V4 Pro 的 $0.05/task 显然更划算。但如果你需要在复杂 Agent 任务上拿到接近闭源模型的效果，GLM-5.2 是当前开源方案中性价比最高的选择。

实际部署：不是"能跑"就行

GLM-5.2 的 753B 参数意味着本地部署不是随便一张消费级显卡能搞定的事。官方列出了支持的推理框架：

SGLang（v0.5.13.post1+）——社区 cookbook 已经有完整教程
vLLM（v0.23.0+）——有现成的 deployment recipes
Transformers（v0.5.12+）
KTransformers（v0.5.12+）——专门做了 GLM-5.2 的 tutorial

此外，昇腾 NPU 平台也已支持 vLLM-Ascend、xLLM 和 SGLang。

对于大多数团队来说，直接用 API（Z.ai 官方或 DeepInfra、Novita、Nebius 等第三方）是更现实的选择。如果你真想本地跑，FP8 版本是最低门槛，KTransformers 的异构推理方案可能更实际——我们在 mimo-tilert-1000tps-trillion-parameter-inference 中讨论过类似的大规模推理优化思路。

从 GLM-5.1 到 5.2：迭代速度值得关注

GLM-5.1 是 2026 年 5 月发布的，到 5.2 只隔了一个月。这种迭代速度本身就是一个信号——智谱 AI 的 post-training pipeline 效率很高。

技术报告（arxiv:2602.15763）提到他们用了"异步强化学习基础设施"来提升 post-training 效率，解耦了 rollout 和 training。这种工程能力在大模型竞争中往往是被低估的因素——不是谁的模型架构更好，而是谁能更快地迭代、更快地把新数据和新方法转化成模型能力。

另外值得注意的是，GLM-5.2 的 GitHub 仓库（zai-org/GLM-5）已经有 4149 stars，最近一次提交是 6 月 18 日——非常活跃。对于一个开源模型来说，代码仓库的活跃度直接决定了社区生态的发展速度。

说几句实话

GLM-5.2 的基准表现确实强，但基准测试永远有局限性。Artificial Analysis 的 GDPval-AA v2 是目前比较接近真实 Agent 工作场景的评测，GLM-5.2 在上面和 GPT-5.5 打平，这个结果比 AIME 满分有意义得多。

但"打平"不等于"可替代"。实际使用中，模型的指令遵循精度、长对话的稳定性、tool calling 的可靠性，这些都很难被 benchmark 完全覆盖。如果你的场景是生产级 Agent 系统，建议先用小规模任务做 A/B 测试，而不是看到基准分数就直接切换。

还有一点：GLM-5.2 使用 43k output tokens per task（其中 37k 是推理），这意味着它在"思考"上花了大量 token。在高并发场景下，这个 token 消耗量可能成为成本和延迟的瓶颈。Artificial Analysis 也指出它在 Intelligence vs Output Tokens 的帕累托图上并不在最优象限——“更聪明"但"更啰嗦”。

总结

GLM-5.2 的核心价值不在于"又一个开源模型登顶"，而在于它展示了 MoE + 稀疏注意力 + IndexShare 这条技术路线在长上下文 Agent 场景下的可行性。753B 参数中只激活 40B，加上 IndexShare 的 2.9× FLOPs 降低，让它在推理成本和智能水平之间找到了一个不错的平衡点。

对于工程师来说，关注点应该是：

如果你在选型开源模型做 Agent：GLM-5.2 是当前最强的开源选择，尤其在长时程任务上。但要测试实际场景，不要只看 benchmark。
如果你关注推理效率：IndexShare 的"层间共享 indexer"思路值得学习，可以在自己的稀疏注意力实现中借鉴。
如果你在做模型部署：API 方案成本可控（$0.46/task），本地部署需要多卡或异构推理方案。

开源模型的能力上限在持续逼近闭源模型，这个趋势没有放缓的迹象。GLM-5.2 只是最新的一块拼图。

信源：

先看基本面#

IndexShare：GLM-5.2 的真正技术突破#

基准表现：不只是"总分最高"#

成本与效率：Pareto 前沿上的位置#

实际部署：不是"能跑"就行#

从 GLM-5.1 到 5.2：迭代速度值得关注#

说几句实话#

总结#