MoE

如果你关注开源大模型的格局变化，这两天应该已经看到消息了：智谱 AI（Z.ai）的 GLM-5.2 在 Artificial Analysis Intelligence Index v4.1 上拿到 51 分，成为当前得分最高的开源权重模型。875 分的 HN 热度也说明社区对此的关注度不低。但"登顶基准榜"这件事本身并不稀缺——每隔几周就有新模型刷一波排名。真正值得拆解的问题是：GLM-5.2 做对了什么，让它在 Agent 场景下同时跑赢了 DeepSeek V4 Pro 和 MiniMax-M3？先看基本面 GLM-5.2 是一个 753B 总参数的 MoE（混合专家）模型，每次推理激活约 40B 参数。和它的前身 GLM-5.1 参数规模完全相同，但在 Intelligence Index 上高出 11 分。架构代号叫 glm_moe_dsa——DSA 即 DeepSeek Sparse Attention，一种轻量级的稀疏注意力方案。许可证是 MIT，没有地区限制，没有技术访问门槛。这一点在当前中美 AI 竞争的语境下值得单独提一句：很多"开源"模型在许可证或访问上藏着条件，GLM-5.2 没有。在 HuggingFace 上，zai-org/GLM-5.2 和 zai-org/GLM-5.2-FP8 都可下载。FP8 版本已经累计近 2.5 万次下载，社区里的 GGUF 量化版本也在快速跟进——这说明实际有人在跑这个模型，不只是看个热闹。 IndexShare：GLM-5.2 的真正技术突破如果你只看 benchmark 数字，会觉得 GLM-5.2 只是"分数更高了"。但仔细看技术细节，它的核心创新在于 IndexShare（arxiv:2603.12201）。问题出在长上下文场景。DSA 的思路是用一个轻量级 indexer 为每个 query 选择 top-k 最相关的 token，把核心注意力的复杂度从 O(L²) 降到 O(Lk)。但 indexer 本身仍然是 O(L²) 的——上下文越长，indexer 的计算开销越大，成为瓶颈。 ...

一个万亿参数的模型，在 8 张消费级 GPU 上每秒吐出 1000 个 token——这件事本身并不新鲜，因为类似数字过去只在论文 demo 或特制硬件上见过。但小米 MiMo 团队和 TileRT 推出的 MiMo-V2.5-Pro-UltraSpeed，用的是商品化 GPU、开源推理框架、没有定制芯片。这就有意思了。更关键的是，实现这个速度的路径不是"把量化做狠一点"或"投机解码多猜几个 token"这么简单。它触及了一个更根本的问题：当推理系统逼近硬件物理极限时，模型架构和推理引擎必须从设计阶段就开始同步进化，而不是各自优化完再拼到一起。这篇拆解 MiMo × TileRT 做了什么，以及"Speed Scaling"作为新范式到底意味着什么。万亿参数推理为什么特别难先说背景。MoE（Mixture of Experts）架构让万亿参数模型在训练端变得可行——每次前向传播只激活一小部分参数，推理时的计算量远低于密集模型。但推理端有一个不太一样的瓶颈：显存带宽。一个 1T 参数的 MoE 模型，即使只激活几百亿参数，完整的权重还是得住在 GPU 显存里。用 FP16 加载需要 2TB 显存，8 张 80GB H100 只有 640GB，根本装不下。即使用 FP8（1TB），仍然超出单节点容量。这意味着推理速度的瓶颈不在计算，而在数据搬运——每生成一个 token，GPU 都要从显存读取相关权重，读取速度直接决定生成速度。业界称之为"Memory-Bound"场景，token/s 的上限 = 显存带宽 / 每 token 需要读取的字节数。所以，要让 1T 模型跑快，核心就两件事：减少每次搬运的数据量，和减少搬运次数。第一层：FP4 选择性量化——不是所有参数都值得用低精度减少数据量最直接的方法是量化。MiMo-V2.5-Pro 采用的是 OCP Microscaling (MXFP4) 格式——一种 Microsoft 主导的 FP4 标准，在极低比特下保持数值稳定性。但关键不是"全模型 FP4"。如果暴力把所有层都压到 4 bit，模型在复杂推理、代码生成等任务上会出现明显退化。MiMo 的做法是选择性量化： ...

GLM-5.2 登顶开源模型基准榜：753B MoE 架构如何做到 1M 上下文 + Agent 级推理

1T 模型跑出 1000 tok/s：MiMo × TileRT 的模型-系统联合设计到底做了什么