GLM-5.2到底有多强，深度测评来了

6月13号，Fable 5 被下架了。不是技术问题，是美国商务部长直接给 Anthropic CEO Dario Amodei 发了封信，以国家安全权限为由，要求暂停所有外国人对 Fable 5 和 Mythos 5 的访问。限制范围很广，不光是境外用户，连身在美国的外国人甚至 Anthropic 自己的外籍员工都包括在内。没有公开细节，没有申诉窗口，48 小时内执行

然后 Anthropic 做了一个决定，直接把 Fable 5 和 Mythos 5 对所有用户全部关停，美国人自己也用不了

同一天，智谱宣布 GLM-5.2 全量开放

更有意思的是开放时间，晚上 5:21。为什么是 5:21？因为 Anthropic 是 5:21 收到的那封信。智谱选了同一个时间点开放。你说这是巧合，反正我不信

测评

因为发布第一天去参加 MiniMax 线下活动了，所以第二天才测试的

试完之后我愣了一下

我手上有个 tauri2 项目，Rust 后端大概 39k 行，React/TS 前端大概 27k 行，不算小了。之前拿各种模型做过 CR，M3 也试过，Kimi 也试过，大部分模型的反应都差不多，上来就派子 agent 开扫，扫完甩给你一堆似是而非的建议。最大的问题是它们根本不理解你的项目框架，给出来的东西全是通用的废话

GLM-5.2 不是这样的

它拿到代码库之后，先花了很长时间读。不是直接开干，而是先扫整个项目，分类前后端，理解各模块之间的依赖关系，搞清楚你这个项目到底在干什么。然后才来问你，需要 CR 哪个部分（忘记截图了，不过还是好评）

这个行为我只在 Fable 身上见过。其他模型做 CR 都是拿到代码就开始输出，只有 Fable 和 GPT-5.5 会先花时间去理解

说真的，GLM-5.2 是我用过的除 Fable 外 CR 做得最好的模型了

这是 Opus 4.8 对它的评价，CR 报告信息密度很高，每条都带着具体的文件路径和行号、触发条件、失败后果，不是泛泛而谈。比如有一条指出 reindex 的竞态问题，直接把 clear 之后、快照之前这个精确窗口给你说清楚了。还有一条 UNIQUE 约束的问题，直接对比了相邻索引的差异来佐证。这种粒度的 CR 是可以直接当修复指南用的

更有意思的是，它会自查。有 2 个高危候选被它自己验证为假阳性，专门列在报告末尾，告诉你这两条看起来像问题但其实不是，已经排除了，避免你误改

很多 CR 只报问题，不说哪些看起来像问题但不是。但假阳性如果不标出来，开发者就得花时间去改本来正确的代码，这是对团队真正负责的做法

覆盖面也让我印象很深。从 Rust 后端的 SQL 事务、TLS 配置、IMAP 协议细节，到前端的 React memo 失效、Zustand 缓存、CSP 策略，再到密钥架构和备份安全，横跨整个技术栈，没有明显的漏网大鱼。能在一次 review 里维持这个广度和深度，不容易

顺着 CR 的体验再聊聊写代码

GLM-5.2 写代码有一种 GPT 5.5 的影子。它会跑自验证，写完一段不是直接甩给你，而是自己先验一遍，确认逻辑没问题才输出。规划也很清晰，你让它做一个涉及多文件的改动，它知道先改哪个后改哪个，知道哪些文件之间有依赖，不会改了 A 忘了 B 然后编译报错

工程的逻辑性非常强

在 400-500k 上下文长度下，准确性和指令遵循跟 Claude 差距不大，非常稳。长上下文场景下它不会像有些模型那样突然开始胡说八道，该遵循的规则到了 400K 也能守住

在实际 bot/agent 体验上，如果不是对 Opus 4.6 特别熟悉的人，用 GLM-5.2 和用 Opus 基本分不出来。这对一个开源模型来说，已经是很高的评价了

我自己的感受是，它更像一个勤勤恳恳的老黄牛，活肯定能给你干好。聪明程度比不上 Fable 那种级别，跟 Opus 4.8 也差一点，但已经非常好了。用过 5.2 之后再回去用 5.1，会觉得 5.1 明显不够用了，在大项目里面这种差距感更强

缺点

说完优点，聊聊问题。GLM-5.2 的缺点不是那种小瑕疵，有几个是真的会影响日常使用体验的

慢，真的慢

我上面说到的CR，M3跑了100分钟是105个问题，GLM5.2跑了300多分钟。。。

LINUX DO 有个帖子拿 Unity C# 项目的真实需求做了 42 个模型的横向对比。速度排名里，Composer 2.5 只要 3 分钟，Claude Sonnet 4.6 要 9 分钟，Opus 4.8 要 33 分钟，而 GLM-5.2 排在最后，45 分钟。比 Kimi K2.7 Code 还慢 6 分钟。帖主说 6 分钟够 Composer 2.5 做两轮需求了

（篇幅影响，省略部分模型）

42 个模型里排最后，这个数据没法洗。帖主猜测可能是 Coding Plan 级别太低或者模型 TPS 比较低，但不管原因是什么，体感就是慢。你给它一个任务，泡杯咖啡回来它可能还在读代码

GLM-5 系列一直有这个特点，架构上采用了类似 System 2 思维的慢思考模式，换来的是极低的幻觉率。但慢工出细活这个说法有个前提，就是你等得起。如果你的工作流是高频迭代、快速试错的那种，45 分钟一轮的节奏会让你非常痛苦

没有多模态

2026 年了，GLM-5.2 还是纯文本模型，不能读图。你没法截个 UI 的图让它帮你改样式，没法丢一张设计稿让它还原，没法拍个报错截图让它诊断。Kimi K2.7 Code 和 M3 都已经支持多模态了，这个缺失在实际开发中会越来越明显。尤其是前端开发，不能读图基本等于少了一只手

前端设计审美差

工程能力是有了，但 GLM-5.2 做出来的前端页面，说好听点叫功能完整，说难听点就是丑。跟 Claude 系列比，差距主要就在这里。后端逻辑、代码架构这些可以接近 Opus 的水平，但只要涉及到视觉设计、CSS 细节、交互动效，如果没有skill帮助，差距一下就拉开了

Coding Plan 要抢

智谱的算力不够，没办法支持所有用户的推理请求，Coding Plan 限额发售。你想买，得靠抢。有人说每天早上定个 10 点的闹钟去抢。一个模型再好，用不上就等于零。这个问题在 API 上线和开源之后可能会缓解，但目前体验确实不好

上下文注意力存疑

1M 的上下文窗口是有了，但能不能在整个 1M 范围内都保持高质量的注意力，目前还没有足够的数据支撑。400-500K 以内表现很稳这个我自己也验证了，再往后的区间怎么样，需要更大佬们自己去测了

背景

GLM-5 系列底子是 744B 参数的 MoE 架构，每次推理只激活 40B，用的 DeepSeek 稀疏注意力。全程用华为昇腾芯片训练，没有一块英伟达的卡。迭代节奏非常快，2月发 GLM-5，4月发 5.1，6月就到了 5.2，三个月三个版本。GLM-5.1 在 SWE-Bench Pro 上拿了 58.4 分，超过 GPT-5.4 和 Claude Opus 4.6，开源模型全球第一。5.2 还没放官方 benchmark，但从实测来看和Opus4.8还有gpt-5.5真没差多少

MIT 开源，1M 上下文，$18/月 Lite 订阅。这三件事放在一起，对开发者来说性价比确实炸裂。你花 Claude Max 十分之一的钱，用上一个编程能力接近 Opus 级别的开源模型

智谱发布的时候说了一句，前沿智能不应只属于少数人，也不应被少数规则随时收回

这句话放在 Fable 5 被下架的同一天，分量很重

反正我觉得，GLM-5.2 是目前国产编程模型的天花板，CR、长程任务、后端工程这几个方向上已经是国产最强。但它也不是没有问题，慢、不能读图、前端审美差、算力不够用，这些缺点放在一起，会让很多人在实际选型的时候犹豫

如果你的场景是后端工程、长程任务、代码审查，它可能是目前性价比最高的选择

如果你需要快、需要多模态、需要前端视觉效果，目前可能 Minimax M3 更适合你

就是这么个情况。等下周开源之后，社区跑完分，再来更新补一期更完整的

📄 导出为PDF

本文来自投稿，不代表本站立场，如若转载，请注明出处：

GLM-5.2到底有多强，深度测评来了

测评

缺点

背景

相关推荐

一纸脆弱的“和平”：美伊备忘录背后的刀光剑影

一季度结婚人数，负增长！你咋看？你咋选？

西安相亲会男生集体消失

当反抗成为一种表演：为什么女权主义无法团结

发表评论

作者信息

推荐话题

# 毛主席

# 问题

# 基层

# 诬告

# 苹果

# 毛泽东

# 政府

# 这是一个令人疑惑的星球

# 英雄联盟全球总决赛

# 阳和平

# 行业

# 代孕

关于本站

举报