返回

GLM-5.2到底有多强,深度测评来了

6月13号,Fable 5 被下架了。不是技术问题,是美国商务部长直接给 Anthropic CEO Dario Amodei 发了封信,以国家安全权限为由,要求暂停所有外国人对 Fable 5 和 Mythos 5 的访问。限制范围很广,不光是境外用户,连身在美国的外国人甚至 Anthropic 自己的外籍员工都包括在内。没有公开细节,没有申诉窗口,48 小时内执行

然后 Anthropic 做了一个决定,直接把 Fable 5 和 Mythos 5 对所有用户全部关停,美国人自己也用不了

同一天,智谱宣布 GLM-5.2 全量开放

更有意思的是开放时间,晚上 5:21。为什么是 5:21?因为 Anthropic 是 5:21 收到的那封信。智谱选了同一个时间点开放。你说这是巧合,反正我不信

测评

因为发布第一天去参加 MiniMax 线下活动了,所以第二天才测试的

试完之后我愣了一下

我手上有个 tauri2 项目,Rust 后端大概 39k 行,React/TS 前端大概 27k 行,不算小了。之前拿各种模型做过 CR,M3 也试过,Kimi 也试过,大部分模型的反应都差不多,上来就派子 agent 开扫,扫完甩给你一堆似是而非的建议。最大的问题是它们根本不理解你的项目框架,给出来的东西全是通用的废话

GLM-5.2 不是这样的

它拿到代码库之后,先花了很长时间读。不是直接开干,而是先扫整个项目,分类前后端,理解各模块之间的依赖关系,搞清楚你这个项目到底在干什么。然后才来问你,需要 CR 哪个部分(忘记截图了,不过还是好评)



这个行为我只在 Fable 身上见过。其他模型做 CR 都是拿到代码就开始输出,只有 Fable 和 GPT-5.5 会先花时间去理解

说真的,GLM-5.2 是我用过的除 Fable 外 CR 做得最好的模型了



这是 Opus 4.8 对它的评价,CR 报告信息密度很高,每条都带着具体的文件路径和行号、触发条件、失败后果,不是泛泛而谈。比如有一条指出 reindex 的竞态问题,直接把 clear 之后、快照之前这个精确窗口给你说清楚了。还有一条 UNIQUE 约束的问题,直接对比了相邻索引的差异来佐证。这种粒度的 CR 是可以直接当修复指南用的

更有意思的是,它会自查。有 2 个高危候选被它自己验证为假阳性,专门列在报告末尾,告诉你这两条看起来像问题但其实不是,已经排除了,避免你误改

很多 CR 只报问题,不说哪些看起来像问题但不是。但假阳性如果不标出来,开发者就得花时间去改本来正确的代码,这是对团队真正负责的做法

覆盖面也让我印象很深。从 Rust 后端的 SQL 事务、TLS 配置、IMAP 协议细节,到前端的 React memo 失效、Zustand 缓存、CSP 策略,再到密钥架构和备份安全,横跨整个技术栈,没有明显的漏网大鱼。能在一次 review 里维持这个广度和深度,不容易

顺着 CR 的体验再聊聊写代码

GLM-5.2 写代码有一种 GPT 5.5 的影子。它会跑自验证,写完一段不是直接甩给你,而是自己先验一遍,确认逻辑没问题才输出。规划也很清晰,你让它做一个涉及多文件的改动,它知道先改哪个后改哪个,知道哪些文件之间有依赖,不会改了 A 忘了 B 然后编译报错



工程的逻辑性非常强

在 400-500k 上下文长度下,准确性和指令遵循跟 Claude 差距不大,非常稳。长上下文场景下它不会像有些模型那样突然开始胡说八道,该遵循的规则到了 400K 也能守住

在实际 bot/agent 体验上,如果不是对 Opus 4.6 特别熟悉的人,用 GLM-5.2 和用 Opus 基本分不出来。这对一个开源模型来说,已经是很高的评价了

我自己的感受是,它更像一个勤勤恳恳的老黄牛,活肯定能给你干好。聪明程度比不上 Fable 那种级别,跟 Opus 4.8 也差一点,但已经非常好了。用过 5.2 之后再回去用 5.1,会觉得 5.1 明显不够用了,在大项目里面这种差距感更强

缺点

说完优点,聊聊问题。GLM-5.2 的缺点不是那种小瑕疵,有几个是真的会影响日常使用体验的

慢,真的慢

我上面说到的CR,M3跑了100分钟是105个问题,GLM5.2跑了300多分钟。。。

LINUX DO 有个帖子拿 Unity C# 项目的真实需求做了 42 个模型的横向对比。速度排名里,Composer 2.5 只要 3 分钟,Claude Sonnet 4.6 要 9 分钟,Opus 4.8 要 33 分钟,而 GLM-5.2 排在最后,45 分钟。比 Kimi K2.7 Code 还慢 6 分钟。帖主说 6 分钟够 Composer 2.5 做两轮需求了




(篇幅影响,省略部分模型)

42 个模型里排最后,这个数据没法洗。帖主猜测可能是 Coding Plan 级别太低或者模型 TPS 比较低,但不管原因是什么,体感就是慢。你给它一个任务,泡杯咖啡回来它可能还在读代码

GLM-5 系列一直有这个特点,架构上采用了类似 System 2 思维的慢思考模式,换来的是极低的幻觉率。但慢工出细活这个说法有个前提,就是你等得起。如果你的工作流是高频迭代、快速试错的那种,45 分钟一轮的节奏会让你非常痛苦

没有多模态

2026 年了,GLM-5.2 还是纯文本模型,不能读图。你没法截个 UI 的图让它帮你改样式,没法丢一张设计稿让它还原,没法拍个报错截图让它诊断。Kimi K2.7 Code 和 M3 都已经支持多模态了,这个缺失在实际开发中会越来越明显。尤其是前端开发,不能读图基本等于少了一只手

前端设计审美差

工程能力是有了,但 GLM-5.2 做出来的前端页面,说好听点叫功能完整,说难听点就是丑。跟 Claude 系列比,差距主要就在这里。后端逻辑、代码架构这些可以接近 Opus 的水平,但只要涉及到视觉设计、CSS 细节、交互动效,如果没有skill帮助,差距一下就拉开了

Coding Plan 要抢

智谱的算力不够,没办法支持所有用户的推理请求,Coding Plan 限额发售。你想买,得靠抢。有人说每天早上定个 10 点的闹钟去抢。一个模型再好,用不上就等于零。这个问题在 API 上线和开源之后可能会缓解,但目前体验确实不好

上下文注意力存疑

1M 的上下文窗口是有了,但能不能在整个 1M 范围内都保持高质量的注意力,目前还没有足够的数据支撑。400-500K 以内表现很稳这个我自己也验证了,再往后的区间怎么样,需要更大佬们自己去测了

背景

GLM-5 系列底子是 744B 参数的 MoE 架构,每次推理只激活 40B,用的 DeepSeek 稀疏注意力。全程用华为昇腾芯片训练,没有一块英伟达的卡。迭代节奏非常快,2月发 GLM-5,4月发 5.1,6月就到了 5.2,三个月三个版本。GLM-5.1 在 SWE-Bench Pro 上拿了 58.4 分,超过 GPT-5.4 和 Claude Opus 4.6,开源模型全球第一。5.2 还没放官方 benchmark,但从实测来看和Opus4.8还有gpt-5.5真没差多少

MIT 开源,1M 上下文,$18/月 Lite 订阅。这三件事放在一起,对开发者来说性价比确实炸裂。你花 Claude Max 十分之一的钱,用上一个编程能力接近 Opus 级别的开源模型

智谱发布的时候说了一句,前沿智能不应只属于少数人,也不应被少数规则随时收回

这句话放在 Fable 5 被下架的同一天,分量很重

反正我觉得,GLM-5.2 是目前国产编程模型的天花板,CR、长程任务、后端工程这几个方向上已经是国产最强。但它也不是没有问题,慢、不能读图、前端审美差、算力不够用,这些缺点放在一起,会让很多人在实际选型的时候犹豫

如果你的场景是后端工程、长程任务、代码审查,它可能是目前性价比最高的选择

如果你需要快、需要多模态、需要前端视觉效果,目前可能 Minimax M3 更适合你

就是这么个情况。等下周开源之后,社区跑完分,再来更新补一期更完整的

本文来自投稿,不代表本站立场,如若转载,请注明出处:

发表评论

发表评论

作者信息

CWAEKFPC
作者有点忙,还没写简介
TA的最新作品
    请配置好页面缩略名选项

推荐话题

关于本站