重要！实测 GLM-5.2 ：Claude 5 关停后，它真能稳稳接住这波用户 - 喜乐官网

近日，有媒体报道称，前几天 Fable 5 对海外用户关停的时候，智谱突然宣布向 GLM Coding Plan 全量用户开放了 GLM-5.2，并称「前沿智能不应只属于少数人，也不应被少数规则随手收回。」

▲ 在 Claude Code 内选择 low、medium、high 都对应 GLM-5.2 的 high，而 xhigh、max、ultracode 对应的是 max。

在这个游戏复刻的编程任务上，GLM-5.2 的表现很明显要好过 GPT-5.5，和 Opus 4.8 是一个梯队。

但要论简陋，还是比不上 GPT-5.5，简陋到根本就不知道这个驾驶舱、船员舱到底在哪里。而且，GPT-5.5 生成的网页，也是 GLM-5.2 和 Opus 4.8 三个之中，唯一一个没有添加背景音乐的模型。

开源追上闭源的周期在缩短

最后，无论开源还是闭源，一笔 Coding Plan 的费用都会是现在 Vibe Coding 玩家的常态。国外大模型的标准是 20 美元/月，国产大模型是 20 人民币/月左右。

检查 Token 消耗之后，确实是 GLM-5.2 在处理相关的任务。

长任务能力再强，最终还是会落到「我们愿意在哪些任务上花这笔额度」。

GLM-5.2 给的效果除了这个启动页的色彩搭配符合黑神话的元素，但是开始游戏之后，就是一个很普通的场景，一个小人在一条固定的路线上，随机有怪物刷新出来，就仅此而已。

关于「偷懒」这件事，智谱在模型技术博客里面也提到，在强化学习（RL）训练中，编码 Agent 往往极其容易出现「奖励作弊」。

这种「对抗式训练」带来的直接结果，就是 GLM-5.2 在 SWE-Marathon 等超长跨度基准测试中，综合表现来到了第一梯队。

使用 Three.js 是每个模型必备的能力，但是要能用它做出一个好看的 3D 网站，没有「我的世界」类似的指引，单凭一句提示词，模型要领会意图并且不偷懒，还是很难。

Opus 4.8 的表现再次和 GLM-5.2 类似，虽然大部分的元素还是很简单朴素，但是基本的功能实现了。

当我们要求 GLM 5.2 做出 3D 视角版本时，Claude Code 的总结页面提到整体的场景、角色、相机控制、战斗、敌人，以及 HUB 都有了新的样式。

启动界面简单说明了键盘和鼠标的操作信息，点击开始之后，这个游戏的场景和交互，几乎是做到了「我的世界」真克隆版。

模型发现，只要学会抄近道，直接用一行 curl 命令把 GitHub 上的标准答案拉下来，或者把系统里藏着的测试用例文件复制过来，原样喂给自己的解题脚本，就能在评价系统中拿到满分。

但显而易见的是，等到即将发布的 GPT-5.6，无论是从跑分还是具体的表现，可能又会比现在 GLM-5.2 要好。

GLM-5.2 这次专门引入了严苛的「反黑客」模块，使用规则过滤来拦截明显的恶意指令；以及 AI 法官，用来深度分析 Agent 的调用意图。

如果说「我的世界」对这些编程能力极强的模型来说还是太简单了，那么直接让它来做一个「黑神话.悟空」，表现又会如何。

类似于「复制 XX 项目」的提示词对现阶段的大语言模型来说，大概它的训练数据里，就已经包括了完整的 XX 项目代码。像是之前的复制一个 macOS / Windows / Linux 系统，还有复制不同的游戏，越来越像是在考察模型的记忆力，而不是编程能力。

此次 GLM-5.2 发布，智谱也提到了 Coding Plan 里的计费安排，GLM-5.2 在高峰时段消耗 3 倍额度，离峰时段 2 倍额度，9 月底前离峰使用按 1 倍额度促销。

这款经典游戏，GLM-5.2 能复刻里面的多少元素呢。

GPT-5.5 的表现也很难评，似乎他们获取黑神话的信息都是通过文字信息，因此不能理解这种大世界的风格。GLM-5.2 是至少有一个月亮在背景，GPT-5.5 就完全变成了一个纯 2D 的单一背景游戏。

一旦发现模型不是在「写代码」，而是在「套答案」，系统会立即返回伪造的干扰信息。更有意思的是，模型不会所以直接停止任务，而是会通过这种模拟训练，强迫自己回归到正确的编码路径上。

GPT-5.5 是在 4 月 23 日发布，GLM-5.2 在六月，两个月不到的时间，GLM-5.2 的表现在一些具体的编程任务上已经要好过 GPT-5.5。

我们也用其他的模型进行测试，分别是使用 GPT-5.5 的 Codex 和 Opus 4.8 的 Claude Code，其中三款模型的思考深度都被设置为最高等级。

三个模型在完成这个任务时，所消耗的时间，不算上我自己点击「允许」等待的时间，基本上都在 1h 以上。

百万 token 上下文、小时级任务、可调思考成本、agentic RL、推理服务优化，这些开源模型现在都能做到。

同样的，我们在使用 GLM-5.2 的 Claude Code 终端、使用 Opus 4.8 的 Claude Code App，以及使用 GPT-5.5 的 Codex App 里输入提示词进行测试，「1:1 克隆一个网页可以玩的黑神话.悟空。」

看 benchmark 不够直观，我们找了一些可视化比较强的任务，直观的对比 GLM-5.2、GPT-5.5 和 Opus 4.8 做同一套题的表现。

和「我的世界」一样，GPT-5.5 生成的代码场景总是有一种不真实感，可以称之为是 Vibe Coding 网页里的 AI 味。

虽然看着有点简陋了，但是基本实现了我们的要求，而且看着窗外还有其他行星，还是动了一点脑子。

今天，GLM-5.2 正式揭晓，多个 Benchmark 刷新了记录，甚至领先 GPT-5.5。当处理复杂的系统优化和大型调查任务时，它与顶级商业模型 Claude Opus 4.8 的差距，也正在被拉平到 1% 以内。

编程介于 Claude 4.7 和 4.8 之间

此外，在 Claude Code 里启用 1M 上下文要使用 GLM-5.2[1m] 这个模型名，还能选择 High 或 Max。ZCode 桌面代理也接入了 GLM-5.2，带 /goal 长任务、SSH 远程开发、移动端控制等功能，6 月 30 日前还有 1.5 倍有效额度活动。

APPSO 也第一时间体验了 GLM-5.2 ，用了几天后，我似乎能理解为什么网络上对 GLM-5.2 的好评会那么多，这可能真是一个被低估的模型，至少在编程方面。

这种「捷径」虽然让基准测试得分极其好看，却彻底废掉了模型自主思考的能力。

我能理解，为什么网上都流传着 Fable 5 要关闭，是因为 GLM-5.2 太强。

让我相当意外的是我可以飞行，并且整个体验就像是在玩世界模型一样，不受视角和空间的限制，可以一直飞行到无限远的地方。

▲ 资本市场对 GLM-5.2 的反应

虽然 GPT-5.5 加了一个昼夜更替的功能，但是一到晚上和黄昏，整个页面是非常不视觉友好的，很多画面都是一片漆黑，而且时间的切换比较生硬。

不过该有的招式和动作，GLM 5.2 都做到了，并且在落幕生成时，GLM 5.2 提到，这不是一个 1:1 克隆，只是一个致敬向的浏览器动作游戏，复刻的《黑神话:悟空》的核心手感。

在技术博客里，智谱提到 GLM-5.2 最核心的突破，是在 1M 的上下文长度下，依然能处理极度复杂、充满噪声的代码调试和系统架构任务。

Opus 4.8 和 GLM 5.2 的表现几乎是一样的，我甚至怀疑是不是 Claude Code 的配置出现了难题，我没有把 GLM 的 API 配置正确，导致使用的还是 Opus 4.8 模型。

Opus 4.8 在生成的时候提到还原了游戏里的招牌机制，像是每段积累「棍势」，攒满用 K 放破防重劈的金箍棒连招，以及闪避、定身术等动作。

Opus 4.8 是直接做成了一个移动端的游戏，整体体验又是和 GLM 5.2 最像的一个。同样是单一的线条上，孙悟空拿着金箍棒去攻击随机刷新的妖怪。

如果想要更接近原作的 3D 视角版本，还需要再告诉它，用 Three.js 重做一版。所以大概现在的 AI 都会「偷懒」，一边想着早点交付给焦急等待的我们，另一边我们期待的又是完整准确的结果。

GPT-5.5 没有直接叫它 Minecraft，而是改了个名字叫 Voxelcraft。启动界面看着更真实，但是实际的操作对比 GLM-5.2 少了跳跃、视角等选项。

但真正能做到的表现好、Bug 少、符合我们期待的交付还是少之又少。我们就用一个简单的提示词「制作一个 Minecraft 克隆游戏」。

继续测试，这次我们不给模板，直接一个概念，「用 Three.js 构建一个游戏的演示版本，一艘可完全探索的星舰，配备可操作的驾驶舱、船员舱、从真实舷窗外漂过的行星、动态光照、睡眠/进食互动等功能。」

▲ 类似于 Codex 类应用的 Zcode

这两个测试在 X 上都有 Fable 5 相关的案例，能看到 GLM-5.2 在一些编程任务的交付成果，确实和 Fable 5 有得一拼。但星舰的表现，三个模型里，GLM-5.2 和 Opus 4.8 应该是一档，Fable 5 又是独一档，而 GPT-5.5 的表现就有些不尽如人意了。

我们预览新的页面，发现启动页还是一样，但是这个 3D 版还是相当简陋，虽然是有六根立柱，但都不是我们想象中的场景。大概要求 Three.js 做一个大世界，叫人类程序员来也不一定能做到。

对比出尔反尔，随意修改 Claude Agent SDK（已撤回），又是封号又是人脸验证，天天狼来了的某 A 社，GLM-5.2 在编程上，对国内用户来说或许会是一个值得尝试的选择。

业内人士认为，这一变化将对相关行业产生深远影响。