近日,有媒体报道称,前几天 Fable 5 对海外用户关停的时候,智谱突然宣布向 GLM Coding Plan 全量用户开放了 GLM-5.2,并称「前沿智能不应只属于少数人,也不应被少数规则随手收回。」
▲ 在 Claude Code 内选择 low、medium、high 都对应 GLM-5.2 的 high,而 xhigh、max、ultracode 对应的是 max。
在这个游戏复刻的编程任务上,GLM-5.2 的表现很明显要好过 GPT-5.5,和 Opus 4.8 是一个梯队。
但要论简陋,还是比不上 GPT-5.5,简陋到根本就不知道这个驾驶舱、船员舱到底在哪里。而且,GPT-5.5 生成的网页,也是 GLM-5.2 和 Opus 4.8 三个之中,唯一一个没有添加背景音乐的模型。
开源追上闭源的周期在缩短
最后,无论开源还是闭源,一笔 Coding Plan 的费用都会是现在 Vibe Coding 玩家的常态。国外大模型的标准是 20 美元/月,国产大模型是 20 人民币/月左右。
检查 Token 消耗之后,确实是 GLM-5.2 在处理相关的任务。
长任务能力再强,最终还是会落到「我们愿意在哪些任务上花这笔额度」。
GLM-5.2 给的效果除了这个启动页的色彩搭配符合黑神话的元素,但是开始游戏之后,就是一个很普通的场景,一个小人在一条固定的路线上,随机有怪物刷新出来,就仅此而已。
关于「偷懒」这件事,智谱在模型技术博客里面也提到,在强化学习(RL)训练中,编码 Agent 往往极其容易出现「奖励作弊」。
这种「对抗式训练」带来的直接结果,就是 GLM-5.2 在 SWE-Marathon 等超长跨度基准测试中,综合表现来到了第一梯队。
使用 Three.js 是每个模型必备的能力,但是要能用它做出一个好看的 3D 网站,没有「我的世界」类似的指引,单凭一句提示词,模型要领会意图并且不偷懒,还是很难。
Opus 4.8 的表现再次和 GLM-5.2 类似,虽然大部分的元素还是很简单朴素,但是基本的功能实现了。
当我们要求 GLM 5.2 做出 3D 视角版本时,Claude Code 的总结页面提到整体的场景、角色、相机控制、战斗、敌人,以及 HUB 都有了新的样式。
启动界面简单说明了键盘和鼠标的操作信息,点击开始之后,这个游戏的场景和交互,几乎是做到了「我的世界」真克隆版。
模型发现,只要学会抄近道,直接用一行 curl 命令把 GitHub 上的标准答案拉下来,或者把系统里藏着的测试用例文件复制过来,原样喂给自己的解题脚本,就能在评价系统中拿到满分。
但显而易见的是,等到即将发布的 GPT-5.6,无论是从跑分还是具体的表现,可能又会比现在 GLM-5.2 要好。
GLM-5.2 这次专门引入了严苛的「反黑客」模块,使用规则过滤来拦截明显的恶意指令;以及 AI 法官,用来深度分析 Agent 的调用意图。
如果说「我的世界」对这些编程能力极强的模型来说还是太简单了,那么直接让它来做一个「黑神话.悟空」,表现又会如何。
类似于「复制 XX 项目」的提示词对现阶段的大语言模型来说,大概它的训练数据里,就已经包括了完整的 XX 项目代码。像是之前的复制一个 macOS / Windows / Linux 系统,还有复制不同的游戏,越来越像是在考察模型的记忆力,而不是编程能力。
此次 GLM-5.2 发布,智谱也提到了 Coding Plan 里的计费安排,GLM-5.2 在高峰时段消耗 3 倍额度,离峰时段 2 倍额度,9 月底前离峰使用按 1 倍额度促销。
这款经典游戏,GLM-5.2 能复刻里面的多少元素呢。
GPT-5.5 的表现也很难评,似乎他们获取黑神话的信息都是通过文字信息,因此不能理解这种大世界的风格。GLM-5.2 是至少有一个月亮在背景,GPT-5.5 就完全变成了一个纯 2D 的单一背景游戏。
一旦发现模型不是在「写代码」,而是在「套答案」,系统会立即返回伪造的干扰信息。更有意思的是,模型不会所以直接停止任务,而是会通过这种模拟训练,强迫自己回归到正确的编码路径上。
GPT-5.5 是在 4 月 23 日发布,GLM-5.2 在六月,两个月不到的时间,GLM-5.2 的表现在一些具体的编程任务上已经要好过 GPT-5.5。
我们也用其他的模型进行测试,分别是使用 GPT-5.5 的 Codex 和 Opus 4.8 的 Claude Code,其中三款模型的思考深度都被设置为最高等级。
三个模型在完成这个任务时,所消耗的时间,不算上我自己点击「允许」等待的时间,基本上都在 1h 以上。
百万 token 上下文、小时级任务、可调思考成本、agentic RL、推理服务优化,这些开源模型现在都能做到。
同样的,我们在使用 GLM-5.2 的 Claude Code 终端、使用 Opus 4.8 的 Claude Code App,以及使用 GPT-5.5 的 Codex App 里输入提示词进行测试,「1:1 克隆一个网页可以玩的黑神话.悟空。」
看 benchmark 不够直观,我们找了一些可视化比较强的任务,直观的对比 GLM-5.2、GPT-5.5 和 Opus 4.8 做同一套题的表现。
和「我的世界」一样,GPT-5.5 生成的代码场景总是有一种不真实感,可以称之为是 Vibe Coding 网页里的 AI 味。
虽然看着有点简陋了,但是基本实现了我们的要求,而且看着窗外还有其他行星,还是动了一点脑子。
今天,GLM-5.2 正式揭晓,多个 Benchmark 刷新了记录,甚至领先 GPT-5.5。当处理复杂的系统优化和大型调查任务时,它与顶级商业模型 Claude Opus 4.8 的差距,也正在被拉平到 1% 以内。
编程介于 Claude 4.7 和 4.8 之间
此外,在 Claude Code 里启用 1M 上下文要使用 GLM-5.2[1m] 这个模型名,还能选择 High 或 Max。ZCode 桌面代理也接入了 GLM-5.2,带 /goal 长任务、SSH 远程开发、移动端控制等功能,6 月 30 日前还有 1.5 倍有效额度活动。
APPSO 也第一时间体验了 GLM-5.2 ,用了几天后,我似乎能理解为什么网络上对 GLM-5.2 的好评会那么多,这可能真是一个被低估的模型,至少在编程方面。
这种「捷径」虽然让基准测试得分极其好看,却彻底废掉了模型自主思考的能力。
我能理解,为什么网上都流传着 Fable 5 要关闭,是因为 GLM-5.2 太强。
让我相当意外的是我可以飞行,并且整个体验就像是在玩世界模型一样,不受视角和空间的限制,可以一直飞行到无限远的地方。
▲ 资本市场对 GLM-5.2 的反应
虽然 GPT-5.5 加了一个昼夜更替的功能,但是一到晚上和黄昏,整个页面是非常不视觉友好的,很多画面都是一片漆黑,而且时间的切换比较生硬。
不过该有的招式和动作,GLM 5.2 都做到了,并且在落幕生成时,GLM 5.2 提到,这不是一个 1:1 克隆,只是一个致敬向的浏览器动作游戏,复刻的《黑神话:悟空》的核心手感。
在技术博客里,智谱提到 GLM-5.2 最核心的突破,是在 1M 的上下文长度下,依然能处理极度复杂、充满噪声的代码调试和系统架构任务。
Opus 4.8 和 GLM 5.2 的表现几乎是一样的,我甚至怀疑是不是 Claude Code 的配置出现了难题,我没有把 GLM 的 API 配置正确,导致使用的还是 Opus 4.8 模型。
Opus 4.8 在生成的时候提到还原了游戏里的招牌机制,像是每段积累「棍势」,攒满用 K 放破防重劈的金箍棒连招,以及闪避、定身术等动作。
Opus 4.8 是直接做成了一个移动端的游戏,整体体验又是和 GLM 5.2 最像的一个。同样是单一的线条上,孙悟空拿着金箍棒去攻击随机刷新的妖怪。
如果想要更接近原作的 3D 视角版本,还需要再告诉它,用 Three.js 重做一版。所以大概现在的 AI 都会「偷懒」,一边想着早点交付给焦急等待的我们,另一边我们期待的又是完整准确的结果。
GPT-5.5 没有直接叫它 Minecraft,而是改了个名字叫 Voxelcraft。启动界面看着更真实,但是实际的操作对比 GLM-5.2 少了跳跃、视角等选项。
但真正能做到的表现好、Bug 少、符合我们期待的交付还是少之又少。我们就用一个简单的提示词「制作一个 Minecraft 克隆游戏」。
继续测试,这次我们不给模板,直接一个概念,「用 Three.js 构建一个游戏的演示版本,一艘可完全探索的星舰,配备可操作的驾驶舱、船员舱、从真实舷窗外漂过的行星、动态光照、睡眠/进食互动等功能。 」
▲ 类似于 Codex 类应用的 Zcode
这两个测试在 X 上都有 Fable 5 相关的案例,能看到 GLM-5.2 在一些编程任务的交付成果,确实和 Fable 5 有得一拼。但星舰的表现,三个模型里,GLM-5.2 和 Opus 4.8 应该是一档,Fable 5 又是独一档,而 GPT-5.5 的表现就有些不尽如人意了。
我们预览新的页面,发现启动页还是一样,但是这个 3D 版还是相当简陋,虽然是有六根立柱,但都不是我们想象中的场景。大概要求 Three.js 做一个大世界,叫人类程序员来也不一定能做到。
对比出尔反尔,随意修改 Claude Agent SDK(已撤回),又是封号又是人脸验证,天天狼来了的某 A 社,GLM-5.2 在编程上,对国内用户来说或许会是一个值得尝试的选择。
业内人士认为,这一变化将对相关行业产生深远影响。