Article
GLM-5.2:模型开始学会走长路

最近的大模型发布,越来越像手机发布会。
参数更大一点,榜单更高一点,上下文再长一点,价格再低一点。每家公司都能拿出一张密密麻麻的表格,告诉你这一代比上一代进步了多少。看得多了,人会产生一种奇怪的疲劳:模型明明一直在变强,发布会却越来越像同一场发布会。
GLM-5.2 也是在这样的气氛里出现的。
智谱给它最醒目的标签,是 100 万 token 上下文,是更强的代码能力,是面向长周期任务的旗舰模型。按照官方模型卡的说法,它仍然是 744B 总参数、40B 激活参数的 MoE 架构,并且用 IndexShare 等方法,把 100 万上下文下每 token 的计算量压了下来。Terminal-Bench 2.1、SWE-bench Pro 这些榜单,也确实比 GLM-5.1 好看了不少。
但我觉得,GLM-5.2 真正有意思的地方,不是它又能记住多少字。
而是它开始认真解决一个大模型一直不太愿意承认的问题:模型很聪明,但没有耐心。
过去我们用 AI,经常遇到一种很微妙的挫败感。刚开始聊的时候,它反应很快,结构很漂亮,像一个刚加入项目、精力旺盛又特别会表达的同事。可任务一旦变长,文件一旦变多,修改一旦反复,它就开始松动。前面定好的原则忘了,已经试过的死路又走一遍,修好一个地方又把另一个地方弄坏。最尴尬的是,它仍然说得很自信,让你一度怀疑是不是自己记错了。
这不是上下文窗口写着多少 K 就能自动解决的。
上下文很长,只能说明仓库很大。真正重要的是,一个模型能不能在仓库里待得足够久,还记得哪些东西放在哪里,哪些门已经打不开,自己最初进来到底是为了找什么。
100 万 token 如果只是把更多代码、文档和聊天记录塞进去,那它更像一个巨大的储物间。东西都在,但找不找得到、用不用得对,是另一回事。长任务真正考验的不是记忆容量,而是方向感。
所以 GLM-5.2 这次强调“long-horizon tasks”,我反而觉得比“百万上下文”更值得咂摸。
长周期任务不是让模型一次写更多字。它意味着模型要在几十轮甚至几百轮操作里,持续读取环境、调用工具、观察结果、修正判断。它要知道什么时候应该坚持,什么时候应该换路;要能区分一个暂时错误和一个方向错误;还要在消耗了大量时间以后,不因为沉没成本而继续把错的事情做得更完整。
这已经不像普通问答了。
它更像工作。
人类真正有价值的工作,大多也不是靠灵光一现完成的。写一篇长文章,要反复删改;做一个软件,要在需求、代码、测试和现实限制之间来回走;研究一个问题,要接受很多次“原来不是这样”;经营一家公司,更是要在漫长的不确定里保持方向。聪明当然重要,但聪明只负责起跑。最后把事情带到终点的,往往是耐力、反馈和不走神。
过去的大模型很擅长起跑。
你给它一个问题,它能立刻给出一个像样的答案;你给它一段需求,它能迅速搭出一个看起来完整的框架。那种速度很迷人,也很容易制造错觉。我们会把“马上给出答案”误认为“真的能完成任务”,把漂亮的第一稿误认为可靠的交付。
可真实世界不是 benchmark 的单轮答题。真实世界充满脏数据、旧代码、模糊需求、临时变化和互相冲突的人。一个模型如果只能在干净题目里聪明,它更像考试高手,而不是能一起干活的人。
GLM-5.2 想跨过去的,正是这道坎。
从官方给出的方向看,它明显不是奔着更会聊天去的。大规模实现、自动化研究、性能优化,这些任务有一个共同点:都不可能靠一次生成结束。模型必须在环境里反复行动,而且工作越久,犯错的机会越多。100 万上下文的意义,也只有放在这里才成立——不是为了让人一次粘贴一整套百科全书,而是让模型在漫长工作中,尽量少把昨天当成从未发生。
这件事如果真的做好,会比聊天更像一次质变。
因为聊天机器人再聪明,本质上还是隔着窗口回答你。长周期 agent 不一样。它开始进入你的代码仓库、资料目录和工作流程,开始替你执行那些需要持续注意力的任务。过去人对 AI 的期待是“给我一个好答案”,以后可能会变成“把这件事带到结束”。
这两个要求之间,隔着很远。
好答案可以有一点幻觉,可以让人挑选,可以随时丢掉。真正的交付不行。代码合不上就是合不上,测试没通过就是没通过,资料引用错了就是错了。模型越从聊天走向行动,它的错误就越不再只是屏幕上一段有点好笑的文字,而会变成真实系统里的成本。
所以我对 GLM-5.2 的态度,既有期待,也保留一点警惕。
官方榜单当然很好看。模型卡里,GLM-5.2 在 Terminal-Bench 2.1 上给出了 81.0,在 SWE-bench Pro 上给出了 62.1,相比 GLM-5.1 都有明显提升。MIT 许可的开放权重也很重要,它意味着开发者不只可以调用一个黑箱接口,还能部署、研究和改造这个模型。
但榜单证明的是模型在一套规则下完成了任务,不等于它在你的项目里也会同样可靠。100 万上下文也不等于 100 万 token 都能被同等清晰地理解。模型可能记得某个细节出现过,却未必知道它现在是否仍然有效;可能能跑很久,却只是在更长时间里坚定地犯错。
“能坚持”从来不天然等于“方向正确”。
这也是长周期模型最危险、也最有意思的地方。一个只回答一句话的模型出错,你很快就能发现。一个能够自主工作几个小时的模型出错,可能先完成一大堆看起来合理的步骤,直到最后才把问题交到你手里。它越能干,人越容易放松监督;人越放松监督,偶尔一次偏航的代价就越高。
未来我们需要学习的,也许不只是怎么向 AI 提问,而是怎么管理 AI 的长任务。
什么时候检查方向,什么时候允许它自行试错,哪些动作必须确认,哪些文件不能碰,怎样让它留下足够清楚的工作记录。这些听起来不像人工智能,更像项目管理。可这恰恰说明,大模型正在从一个会说话的工具,变成一个需要被分配权限、设定边界和验收结果的协作者。
GLM-5.2 的价值,也许就在这里。
它未必会因为多了一个小数点后的版本号,就突然把所有复杂任务做对。它也未必真的像官方榜单暗示的那样,在每个场景里都逼近最昂贵的闭源模型。但它至少把竞争往一个更实际的方向推了一步:不再只比谁第一眼更聪明,而是开始比谁能在漫长、混乱、不断变化的工作里,少迷几次路。
这对中国大模型尤其重要。
过去大家常问,国产模型到底追到哪了。这个问题很容易被简化成一张排名表,好像多赢两个 benchmark,就算追上;少几分,就仍然落后。可真正决定模型有没有位置的,最后不是它在发布当天排第几,而是有没有人愿意把真实工作交给它。
一个模型能不能进入开发者的终端,进入公司的内网,进入一台本地服务器,安静地把那些漫长、琐碎、昂贵的任务做完,比发布会上任何一句“全球领先”都更有说服力。
GLM-5.2 已经把门推开了一点。
开放权重、百万上下文、面向 agent 的训练、更灵活的思考强度,这些东西拼在一起,指向的不是一个更会陪聊的机器人,而是一种更朴素也更困难的野心:让模型真正拥有工作的耐力。
这听起来没有“通往 AGI”那么激动人心。
但我反而觉得,它更接近我们真正需要的未来。
大多数人不需要一个每天宣布自己要改变世界的 AI。我们需要的是,当项目变乱、资料变多、夜已经很深的时候,它还记得最初那条路;当第一次办法不奏效时,它会停下来看看,而不是把同一句答案说得更响;当我们第二天回来时,它能接着昨天没有走完的地方继续往前。
模型终于开始学会走长路了。
至于它能不能走到终点,现在还不好说。
但至少这一次,智谱没有只给它一个更大的脑袋。
它开始试着给它一点耐心。