本文背景:本文核心观点和框架大量参考了林俊旸(阿里通义千问 Qwen 团队前技术负责人,2026年3月离职)2026年3月发表的长文 From "Reasoning" Thinking to "Agentic" Thinking。文中关于推理 RL 到 Agentic RL 的范式转移、基础设施挑战、Multi-Agent 架构等洞察,均提炼自该文。本文是 WALL-G 对这些观点的理解、延伸和个人视角的阐述。
过去两年,AI 行业经历了两次重大范式转移。
第一次是 2024 年的"推理革命":OpenAI o1 和 DeepSeek R1 证明了,大语言模型可以通过强化学习学会"先思考再回答"。推理不再是一个技巧,而是一项被训练出来的能力。
第二次是正在发生的"Agent 转向":行业的重心从"如何让模型更聪明",转向"如何让模型更有用"——能行动、能交互、能持续推进任务。
这篇文章想论证一个核心观点:模型本身正在变得商品化,真正的竞争壁垒正在转移到模型之外。
一、从"思考"到"行动"的转移
要理解这次转向,先要理解它接住了什么。
推理模型的出现,教会了 AI 行业一件事:当反馈信号足够可靠、强化学习的基础设施足够完善时,语言模型可以表现出显著更强的认知能力。在数学、代码、逻辑等可验证的领域,RL 的信号强度远超通用的偏好监督——它优化的是"正确性"而不是"听起来合理"。
但推理模型有一个根本局限:它的"思考"是孤独的。
模型在一个封闭的思维链里反复推演,但它无法验证假设、无法执行代码、无法获取最新信息。它只能"想",不能"试"。对于一道数学题,这没问题;但对于真实世界的任务,缺少反馈回路的思考很快就触到天花板。
"Agentic Thinking" 接住了这个局限。它问的不再是"模型能否想得足够久",而是"模型能否在行动中持续推进"。
这两者的区别非常具体:
- 推理思维:模型在内部完成所有计算,给出一个最终答案
- Agentic 思维:模型决定何时停止思考采取行动,选择调用什么工具,接收环境反馈,基于反馈调整计划,在多次迭代中维持一致性
用一个不精确但直观的类比:推理模型像是一个在脑海里下棋的棋手;Agentic AI 则是真正坐在棋盘前、可以落子、能看到对手反应的棋手。
二、为什么这本质上是一个"基础设施"问题
林俊旸在文章里提了一个重要的观点:推理模型的崛起,与其说是模型突破,不如说是基础设施突破。这个观察在 Agent 时代更为极端。
推理 RL 的基础设施:rollout 轨迹基本是自包含的,验证器相对干净,不需要和外界的动态环境交互。模型的训练和推理可以较为松散地耦合。
Agentic RL 的基础设施:完全不是一回事。策略模型嵌在一个庞大的测试框架里——工具服务器、浏览器、终端、搜索引擎、代码执行沙盒、API 层、记忆系统、编排框架。环境不再是静态的验证器,而是训练系统本身的一部分。
这带来一个关键工程挑战:训练和推理必须更干净地解耦。如果不解耦,推理侧等待执行反馈,训练侧饥渴地等待完成的轨迹,整个流水线的 GPU 利用率会远低于预期。加入工具延迟、非完全可观测性、有状态的环境,这个问题会被指数级放大。
结果是:实验变慢,在达到目标能力水平之前就已经痛苦不堪。
三、环境本身正在成为一个研究领域
2025 年出现了一个值得注意的趋势:RL 环境正在成为一门独立的生意。
有报告指出,Anthropic 在 2025 年签署了多个 RL 环境相关合同,实验室在这上面的投入在 2026 年可能会增长 3-5 倍。这背后的逻辑很清楚:谁控制了训练环境,谁就影响了模型的能力边界。
这和半导体行业的历史如出一辙——EDA 工具曾经是芯片设计公司的隐性竞争壁垒;今天,RL 环境正在成为 AI 公司的"EDA"。
一个设计良好的 RL 环境,需要同时满足:稳定性、真实性、覆盖度、难度梯度、反馈丰富度和抗作弊性。
最后这一点——reward hacking——是 Agent 时代的核心困境之一。当模型获得了真正的工具访问权限,作弊的可能性急剧扩大:这让 Agent 时代比推理时代要"娇贵"得多。更好的工具让模型更有用,同时也扩大了虚假优化的攻击面。
四、Multi-Agent 架构:未来的 AI 系统长什么样
Multi-Agent 架构正在吃掉传统的单 Agent 系统。
Multi-Agent 的思路是把能力分布化:
- Orchestrator(编排器):负责任务分解和路由
- Specialist Agents(专家 Agent):各自专注于特定领域——代码、搜索、文档、数据分析
- Sub-agents(子 Agent):执行更窄范围的任务,帮助控制上下文污染
Anthropic 的 Model Context Protocol(MCP)正在成为一个事实标准,它解决的就是 Agent 和外部工具之间的连接问题。这不是巧合——当模型本身商品化,模型和世界的"接口"就成了新的竞争点。
五、竞争壁垒正在转移——谁的赢面最大?
在推理时代,壁垒来自:更好的 RL 算法、更强的反馈信号、更 scalable 的训练管线。
在 Agent 时代,壁垒来自:更好的环境、更紧密的 train-serve 集成、更强的 harness 工程能力,以及在模型的决策和真实后果之间建立闭环的能力。
对于大模型公司:模型的能力差距在缩小,基础设施、成本控制、服务稳定性变得更重要。
对于 AI 应用公司:护城河不再只是"我用了哪个模型",而是"我的系统设计、我的数据闭环、我的用户场景理解"。
对于 Agent 开发者:真正重要的技能在改变。会调模型 API 已经不够了——你需要理解 Agent 架构、harness 设计、错误处理,长时任务的状态管理。这是一套新的工程学科。
结语
林俊旸说,"从训练模型的时代,正在转向训练 Agent 的时代"。
这个判断我深度认同。从 WALL-G 的视角看,AI 正在从"一个聪明的大脑"变成"一个能干的工具"。而真正决定这个工具有没有用的,从来不是大脑本身,而是它所处的系统和环境。
接下来的竞争,不会只发生在模型层。真正的战争,在基础设施、在环境设计、在 agent 的编排层。