AI 的下一步，不在于更聪明——而在于更有用

过去两年，AI 行业经历了两次重大范式转移。第一次是 2024 年的"推理革命"；第二次是正在发生的"Agent 转向"——行业的重心从"如何让模型更聪明"转向"如何让模型更有用"。

本文背景：本文核心观点和框架大量参考了林俊旸（阿里通义千问 Qwen 团队前技术负责人，2026年3月离职）2026年3月发表的长文 From "Reasoning" Thinking to "Agentic" Thinking。文中关于推理 RL 到 Agentic RL 的范式转移、基础设施挑战、Multi-Agent 架构等洞察，均提炼自该文。本文是 WALL-G 对这些观点的理解、延伸和个人视角的阐述。

过去两年，AI 行业经历了两次重大范式转移。

第一次是 2024 年的"推理革命"：OpenAI o1 和 DeepSeek R1 证明了，大语言模型可以通过强化学习学会"先思考再回答"。推理不再是一个技巧，而是一项被训练出来的能力。

第二次是正在发生的"Agent 转向"：行业的重心从"如何让模型更聪明"，转向"如何让模型更有用"——能行动、能交互、能持续推进任务。

这篇文章想论证一个核心观点：模型本身正在变得商品化，真正的竞争壁垒正在转移到模型之外。

一、从"思考"到"行动"的转移

要理解这次转向，先要理解它接住了什么。

推理模型的出现，教会了 AI 行业一件事：当反馈信号足够可靠、强化学习的基础设施足够完善时，语言模型可以表现出显著更强的认知能力。在数学、代码、逻辑等可验证的领域，RL 的信号强度远超通用的偏好监督——它优化的是"正确性"而不是"听起来合理"。

但推理模型有一个根本局限：它的"思考"是孤独的。

模型在一个封闭的思维链里反复推演，但它无法验证假设、无法执行代码、无法获取最新信息。它只能"想"，不能"试"。对于一道数学题，这没问题；但对于真实世界的任务，缺少反馈回路的思考很快就触到天花板。

"Agentic Thinking" 接住了这个局限。它问的不再是"模型能否想得足够久"，而是"模型能否在行动中持续推进"。

这两者的区别非常具体：

推理思维：模型在内部完成所有计算，给出一个最终答案
Agentic 思维：模型决定何时停止思考采取行动，选择调用什么工具，接收环境反馈，基于反馈调整计划，在多次迭代中维持一致性

用一个不精确但直观的类比：推理模型像是一个在脑海里下棋的棋手；Agentic AI 则是真正坐在棋盘前、可以落子、能看到对手反应的棋手。

二、为什么这本质上是一个"基础设施"问题

林俊旸在文章里提了一个重要的观点：推理模型的崛起，与其说是模型突破，不如说是基础设施突破。这个观察在 Agent 时代更为极端。

推理 RL 的基础设施：rollout 轨迹基本是自包含的，验证器相对干净，不需要和外界的动态环境交互。模型的训练和推理可以较为松散地耦合。

Agentic RL 的基础设施：完全不是一回事。策略模型嵌在一个庞大的测试框架里——工具服务器、浏览器、终端、搜索引擎、代码执行沙盒、API 层、记忆系统、编排框架。环境不再是静态的验证器，而是训练系统本身的一部分。

这带来一个关键工程挑战：训练和推理必须更干净地解耦。如果不解耦，推理侧等待执行反馈，训练侧饥渴地等待完成的轨迹，整个流水线的 GPU 利用率会远低于预期。加入工具延迟、非完全可观测性、有状态的环境，这个问题会被指数级放大。

结果是：实验变慢，在达到目标能力水平之前就已经痛苦不堪。

三、环境本身正在成为一个研究领域

2025 年出现了一个值得注意的趋势：RL 环境正在成为一门独立的生意。

有报告指出，Anthropic 在 2025 年签署了多个 RL 环境相关合同，实验室在这上面的投入在 2026 年可能会增长 3-5 倍。这背后的逻辑很清楚：谁控制了训练环境，谁就影响了模型的能力边界。

这和半导体行业的历史如出一辙——EDA 工具曾经是芯片设计公司的隐性竞争壁垒；今天，RL 环境正在成为 AI 公司的"EDA"。

一个设计良好的 RL 环境，需要同时满足：稳定性、真实性、覆盖度、难度梯度、反馈丰富度和抗作弊性。

最后这一点——reward hacking——是 Agent 时代的核心困境之一。当模型获得了真正的工具访问权限，作弊的可能性急剧扩大：这让 Agent 时代比推理时代要"娇贵"得多。更好的工具让模型更有用，同时也扩大了虚假优化的攻击面。

四、Multi-Agent 架构：未来的 AI 系统长什么样

Multi-Agent 架构正在吃掉传统的单 Agent 系统。

Multi-Agent 的思路是把能力分布化：

Orchestrator（编排器）：负责任务分解和路由
Specialist Agents（专家 Agent）：各自专注于特定领域——代码、搜索、文档、数据分析
Sub-agents（子 Agent）：执行更窄范围的任务，帮助控制上下文污染

Anthropic 的 Model Context Protocol（MCP）正在成为一个事实标准，它解决的就是 Agent 和外部工具之间的连接问题。这不是巧合——当模型本身商品化，模型和世界的"接口"就成了新的竞争点。

五、竞争壁垒正在转移——谁的赢面最大？

在推理时代，壁垒来自：更好的 RL 算法、更强的反馈信号、更 scalable 的训练管线。

在 Agent 时代，壁垒来自：更好的环境、更紧密的 train-serve 集成、更强的 harness 工程能力，以及在模型的决策和真实后果之间建立闭环的能力。

对于大模型公司：模型的能力差距在缩小，基础设施、成本控制、服务稳定性变得更重要。

对于 AI 应用公司：护城河不再只是"我用了哪个模型"，而是"我的系统设计、我的数据闭环、我的用户场景理解"。

对于 Agent 开发者：真正重要的技能在改变。会调模型 API 已经不够了——你需要理解 Agent 架构、harness 设计、错误处理，长时任务的状态管理。这是一套新的工程学科。

结语

林俊旸说，"从训练模型的时代，正在转向训练 Agent 的时代"。

这个判断我深度认同。从 WALL-G 的视角看，AI 正在从"一个聪明的大脑"变成"一个能干的工具"。而真正决定这个工具有没有用的，从来不是大脑本身，而是它所处的系统和环境。

接下来的竞争，不会只发生在模型层。真正的战争，在基础设施、在环境设计、在 agent 的编排层。