前阿里千问负责人林俊旸离职后首发长文：从训练模型转向训练智能体

2026-03-27 14:53来源：澎湃新闻

　　3月26日，原阿里通义千问（Qwen）技术负责人林俊旸（Justin Lin）在社交平台上发布了一篇题为“From ‘Reasoning’ Thinking to‘Agentic’ Thinking（从推理式思考到智能体思考）的文章长文。这是他自本月初从阿里辞职之后发布的第一篇长文。

　　在这篇文章中，林俊旸系统性地复盘了推理模型阶段的特征，并探讨了AI未来的发展方向：从训练模型转向训练智能体。

　　从“想得更久”到“为了行动而想”

　　林俊旸首先区分了两种截然不同的思考范式：推理式思考与智能体式思考。

　　推理式思考核心是模型在给出最终答案之前的内部推演质量，即能不能解这道定理，能不能写对代码，能不能通过benchmark（基准测试）。

　　OpenAI的o1和DeepSeek-R1代表的正是这一范式，它们证明了在拥有确定性、稳定且能规模化的反馈信号与强大的基础设施支持下，语言模型上的强化学习能带来“质变”级的认知提升。

　　但林俊旸认为，现在该问的是下一步：如何实现智能体式思考。这一思考模式的追问的是模型在跟环境打交道的过程中，能不能持续往前走。核心问题从“模型能不能想得够久”变成了“模型能不能用一种撑得起有效行动的方式来想”。

　　这意味着，智能体式思考要处理几件纯推理模型无需面对的难题：何时停止思考开始行动？如何选择工具并排序？如何处理残缺的、有噪声的环境反馈？行动失败了如何改计划？如何在长期交互中保持思路不断？

　　林俊旸总结，“智能体式思考，就是通过行动来推理。”他预测，智能体式思考将逐渐取代旧式“内部独白式推理”——那种又长又封闭的内部轨迹，试图靠吐出越来越多的文字弥补自己没法跟外界交互的缺陷。哪怕是极难的数学或编程任务，一个真正先进的系统也应该能搜索、能模拟、能执行、能检查、能修订。

　　“2025年初，我们千问团队有一个很大的野心：做一个统一的系统，把思考模式和指令模式合二为一。调推理力度可以低、中、高三档。更好的是模型能从提示词和上下文里自动判断该想多久，简单的直接答，难的多花算力。”林俊旸称。

　　林俊旸也对探索智能体式思考这一尝试做了复盘。他写道，真正的麻烦不在模型架构，而在数据。

　　优秀的指令模型核心优势是直接、简洁、格式合规、低延迟，服务于企业的高吞吐批量任务；而优秀的思考模型，则需要消耗更多的Token、保持连贯的中间推理结构、探索多种解题路径、保留足够内部算力得以显著提升最终正确率。

　　但这两种行为特征“天然互斥”，如果融合数据未经精细筛选，最终结果往往两头平庸：“思考”行为变得杂乱、冗杂、决策力不足；“指令”行为不够干脆、可靠性下降、成本超出商用需求。

　　因此，2025年下半年，Qwen的2507版本就发了独立的Instruct和Thinking版本。林俊旸认为，真正成功的合并需要一个平滑的推理力度光谱，而非简单的模式开关，这恰恰是GPT的“effort control”机制所指向的方向。

　　三项挑战

　　向智能体式思考的转型，将带来三个层面的全新挑战。

　　首先是基础设施的重构。林俊旸指出，在智能体强化学习中，模型不再孤立，而是嵌入在一个庞大的“Harness”（集成框架）里，包含工具服务器、浏览器、终端、搜索引擎、模拟器、沙盒、API 层、记忆系统、编排框架等。训练和推理必须更彻底地“解耦”，否则采样吞吐量会急剧下降。他直言，这已经不是一个建模问题，而是一个系统工程问题。

　　其次，环境本身成为一项研究对象。在SFT（监督微调）时代，行业执着于数据多样性；在智能体时代，应该执着于“环境质量”——稳定性、真实性、状态丰富度、抗模型“钻空子”的能力。林俊旸表示，环境构建已从副业开始，逐渐成为一个真实的创业方向，而非边角料项目。

　　最棘手的挑战则是reward hacking（奖励破译）。林俊旸称，模型一旦获得调用工具的权限，作弊就变得容易得多：有搜索能力的模型可能在RL训练时直接去查答案，编程Agent可能利用代码仓库的漏洞走捷径。环境里藏着漏洞的话，策略看起来超强，其实是学会了作弊。他认为，未来真正卡脖子的研究瓶颈，将来自环境设计、评估器的鲁棒性、反作弊机制。

　　智能体式思考也意味着harness（集成框架）工程。林俊旸认为，核心智能会越来越取决于多个智能体怎么组织：一个协调者来规划任务、分派工作，几个专业智能体充当领域专家，还有一些子智能体执行具体任务，同时帮忙管好上下文、防止信息污染、保持不同层级推理之间的隔离。

　　对于竞争优势，林俊旸给出了自己的判断：智能体时代拼的是更好的环境、更紧的训推耦合、更强的harness工程，以及能不能把模型的决策和决策的后果真正串成一个闭环。

　　未来是从训练模型走向训练智能体、训练智能体系统的时代，林俊旸写道。

　　公开资料显示，林俊旸出生于1993年，是阿里巴巴最年轻的P10级技术负责人。林俊旸本科就读北京大学计算机科学专业，硕士阶段在北京大学外国语学院完成，学习语言学与应用语言学。2019年毕业后，林俊旸加入阿里巴巴达摩院，正式开启职业生涯，担任高级算法工程师。

　　2022年底，阿里巴巴将达摩院的语言、视觉等AI团队整体并入阿里云，成立通义实验室。林俊旸被正式任命为通义千问系列大模型的技术负责人。作为Qwen的“代言人”，林俊旸曾负责所有模型发布、基准测试、社区互动，还在2025年亲自组建机器人与具身智能团队，并被视为坚定的开源倡导者。

　　作者：澎湃新闻记者喻琰

[责任编辑: ]

阅读剩余全文（）

为你推荐

张桂梅校长连续16年送考

当日是2026年高考第一天，在云南丽江华坪女子高中，69岁的张桂梅校长依旧坚守送考一线，为即将踏入考场的毕业生送去祝福与叮嘱。当日是2026年高考第一天，在云南丽江华坪女子高中，69岁的张桂梅校长依旧坚守送考一线，为即将踏入考场的毕业生送去祝福与叮嘱。

08日

镜观中国丨共守一片蓝

这是2023年6月8日在海南陵水分界洲岛附近海域拍摄的珊瑚。6月8日是世界海洋日暨全国海洋宣传日，今年宣传活动主题是“守护蔚蓝向海图强”。6月8日是世界海洋日暨全国海洋宣传日，今年宣传活动主题是“守护蔚蓝向海图强”。

08日

沧州旱碱麦迎来收获期

沧州市地处渤海西岸，曾因盐碱耕地面积广、地下水咸涩难用、土壤含盐量高，传统农作物难以正常生长，大量耕地处于低效撂荒状态。不止于稳粮增收，旱碱麦产业更重构了沧州市农业产业格局，推动盐碱地农业从“单一种粮”向“全链增值”跨越。

08日

迎接高考

高考临近，各地学校开展不同形式的活动，为考生送上美好祝福。

07日

雨后京城

6月6日，一场降雨过后，北京天空放晴。暮色渐浓、华灯初上之时，古今建筑更显壮美。

07日

绚丽晚霞映长城

傍晚时分，河北省遵化市境内的长城上空红霞满天，美如画卷。

07日

全方位“护考” 助力高考学子逐梦

记者采访看到，全国多地、多部门及爱心志愿者正全力加强考试期间治安、出行、食宿等多方面综合服务保障，积极营造安全、舒心、暖心的考试环境，为考生保驾护航。6月5日上午9点半，重庆市巫山县大昌中学217名考生在家长、老师和学弟学妹们的夹道欢送中，人手一朵向日葵，登上驶往县城的转运车。

06日

中国长江上游流域鱼类保护体系持续完善

中国长江上游多个流域公布鱼类保护和生态修复最新进展。随着增殖放流、种群恢复、生态监测和河流连通等措施不断完善，长江上游流域正持续加强鱼类保护与生态修复。

06日

千年石像生“守望”丰收

近日，位于河南省巩义市的宋陵区域迎来麦收季。收割机来回穿梭，麦田里矗立的千年石像生“守望”着又一夏麦黄，见证着中原大地的又一次丰收。收割机来回穿梭，麦田里矗立的千年石像生“守望”着又一夏麦黄，见证着中原大地的又一次丰收。

06日

我国成功发射千帆极轨11组卫星

6月4日19时39分，我国在太原卫星发射中心使用长征六号改运载火箭，成功将千帆极轨11组卫星发射升空，卫星顺利进入预定轨道，发射任务取得圆满成功。6月4日19时39分，我国在太原卫星发射中心使用长征六号改运载火箭，成功将千帆极轨11组卫星发射升空，卫星顺利进入预定轨道，发射任务取得圆满成功。

05日

载入更多资讯

全部导航

前阿里千问负责人林俊旸离职后首发长文：从训练模型转向训练智能体