reasoning≠coding

很多人说，reasoning=coding，o3 就是最能写代码的模型。

我的看法是，reasoning 指的是扔一个简单干净的问题，给出天才回答的能力。

这么说吧，如果把 o3 扔到 20 世纪，一定是全世界最牛逼的理论 CS 科学家，3-SAT、max flow、min cut、红黑树、LU 分解、KMP、各种 proof-base 的加密算法，轻轻松松全拿下，一口气构建整个 TCS 大厦。

解决 TCS 问题，就是解决抽象出来的数学、计算、拓扑问题，本质上可以认为和 “解决数学难题” 是一种类似的能力。

（但是解决 CS 问题不等于解决数学问题，cs 不等于数学，cs 和 pure math 没有直接关系）

但是，真正日常工作上班写代码，跟研究理论计算机问题，是完完全全的两种能力、两种模式、两种思维。

现实中真正的 coding 能力，不仅是把系统搭好，而且需要强烈的耐压能力和记忆力，还要不断动手配置、动手测试、动手调试、完成各种 profiling 的工作，

你不止需要跳跃式读代码，和机器互动，你还要跟同事互动，跟一大堆文档互动，跟不同配置环境互动，跟各种 dependency 的文档互动，然后把这些复杂的关系一一捋清楚，记在脑子里，然后一点点去把模块和功能摸索一遍。

这跟设计一个简单、干净、天才、杰出的 TCS 算法，是完完全全的两回事。

另外，你也千万不要认为 architect（架构师）是在解决高级、抽象、干净、完美的数学题，

真正合格的 architect，恰恰是手最脏、摸技术细节最多、调试最多、profiling 最多的人 —— 然后从这些反复枯燥的工作中，不断总结和思考，不断用脏手去尝试，做出正确架构和设计的选择，

说 “真正的架构师，才需要 o3 级别的智能” 的人，都是纯纯的大外行。

现在所有做 coding agent 的项目，都遇到一个最直接的死穴：context window 太小了，几个文件还能喂进去，整个代码是不可能喂进去的。

现在一堆人在专注于给 agent 解决 memory 的问题，但是在针对 coding 问题上，用 memory 是不能解决任何问题的。

现在市场上的 coding agent 大概就是这么一个水平的人：

你给他看一个定义充足、干净、简单、难度高的问题，他可以通过 step by step 的 reasoning，给你一个非常精美的解；

你给他一个 20 万行代码的巨型 project，根本没办法下手；

然后 coding agent 的作者们，会用各种 RAG 的方法，去给 model 去喂一堆各种片段，试图用 few shot 的办法来直接幻想出答案 —— 结果必然是错的（比如 cursor、windsurf），

而另一些 coding agent 的作者们，试图 step by step 引导 gpt-4o，去完成 design driven 或者 test driven 的开发流程，用大量的资源去保证每一步提供 gpt-4o 的信息量是充足的，以等待他进行下一步的 action，包括添加文件、修改文件，或者在 terminal 里执行运行、编译、测试等等工作（比如 devin），

而更麻烦的问题是，现实中绝大多数人还要跟 aws 打交道，跟 database 打交道，跟各种 private key 和权限打交道，跟各种 container 打交道 —— 本质就是跟不同的环境和人打交道，

而这种 coding 以外的工作，要么交给一个 human proxy，在适当的时刻引导人类去干预指导（非常复杂且需要实时盯着），要么你开始把所有密码、账户、权限都交给它，让它来决定什么时候去操作（非常危险），

总而言之，我反复讲的一点：

LLM 和目前 Agent 技术，可以代替很多 tcs（理论计算机） phd，

但是代替不了业务和工作稍微复杂一点点的程序员，包括设计复杂 system（包括 mlsys）的 phd。

所以这也是我为什么从最最一开始就看好 moonshot，其实 context window 在一些诸如 coding 或者法律工作中上限的能力，

如果你相信 scaling law，你就应该不仅相信 multi agent，parallel task scheduling，也应该相信 context window 的问题会逐步解决，

如果不把 context window 解决掉，或者坚信 fine tuning 比 context window 更重要 —— 那么很多问题就会彻底卡死，成为这一轮 AI、LLM、vertical AI agent 浪潮的真正瓶颈。

此文由 Mix Space 同步更新至 xLog
原始链接为 https://blog.kanes.top/posts/ArtificialIntelligence/reasoningcoding