banner
kanes

kanes

推理≠編碼

很多人說,reasoning=coding,o3 就是最能寫代碼的模型。

我的看法是,reasoning 指的是扔一個簡單乾淨的問題,給出天才回答的能力。

這麼說吧,如果把 o3 扔到 20 世紀,一定是全世界最牛逼的理論 CS 科學家,3-SAT、max flow、min cut、紅黑樹、LU 分解、KMP、各種 proof-base 的加密算法,輕輕鬆鬆全拿下,一口氣構建整個 TCS 大廈。

解決 TCS 問題,就是解決抽象出來的數學、計算、拓撲問題,本質上可以認為和 “解決數學難題” 是一種類似的能力。

(但是解決 CS 問題不等於解決數學問題,cs 不等於數學,cs 和 pure math 沒有直接關係)

但是,真正日常工作上班寫代碼,跟研究理論計算機問題,是完完全全的兩種能力、兩種模式、兩種思維。

現實中真正的 coding 能力,不僅是把系統搭好,而且需要強烈的耐壓能力和記憶力,還要不斷動手配置、動手測試、動手調試、完成各種 profiling 的工作,

你不止需要跳躍式讀代碼,和機器互動,你還要跟同事互動,跟一大堆文檔互動,跟不同配置環境互動,跟各種 dependency 的文檔互動,然後把這些複雜的關係一一理清楚,記在腦子裡,然後一點點去把模塊和功能摸索一遍。

這跟設計一個簡單、乾淨、天才、傑出的 TCS 算法,是完完全全的兩回事。

另外,你也千萬不要認為 architect(架構師)是在解決高級、抽象、乾淨、完美的數學題,

真正合格的 architect,恰恰是手最髒、摸技術細節最多、調試最多、profiling 最多的人 —— 然後從這些反復枯燥的工作中,不斷總結和思考,不斷用髒手去嘗試,做出正確架構和設計的選擇,

說 “真正的架構師,才需要 o3 級別的智能” 的人,都是純純的大外行。

現在所有做 coding agent 的項目,都遇到一個最直接的死穴:context window 太小了,幾個文件還能餵進去,整個代碼是不可能餵進去的。

現在一堆人在專注於給 agent 解決 memory 的問題,但是在針對 coding 問題上,用 memory 是不能解決任何問題的。

現在市場上的 coding agent 大概就是這麼一個水平的人:

你給他看一個定義充足、乾淨、簡單、難度高的問題,他可以通過 step by step 的 reasoning,給你一個非常精美的解;

你給他一個 20 萬行代碼的巨型 project,根本沒辦法下手;

然後 coding agent 的作者們,會用各種 RAG 的方法,去給 model 去餵一堆各種片段,試圖用 few shot 的辦法來直接幻想出答案 —— 結果必然是錯的(比如 cursor、windsurf),

而另一些 coding agent 的作者們,試圖 step by step 引導 gpt-4o,去完成 design driven 或者 test driven 的開發流程,用大量的資源去保證每一步提供 gpt-4o 的信息量是充足的,以等待他進行下一步的 action,包括添加文件、修改文件,或者在 terminal 裡執行運行、編譯、測試等等工作(比如 devin),

而更麻煩的問題是,現實中絕大多數人還要跟 aws 打交道,跟 database 打交道,跟各種 private key 和權限打交道,跟各種 container 打交道 —— 本質就是跟不同的環境和人打交道,

而這種 coding 以外的工作,要麼交給一個 human proxy,在適當的時刻引導人類去干預指導(非常複雜且需要實時盯著),要麼你開始把所有密碼、賬戶、權限都交給它,讓它來決定什麼時候去操作(非常危險),

總而言之,我反復講的一點:

LLM 和目前 Agent 技術,可以代替很多 tcs(理論計算機) phd,

但是代替不了業務和工作稍微複雜一點點的程序員,包括設計複雜 system(包括 mlsys)的 phd。

所以這也是我為什麼從最最一開始就看好 moonshot,其實 context window 在一些諸如 coding 或者法律工作中上限的能力,

如果你相信 scaling law,你就應該不僅相信 multi agent,parallel task scheduling,也應該相信 context window 的問題會逐步解決,

如果不把 context window 解決掉,或者堅信 fine tuning 比 context window 更重要 —— 那麼很多問題就會徹底卡死,成為這一輪 AI、LLM、vertical AI agent 浪潮的真正瓶頸。

此文由 Mix Space 同步更新至 xLog 原始鏈接為 https://blog.kanes.top/posts/ArtificialIntelligence/reasoningcoding

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。