多くの人が言うように、reasoning=coding であり、o3 は最もコードを書くことができるモデルです。
私の見解では、reasoning はシンプルでクリーンな問題を投げかけ、天才的な回答を出す能力を指します。
こう言いましょう、もし o3 を 20 世紀に投げ込んだら、間違いなく世界で最も優れた理論 CS 科学者になるでしょう。3-SAT、max flow、min cut、赤黒木、LU 分解、KMP、さまざまな proof-base の暗号アルゴリズムを軽々と全てクリアし、一気に TCS の大厦を構築するでしょう。
TCS の問題を解決することは、抽象化された数学、計算、トポロジーの問題を解決することであり、本質的には「数学の難問を解決する」能力と類似したものと考えることができます。
(ただし、CS の問題を解決することは数学の問題を解決することとは等しくなく、cs は数学ではなく、cs と純粋な数学には直接の関係はありません)
しかし、実際の日常業務でコードを書くことと、理論的な計算機の問題を研究することは、全く異なる二つの能力、二つのモード、二つの思考です。
現実のコーディング能力は、システムを構築するだけでなく、強い耐圧能力と記憶力が必要であり、さらに手を動かして設定、テスト、デバッグ、さまざまなプロファイリングの作業を行う必要があります。
あなたは単にコードを飛躍的に読み、機械と対話するだけでなく、同僚と対話し、大量の文書と対話し、さまざまな設定環境と対話し、さまざまな依存関係の文書と対話し、これらの複雑な関係を一つ一つ整理し、頭に記憶し、少しずつモジュールと機能を探り出す必要があります。
これはシンプルでクリーン、天才的で優れた TCS アルゴリズムを設計することとは全く異なることです。
また、architect(アーキテクト)が高度で抽象的、クリーンで完璧な数学の問題を解決していると考えてはいけません。
真に適格なアーキテクトは、最も汚れた手を持ち、技術的な詳細に最も触れ、最もデバッグし、最もプロファイリングを行う人です —— そして、これらの反復的で退屈な作業から常にまとめと考察を行い、汚れた手で試行を重ねて正しいアーキテクチャと設計の選択を行います。
「真のアーキテクトこそが o3 レベルの知能を必要とする」と言う人は、純粋な素人です。
現在、すべてのコーディングエージェントのプロジェクトは、最も直接的な死穴に直面しています:コンテキストウィンドウが小さすぎるため、いくつかのファイルは読み込めても、全体のコードを読み込むことは不可能です。
今、多くの人がエージェントのメモリの問題を解決することに集中していますが、コーディングの問題に対してメモリを使っても何の問題も解決できません。
現在市場に出ているコーディングエージェントは、だいたいこんなレベルの人です:
あなたが彼に十分に定義された、クリーンでシンプル、難易度の高い問題を見せると、彼はステップバイステップの推論を通じて非常に精巧な解を提供できます;
しかし、20 万行のコードの巨大プロジェクトを与えると、全く手をつけられません;
そしてコーディングエージェントの作者たちは、さまざまな RAG の方法を使ってモデルにさまざまな断片を与え、少数のショットで直接答えを想像しようとします —— 結果は必然的に間違っています(例えば cursor、windsurf)。
また、別のコーディングエージェントの作者たちは、gpt-4o をステップバイステップで導いて、デザイン駆動またはテスト駆動の開発プロセスを完了させることを試み、大量のリソースを使って各ステップで gpt-4o に十分な情報を提供し、次のアクションを待ちます。これにはファイルの追加、ファイルの修正、またはターミナルでの実行、コンパイル、テストなどの作業が含まれます(例えば devin)。
さらに厄介な問題は、現実のほとんどの人が aws やデータベース、さまざまなプライベートキーや権限、さまざまなコンテナと対話しなければならないことです —— 本質的には異なる環境や人々と対話することです。
このようなコーディング以外の作業は、あるいは人間の代理人に任せて適切なタイミングで人間に介入を指導させる(非常に複雑でリアルタイムで監視が必要)、あるいはすべてのパスワード、アカウント、権限を彼に渡して、いつ操作するかを決定させる(非常に危険)必要があります。
要するに、私が繰り返し言っていること:
LLM と現在のエージェント技術は、多くの TCS(理論計算)PhD を代替できますが、業務や少し複雑なプログラマー、特に複雑なシステム(mlsys を含む)の設計を行う PhD を代替することはできません。
だからこそ、私は最初から moonshot に期待しているのです。実際、コンテキストウィンドウはコーディングや法律業務などの限界能力において上限があります。
もしあなたがスケーリング法則を信じるなら、あなたはマルチエージェントや並列タスクスケジューリングだけでなく、コンテキストウィンドウの問題も徐々に解決されると信じるべきです。
もしコンテキストウィンドウを解決しなければ、またはファインチューニングがコンテキストウィンドウよりも重要だと固く信じているなら —— 多くの問題は完全に行き詰まり、この AI、LLM、バーティカル AI エージェントの波の真のボトルネックになるでしょう。