AI創業者の苦い教訓 第1章 ― 歴史は繰り返す

jaCreated: 2025/5/4

AI分野の過去の「苦い教訓」と、現代AIスタートアップが直面する歴史的なパターンを解説。応用層での製品開発と将来的なモデル改善による影響に焦点を当てるシリーズの第一弾。

AI創業者の苦い教訓 第1章 ― 歴史は繰り返す

tl;dr:

  • 歴史的に、AIにおいては一般的(汎用的)なアプローチが常に勝者となってきた。
  • 現在、AIアプリケーション分野の創業者は、過去のAI研究者と同じ過ちを繰り返している。
  • より優れたAIモデルの登場で、汎用AIアプリケーションが可能になる一方、AIモデルを取り巻くソフトウェアの付加価値は減少していく。

近年のAIの進歩によって、幅広い“問題”を解決する新たな“製品”が生まれています。私はYC卒業生のDemo Dayで100以上のピッチを見て、その現場を目の当たりにしました。発表された製品には共通点がありました ― それらは「制約付きAI」で解決できるほどシンプルな問題に取り組んでいたということです。しかし、AIの真の強みは“柔軟性”にあります。より制約の少ない“製品”の方が本来は機能しやすいものの、現状のAI“モデル”は十分に信頼できるものではなく、大規模にそのような製品を構築できる段階にありません。AIの世界では、私たちはこの状況を何度も経験しています。そして、常に勝ち筋は同じでした。AI分野の創業者がこの歴史を学ばなければ、痛い目を見ることになると私は危惧しています。

2019年、リチャード・サットンは有名なエッセイ「The Bitter Lesson(苦い教訓)」を次の言葉で始めました:

「AI研究の70年から得られる最大の教訓は、計算資源を活用した一般的な方法が最終的には大差で最も効果的だということです。」

彼は、AIの歴史を通じて多くの研究者が人間のドメイン知識をシステムに組み込もうと試みてきたと指摘します。しかし“苦い”のは、その後何が起こるかです:単にコンピュータリソースを増やしたシステムに、精巧に設計されたこれらのソリューションが打ち負かされてしまうのです。このパターンは音声認識、コンピュータチェス、コンピュータビジョン領域で繰り返されてきました。もしサットンが今日エッセイを書いていたなら、生成AIをそのリストに追加したことでしょう。そして彼は「このパターンはまだ続いている」と警告します。

「分野全体として、私たちはまだ十分にこの教訓を学びきっていません。(…)私たちは“私たちが考える思考方法”をシステムに組み込むやり方が長期的には通用しないという苦い教訓を学ばねばなりません。具体的な歴史的観察として、1)多くのAI研究者がエージェントに知識を埋め込もうとしてきた、2)短期的にはいつも役に立ち、個人的な満足も得られるが、3)長期的には進歩が止まり、むしろ足かせとなり、4)真のブレークスルーは計算量の拡大という対抗的アプローチによってもたらされる」

サットンの苦い教訓は「何が“優れている”か」の明確な定義があるAI研究に関するものです。例えばコンピュータチェスなら勝率、音声認識なら単語の正確度。しかし、本記事ではアプリケーション層でのAI“製品”に焦点を当てます(図1参照)。ここでの「より良い」とは、市場での“パフォーマンス”および“採用(普及)”の両方を意味します。普及については第2章で扱う予定です。まずは製品のパフォーマンス、「経済的に価値ある仕事をどれくらい置き換えられるか」に注目します。より高い性能を実現できれば、より複雑な問題を扱え、より多くの価値を生み出せます。

図1

図1: 様々な種類のAI製品のイメージ。本記事ではアプリケーション層を扱う。

AI“製品”は、通常AI“モデル”を何らかの“パッケージング・ソフトウェア”で包んだものです。その性能向上には主に2通りの道があります:

  1. エンジニアリング努力 ― ドメイン知識を活用し、パッケージソフト側に様々な制約を加える
  2. より良いモデルの登場を待つ ― AIラボが高機能なモデルをリリースするのを待つ

両方を並行して進めることも可能ですが、ここでの重要な洞察は「モデルが進化するにつれ、エンジニアリングの価値が下がる」ということです。現時点では、パッケージング技術を改善することで大きな価値向上を実現できます。それは現行のモデルがまだ多くのミスを起こすからです。モデルがより信頼できるものになると、それは変わります。やがては複雑なエンジニアリングをしなくても、モデルをコンピュータに繋ぐだけで大半の問題が解決できるようになるでしょう。

図2

図2: アプリケーション層のAI製品開発において、エンジニアリング努力の収穫逓減を示す図。エンジニアリング努力が重ねられても、より良いモデルが出ることで価値はさらに減少する。

上のグラフは、モデル改善とともにエンジニアリング努力の価値が減る様子を示しています。現行モデルは大きな限界を持つため、企業にとってエンジニアリングは依然として十分な意味を持ちます。YC Demo Dayで、実際に多くの企業がそれで成功しているのを目にしました。ただし、現状の市場は二分しています。大量運用(大規模展開)までたどり着いた一部の製品(シンプルな問題の解決)が一方に、そしてもう一方にはもう少し複雑な課題に挑むグループがあります。後者もPoC段階では目標達成が現実的に見える分、エンジニアリング投資に注力しています。

しかし、これらの企業が直面する本質的な疑問は次の通りです。「次世代モデルがリリースされたとき、これまでのエンジニアリング努力は一気に陳腐化し、競争優位が失われるのではないか?」OpenAIのo1モデルの登場は、このリスクを象徴しています。多くのAIアプリの創業者は、性能向上のために完璧なプロンプト設計に多大なリソース投下をしていました。しかしo1ではプロンプト設計の重要性が低下。それはつまり、エンジニアリング努力の価値が減ったということです(図2参照)。

結局のところ、こうしたエンジニアリングの目的は「AIに制約を与え、ミスを抑える」ことです。多くの解決策を観察した中で、私はAIに課される主な制約を2系統に分けました:

  • 特化性(Specificity):解決策がどれくらい特定の課題に特化しているか。バーティカル(縦型)は単一の問題に合わせたソフトを持ち、ホリゾンタル(横型)は多様な問題を扱えます。
  • 自律性(Autonomy):AIがどの程度独立してタスク遂行できるか。Anthropicの用語を借りると、ワークフロー(workflow)はLLMやツールが定義済みのコードパスをなぞるもの、エージェント(agent)はLLMが自身でプロセスやツール利用を決定しながらタスクを完遂するもの、となります。

この2軸の制約が、AI製品を分類するフレームワークとなります:

バーティカルホリゾンタル
ワークフローHarveyChatGPT
エージェントDevinClaude computer-use

表1: 有名なAI製品の分類。ChatGPTは各メッセージごとに定型コードパスを踏むため、厳密にはエージェントではなくワークフロー寄り。

同じタスク(例:ビジネスアナリストが投資ピッチのスライド作成)に対する各カテゴリの実装例を考えましょう:

  • バーティカル ワークフロー:定められた手順(例:会社DBにRAGクエリ→小型LLMで要約→大型LLMで数値抽出・電卓利用→正しさ確認→スライド生成)を毎回固定で実行。
  • バーティカル エージェント:ループでLLMが自前判断しながら持ち回りでツール利用、品質基準に達したら終了。
  • ホリゾンタル ワークフロー:ChatGPT等のツールが部分的に補助はできるが、専門性と自律性が不足し、タスク全体は不可。
  • ホリゾンタル エージェント:Claude computer-useのように、標準業務ソフト一式を利用しながら、指示に応じて人間同様にPC操作、必要に応じて適宜アプローチを修正。

Demo Dayのほぼすべての製品がバーティカルワークフロー型に位置していました。それもそのはず、現行モデルは他のアプローチを採るには信頼性が足りないのです。この制約型ワークフローは、より複雑な問題まで無理に押し込むことで“現状のモデル性能で何とか及第点”を目指している状況です。エンジニアリングで改善できる範囲にも限度があり、現時点のモデルでは手が届かない課題については、むしろ“より良いモデルの登場を待つ”方が効率的だと考えます。Leopold Aschenbrennerが「Situational Awareness」で述べているように、多くの問題ではエンジニアリングにかかる時間より、より良いモデルを待つほうが早いことすらあります:

「多くの業務自動化問題について、現場エンジニアリング(schlep)の工数より、AI解放(unhobbling)のためにより良いモデルを待つ方が早い、つまり“ドロップイン型リモートワーカー”の自動化が間に合う頃には、既存モデルの限界を突破する新モデルがほぼ確実に登場している」

このパターン、何か覚えがありませんか?苦い教訓に戻りましょう。AI研究者はいつも、エンジニアリングによる「合格ライン」に到達しようと試みましたが、計算拡大によるより一般的な手法に追い抜かれてきたのです。現代のAI製品構築プロセスと驚くほど重なります。苦い教訓が先述2つの制約タイプにどう適用されるかを図式化してみましょう:

苦い教訓の観察自律性の場合特化性の場合
1) 知識の埋め込み開発者はエージェントを試すが信頼性乏しく、自己のワークフローパスをハードコーディング汎用文書解析システムを目指すが信頼性乏しく、財務諸表に特化+特定指標やルールをハードコーディング
2) 短期的で効果的かつ満足信頼性向上で開発者満足専門的な解決のほうが精度向上し、開発者満足
3) 長期的には行き詰まり更なる進歩を阻害新しい状況には固定ワークフローが非対応関連課題(例:合併文書や電話会議分析)には非対応、それぞれ専用実装が必要
4) 計算の拡大による対抗的アプローチで進歩新モデルで信頼性ある自律エージェントが誕生新モデルでどんなビジネス文書も一括理解・分析し、特化システム不要になる

解法パスが不明瞭な課題においては、自律性の高い製品がより良い性能を実現します。同じく、入力空間が膨大かつ複雑な場合には、特化度の低い(汎用的な)製品がよりよい成果を上げます。

これはAIにおけるスタートアップの役割を考察する四部作の第1弾です。歴史を振り返ると、ドメイン知識に依存したAIモデルは最終的には計算力を活用したものに追い抜かれてきたパターンが繰り返されています。そして、現代のAI製品の構築状況もまさにこれに重なっています。

このパートでは観察結果に主眼を置いたつもりですが、私見も滲み出ていることでしょう。現状のモデルの限界をパッケージソフトで補う努力は、モデルの進化スピードを考えると消耗戦に映ります。YCのパートナー・JarredもLightconeポッドキャストで「LLMアプリ1stウェーブ(バーティカルワークフロー中心)は、GPT次世代波に大部分が淘汰された」と述べています。

Sam Altmanも「より良いモデルリリースが楽しみになるようなスタートアップを作ろう」と何度も語っています。私が話す多くのAIアプリ系創業者もモデル進化にワクワクしていると言いますが、彼らのスタートアップの観点では実はそれが“好ましくない兆候”かも、と考えます。図2の洞察を見落としているのかもしれません。より良いモデルが実は自社の優位性を減殺する場合もあるのです。もちろんここでの話は“性能面”の観点に限定されます ― より難しい問題をより効果的に解くという意味です。次回は「市場での普及」という別視点から掘り下げます。いくら性能が良くても市場で勝てるとは限らないのです。


付録A: 統計的観点から見た苦い教訓

苦い教訓を理解するもう一つの方法として、基礎統計を使った解釈があります。モデル構築時には、精度重視(高バイアス)か、柔軟性重視(高バリアンス)かのトレードオフを取ることになります。苦い教訓は「柔軟性あるほう」を選べ、と示唆します。

なぜでしょうか?主要因はコンピュータリソースとデータ量の増加で柔軟モデルの信頼性も上げられるからです。バスケットボールの練習が増えれば、型が多少崩れていても最終的には安定した成績が出せるようなものです。逆に、硬直化したやり方では内在する前提条件で限界があります。

この議論は、AI製品の話に直結しています。バーティカルワークフローや特化型制約は「硬直的なルール追加」に等しく、現時点では信頼性向上に寄与する一方で、最終的な上限性能を抑制します。逆に自由度を増やせば、今はリスクに思えても、モデル進歩とともに最善解へ到達しやすくなる。AI史を通じて「柔軟性否定は敗者の愚策」だったことが繰り返し証明されています。

付録B: エンドツーエンド vs 特徴量エンジニアリング

図3

図1: 特徴量エンジニアリング型の従来機械学習と、エンドツーエンド型深層学習の比較。従来型は人間が重要な特徴を定義するが、深層学習はそれを自力で学ぶ。

従来の機械学習は、人間が「データの何が重要か」を決めます。例えば画像の入力を、特定の形状を数えたり特徴量を抽出したりします。一方で、ディープラーニングは重要な特徴を自動抽出します。

図4

図2: 自動運転車の可視化例。車や歩行者、車線など特定対象を検出・追跡。このように複雑な課題を分割し定義パーツごとに扱うのが従来流。

自動運転車を例にしましょう。アプローチは大きく2つです:

  1. 特徴量エンジニアリング:車載カメラ映像から「他の車の位置」「車線」「歩行者の速度」等、個別情報を抽出し処理する
  2. エンドツーエンド:生のビデオデータをそのままニューラルネットに入力し運転挙動を自動で学習させる

前者は安全かつ制御しやすい“気がする”ため、初期AIはこのアプローチが主流でした。しかしGeorge Hotz氏も指摘するように「AI史を振り返れば、特徴量エンジニアリングは必ずエンドツーエンドに駆逐される」ことが繰り返されてきました。

図5

図3: Sholto Douglas氏のツイート

これは本記事のAI製品論とも繋がります。バーティカル特化ツールを作るのは、特徴量エンジニアリング ― あらかじめ情報の何が重要かを人間が決めているようなものです。モデル自律性を制約するのも同じこと。現状ではそれが最善に見えても、歴史的にはエンドツーエンド重視が最終的に勝つと示唆されてきました。


本記事の議論のきっかけをくれた Axel Backlund 氏に感謝します。

最新情報は XRSSSubstack でぜひフォローしてください。