はじめに|生成AIは「2つの計算」でできている
生成AIをめぐる議論は、しばしば「どのモデルが賢いか」「どの企業が優位か」という形で語られる。
しかし、その前提として理解すべきことがある。
生成AIは、本質的に「2つの全く異なる計算」で構成されている。
・事前学習(Training):巨大なモデルを構築する工程
・推論(Inference):構築したモデルで実際に回答を生成する工程
この2つは、計算の性質、求められる能力、最適化の方向性が根本的に異なる。
そして、この違いを理解することが、AI競争の構造、インフラ戦略、そして企業の意思決定を読み解くための最初の一歩になる。
第1章|事前学習とは何か
「巨大な脳を工場で作る工程」
事前学習とは、数兆トークンという膨大なデータを使って、AIモデルの「重み(パラメータ)」を調整する工程である。
具体的には:
・数百億〜数千億のパラメータ
・数兆トークンの学習データ
・重みを何度も何度も更新する反復計算
これは本質的に、
巨大な行列同士を、同時に、何十万回も掛け算する作業
となる。
計算の本質的特徴
事前学習で求められるのは:
・並列性:同じ計算を大量データに対して一斉に実行
・行列演算:GEMM(General Matrix Multiply)の高速化
・メモリ帯域:巨大なデータを高速に読み書き
つまり、「横に並べて殴る」計算である。
この性質から、事前学習に最適化されたチップ(GPU、TPU)は、並列数と行列演算速度を極限まで追求する設計になっている。
第2章|推論とは何か
「作った脳で、その場で会話する工程」
推論とは、事前学習で構築したモデルを使って、ユーザーの入力に対して回答を生成する工程である。
具体的には:
・ユーザー入力を受け取る
・1トークンずつ次のトークンを予測
・予測したトークンを出力し、それを文脈に加えて次のトークンを予測
・これを繰り返して回答を完成させる
これは、
「前の出力を見て、次を決める」逐次処理
となっている。
計算の本質的特徴
推論で求められるのは:
・逐次性:1トークンずつ順番に処理
・低レイテンシ:待ち時間が致命的
・電力効率:大量の推論を低コストで実行
つまり、「速く・一歩ずつ考える」計算である。
ここで重要なのは、推論では計算そのものよりも、メモリアクセスがボトルネックになるという点だ。
第3章|なぜ「つくり」が違うのか
並列性の違い
| 観点 | 事前学習 | 推論 |
|---|---|---|
| 並列性 | 極大 | 小 |
| 計算パターン | 均一 | 不均一 |
| メモリ | 巨大 | 中〜小 |
| 待ち時間 | 多少OK | 致命的 |
| 最適化 | ハード寄り | ソフト+ハード |
事前学習は「同時に殴る」世界、推論は「一瞬で答える」世界である。
この違いから、正解のチップ設計が真逆になる。
メモリの扱い方
事前学習では:
・巨大なデータセットを一度に読み込む
・メモリ帯域が重要
・外部メモリ(HBM)との往復が前提
推論では:
・文脈(KVキャッシュ)を高速にアクセス
・メモリアクセス待ちがレイテンシを支配
・データ移動を減らすことが最優先
この違いが、GPUとLPUという異なる設計思想を生み出している。
第4章|推論はどう動いているのか
トークン生成の仕組み
推論の核心は、次トークン予測である。
モデルは、現在の文脈(これまで生成したトークン列)を入力として、次のトークンの確率分布を計算する。
文脈 → 確率分布 → 次トークン選択 → 出力 → 文脈に追加 → 繰り返し
重要なのは、この過程でモデルは「考えている」わけではないという点だ。
確率分布から次トークンを選んでいるだけである。
RAGと検索の挙動
RAG(Retrieval-Augmented Generation)やネット検索が入る場合、何が起きているのか。
よくある誤解は:
「わからないから検索する」
しかし実際は:
「検索したほうが良さそうだ」という判断を、確率的に”生成”している
LLMは「検索ツールを呼ぶ」というトークン(または特殊トークン)を、次トークン候補として選んだだけである。
そして、検索結果が返ってくると:
推論は一度止まり、外部情報で”文脈そのもの”が書き換えられる
検索結果は「新しい長文プロンプト」として文脈に追加され、その文脈で再度推論が進む。
つまり、RAGは「知能の拡張」ではなく、「入力制御の高度化」である。
Chain of Thought(CoT)の正体
CoTも同様に、特別な推論機構ではない。
Chain of Thought は「新しい推論機構」ではない。
モデルが”途中経過を書きながら推論する文章パターン”を生成しているだけ。
内部では:
・次トークン候補の中に「まず」「前提として」「次に」といった書き出しが現れる
・それが選ばれると、その文脈で「したがって」が自然になる
・結果として、途中思考を展開する文章構造が生成される
つまり、CoTは「次トークン予測が生み出す文章構造の相転移」である。
リーズニングは「能力」ではない
「AIがリーズニングできるようになった」という表現は、認知的には自然だが、メカニズム理解としては不正確である。
本質的には:
「リーズニング”っぽいトークン列”が、高い確率で安定して生成できるようになった」だけ
能力の”質的ジャンプ”ではなく、確率分布の”地形が変わった”という話である。
以前から「それっぽい推論」は出ていたが、途中で壊れていた。スケールと訓練で壊れにくくなっただけである。
第5章|なぜこの理解が戦略的に重要か
インフラ戦略への接続
事前学習と推論の違いを理解すると、次のことが見えてくる。
・学習は寡占:資本・電力・GPUが必要
・推論は分散:最適化・専用化・低コストが可能
つまり、
AIの民主化は「推論側」から起きる
GPU神話は学習では正しいが、推論では必ず崩れる。
競争構造への接続
この理解があると、次の問いが自然に浮かぶ。
・なぜNVIDIAは学習と推論の両方をカバーしようとするのか
・なぜGoogleはTPUを外販し始めたのか
・なぜ推論特化チップ(LPU)が登場したのか
・なぜ大口顧客は自社チップを検討し始めたのか
答えは、すべて「事前学習と推論の違い」に帰着する。
意思決定への接続
企業がAIを導入する際、この理解があると:
・学習は誰に任せるか(クラウド、自社、パートナー)
・推論はどこで実行するか(クラウド、エッジ、ハイブリッド)
・どのチップを選ぶか(GPU、TPU、LPU、自社ASIC)
という判断が、技術的根拠に基づいてできるようになる。
おわりに|構造を理解するということ
生成AIは、まだ発展途上である。
しかし、その根底にある「事前学習と推論の違い」という構造は、変わらない。
この構造を押さえると:
・AIをどう使うか
・AIをどう組み込むか
・AIをどう距離を取るか
・どの企業が構造的に強いか
が見えてくる。
未来を当てる必要はない。
構造を理解して、構える。
それが、AI時代における最も現実的な戦略の第一歩である。
