生成AIにおける事前学習と推論の違い ── なぜ「つくり」が違うのか、そして推論はどう動いているのか

目次

はじめに|生成AIは「2つの計算」でできている

生成AIをめぐる議論は、しばしば「どのモデルが賢いか」「どの企業が優位か」という形で語られる。

しかし、その前提として理解すべきことがある。

生成AIは、本質的に「2つの全く異なる計算」で構成されている。

事前学習(Training):巨大なモデルを構築する工程

推論(Inference):構築したモデルで実際に回答を生成する工程

この2つは、計算の性質、求められる能力、最適化の方向性が根本的に異なる

そして、この違いを理解することが、AI競争の構造、インフラ戦略、そして企業の意思決定を読み解くための最初の一歩になる。


第1章|事前学習とは何か

「巨大な脳を工場で作る工程」

事前学習とは、数兆トークンという膨大なデータを使って、AIモデルの「重み(パラメータ)」を調整する工程である。

具体的には:

・数百億〜数千億のパラメータ

・数兆トークンの学習データ

・重みを何度も何度も更新する反復計算

これは本質的に、

巨大な行列同士を、同時に、何十万回も掛け算する作業

となる。

計算の本質的特徴

事前学習で求められるのは:

並列性:同じ計算を大量データに対して一斉に実行

行列演算:GEMM(General Matrix Multiply)の高速化

メモリ帯域:巨大なデータを高速に読み書き

つまり、「横に並べて殴る」計算である。

この性質から、事前学習に最適化されたチップ(GPU、TPU)は、並列数と行列演算速度を極限まで追求する設計になっている。


第2章|推論とは何か

「作った脳で、その場で会話する工程」

推論とは、事前学習で構築したモデルを使って、ユーザーの入力に対して回答を生成する工程である。

具体的には:

・ユーザー入力を受け取る

1トークンずつ次のトークンを予測

・予測したトークンを出力し、それを文脈に加えて次のトークンを予測

・これを繰り返して回答を完成させる

これは、

「前の出力を見て、次を決める」逐次処理

となっている。

計算の本質的特徴

推論で求められるのは:

逐次性:1トークンずつ順番に処理

低レイテンシ:待ち時間が致命的

電力効率:大量の推論を低コストで実行

つまり、「速く・一歩ずつ考える」計算である。

ここで重要なのは、推論では計算そのものよりも、メモリアクセスがボトルネックになるという点だ。


第3章|なぜ「つくり」が違うのか

並列性の違い

観点事前学習推論
並列性極大
計算パターン均一不均一
メモリ巨大中〜小
待ち時間多少OK致命的
最適化ハード寄りソフト+ハード

事前学習は「同時に殴る」世界、推論は「一瞬で答える」世界である。

この違いから、正解のチップ設計が真逆になる。

メモリの扱い方

事前学習では:

・巨大なデータセットを一度に読み込む

・メモリ帯域が重要

・外部メモリ(HBM)との往復が前提

推論では:

・文脈(KVキャッシュ)を高速にアクセス

・メモリアクセス待ちがレイテンシを支配

データ移動を減らすことが最優先

この違いが、GPUとLPUという異なる設計思想を生み出している。


第4章|推論はどう動いているのか

トークン生成の仕組み

推論の核心は、次トークン予測である。

モデルは、現在の文脈(これまで生成したトークン列)を入力として、次のトークンの確率分布を計算する。

文脈 → 確率分布 → 次トークン選択 → 出力 → 文脈に追加 → 繰り返し

重要なのは、この過程でモデルは「考えている」わけではないという点だ。

確率分布から次トークンを選んでいるだけである。

RAGと検索の挙動

RAG(Retrieval-Augmented Generation)やネット検索が入る場合、何が起きているのか。

よくある誤解は:

「わからないから検索する」

しかし実際は:

「検索したほうが良さそうだ」という判断を、確率的に”生成”している

LLMは「検索ツールを呼ぶ」というトークン(または特殊トークン)を、次トークン候補として選んだだけである。

そして、検索結果が返ってくると:

推論は一度止まり、外部情報で”文脈そのもの”が書き換えられる

検索結果は「新しい長文プロンプト」として文脈に追加され、その文脈で再度推論が進む。

つまり、RAGは「知能の拡張」ではなく、「入力制御の高度化」である。

Chain of Thought(CoT)の正体

CoTも同様に、特別な推論機構ではない。

Chain of Thought は「新しい推論機構」ではない。
モデルが”途中経過を書きながら推論する文章パターン”を生成しているだけ。

内部では:

・次トークン候補の中に「まず」「前提として」「次に」といった書き出しが現れる

・それが選ばれると、その文脈で「したがって」が自然になる

・結果として、途中思考を展開する文章構造が生成される

つまり、CoTは「次トークン予測が生み出す文章構造の相転移」である。

リーズニングは「能力」ではない

「AIがリーズニングできるようになった」という表現は、認知的には自然だが、メカニズム理解としては不正確である。

本質的には:

「リーズニング”っぽいトークン列”が、高い確率で安定して生成できるようになった」だけ

能力の”質的ジャンプ”ではなく、確率分布の”地形が変わった”という話である。

以前から「それっぽい推論」は出ていたが、途中で壊れていた。スケールと訓練で壊れにくくなっただけである。


第5章|なぜこの理解が戦略的に重要か

インフラ戦略への接続

事前学習と推論の違いを理解すると、次のことが見えてくる。

学習は寡占:資本・電力・GPUが必要

推論は分散:最適化・専用化・低コストが可能

つまり、

AIの民主化は「推論側」から起きる

GPU神話は学習では正しいが、推論では必ず崩れる。

競争構造への接続

この理解があると、次の問いが自然に浮かぶ。

・なぜNVIDIAは学習と推論の両方をカバーしようとするのか

・なぜGoogleはTPUを外販し始めたのか

・なぜ推論特化チップ(LPU)が登場したのか

・なぜ大口顧客は自社チップを検討し始めたのか

答えは、すべて「事前学習と推論の違い」に帰着する。

意思決定への接続

企業がAIを導入する際、この理解があると:

・学習は誰に任せるか(クラウド、自社、パートナー)

・推論はどこで実行するか(クラウド、エッジ、ハイブリッド)

・どのチップを選ぶか(GPU、TPU、LPU、自社ASIC)

という判断が、技術的根拠に基づいてできるようになる。


おわりに|構造を理解するということ

生成AIは、まだ発展途上である。

しかし、その根底にある「事前学習と推論の違い」という構造は、変わらない。

この構造を押さえると:

・AIをどう使うか

・AIをどう組み込むか

・AIをどう距離を取るか

・どの企業が構造的に強いか

が見えてくる。

未来を当てる必要はない。

構造を理解して、構える。

それが、AI時代における最も現実的な戦略の第一歩である。


次の記事:
GPU・TPU・LPUの違い ── なぜ「つくり」が違うのか、そしてそれぞれは何を最適化しているのか

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次