GPU・TPU・LPUの違い ── なぜ「つくり」が違うのか、そしてそれぞれは何を最適化しているのか

目次

はじめに|三者は競合ではなく役割分担

AIインフラをめぐる議論では、しばしば「GPU vs TPU vs LPU、どれが勝つのか」という形で語られる。

しかし、実際に世界トップ企業が向き合っているのは、もっと構造的な問題だ。

どの計算を、どの前提条件で、どの程度コントロールできるか。

GPU、TPU、LPUは、それぞれ最適化対象が異なる

重要なのは「どれが勝つか」ではない。

どの前提条件で、どれを選ぶか。

これは技術選定ではなく、企業の競争戦略そのものである。


第1章|GPUとは何か

汎用・怪力の設計思想

GPU(Graphics Processing Unit)は、元々グラフィックス処理のために設計されたチップである。

代表例:NVIDIAのGPU

GPUの本質

元はグラフィックス:並列計算の汎用化

「何でもそこそこ速い」:柔軟性と汎用性を両立

並列番長:数千〜数万のコアで並列処理

強みと弱み

強み:

・学習:最強の性能

・推論:できるが効率は微妙

・汎用性:幅広い用途に対応

・エコシステム:CUDAによる事実上の標準化

【読者メモ】CUDAとは何か

CUDA(Compute Unified Device Architecture)は、NVIDIAが開発したGPU向けの並列計算プラットフォームである。プログラマーがC/C++やPythonなどでGPUを直接制御できる環境を提供し、AI研究からプロダクト開発まで、幅広い用途で使われている。

重要なのは、CUDAが単なる技術仕様ではなく、研究者やエンジニアの思考様式を支配しているという点だ。数学/最適化/並列化の世界では「まずCUDAで全部書く」ことが標準になっており、この結果、企業は「GPUを選んでいる」のではなく、NVIDIAが定義した計算モデルに乗っている状態になる。

実際、研究者の間では「そんなに簡単にCUDAからは抜け出せない」という認識が広がっている。これは技術的な問題というより、研究コミュニティ全体がCUDA前提で動いているという構造的な問題である。他の研究者が優れた研究成果を出した時、その前提がGPU(CUDA)だと、その成果を活用する際にTPUなど別のプラットフォームに書き換えるのは非常にハードルが高い。この結果、研究の蓄積がCUDA上に積み上がり、研究者がCUDAから抜け出せない構造が強化されていく。

これがNVIDIAの最大の競争優位の源泉である。

弱み:

・消費電力:推論では過剰性能になりがち

・推論コスト:レイテンシと電力効率の課題

・供給制約:需要に対して供給が追いつかない

設計哲学

「柔軟性と汎用性を最優先し、幅広い用途をカバーする」

GPUは、学習から推論まで、研究からプロダクトまで、一貫して使える「万能選手」である。

しかし、その万能性が、推論時の効率性を犠牲にしている側面もある。


第2章|TPUとは何か

学習特化・行列職人の設計思想

TPU(Tensor Processing Unit)は、Googleが自社のAIワークロードに最適化して開発したチップである。

TPUの本質

Trainingファースト:事前学習を最優先に設計

行列演算(GEMM)を極限まで効率化:Systolic Array(脈動配列)

バッチ前提:同じ形の計算を同時に大量実行

多少のレイテンシは問題にしない:スループット重視

設計哲学

「計算を止めるな。データを流し続けろ」

TPUは、同じ形の計算、同じサイズのテンソル、同時に大量を前提にしている。

つまり、巨大な工場ラインである。

強みと弱み

強み:

・学習コスト:GPUより効率的

・大規模モデルの効率:Transformer専用設計

・電力効率:特定条件下でGPUより優位

弱み:

・汎用性が低い:Googleのワークロード前提

・外販が限定的:Google Cloudと一体で成立

・レイテンシ:低レイテンシ推論には不向き

TPUの戦略的位置付け

重要なのは、TPUは「外販プロダクト」ではなく「内製兵器」だという点である。

TPUは:

・Google専用最適解

・自社サービス用

・外部互換性は二の次

つまり、

TPUは市場競争で勝つための武器ではなく、
GoogleがNVIDIAに依存しないための戦略資産

である。

なぜTPUはGPUに置き換わらないのか

技術的に優れていても、TPUがGPUに置き換わらない理由は明確だ。

研究者はGPU向けのコードで書いている。他の研究者が優れた研究成果を出した時、その前提がGPUだと、その成果を活用する際にTPU向けに書き換えるのが困難である。

この点について、研究者の今井氏は次のように語っている(出典):

「少なくとも研究者はないです。これ僕もそうですけども、普通はTPU向けにコードを書き直すの、すごくめんどくさいんですよ。NVIDIA GPU依存で、その実装とかを公開するので、ま、仮にじゃあ今、OpenAIとか全てのコードをTPU向けに書き換えましたとやったとしても、じゃあなんかすごい研究成果が出てきたとなったら、『あれ、これGPU向けになって(る)』……ま、あの、GPU向けじゃん、TPU向けになってないじゃんということで、まためんどくさい工程が発生するので、普通に考えるとTPUがGPUを抜く(置き換わる)のは、まぁ無理です。使い分けですね。」

この結果、研究コミュニティ全体がCUDA前提で動いており、TPUがGPUに置き換わることは研究者の間では起こらないという構造が生まれている。

これは技術的な優劣の問題ではなく、エコシステムと研究コミュニティの慣性の問題である。


第3章|LPUとは何か

推論特化・会話職人の設計思想

LPU(Language Processing Unit)は、推論専用に設計されたチップである。

代表例:GroqのLPU

LPUの本質

Inferenceオンリー:推論しかやらない

逐次トークン生成:1トークンずつ最速で処理

KVキャッシュをチップ内に常駐:超大容量のオンチップSRAM

完全に決定論的なパイプライン:コンパイラ主導設計

設計哲学

「データを動かすな。計算をデータの前に並べろ」

LPUは、柔軟性を捨て、決定論的に処理し、低レイテンシを最優先する。

つまり、1本の超高速ベルトコンベアである。

強みと弱み

強み:

・超低レイテンシ:推論時の待ち時間を劇的に削減

・電力効率:データ移動を減らすことで電力消費を大幅削減

・同時大量推論:低レイテンシを維持しながら大量リクエストを処理

弱み:

・学習はできない:推論専用

・用途が限定的:柔軟性が低い

・エコシステムが弱い:GPUほど成熟していない

LPUが生まれた背景

LPUは、TPUの中核設計に関わった人材が作っている。

TPU設計者は、次のことを誰よりも理解していた:

・推論は計算が余る

・遅いのはメモリ

・KVキャッシュが地獄

・GPU/TPUは柔軟すぎて無駄が多い

つまり、

「学習用に最適な構造は、推論には最適でない」

LPUは、TPUの延長線ではなく、TPU設計で”やらなかったこと”を全部やった存在である。


第4章|なぜ「つくり」が違うのか

最適化対象の違い

観点GPUTPULPU
主用途学習+推論学習(+一部推論)推論専用
計算単位柔軟大規模行列トークン逐次
並列性超高超高必要最小
レイテンシ二の次二の次最重要
メモリHBM+オンチップHBM+オンチップ大容量オンチップSRAM
データ移動前提前提極力ゼロ
実行バッチ+ストリームバッチストリーム
決定論低い低い完全決定論

時間軸の扱い方

決定的な違いは、時間軸の扱い方である。

TPUは「空間方向に並列化する」:同時に大量の計算を実行

LPUは「時間方向を一直線に固定する」:逐次処理を最速化

だから、

・TPUはスケールに強い

・LPUはレイテンシに強い

【前提知識】計算よりもメモリアクセスが支配的

GPU、TPU、LPUの違いを理解する上で、重要な前提知識がある。

推論時のボトルネックは、計算そのものではなく、メモリアクセスである。

電力消費の圧倒的な差

NVIDIAの研究者、ビル・ダリー(Bill Dally)氏による試算によれば:

演算を1回行うエネルギー:20ピコジュール

データをわずか1mm移動させるエネルギー:26ピコジュール

つまり、計算そのものよりも、データの移動の方が多くの電力を消費する

さらに、現在のAIサーバーでは、消費電力の半分以上がメモリと計算機の間のデータ移動だけで消費されている。これがアーキテクチャ上の最大のボトルネックである。

レイテンシの圧倒的な差

メモリアクセスは時間的にも大きなコストを伴う:

・メインメモリアクセス(DRAM)は、CPUレジスタアクセスに比べて約400倍のレイテンシを持つ

・特に外部メモリ(HBMなど)へのアクセスは、桁違いに高コスト

ノイマン型アーキテクチャの限界

従来のCPUやGPUが採用している「ノイマン型」構造では、1回の実行サイクルで「プログラムの取得」「データAの取得」「データBの取得」「結果Cの書き戻し」という最低4回のメモリアクセスが発生する。この頻繁なやり取りが、処理速度の低下(待ち時間)の原因となる。

設計思想の違いが生まれる理由

つまり、計算を速くするよりも、メモリアクセスを減らす方が、レイテンシと電力効率の両方で劇的な改善をもたらす

この物理法則レベルの事実が、GPU、TPU、LPUの設計思想の違いを生み出している。

GPU:汎用性を優先し、外部メモリ(HBM)との往復を前提とする

TPU:データフロー型やシストリックアレイで、データの流し方を工夫して移動コストを下げる

LPU:オンチップSRAMにデータを常駐させ、外部メモリへのアクセスを最小限に抑える

メモリの置き場所:推論時のKVキャッシュ

推論時には、文脈を保持するためのKVキャッシュ(Key-Value Cache)が頻繁にアクセスされる。

このKVキャッシュの置き場所が、レイテンシと電力効率を大きく左右する:

GPU:KVキャッシュがHBM(外部メモリ)にあり、毎トークンごとに外部メモリと演算器を往復する必要がある。この往復が、レイテンシと電力消費の主要因となる。

LPU:KVキャッシュをチップ内SRAMに常駐させ、データ移動を極力ゼロにする。これにより、待ち時間(stall)がほぼ消え、レイテンシと電力効率が劇的に改善される。

この違いが、レイテンシと電力効率の決定的な差を生む。実際、LPUはGPUと比較して最大10倍のエネルギー効率を実現していると報告されている。


第5章|TPUの位置付けは中途半端なのか

表面的な比較

一見すると、TPUは中途半端に見える:

用途GPUTPULPU
学習◎(内部用途)
推論(低レイテンシ)
推論(高スループット)

これだけ見ると、「学習はGPU、推論はLPUでよくない?→ TPUの居場所なくない?」という疑問が自然に出る。

しかしTPUは「中間」ではない

TPUはGPUとLPUの妥協点ではない。

最適化対象がまったく別である。

TPUの本当のポジション

「Googleが自社で、巨大モデルを”安定して・大量に”回すための内製インフラ」

これがすべてである。

Googleの推論要件

Googleの推論要件は:

・超大量リクエスト

・検索、広告、YouTube、Workspace

・ミリ秒単位の差より総コストと安定性

だから、

LPUほどの超低レイテンシは不要
GPUほどの汎用性も不要

その結果、行列演算に強く、バッチ推論が得意で、電力効率が良いというTPU的最適解になる。

市場視点 vs 設計者視点

市場視点では:

TPUは中途半端に見える。誰でも使えるわけではなく、最速でもなく、最汎用でもない。

設計者視点では:

GPU:市場制覇
LPU:推論革命
TPU:自社独立

TPUは勝つための武器ではなく、負けないための盾である。


第6章|どの前提条件で、どれを選ぶか

用途別の選択指針

学習:

・GPU:汎用性とエコシステム

・TPU:Google内部、特定条件下で効率的

推論(低レイテンシ):

・LPU:リアルタイム対話、エッジ、モバイル

・GPU:汎用性が必要な場合

推論(高スループット):

・TPU:バッチ処理、Google Cloud前提

・GPU:汎用性が必要な場合

戦略的視点

重要なのは、これは技術選定ではなく、競争戦略だという点である。

GPUを選ぶ:汎用性とエコシステムを重視、NVIDIAに依存

TPUを選ぶ:Google Cloud前提、特定ワークロードに最適化

LPUを選ぶ:推論特化、低レイテンシと電力効率を最優先

自社ASICを選ぶ:制御点を取り戻す、大口顧客の選択肢


おわりに|構造を理解するということ

GPU、TPU、LPUは、それぞれ異なる最適化対象を持っている。

重要なのは「どれが勝つか」ではない。

どの前提条件で、どれを選ぶか。

この理解があると:

・AIインフラをどう選ぶか

・どの企業が構造的に強いか

・競争の勝敗がどう転んでも残る存在は何か

が見えてくる。

未来を当てる必要はない。

構造を理解して、構える。

それが、AI時代における最も現実的な戦略の第二歩である。


前回の記事:
生成AIにおける事前学習と推論の違い ── なぜ「つくり」が違うのか、そして推論はどう動いているのか

次の記事:
AI競争の戦略構造を読み解く ── NVIDIA・Google・自社チップから考える、世界トップ企業の競争戦略

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次