現代のコンピュータは「1つのCPU」ではなく、用途に特化した複数のプロセッサが協調して動いている。それぞれの設計思想と使い道を理解しよう。
「トランジスタ数は2年で2倍」は 2010年代に鈍化。クロック周波数は 2004年頃から約 4GHz で頭打ち(熱問題)。速度向上の手段がなくなった。
1コアを速くする代わりに、コアを増やして並列処理する方向へ。デュアルコア→8コア→128コアへと進化。ただし並列化できないタスクには限界がある(アムダールの法則)。
「汎用」ではなくタスクに特化した専用プロセッサを使い分ける時代へ。CPU + GPU + NPU + FPGA が1チップ(SoC)に統合されることも。
Apple M4 Ultra は約 3,600 億個のトランジスタを1チップに搭載。消費電力を抑えながら圧倒的な性能を実現。
「何でもできる1人の天才」の設計。複雑な分岐・条件判断・順序処理が得意。コアは少ないが1コアあたりの処理能力が極めて高い。
「単純な作業をこなす数万人の作業員」の設計。NVIDIA H100 では 1万6896個の CUDA コアが同時に動く。1コアあたりの能力は低いが、大量のコアで並列処理する。
3D ゲームのピクセル色計算。「100万ピクセル全部に同じシェーダーを適用」は GPU の独壇場。
ニューラルネットワークの学習=行列のかけ算の繰り返し。GPU の得意技と完全に一致したため、ChatGPT・画像生成AI などはすべて GPU で動いている。
「行列演算だけに特化した超省電力チップ」。GPU より演算の種類は限られるが、特定の AI 推論タスクでは GPU の数十倍のエネルギー効率を実現。常時起動しても電池が保つ。
「ハードウェアを現場(Field)でプログラムできる」のが名前の由来。内部に数万〜数百万個の LUT(ルックアップテーブル)があり、Verilog コードを書き込むことで任意の回路を実現できる。
メモリから命令を1つずつ読み出し→デコード→実行。汎用的だが、時間がかかる。
回路自体がその処理専用の形になっている。データが入ったら即座に結果が出る(組み合わせ回路として動作)。
新しいCPU設計のプロトタイプ検証。チップを製造する前にFPGAで動作確認し、バグを修正。Intel・AMD・Appleもすべてこの手順で設計する。
5G 基地局の信号処理・航空宇宙の制御システム・金融の高頻度取引(マイクロ秒単位の応答が必要)・医療画像処理など。
5つの軸でそれぞれの強みを比較(5段階評価)
| 評価軸 | 🧠 CPU | 🎮 GPU | 🤖 NPU | 🔧 FPGA |
|---|
タスクをクリックして、最適なプロセッサを考えてみよう
| プロセッサ | コア数の目安 | 設計の一言 | 主な用途 | 代表製品 |
|---|---|---|---|---|
| 🧠 CPU | 4〜128コア | 汎用・直列処理の高速化 | OS・アプリ・ゲームロジック | Intel Core / AMD Ryzen / Apple M4 |
| 🎮 GPU | 数千〜1万6千コア | 並列・行列演算の大量処理 | グラフィクス・AI学習・科学計算 | NVIDIA H100 / RTX 4090 / AMD RX 7900 |
| 🤖 NPU | 16〜数千コア(専用) | AI推論の省電力特化 | 顔認証・音声認識・オンデバイスAI | Apple Neural Engine / Google TPU / Hexagon |
| 🔧 FPGA | 数万〜数百万 LUT | 書き換え可能な専用回路 | プロトタイピング・通信・リアルタイム制御 | Xilinx Virtex / Intel Stratix / Zynq |