現在のAIは5つのハードウェアアーキテクチャによって支配されており、それぞれが柔軟性、並列性、メモリアクセスの間で異なるトレードオフを行っている。
CPU:汎用計算設計で、少数の強力なコアのみを持ち、複雑な論理、分岐判断、システムレベルのタスクに優れる。深いキャッシュと外部DRAM(メインメモリ)を備え、OSやデータベースなどに適しているが、神経ネットワークに必要な繰り返し行われる行列乗算にはあまり効率的でない。
GPU:少数の強力なコアではなく、何千もの小さなコアが同時に同じ命令を実行(SIMD)する。高い並列性が神経ネットワークの数学演算に完璧に適合し、AIのトレーニングを主導している。
TPU(Google設計):さらに専門化。コアは乗算累加(MAC)ユニットのグリッドで構成され、データは「波」の形で流れる——重みは一方から入り、活性化値はもう一方から入り、結果は直接伝播し、メモリへの書き戻しは不要。全体の実行はコンパイラによって制御され(ハードウェアのスケジューリングではない)、神経ネットワークの負荷に最適化されている。
NPU(Neural Processing Unit):エッジデバイス向けの最適化版。Neural Compute Engine(大量のMACアレイ+オンチップSRAM)を内蔵しているが、高帯域幅のHBMではなく低消費電力のシステムメモリを使用。スマートフ
原文表示