TPU v5p
本文档介绍了 Cloud TPU v5p 的架构和支持的配置。
系统架构
本部分介绍了 v5p 版本特有的系统架构。每个 TensorCore 都有四个矩阵乘法单元 (MXU)、一个向量单元和一个标量单元。
一个 v5p Pod 中有 8960 个芯片。可调度的最大作业为 96 立方体(6144 芯片)的作业。
下表展示了 TPU v5p 的主要规范。
| 主要规范 | v5p 值 |
|---|---|
| 每个芯片的峰值计算能力 (BF16) | 459 TFLOPs |
| HBM2e 容量和带宽 | 95 GB,2765 GBps |
| TPU Pod 大小 | 8960 个芯片 |
| 互连拓扑 | 3D 环面 * |
| 双向芯片间互连 (ICI) 带宽(每芯片) | 1200 GBps |
配置
TPU v5p Pod 由 8960 个芯片组成,这些芯片通过可重配置的高速链路相互连接。TPU v5p 的灵活联网功能可让您以多种方式连接相同大小切片中的芯片。
下表展示了 v5p 支持的最常见单切片形状,以及大于 1 个立方体的大多数(但不是全部)完整立方体形状。v5p 的最大形状为 16x16x24(6144 个芯片、96 个立方体)。
| 拓扑 | 核心数 | 芯片数 | 主机数 | 立方体数 | 是否支持扭曲? |
|---|---|---|---|---|---|
| 2x2x1 | 8 | 4 | 1 | 不适用 | 不适用 |
| 2x2x2 | 16 | 8 | 2 | 不适用 | 不适用 |
| 2x4x4 | 64 | 32 | 8 | 不适用 | 不适用 |
| 4x4x4 | 128 | 64 | 16 | 1 | 不适用 |
| 4x4x8 | 256 | 128 | 32 | 2 | 是 |
| 4x8x8 | 512 | 256 | 64 | 4 | 是 |
| 8x8x8 | 1024 | 512 | 128 | 8 | 不适用 |
| 8x8x16 | 2048 | 1024 | 256 | 16 | 是 |
| 8x16x16 | 4096 | 2048 | 512 | 32 | 是 |
| 16x16x16 | 8192 | 4096 | 1024 | 64 | 不适用 |
| 16x16x24 | 12288 | 6144 | 1536 | 96 | 不适用 |
单切片训练最多支持 6144 个芯片。您可以使用多切面扩容到最多 18432 个芯片。如需详细了解多切片,请参阅 Cloud TPU 多切片概览。
Cloud TPU ICI 弹性
ICI 弹性有助于提高光学链路和光学电路开关 (OCS) 的容错能力,用于在立方体之间连接 TPU。(立方体内的 ICI 连接使用不受影响的铜链路)。借助 ICI 弹性,ICI 连接可绕过 OCS 和光学 ICI 故障。因此,虽然 ICI 性能会暂时下降,但 TPU 切片的调度可用性会得到提高。
与 Cloud TPU v4 类似,对于大小为一个立方体或更大的 v5p 切片(4x4x4 拓扑),ICI 弹性默认处于启用状态:
虚拟机、主机和切片属性
| 属性 | TPU 中的值 |
|---|---|
| v5p 芯片数量 | 4 |
| vCPU 的数量 | 208(如果使用 NUMA 绑定来避免跨 NUMA 性能损失,则只有一半可用) |
| RAM (GB) | 448(如果使用 NUMA 绑定来避免跨 NUMA 性能损失,则只有一半可用) |
| NUMA 节点的数量 | 2 |
| NIC 吞吐量 (Gbps) | 200 |
一个 Pod 中的 TensorCore、芯片、主机/虚拟机和立方体数量之间的关系:
| 核心数 | 芯片数 | 主机/虚拟机 | 立方体 | |
|---|---|---|---|---|
| 主机 | 8 | 4 | 1 | |
| 立方体(机架) | 128 | 64 | 16 | 1 |
| 支持的最大切片 | 12288 | 6144 | 1536 | 96 |
| v5p 完整 Pod | 17920 | 8960 | 2240 | 140 |