TPU v5p

本文档介绍了 Cloud TPU v5p 的架构和支持的配置。

系统架构

本部分介绍了 v5p 版本特有的系统架构。每个 TensorCore 都有四个矩阵乘法单元 (MXU)、一个向量单元和一个标量单元。

一个 v5p Pod 中有 8960 个芯片。可调度的最大作业为 96 立方体（6144 芯片）的作业。

下表展示了 TPU v5p 的主要规范。

TPU v5p Pod 由 8960 个芯片组成，这些芯片通过可重配置的高速链路相互连接。TPU v5p 的灵活联网功能可让您以多种方式连接相同大小切片中的芯片。

下表展示了 v5p 支持的最常见单切片形状，以及大于 1 个立方体的大多数（但不是全部）完整立方体形状。v5p 的最大形状为 16x16x24（6144 个芯片、96 个立方体）。

拓扑	核心数	芯片数	主机数	立方体数	是否支持扭曲？
2x2x1	8	4	1	不适用	不适用
2x2x2	16	8	2	不适用	不适用
2x4x4	64	32	8	不适用	不适用
4x4x4	128	64	16	1	不适用
4x4x8	256	128	32	2	是
4x8x8	512	256	64	4	是
8x8x8	1024	512	128	8	不适用
8x8x16	2048	1024	256	16	是
8x16x16	4096	2048	512	32	是
16x16x16	8192	4096	1024	64	不适用
16x16x24	12288	6144	1536	96	不适用

单切片训练最多支持 6144 个芯片。您可以使用多切面扩容到最多 18432 个芯片。如需详细了解多切片，请参阅 Cloud TPU 多切片概览。

ICI 弹性有助于提高光学链路和光学电路开关 (OCS) 的容错能力，用于在立方体之间连接 TPU。（立方体内的 ICI 连接使用不受影响的铜链路）。借助 ICI 弹性，ICI 连接可绕过 OCS 和光学 ICI 故障。因此，虽然 ICI 性能会暂时下降，但 TPU 切片的调度可用性会得到提高。

与 Cloud TPU v4 类似，对于大小为一个立方体或更大的 v5p 切片（4x4x4 拓扑），ICI 弹性默认处于启用状态：

属性	TPU 中的值
v5p 芯片数量	4
vCPU 的数量	208（如果使用 NUMA 绑定来避免跨 NUMA 性能损失，则只有一半可用）
RAM (GB)	448（如果使用 NUMA 绑定来避免跨 NUMA 性能损失，则只有一半可用）
NUMA 节点的数量	2
NIC 吞吐量 (Gbps)	200

一个 Pod 中的 TensorCore、芯片、主机/虚拟机和立方体数量之间的关系：