谷歌發布第七代Ironwood TPU開發者訓練指南,詳解系統級性能優化

robot
摘要生成中

ME 新聞訊息,4 月 2 日(UTC+8),Google 官方近日發布了面向第七代 Ironwood TPU 的開發者訓練指南。該指南旨在幫助開發者充分利用 Ironwood TPU 的系統級效能,以高效訓練和部署前沿 AI 模型。Ironwood TPU 是為滿足萬億參數模型算力需求而設計的客製化 AI 基礎設施,其透過晶片間互連(ICI)、光路交換器(OCS)、資料中心網路(DCN)及聚合高頻寬記憶體(HBM)等技術,構建了支援多達 9,216 顆晶片的完整系統。本文詳細介紹了針對該硬體的多項關鍵最佳化策略,包括:利用其矩陣乘法單元(MXU)原生支援 FP8 訓練以提升吞吐量;採用專為 TPU 最佳化的 JAX 核心程式庫 Tokamax,透過「飛濺注意力」和「Megablox 分組矩陣乘法」處理長上下文與混合專家模型中的不規則張量;利用第四代稀疏核心(SparseCore)卸載集體通訊操作以隱藏延遲;精細調優 TPU 快速片上 SRAM(VMEM)的配置以減少記憶體停滯;以及根據模型規模、架構和序列長度選擇最佳分片策略(如 FSDP、TP、EP)。(來源:InFoQ)

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言