谷歌AI芯片大升級:瞄準大模型和生成式AI,還集成主流深度學習框架

圖片來源:由無界AI 生成

一直以來,谷歌已經構建了業界領先的AI 能力,比如引領新一代人工智能發展的Transformer 架構、利用AI 進行優化的基礎設施等。其中谷歌云則致力於提供先進的AI 基礎設施服務,包括GPU 和TPU。

當地時間8 月29 日,谷歌云舉辦了Google Cloud Next '23 年度大會,推出了全新的TPU 產品——Cloud TPU v5e,它是AI 優化的基礎設施產品組合,並將成為迄今為止最具成本效益、多功能且可擴展的雲TPU。目前已經提供了預覽版。

我們了解到, TPU v5e 能夠與Google Kubernetes Engine(GKE)、用於構建模型和AI 應用的開發者工具Vertex AI 以及Pytorch、JAX、TensorFlow 等深度學習框架集成在一起,提供了易用和熟悉的界面,很容易上手。

谷歌云還推出了基於英偉達H100 GPU 的GPU 超級計算機A3 VMs,為大規模AI 大模型提供支持。這款產品將於9 月份全面上市。

*谷歌CEO 皮查伊。 *

  • **谷歌首席科學家、知名學者Jeff Dean 的推文。 *

此外在活動上,谷歌還宣布將Meta 和Anthropic 等公司的AI 工具(如Llama 2 和Claude 2)添加到其云平台上, 在雲產品中集成強大的生成式AI 能力。目前包括Llama 2 和Claude 2 在內,谷歌云客戶可以使用100 多個強大的AI 模型和工具。

相較於TPU v4,TPU v5e 在哪些方面升級了

谷歌云這次推出的TPU v5e 性能和易用性到底如何呢?我們接著來看。

根據官方提供的數據,Cloud TPU v5e 為中型和大型訓練和推理帶來了高性能和成本效益。這代TPU 可以說專為大語言模型和生成式AI 模型打造,與前代TPU v4 相比,每美元訓練性能提升高達2 倍、每美元推理性能提升高達2.5 倍。並且TPU v5e 的成本不到TPU v4 的一半,使更多機構有機會訓練和部署更大、更複雜的AI 模型。

*TPU v5e 芯片。 *

值得一提的是, 得益於技術上的創新,這些成本效益並不需要犧牲任何性能或靈活性。谷歌云利用TPU v5e pods 來平衡性能、靈活性和效率,最多允許256 個芯片互連,總帶寬超過400 Tb/s,INT8 性能達到100 petaOps。

*一個TPU v5e 的2D 切片細節。 *

TPU v5e 還具有很強的多功能性,支持八種不同的虛擬機配置,單片內芯片數量可以從一個到256 個,允許客戶選擇合適的配置來支持不同規模的大語言模型和生成式AI模型。

除了更強功能和成本效益之外,TPU v5e 的易用性也達到了一個全新的高度。現在客戶可以通過Google Kubernetes Engine(GKE)來管理TPU v5e 以及TPU v4 上的大規模AI 工作負載編排,進而提升AI 開發效率。對於喜歡簡單託管服務的機構而言,Vertex AI 現在支持使用Cloud TPU 虛擬機來訓練不同的框架和庫了。

另外如前文提到的,Cloud TPU v5e 為JAX、PyTorch 和TensorFlow 等領先的AI 框架以及流行開源工具(Huggingface 的Transformers 和Accelerate、PyTorch Lightning 和Ray)提供了內置支持。即將推出的PyTorch/XLA 2.1 版本將支持TPU v5e 以及用於大規模模型訓練的建模和數據並行等新功能。

最後為了更輕鬆地擴展訓練工作,谷歌云在TPU v5e 預覽版中引入了Multislice 技術,使用戶輕鬆擴展AI 模型,並且可以超出物理TPU pods 的範圍,最多可以容納數万個TPU v5e 或TPU v4 芯片。

*利用多個TPU Podslices 實現性能線性擴展。 *

截至目前,使用TPU 的訓練工作僅限於單片TPU 芯片,TPU v4 的最大切片數量為3,072。借助Multislice,開發人員可以利用單個Pod 內的ICI(芯片內互連)技術或者通過數據中心網絡(DCN)上的多個Pod,將工作負載擴展到數万個芯片。

這種多層切片技術為谷歌構建其最先進的PaLM 模型提供了支持。現在谷歌云客戶也能體驗這一技術了。

此次升級的TPU v5e 得到了客戶的高度認可。 AssemblyAI 技術副總裁Domenic Donato 表示,當使用TPU v5e 在他們的ASR(自動語音識別)模型上運行推理時,每美元的性能始終是市場同類解決方案的4 倍。這種強大的軟硬件組合能夠為他們的客戶提供更經濟高效的AI 解決方案。

隨著谷歌云不斷升級AI 基礎設施,越來越多的客戶將選擇使用谷歌云服務。據此前谷歌母公司Aplabet 的介紹,超過半數的生成式AI 初創公司正在使用谷歌的雲計算平台。

對於谷歌而言,此次Cloud TPU v5e 拉開了進一步變革產品模式、賦能雲客戶的序幕。

參考鏈接:

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)