AWS 推出基於機器學習的 EC2　企業可按 AI 訓練需求彈性租用 GPU

2024-10-29

Published by

藍骨

GPU 對企業來說可謂一卡難求，很多公司都希望搶先購買 GPU 卡作 AI 開發。但購買 GPU 卡預算高昂，實際所需算能亦難以憑空估算。AWS 為此推出適用於機器學習 (ML) 的 EC2 容量區塊，讓客戶能夠預訂 GPU 算力，以運行其短期 ML workload。

客戶可借助 EC2 容量區塊將多達 20,000 個 NVIDIA GPU 預留到專為高性能 ML workload 設計的 Amazon EC2 UltraCluster 中，並透過指定集群大小、未來開始日期和持續時間，將 EC2 容量區塊與由最新 NVIDIA H200 Tensor Core GPU 提供支援的 P5e 實例一起使用。以上服務確保客戶能夠可靠、可預測和無間斷使用其重要 ML 項目所需的 GPU 運算容量，廣受大型企業青睞。

ML 技術突破為各行各業提供產品與業務轉型機會 GPU　更成兵家必爭之地

傳統的 ML 工作負載需要龐大算力，而隨著生成式 AI 出現，需要更大的算力處理用於訓練基礎模型（FM）和大型語言模型（LLM）的大量數據集。GPU 集群非常適合這項任務，因為它們的組合並行處理功能可以加速訓練和推理過程。然而，隨著企業認識到生成式 AI 的變革力量，對 GPU 的需求已經超過了供應。因此，想利用嶄新 ML 技術的客戶，尤其是那些容量需求波動的客戶，在取用運行 ML 工作負載所需的 GPU 集群上可能會面臨挑戰。客戶正在尋找以更高的靈活性和可預測性預置所需 GPU 容量的方法，而無需做出長期承諾。

針對市場上客戶想尋找可靈活配置和預測需求的 GPU 容量，AWS 正好提供 EC2 容量區塊，讓客戶可短時間內保留運行 ML 工作負載所需的 GPU 容量，而無需在不使用時保留 GPU 容量。EC2 容量塊部署在 EC2 UltraCluster 中，與第二代 Elastic Fabric Adapter （EFA） 3,200G 網路互連，提供低時延、高輸送量連接，使客戶能夠擴展到 20,000 個 GPU。客戶可以在未來開始日期預留由 NVIDIA H200 GPU 提供支援的 P5e 實例的 EC2 UltraCluster 1 到 28 天，最多可提前 8 星期預留，集群大小為 1 到 64 個實例（512 個 GPU），使客戶能夠靈活地運行各種 ML 工作負載，並且只需為所需的 GPU 時間付費。EC2 容量塊非常適合完成訓練和微調 ML 模型、短期實驗運行以及處理未來推理需求的臨時激增，以支援客戶在生成式應用程式成為主流時即將推出的產品。安排 EC2 容量塊後，客戶可以確定地規劃其 ML 工作負載部署，因為他們知道他們將在需要時擁有 GPU 容量。

AWS 運算和聯網副總裁 David Brown 表示:「AWS 和 NVIDIA 已合作逾 12 年，積極提供可擴展的高性能 GPU 解決方案。我們看到我們的客戶開發出令人難以置信的生成式 AI 程式，這些程式正在改變不同行業。」 Amazon EC2 容量區塊同時亦為企業和初創公司提供新方法，讓他們在可預測下獲得 NVIDIA GPU 容量來建立、訓練和部署其生成式 AI 程式，而無需在硬件上長期投資。

租用適用於 ML 的 Amazon EC2 容量區塊定價包括了實例預留費和操作系統費。有興趣使用的客戶可參閱 EC2 容量區塊價目及實際例子，有關價錢將於 2025 年 1 月 1 日更新。