過去數年 GPU 資源一直被企業熱搶作 AI 開發。但購買 GPU 卡預算高昂,實際所需算能亦難以憑空估算。AWS 為此推出適用於機器學習 (ML) 的 EC2 容量區塊,讓客戶能夠租用 GPU 算力,以運行其短期 ML workload。借助 EC2 容量塊,可以使用二代 UltraCluster 3,200G 網路,結合 EFA 技術,以獲得最佳網路性能,更可預留高達 512 個 NVIDIA GPU。
AWS 的 GPU 實例預訂方式讓用戶可以選定未來日子所需保留的實例數。EC2 容量區塊目前最新可用到 NVIDIA H200 Tensor Core GPU 提供支援的 Amazon EC2 P5e 實例,最多可提早 8 星期預留或預留 28 天使用時長。以下將介紹以不同方法預訂容量區塊。
方法 1:在 AWS EC2 Console 進行預訂
在 Amazon EC2 Console 上選擇 Capacity Reservation,可以看到兩個容量預留選項。選擇 Purchase Capacity Block for ML,然後選擇 Get started 以開始尋找 EC2 容量區塊。
其次,選擇總容量並指定所需要 EC2 容量塊的時間。可以預留以下大小的 EC2 容量塊:1、2、4、8、16、32 或 64 個實例。可預留 EC2 容量區塊的總天數為 1 到 28 天。EC2 容量塊最多可提前 8 星期預訂。以下例子為 p5.48xlarge。
EC2 容量區塊的價格取決於購買 EC2 容量區塊時的總可用供需量,和預訂酒店邏輯相似。用戶可以調整大小、持續時間或日期範圍,以搜尋其他 EC2 容量區塊選項。當選擇 Find Capacity blocks 時,AWS 將提供指定的日期範圍內符合規範的最低價格產品以供選訂。
查看 EC2 容量區塊詳細資訊、標籤和總價格資訊後,選擇 Purchase。有關總價格是預先收取的,購買後價格不會改變。用戶需在確認購買 EC2 容量區塊的 12 小時內完成付款。
所有 EC2 容量區塊預留均從香港時間(UTC+8) 19:30 開始。EC2 容量塊在購買後無法修改或取消。
方法 2:在 AWS Command Line Interface (AWS CLI) 及 AWS SDKs 預訂
AWS 亦提供 API 形式尋找可供預訂的容量區塊並進行預訂。使用 API 提供集群要求並發現可供購買的 EC2 容量塊。首先,使用 describe-capacity-block-offerings API 提供集群要求並發現可供購買的 EC2 容量區塊。
使用上述指令找到可用的 EC2 容量區塊後,就可以使用以下 API 購買:CapacityBlockOfferingIdpurchase-capacity-block-reservation
想了解更多亦可參閱 Amazon EC2 API 文件。
最後,會看見 EC2 容量區塊現已成功預留。在到達擬訂的開始日期,EC2 容量區塊將態將變成 Active。要使用 Active 的 EC2 容量塊,可點擊 EC2 容量區塊的 ID。
選擇 Launch instances,便可以啟動 EC2 實例,並開始運行 ML workload。
請注意,當 EC2 容量區塊臨近結束,EC2 將通過 Amazon EventBridge 發出預留即將結束的通知,以便對工作負載進行檢查點操作。在 EC2 容量區塊中運行的任何實例都會在預留結束前 30 分鐘關閉。用戶不會為此時段支付金額。當 EC2 容量區塊過期,任何仍在運行的實例都將被終止。
相關文章:
AWS re:Invent 2024 懶人包重點速覽 AWS AI 戰略大揭密 AWS 企業轉型實錄 客戶體驗管理平台 Sprinklr 挑戰 99.99% 系統可靠性 專家預測 2025 年生成式 AI 趨勢 AI 將從構想走向行動新紀元