GenAI 與雲端科技專區

AWS 推出基於機器學習的 EC2 容量區塊 多種預訂方式便利企業 AI 開發

Published by
藍骨

過去數年 GPU 資源一直被企業熱搶作 AI 開發。但購買 GPU 卡預算高昂,實際所需算能亦難以憑空估算。AWS 為此推出適用於機器學習 (ML) 的 EC2 容量區塊,讓客戶能夠租用 GPU 算力,以運行其短期 ML workload。借助 EC2 容量塊,可以使用二代 UltraCluster 3,200G 網路,結合 EFA 技術,以獲得最佳網路性能,更可預留高達 512 個 NVIDIA GPU。

AWS 的 GPU 實例預訂方式讓用戶可以選定未來日子所需保留的實例數。EC2 容量區塊目前最新可用到 NVIDIA H200 Tensor Core GPU 提供支援的 Amazon EC2 P5e 實例,最多可提早 8 星期預留或預留 28 天使用時長。以下將介紹以不同方法預訂容量區塊。

方法 1:在 AWS EC2 Console 進行預訂

在 Amazon EC2 Console 上選擇 Capacity Reservation,可以看到兩個容量預留選項。選擇 Purchase Capacity Block for ML,然後選擇 Get started 以開始尋找 EC2 容量區塊。

其次,選擇總容量並指定所需要 EC2 容量塊的時間。可以預留以下大小的 EC2 容量塊:1、2、4、8、16、32 或 64 個實例。可預留 EC2 容量區塊的總天數為 1 到 28 天。EC2 容量塊最多可提前 8 星期預訂。以下例子為 p5.48xlarge。

EC2 容量區塊的價格取決於購買 EC2 容量區塊時的總可用供需量,和預訂酒店邏輯相似。用戶可以調整大小、持續時間或日期範圍,以搜尋其他 EC2 容量區塊選項。當選擇 Find Capacity blocks 時,AWS 將提供指定的日期範圍內符合規範的最低價格產品以供選訂。

查看 EC2 容量區塊詳細資訊、標籤和總價格資訊後,選擇 Purchase。有關總價格是預先收取的,購買後價格不會改變。用戶需在確認購買 EC2 容量區塊的 12 小時內完成付款。

所有 EC2 容量區塊預留均從香港時間(UTC+8) 19:30 開始。EC2 容量塊在購買後無法修改或取消。

方法 2:在 AWS Command Line Interface (AWS CLI) 及 AWS SDKs 預訂

AWS 亦提供 API 形式尋找可供預訂的容量區塊並進行預訂。使用 API 提供集群要求並發現可供購買的 EC2 容量塊。首先,使用 describe-capacity-block-offerings API 提供集群要求並發現可供購買的 EC2 容量區塊。

使用上述指令找到可用的 EC2 容量區塊後,就可以使用以下 API 購買:CapacityBlockOfferingIdpurchase-capacity-block-reservation

想了解更多亦可參閱 Amazon EC2 API 文件

最後,會看見 EC2 容量區塊現已成功預留。在到達擬訂的開始日期,EC2 容量區塊將態將變成 Active。要使用 Active 的 EC2 容量塊,可點擊 EC2 容量區塊的 ID。

選擇 Launch instances,便可以啟動 EC2 實例,並開始運行 ML workload。

請注意,當 EC2 容量區塊臨近結束,EC2 將通過 Amazon EventBridge 發出預留即將結束的通知,以便對工作負載進行檢查點操作。在 EC2 容量區塊中運行的任何實例都會在預留結束前 30 分鐘關閉。用戶不會為此時段支付金額。當 EC2 容量區塊過期,任何仍在運行的實例都將被終止。


相關文章:
  • AIRSIDE 與 Neuron 的「可持續發展」智能方案  以 AI 建設更符合現代需求的物業管理模式
  • Claude 3.5 Sonnet 升級版登陸 AWS 以更強能力解拆複雜邏輯問題
  • 東南亞時裝電商 Pomelo Fashion 用 AI 提供個人化體驗 採 Amazon Personalize 增 8% 總營收

  • Published by
    藍骨