在今年 AWS re:Invent 的主題演講中,行政總裁 Matt Garman 率先從 AI 基礎設施切入,勾勒企業級人工智能的下一階段:從晶片、伺服器到私有雲部署,AWS 正以全新形態的算力體系,為全球客戶開啟 AI 模型訓練與推理的新紀元。
AWS 發佈最新一代 Amazon Trainium3 UltraServers,標誌 AI 算力正式進入 3 納米世代。這款伺服器搭載高達 144 顆定制化 AI 晶片,具備驚人的 362 PFLOPS FP8 運算能力,比前一代 Trainium2 系列在能效、頻寬及輸出能力上均有重大突破:
在實際應用上,Trainium3 為訓練大型語言模型提供最佳效能。測試顯示,運行 OpenAI GPT-OSS-120B 模型時的能源效率,遙遙領先上一代平台。
Garman 亦首次預告 Trainium4 晶片正在研發中。該晶片將具備六倍 FP4 運算能力、四倍頻寬及雙倍記憶體容量,預期進一步鞏固 AWS 在雲端 AI 晶片領域的長期領先地位。
他強調:「我們並非只追求速度,而是打造全球最具能源效率的 AI 運算平台,讓訓練與推理成本同時下降。」
AWS 與 NVIDIA 的技術合作已超過 15 年,是行業最早在雲端提供 GPU 運算能力的供應商之一。
新一代 P6e-GB300 實例 採用 NVIDIA 最新 GBNVL72 系統架構,專為超大規模生成式 AI 工作負載及多模態模型訓練而設。這些高密度 GPU 節點不僅大幅提升推理速度,亦優化了叢集穩定性。Garman 提到,AWS 能夠透過 BIOS 層級的 Debug 工具、逐案例根因分析等技術,確保集群在長時間運行下依然維持業界最佳穩定性。
目前 ChatGPT 等超大模型工作負載,已於 AWS 的 EC2 Ultra Cluster 上運行,規模可擴展至 數十萬顆 GPU、千萬級 CPU,成為現時全球最大 AI 運算集群之一。
在這場被譽為年度最具顛覆性的發佈會上,AWS 同步推出 Amazon AI Factories 服務,開啟企業自建專屬 AI 區域的嶄新範式。
靈感源自與沙特阿拉伯新創城市 Neom 的合作經驗,AI Factories 允許企業在自家數據中心內直接部署 AWS 專用 AI 基礎架構,包括 Amazon Trainium UltraServers、NVIDIA GPU、Amazon SageMaker 及 Amazon Bedrock 等核心平台組件。
AI Factories 的最大價值在於 —— 「雲端體驗,本地部署」。客戶可在遵循嚴格法規與數據主權要求下,享有與公有雲一致的運行效能與管理體驗。這樣的混合部署模式,為金融、政府及醫療行業帶來關鍵突破,特別適用於無法將敏感數據外移的企業。
Garman 表示:「AI Factories 讓企業能在自己的環境中擁有一座真正屬於自身的 AI 工廠。」
生物科技公司 Vialet 成功展示強大 AI 基礎設施的潛能。該公司利用 AWS 平台訓練「科學多面手(Science Generalist)」AI,能夠主動生成研究假設、設計實驗並自我驗證結果。
這套系統目前已分析並處理數萬億科學推理 Token,預期數年內將增長一百倍。透過 AWS 的自主算力與智能代理結構,Vialet 以幾乎即時的速度迭代模型,顯著縮短藥物研發與新材料發現週期。
此案例充分說明,AI Infrastructure 不僅是一種技術資源,更是一個推動產業創新的催化劑。
AWS 的基礎設施升級,凸顯兩大戰略方向:
對企業而言,這意味他們能在兼顧法規與性能的前提下,加速從「試點」邁向「全面部署」AI 應用。
Garman 總結指出:「從雲端到邊緣,我們正在重構全球 AI 生產力的基礎。」