在 AWS re:Invent 2025 的《基礎設施創新》主題演講中,AWS 計算與機器學習服務副總裁 Dave Brown 發布了一系列重磅技術,包括 AWS Graviton5(預覽)、AWS Lambda Managed Instances 以及專為 AI 推理打造的Project Mantle,引起企業與開發者廣泛關注。
Brown 表示,AI 如何推動企業加速創新是一條已確立的路,而 AWS 的角色是確保企業可用最具性價比、最省力的方式運行推理與訓練工作負載。
AWS 全新自研處理器 Graviton5(預覽)是本次發布重點。其在單封裝中提供 192 核心,完全無需跨 CPU 互連,結合 5 倍 L3 快取提升與更高效散熱設計,使 M9g 執行個體效能比前代 M8g 再升 25%。
多家企業已在生產環境中驗證其效能,包括 Airbnb(+25%)、Atlassian(延遲 -20%)、SAP HANA(OLTP 查詢效能 +60%)。Apple 更分享其核心後端服務遷移至 Graviton 後,效能提升 40%、成本降低 30%。
AWS Lambda 問世十年後,AWS 宣布推出 Lambda Managed Instances,讓開發者以 Serverless 方式運行在EC2 上的工作負載。客戶可自由選擇硬件與執行個體類型,而 AWS 負責配置、快取、擴展與可用性管理。
這項創新特別適合影片處理、ML 前處理與高吞吐量分析等以往不適合 Lambda 的場景,實現「Serverless 與基礎設施控制兼得」的新運算模式。
AI 推理過程包括分詞、預填充、解碼、去分詞,每個階段對 CPU、GPU、記憶體及網絡需求都不同。Brown 指出,以傳統基礎設施架構處理這類動態、瞬變的需求並不理想,因此 AWS 從零開始打造 Project Mantle 推理引擎,已成為 Amazon Bedrock 許多模型的核心底層。
Project Mantle 引入三大創新:
此外,Mantle 亦加入機密運算保護模型權重與用戶數據,使整體效能、延遲與利用率全面提升。
AWS 宣布 Amazon Nova 多模態嵌入模型與 S3 Vectors 進一步整合,讓企業可直接在 S3 內以原生方式儲存數十億級向量。同時,OpenSearch 與多個分析服務亦加強向量搜尋能力,以支援語義查詢、內容理解及 RAG 應用。
TwelveLabs 使用 Amazon S3 Vectors 處理大量影片向量,大幅降低架構複雜度,並提升應用的單位經濟效益,成為代表性成功案例。
AWS 亦展示 Trainium3 UltraServers 的實際效能,包括:
而下一代 Trainium4 將於明年發布,官方承諾 FP4 運算效能提升 6 倍,記憶體頻寬提升 4 倍。
Dave Brown 指出,AI 讓雲端運算進入前所未有的變革期,而 AWS 的使命是替客戶構建一個既具成本效率,又能應對全新推理負載的基礎設施。無論企業在加速開發、語義搜尋、模型推理或訓練方面的需求如何演進,AWS 都會持續在基礎設施層進行深度創新。
他強調,下一個十年將是「Agentic AI」從概念走向全面落地的年代,而這一切的前提,是企業擁有一個足夠強大、穩定且具彈性的雲端基礎。