在 AWS re:Invent 2025 的《基礎設施創新》主題演講中,AWS 計算與機器學習服務副總裁 Dave Brown 發布了一系列重磅技術,包括 AWS Graviton5(預覽)、AWS Lambda Managed Instances 以及專為 AI 推理打造的Project Mantle,引起企業與開發者廣泛關注。
Brown 表示,AI 如何推動企業加速創新是一條已確立的路,而 AWS 的角色是確保企業可用最具性價比、最省力的方式運行推理與訓練工作負載。
Graviton5:單封裝 192 核心的新架構突破
AWS 全新自研處理器 Graviton5(預覽)是本次發布重點。其在單封裝中提供 192 核心,完全無需跨 CPU 互連,結合 5 倍 L3 快取提升與更高效散熱設計,使 M9g 執行個體效能比前代 M8g 再升 25%。
多家企業已在生產環境中驗證其效能,包括 Airbnb(+25%)、Atlassian(延遲 -20%)、SAP HANA(OLTP 查詢效能 +60%)。Apple 更分享其核心後端服務遷移至 Graviton 後,效能提升 40%、成本降低 30%。

Lambda 重大進化:Managed Instances 重新定義 Serverless
AWS Lambda 問世十年後,AWS 宣布推出 Lambda Managed Instances,讓開發者以 Serverless 方式運行在EC2 上的工作負載。客戶可自由選擇硬件與執行個體類型,而 AWS 負責配置、快取、擴展與可用性管理。

這項創新特別適合影片處理、ML 前處理與高吞吐量分析等以往不適合 Lambda 的場景,實現「Serverless 與基礎設施控制兼得」的新運算模式。
Project Mantle:專為推理而生的全新引擎
AI 推理過程包括分詞、預填充、解碼、去分詞,每個階段對 CPU、GPU、記憶體及網絡需求都不同。Brown 指出,以傳統基礎設施架構處理這類動態、瞬變的需求並不理想,因此 AWS 從零開始打造 Project Mantle 推理引擎,已成為 Amazon Bedrock 許多模型的核心底層。
Project Mantle 引入三大創新:
- 三通道請求分流(Priority / Standard / Flex)
- 為每客戶提供獨立佇列,以隔離突發流量
- Journal 式狀態捕捉,確保推理可從中斷處恢復
此外,Mantle 亦加入機密運算保護模型權重與用戶數據,使整體效能、延遲與利用率全面提升。
向量能力被視為 AI 時代必備基礎設施

AWS 宣布 Amazon Nova 多模態嵌入模型與 S3 Vectors 進一步整合,讓企業可直接在 S3 內以原生方式儲存數十億級向量。同時,OpenSearch 與多個分析服務亦加強向量搜尋能力,以支援語義查詢、內容理解及 RAG 應用。
TwelveLabs 使用 Amazon S3 Vectors 處理大量影片向量,大幅降低架構複雜度,並提升應用的單位經濟效益,成為代表性成功案例。
Trainium3 / Trainium4:AI 晶片戰場再度升級
AWS 亦展示 Trainium3 UltraServers 的實際效能,包括:
- 144 顆 Trainium3 晶片
- 360 PFLOPS(FP8)運算力
- 700TB/s 記憶體頻寬
- 20TB 高頻寬記憶體
而下一代 Trainium4 將於明年發布,官方承諾 FP4 運算效能提升 6 倍,記憶體頻寬提升 4 倍。
結語:AI 推理與訓練的雲端工程學,重新被定義
Dave Brown 指出,AI 讓雲端運算進入前所未有的變革期,而 AWS 的使命是替客戶構建一個既具成本效率,又能應對全新推理負載的基礎設施。無論企業在加速開發、語義搜尋、模型推理或訓練方面的需求如何演進,AWS 都會持續在基礎設施層進行深度創新。
他強調,下一個十年將是「Agentic AI」從概念走向全面落地的年代,而這一切的前提,是企業擁有一個足夠強大、穩定且具彈性的雲端基礎。
分享到 :
最新影片