香港時間 12 月 4 日,AWS re:Invent 2025 進入第三日,AWS Agent AI 副總裁 Swami Sivasubramanian 發表主題演講,闡述建構可靠 AI Agent 核心技術路徑。他指出 AI Agent 正由「技術奇蹟」轉變為具實際業務價值工具,惟多數企業陷入「概念驗證(PoC)困局」,眾多出色 Agent 原型未能進入生產環境。
Swami 博士圍繞「易於建構(Easy to Build)」、「高效(Efficiency)」、「可信(Trust)」及「可靠(Reliability)」四大支柱,發布多項創新。值得留意 Amazon Nova Act 服務可靠度達 90%,Amazon Bedrock 強化微調功能準確度提升 66%,Amazon Nova Forge 則開創「開放訓練模型」新範式。
Swami 博士表示傳統 Agent 開發需預設所有場景流程,令程式碼難以維護,容易在意外情況下失敗。多數 PoC 未考慮五大生產障礙:快速部署能力、複雜記憶體系統、身份與存取權限管理、工具互通性及可觀察性。
AWS 推出開源 Agent 開發框架 Strands Agents SDK,採取模型驅動方式,允許模型自主應對任何場景,無需預設工作流程及複雜協調程式碼。此功能已在 AWS 內部驗證,省卻數千行冗餘程式碼,同時提高 Agent 準確性與程式碼維護性。自 5 月發布預覽版以來,Strands 下載量已超過 500 萬次。
今日發布兩項核心功能令其更強大:TypeScript 支援將 Strands Agents SDK 擴展至全球最流行編程語言之一;邊緣裝置支援開啟汽車、遊戲及機械人等領域新應用場景。
Amazon Bedrock AgentCore 為託管系統,填補 PoC 與生產之間鴻溝。現場演示中,Swami 博士展示 AgentCore Identity 強大功能:只需數行程式碼,即可跨 AWS 應用程式與 Slack、Zoom 等第三方服務無縫管理身份與存取權限,從零開始建構同樣功能需時數周。
今日發布 Episodic Memory 進一步提升 Agent 能力。Swami 博士以旅行助手為例:獨行旅客可能在航班起飛前 45 分鐘到達機場便足夠,若帶同兩個孩子及大量行李,Agent 需記住上次混亂家庭旅行經歷,自動調整到達時間至兩小時。這不單是記住過去,更是理解「用戶行為背後時機和原因」。Agent 經驗越豐富便越聰明。
昨日亦發布兩項 AgentCore 新功能:Policy in Amazon Bedrock AgentCore 提供 Agent 行為控制,同時保留其推理及採取最佳行動自由;AgentCore Evaluations 允許開發人員在數千個模擬場景評估測試 Agent,確保正式推出前達企業級標準。
Swami 博士指出現成大型語言模型(LLM)雖然智能,但非總是最高效。效率關乎成本,亦涉及延遲(回應速度)、規模(峰值處理能力)及敏捷性(迭代速度)三個關鍵維度。
他指出大多數 Agent 將時間花費在編寫程式碼、分析搜尋結果、建立內容等常規操作,若能為這些任務訂製模型,便能大幅提高效率。然而強化學習這類高階訂製技術門檻極高,需要博士級專業知識、複雜分散式基礎設施,開發週期長達 6 至 12 個月。
今日正式發布 Reinforcement Fine-Tuning(RFT)in Amazon Bedrock,讓普通開發人員亦能使用強化學習,操作極為簡單:選擇基礎模型、指向 Amazon Bedrock 日誌,並選擇獎勵函數(如 LLM 評判器)即可完成。Amazon Bedrock 自動化整個 RFT 工作流程,相比基礎模型準確度平均提升 66%,效果顯著。
針對需要更多控制應用場景,今日發布 SageMaker AI Serverless Model Customization 提供兩種體驗:自助式體驗適合自行管理整個流程開發人員;Agent 驅動體驗讓使用者只需以自然語言描述用例,由 AI Agent 建議合適微調技術、產生合成數據集、配置 Serverless 訓練流程,並完成模型效果評估。原本需要機器學習工程師投入數月反覆試驗工作,現可在數天內完成。
Swami 博士亦宣布提高模型訓練彈性新功能:Checkpointless Training on SageMaker HyperPod。傳統檢查點恢復會導致資源閒置數小時,此功能透過持續儲存分散式叢集中模型狀態,實現分鐘級恢復,硬件故障時無縫替換裝置,獲取正確節點狀態,堪稱範式轉變。
Swami 博士介紹四種訂製方案:監督式微調(SFT)、模型蒸餾、人類回饋強化學習(RLHF)及 AI 回饋強化學習(RLAIF)。其中模型蒸餾可讓小型模型模仿巨型模型決策邏輯,實現 10 倍加速,同時仍保持 95% 至 98% 效能;SFT 則重質不重量,1 萬條優質 Agent 互動數據優於數百萬通用範例。
多數企業因而仍受制於「通用模型效能不足」與「訂製成本過高」兩難境地。AWS 突破在於將這些高階技術自動化,讓普通開發人員亦能使用強化學習等先進技術,大幅降低訂製門檻。