「透過 AI 與 MLOps,我們自動化處理了 6200 萬份文件,每年為團隊節省了相當於 70 萬工時的人力資源。」這是 Rocket Mortgage 執行長在 AWS re:Invent 2024 分享的成果,展示了人工智能從實驗室轉變為實際商業價值的震撼力量。
在 AI 領域,許多企業面臨同樣的挑戰:實驗室中表現出色的模型,到了實際應用環境卻難以產生預期效益。然而,企業對生成式 AI 的投資熱情依舊高漲,數據顯示在不到一年時間內,相關支出從年度 700 萬美元飆升至1,800 萬美元,增長了 2.5 倍。
要彌合這種投資與實際回報之間的差距,企業需要兩個關鍵要素:機器學習營運(Machine Learning Operations, MLOps)和基礎模型營運(Foundation Model Operations, FMOps)。MLOps 是一套結合機器學習、DevOps 和數據工程的實踐方法,旨在標準化和簡化 AI 系統的整個生命週期,從開發到部署再到監控。而 FMOps 則是近期隨著 Claude、Llama 等基礎模型崛起而發展出的新概念,專注於處理基礎模型特有的挑戰,包括提示詞管理、模型微調和安全防護等方面。
Amazon SageMaker 提供的全方位 MLOps 和 FMOps 功能,就像一座連接創新與商業價值的橋樑,幫助企業將前沿 AI 研究成果轉化為實際業務優勢。
AI 轉型的挑戰:為何大多數 AI 項目難以落地?
在深入探討 Amazon SageMaker 的關鍵作用之前,我們有必要理解為何 AI 轉型如此具有挑戰性。企業在實現AI 價值時通常面臨幾個主要障礙:
在推動 AI 轉型的過程中,企業面臨幾個主要挑戰。首先,當數據科學家們進行大量實驗,嘗試不同參數組合時,如何有效追蹤這些實驗結果成為一個棘手問題。手動記錄在複雜的 AI 開發環境中幾乎不可能實現全面管理,導致寶貴的見解和成功經驗被湮沒在混亂中。
其次,即使一個 AI 模型在開發環境中表現優異,將其部署到生產環境仍然是一段充滿風險的旅程。環境差異、資源配置不同和數據流變化都可能導致模型在實際應用中的表現與預期大相徑庭。
最後,隨著 AI 應用的普及,安全和合規要求變得尤為重要。特別是在金融和醫療等高度監管的行業,如何確保AI 模型的安全性和合規性成為關乎專案成敗的關鍵因素。
Rocket Mortgage 的 AI 成功之路:70 萬工時的啟示
有一個令人矚目的案例完美展示了 MLOps 如何轉變企業的 AI 實踐。Rocket Mortgage 是美國領先的房貸公司,他們的 AI 之旅提供了寶貴的經驗和啟示。
Rocket Mortgage 的 AI 成功之路提供了一個絕佳的案例研究,展示了 MLOps 的巨大商業價值。他們投資了 5 年時間和 5 億美元打造專有平台「Rocket Logic」,這個貸款發放系統提供從客戶開始尋找房屋到貸款發放的端到端能力。他們的 MLOps 之旅在生成式 AI 成為熱門話題前 10 年就開始了,如今已經擴展到在生產環境中運行超過 200 個專有 AI 模型。
通過實施 Amazon SageMaker 的 MLOps 功能,Rocket Mortgage 取得了顯著的業務效益:開發時間減少了40-60%;成功完成了 37 億次自動化 AI 和數據科學驅動的業務決策;每年處理 6200 萬份文件,其中 65% 實現自動化;80% 的數據點以高度的準確度和精確度自動提取;最令人矚目的是每年節省 70 萬團隊成員工時的驚人成果。
更令人印象深刻的是,他們曾經需要 7-8 名工程師來管理自託管的 MLflow 平台,部署過程需要長達 8 週的時間。如今,通過使用 Amazon SageMaker 與 Amazon SageMaker MLflow,他們只需要一名工程師,而且這名工程師有一半的時間可以用於創新,因為基礎設施的管理負擔大大減輕。
Rocket Mortgage 不僅實現了內部效率的提升,還徹底改變了客戶體驗。他們開發了名為 Rocket Assist 的專有聊天機器人,80% 的客戶表示喜歡這種聊天體驗,並實現了比傳統互動高 3 倍的轉化率。對於內部員工,他們開發了 Rocket Navigator,使團隊成員能夠運用最新的生成式 AI 技術。啟動後的第一個月就記錄了 18,000 次互動,使運營團隊成員在一年內能夠比前一年多幫助 31% 的客戶,銀行團隊能夠支援比前一年多 15% 的客戶。
Amazon SageMaker MLOps 的關鍵支柱:從混沌到秩序
Rocket Mortgage 的成功並非偶然,而是基於 Amazon SageMaker 提供的一系列強大 MLOps 功能。這些工具共同構成了一個全面的框架,幫助企業從實驗到部署再到監控,管理其 AI 系統的整個生命週期。

實驗追蹤是 MLOps 的基礎。隨著模型規模增大和複雜度提高,實驗的數量也隨之激增,手動追蹤變得不切實際。Amazon SageMaker MLflow 提供了一個受管理的 MLflow 環境,讓企業無需承擔基礎設施管理的負擔。只需簡單幾步,企業就可以啟動一個預先配置好的 MLflow 追蹤伺服器,輕鬆整合到 SageMaker Studio 筆記本、訓練工作或本地整合開發環境(Integrated Development Environment, IDE)中。這種整合使企業能夠在 AI 開發過程中輕鬆追蹤各種指標和參數,如使用的模型、評估指標、微調參數等。這些資訊對於實驗的可重複性和可追溯性至關重要,使團隊能夠識別最佳實踐並在不同專案中複用成功經驗。
AI 模型開發涉及多個複雜步驟的協調,特別是在基礎模型微調這類任務中。Amazon SageMaker Pipelines 提供了一個無伺服器的工作流編排服務,實現端到端的模型開發管道。它支援通過圖形化界面或程式碼軟體開發套件(Software Development Kit, SDK)建立管道。對於已經在筆記本中開發的程式碼,可以使用簡單的裝飾器將其轉換為管道步驟,大大減少了轉換工作的負擔。管道的一個重要特性是增量執行能力 — 如果某些步驟之前已經成功執行過,這些步驟會被智能跳過,從而減少冗餘並加快管道的執行速度。這對於 AI 的迭代開發特別有價值,可以節省大量時間和計算資源。此外,它還與 Amazon EventBridge 整合,實現自動化排程執行。例如,當新數據到達 Amazon Simple Storage Service (Amazon S3) 時,可以自動觸發模型重新訓練或微調工作。
將模型從開發環境推進到測試和生產環境是 AI 工作流程中的關鍵步驟。Amazon SageMaker Model Registry 提供了一個集中的模型目錄,作為企業所有模型的單一真實來源。模型註冊表自動從訓練工作和評估結果中捕獲資訊,使企業能夠更輕鬆地追蹤模型的譜系和性能。這些資訊對於合規性和審計極為重要,尤其是在金融和醫療保健等嚴格監管的行業。對於擁有多個 AWS 帳戶的企業,它還提供了跨帳戶的集中模型註冊表功能,確保同一個模型在不同環境中的一致性和可追蹤性。
從 MLOps 到 FMOps:基礎模型時代的新挑戰
隨著像 Claude、Llama 和 Falcon 這樣的基礎模型(Foundation Models)的崛起,傳統的 MLOps 概念也在進化。基礎模型操作(Foundation Model Operations, FMOps)專注於管理基礎模型特有的多種挑戰。
與傳統 ML 模型不同,基礎模型可以通過提示詞(Prompts)來修改其行為。FMOps 包括有效管理和最佳化這些提示詞,以確保模型輸出符合企業需求。這是基礎模型特有的客製化方式,需要全新的管理方法和工具。
基礎模型微調也涉及許多獨特考量,包括參數有效微調(Parameter-Efficient Fine-Tuning, PEFT)等技術,以及如何在有限數據集上實現最佳結果。Amazon SageMaker 為這些微調工作提供了專門的基礎設施和工具,幫助企業平衡模型能力與計算成本。
安全防護在基礎模型時代變得尤為重要。Amazon Bedrock Guardrails 提供了一種簡單方式來過濾有害內容、拒絕某些主題,或限制個人資訊的泄露。企業也可以利用 Llama Guard 等開源模型作為前置過濾器,建立雙重防護機制,確保模型輸出可靠與合規。
基礎模型部署可能成本高昂,這促使企業尋找創新的降低成本方案。Amazon SageMaker 推理端點原生支援多適配器推理,企業可以註冊多個適配器(如為不同部門各自準備一個適配器),並將它們與一個共享的基礎模型一起部署,大幅降低成本。這種方法使企業可以為不同業務需求提供量身定制的 AI 功能,同時避免昂貴的重複部署。
邁向成功的 AI 實踐:實施建議與最佳做法
對於想要踏上類似 Rocket Mortgage 成功之路的企業,基於 AWS 最佳實踐的建議如下:
首先,在投資 MLOps 之前,清晰定義您希望 AI 為業務帶來的具體價值。是加速流程?提升客戶體驗?還是降低成本?這些明確的商業目標將引導您的 MLOps 戰略,確保技術投資能夠帶來實際回報。
其次,採用逐步實施的方法。不要試圖一次實現完整的 MLOps 管道,這種嘗試往往會導致複雜度難以管理,甚至失敗。從一個小型但重要的 AI 用例開始,建立基本的 MLOps 實踐,然後隨著成功和學習逐步擴展。Rocket Mortgage 的成功正是建立在多年逐步發展的基礎上。
投資於團隊技能培養也至關重要。MLOps 不僅僅是工具和技術,還涉及團隊文化和技能。確保您的數據科學家、工程師和業務利益相關者都理解 MLOps 的價值和最佳實踐。跨職能合作對於成功實施 MLOps 至關重要。
同時,在設計 MLOps 流程時,要平衡自動化與人工監督。雖然自動化是 MLOps 的核心,但人工監督仍然至關重要,特別是在涉及客戶互動或關鍵業務決策的 AI 應用中。設計您的流程,使人類專家能夠在關鍵點進行審查和干預,這對於建立對 AI 系統的信任至關重要。
最後,建立全面的評估框架。確保您有明確的指標來衡量 AI 模型的性能和商業影響。這些指標應該直接與您的業務目標相關聯,並能夠隨著時間的推移進行追蹤和比較。沒有測量,就沒有改進,而對於 AI 系統,持續改進是實現長期價值的關鍵。
MLOps 是 AI 成功的關鍵橋樑
企業對 AI 的投資正在快速增長,但將這些投資轉化為實際業務價值需要有效的 MLOps 實踐。Amazon SageMaker 提供了一套全面的 MLOps 功能,從實驗追蹤到模型部署再到持續監控,幫助企業建立一條從實驗室到生產環境的可靠通道。
Rocket Mortgage 的成功故事凸顯了 MLOps 的變革潛力。通過投資於適當的工具和流程,他們不僅提高了內部效率,每年節省 70 萬團隊成員工時,還徹底改變了客戶體驗,實現了更高的滿意度和轉化率。
在基礎模型時代,MLOps 正在演進為 FMOps,帶來一系列新的挑戰和機遇。通過採用 Amazon SageMaker 提供的最新工具和最佳實踐,企業可以自信地駕馭 AI 革命,將創新轉化為實際的商業價值。
MLOps 不只是一套技術工具,更是連接 AI 潛力與業務成果的關鍵橋樑。那些能夠掌握這座橋樑的企業,將在AI 驅動的未來中取得顯著優勢。
參考數據
- AWS re:Invent 2024 – Rocket Mortgage – Accelerate production for gen AI using Amazon SageMaker MLOps & FMOps (AIM354)
- AWS re:Invent 2024 – AI in the cloud: Heroes, “villains,” and security strategies (AIM240)
- Amazon Web Services (AWS)
- Amazon SageMaker
- Amazon SageMaker MLflow
- Amazon SageMaker Pipelines
- Amazon SageMaker Model Registry
- Amazon Bedrock
- Amazon Bedrock Guardrails
- Amazon EventBridge
- Amazon Simple Storage Service (Amazon S3)
分享到 :
最新影片