在數碼轉型加速的今日,企業面臨著如何處理遺留大型主機系統的重大挑戰。百年金融機構 Transamerica 成功展示了如何運用 AWS Blu Age 與生成式 AI (Generative AI)技術,將 90% 的大型主機工作負載在短短 14 個月內成功轉型至 AWS 上。本文將深入探討這項轉型之旅,從策略選擇到實施方法,以及 AI 技術如何加速整個過程。
面對大型主機系統,企業通常有三種選擇:維持現狀並繼續承擔高成本、將應用程式重新平台化,或進行自動化重構。Transamerica 作為一家擁有超過一世紀歷史的保險、投資和退休解決方案公司,其系統環境龐大而複雜,服務著近 1,070 萬客戶。
Transamerica 的技術架構工程與 AI 服務主管 Srinivas Upadhyaya 指出:「我們的退休解決方案生態系統由超過 450 個應用程式和業務服務組成,包含約 4,000 個批次工作流程,其中 900 個是大型主機批次處理。」這些系統支援著公司的 401k、403B 和 IRA 等核心產品。
Transamerica 的現代化旅程主要受四個策略性優先事項推動:
Transamerica 最初嘗試了手動重寫方法,選擇了約 10% 的工作負載(一個相對獨立的養老金支付系統)作為試點。結果卻令人失望:
Upadhyaya 回憶:「我們原計劃在三個月內完成,但最終花了八個月才上線,隨後還需要一個月的緊急修復。業務團隊被迫將大量時間投入到需求驗證和測試中,這嚴重影響了他們的核心業務職責」。
這一教訓使 Transamerica 意識到,若要採用相同方法處理剩餘 90% 的工作負載,可能需要五年時間—這在業務發展速度要求下是不可接受的。
轉向自動化方法後,Transamerica 採用了 AWS Blu Age,這是一個端到端綜合流程而非單純工具。AWS Blu Age 的方法論包含幾個關鍵階段:
AWS Blu Age 首先進行詳細的程式碼分析,建立應用程式間的依賴關係圖。這一階段能夠:
Upadhyaya 強調「校準階段讓我們在三到四週內就能看到工具如何處理我們的大型主機程式碼,了解輸入與輸出,有如概念驗證,非常值得投資」。
校準階段是 AWS Blu Age 流程中至關重要的環節,透過分析程式碼子集並實施轉換規則,達成 100% 自動化的目標。相較於傳統方法,這一流程顯著減少了業務專家參與的需求:
Transamerica 技術團隊表示,「在校準階段,我們只需在功能測試、迴歸測試完成後,邀請業務團隊參與用戶驗收測試 (User Acceptance Testing, UAT),而非在整個過程中持續佔用他們的時間。這點對業務連續性至關重要」。
AWS Blu Age 自動將應用程式分解為功能模組,每個模組包含:
這種分解使團隊能夠制定有效的測試策略,並在時間軸上監控各功能的進度。
AWS Blu Age 的轉換中心採用三步驟方法進行程式碼轉換:
AWS Blu Age 進行模式到模式的轉換,不僅能識別風險注入點,還能計算每個構件的風險矩陣,從而確定需要優先測試的功能。這種方法讓 Transamerica 達到了 99.996% 的轉換準確率。
Upadhyaya 讚賞:「我們報告一個問題後,AWS Blu Age 團隊通常在 24 小時內就能提供修復方案。考慮到時差,這意味著我們提交問題後,隔天早上起床就能收到解決方案,這真的令人印象深刻」。
在轉換過程中,插入特定規則以覆蓋 Transamerica 應用程式的特殊模式,確保轉換後的程式碼能完整保留原有業務邏輯。這種方法無需進行冗長的需求重新規格化,大幅降低了轉型風險。
Transamerica 建立了包含 7,000 個測試案例的測試套件,涵蓋功能、迴歸和效能測試。這一測試框架成為持續測試的資產,讓新功能開發週期從數月縮短至數日:
Transamerica 團隊表示,「有了自動化測試框架,我們現在可以在短短兩天內完成完整的測試週期,這對於業務需求的快速回應至關重要」。
Transamerica 擁有 900 個關鍵批次工作,處理交易、會計等核心功能,每晚必須按時完成。
在 AWS Blu Age 的協助下,這些批次工作被轉換為 Java 批次程式,並通過可呼叫的 API 進行暴露,實現了更靈活的處理模式:
Upadhyaya 解釋「我們將批次工作暴露為 API 後,建立了 Python 編寫的協調層,控制中心通過這一層調用批次工作,這一設計大幅提升了靈活性」。
透過 Python 協調層,Transamerica 實現了批次控制與狀態管理的分離,讓批次工作變得更加模組化。這些批次工作在無伺服器 Amazon Elastic Container Service (Amazon ECS) 容器中運行,提供了卓越的擴展性。
移轉到 AWS 後,Transamerica 的夜間批次處理速度提升了 30%:
Upadhyaya 分享,「在大型主機環境中,我們的交易檔案截止時間是凌晨 4:30,經常在凌晨 3 點或 3:30 才完成,總是讓人神經緊繃。現在,大部分批次在午夜就能完成,為我們提供了充足的緩衝時間」。
這一效能提升歸功於:
AWS Blu Age 整合了生成式 AI 功能,進一步加速了現代化流程的多個方面。
生成式 AI 提供以下功能:
AWS Blu Age 團隊的 Xavier Plot 解釋「當你面對一個有 30 萬行程式碼的大型批次程式時,生成式 AI 可以快速提供特定程式碼區塊的功能解釋,大幅加速了問題診斷過程」。
生成式 AI 顯著改進了測試過程:
這些功能使 Transamerica 能夠以更少的測試達到更高的覆蓋率,進一步縮短了測試週期。
其他生成式 AI 功能包括:
這些功能讓團隊成員能夠專注於真正需要他們專業知識的高價值任務,而非例行性工作。
Transamerica 從大型主機遷移到了基於 AWS 服務的現代三層架構。
轉型後的架構包括:
所有服務都運行在無伺服器 Amazon ECS 容器中,這大幅降低了對專門大型主機技能的依賴。
Transamerica 選擇將 Db2 數據庫從 z/OS 平台遷移到 Amazon Elastic Compute Cloud (Amazon EC2) 上的Linux,保持了數據庫技術連續性的同時,實現了平台現代化:
Upadhyaya 提到「目前我們仍在 EC2 上運行 Db2,但我們計劃在 Amazon Relational Database Service (Amazon RDS) 成熟可用時考慮遷移」。
轉型過程中,Transamerica 實施了增強的安全措施:
這些措施確保了現代化系統比原來的大型主機環境更安全、更具彈性。
測試是 Transamerica 現代化過程中佔比最大的成本項目(超過 68%),因此他們採用了創新的測試策略來提高效率。
Transamerica 執行了 100 次平行測試,使用 10 種不同的數據集,包括稅務數據、月度、季度和年終高交易量日等:
Upadhyaya 詳細說明,「每次平行測試中,我們會用一個數據集在本地和雲端運行批次,然後比較數億行的輸出結果。這種方法讓我們能夠系統性地識別並解決所有問題」。
在正式切換前,Transamerica 進行了三次「模擬切換」:
Upadhyaya 表示:「在解決所有問題後,我們對 2023 年 6 月 9 日的最終切換充滿信心」。切換後,大型主機的 MIPS(每秒百萬指令)使用量從峰值 11,000 MIPS 瞬間降至零,象徵著成功完成從大型主機到 AWS 雲端的轉型。
與傳統方法不同,Transamerica 只在特定階段邀請業務團隊參與:
Transamerica 團隊分享指,「業務團隊非常感謝這種方法,因為他們的參與負擔大幅減輕,可以更加專注於核心業務職責」。
完成大型主機現代化為 Transamerica 帶來了顯著效益。
轉型後,Transamerica 能夠更快速地回應業務需求:
「現在系統和數據都在雲端,我們實施新創新的路徑變得更加簡單,」Upadhyaya 表示。
完成大型主機現代化為 Transamerica 的 AI 戰略奠定了基礎:
Upadhyaya 強調「我同時負責 Transamerica 的 AI 服務,系統和數據同時位於雲端將使任何未來的 AI 創新變得更加容易實施」。
展望未來,Transamerica 計劃持續最佳化其雲端架構:
Transamerica 資訊總監/技術總監 Tom 評論指:「這不僅僅是技術升級,我們已經現代化了應用程式,使其更安全、更可靠、更可用,為未來創新奠定了基礎」。
從 Transamerica 的旅程中,可總結出以下關鍵經驗與建議:
Upadhyaya 總結:「如果有人在我們開始時告訴我這些經驗,整個旅程會容易得多」。
通過採用 AWS Blu Age 與生成式 AI 技術,Transamerica 成功將其大型主機現代化轉型時間從預計的五年縮短至僅 14 個月,同時保持了業務連續性並提升了系統效能。這一案例展示了 AWS 如何助力企業快速實現遺留系統現代化,為未來數碼創新奠定堅實基礎。