GenAI 與雲端科技專區

14 個月完成 90% 大型主機現代化 運用 AWS Blu Age 與 AI 的系統重塑之旅

Published by
藍骨

在數碼轉型加速的今日,企業面臨著如何處理遺留大型主機系統的重大挑戰。百年金融機構 Transamerica 成功展示了如何運用 AWS Blu Age 與生成式 AI (Generative AI)技術,將 90% 的大型主機工作負載在短短 14 個月內成功轉型至 AWS 上。本文將深入探討這項轉型之旅,從策略選擇到實施方法,以及 AI 技術如何加速整個過程。

大型主機現代化的策略抉擇

面對大型主機系統,企業通常有三種選擇:維持現狀並繼續承擔高成本、將應用程式重新平台化,或進行自動化重構。Transamerica 作為一家擁有超過一世紀歷史的保險、投資和退休解決方案公司,其系統環境龐大而複雜,服務著近 1,070 萬客戶。
Transamerica 的技術架構工程與 AI 服務主管 Srinivas Upadhyaya 指出:「我們的退休解決方案生態系統由超過 450 個應用程式和業務服務組成,包含約 4,000 個批次工作流程,其中 900 個是大型主機批次處理。」這些系統支援著公司的 401k、403B 和 IRA 等核心產品。

業務驅動力與挑戰

Transamerica 的現代化旅程主要受四個策略性優先事項推動:

  1. 業務敏捷性:原有的 COBOL 程式碼(約 250 萬行)使得新功能開發與監管合規變更變得緩慢且耗時
  2. 營運效率:公司高層明確指示減少甚至消除大型主機複雜性
  3. 可擴展性:隨著業務成長,系統需要相應擴展,特別是在關鍵的夜間批次處理方面
  4. 風險降低:大型主機技術人才短缺,增加了長期維護風險

手動重寫的寶貴教訓

Transamerica 最初嘗試了手動重寫方法,選擇了約 10% 的工作負載(一個相對獨立的養老金支付系統)作為試點。結果卻令人失望:
Upadhyaya 回憶:「我們原計劃在三個月內完成,但最終花了八個月才上線,隨後還需要一個月的緊急修復。業務團隊被迫將大量時間投入到需求驗證和測試中,這嚴重影響了他們的核心業務職責」。
這一教訓使 Transamerica 意識到,若要採用相同方法處理剩餘 90% 的工作負載,可能需要五年時間—這在業務發展速度要求下是不可接受的。

AWS Blu Age 現代化方法論解析

轉向自動化方法後,Transamerica 採用了 AWS Blu Age,這是一個端到端綜合流程而非單純工具。AWS Blu Age 的方法論包含幾個關鍵階段:

程式碼基礎分析與依賴圖

AWS Blu Age 首先進行詳細的程式碼分析,建立應用程式間的依賴關係圖。這一階段能夠:

  • 識別缺失的構件與不必要的程式碼
  • 將應用程式分解為功能模組
  • 依功能或技術關聯性將工作分組
  • 建立監控專案進度的自動化儀表板

Upadhyaya 強調「校準階段讓我們在三到四週內就能看到工具如何處理我們的大型主機程式碼,了解輸入與輸出,有如概念驗證,非常值得投資」。

校準階段的關鍵價值

校準階段是 AWS Blu Age 流程中至關重要的環節,透過分析程式碼子集並實施轉換規則,達成 100% 自動化的目標。相較於傳統方法,這一流程顯著減少了業務專家參與的需求:
Transamerica 技術團隊表示,「在校準階段,我們只需在功能測試、迴歸測試完成後,邀請業務團隊參與用戶驗收測試 (User Acceptance Testing, UAT),而非在整個過程中持續佔用他們的時間。這點對業務連續性至關重要」。

工作包裝組織與功能分解

AWS Blu Age 自動將應用程式分解為功能模組,每個模組包含:

  • 功能入口點(觸發功能的方式)
  • 實現該功能的構件依賴性
  • 依功能或技術親和性分組的工作包裝

這種分解使團隊能夠制定有效的測試策略,並在時間軸上監控各功能的進度。

從 COBOL 到 Java:程式碼轉換之旅

AWS Blu Age 的轉換中心採用三步驟方法進行程式碼轉換:

  1. 將現有實現重新工程化為模型
  2. 將此模型自動轉換為面向對象的模型
  3. 生成目標 Java 原始碼

自動化程式碼轉換核心技術

AWS Blu Age 進行模式到模式的轉換,不僅能識別風險注入點,還能計算每個構件的風險矩陣,從而確定需要優先測試的功能。這種方法讓 Transamerica 達到了 99.996% 的轉換準確率。
Upadhyaya 讚賞:「我們報告一個問題後,AWS Blu Age 團隊通常在 24 小時內就能提供修復方案。考慮到時差,這意味著我們提交問題後,隔天早上起床就能收到解決方案,這真的令人印象深刻」。

適應 Transamerica 特定業務邏輯

在轉換過程中,插入特定規則以覆蓋 Transamerica 應用程式的特殊模式,確保轉換後的程式碼能完整保留原有業務邏輯。這種方法無需進行冗長的需求重新規格化,大幅降低了轉型風險。

測試工廠與 7,000 個測試案例

Transamerica 建立了包含 7,000 個測試案例的測試套件,涵蓋功能、迴歸和效能測試。這一測試框架成為持續測試的資產,讓新功能開發週期從數月縮短至數日:
Transamerica 團隊表示,「有了自動化測試框架,我們現在可以在短短兩天內完成完整的測試週期,這對於業務需求的快速回應至關重要」。

大型主機批次系統現代化策略

Transamerica 擁有 900 個關鍵批次工作,處理交易、會計等核心功能,每晚必須按時完成。

批次工作轉換為 Java 批次與 API

AWS Blu Age 的協助下,這些批次工作被轉換為 Java 批次程式,並通過可呼叫的 API 進行暴露,實現了更靈活的處理模式:
Upadhyaya 解釋「我們將批次工作暴露為 API 後,建立了 Python 編寫的協調層,控制中心通過這一層調用批次工作,這一設計大幅提升了靈活性」。

Python 協調層與批次處理最佳化

透過 Python 協調層,Transamerica 實現了批次控制與狀態管理的分離,讓批次工作變得更加模組化。這些批次工作在無伺服器 Amazon Elastic Container Service (Amazon ECS) 容器中運行,提供了卓越的擴展性。

30% 效能提升背後的技術因素

移轉到 AWS 後,Transamerica 的夜間批次處理速度提升了 30%:
Upadhyaya 分享,「在大型主機環境中,我們的交易檔案截止時間是凌晨 4:30,經常在凌晨 3 點或 3:30 才完成,總是讓人神經緊繃。現在,大部分批次在午夜就能完成,為我們提供了充足的緩衝時間」。
這一效能提升歸功於:

  • 現代化的 Java 程式碼效率
  • AWS 雲端服務的彈性擴展
  • 系統和數據同時位於雲端的低延遲優勢

AWS 生成式 AI 在現代化流程中的角色

AWS Blu Age 整合了生成式 AI 功能,進一步加速了現代化流程的多個方面。

程式碼理解與摘要自動化

生成式 AI 提供以下功能:

  • 構件分類:自動識別和分類難以理解的構件
  • 舊版程式碼摘要:生成程式功能概述,便於問題根本原因分析
  • 自然語言查詢:無需了解複雜語法即可查詢程式碼庫

AWS Blu Age 團隊的 Xavier Plot 解釋「當你面對一個有 30 萬行程式碼的大型批次程式時,生成式 AI 可以快速提供特定程式碼區塊的功能解釋,大幅加速了問題診斷過程」。

測試案例自動生成與覆蓋最佳化

生成式 AI 顯著改進了測試過程:

  • 分析螢幕內容自動生成測試情境
  • 識別未被測試所覆蓋的程式碼路徑
  • 與依賴性分析結合,最佳化測試覆蓋率

這些功能使 Transamerica 能夠以更少的測試達到更高的覆蓋率,進一步縮短了測試週期。

多語言程式碼處理與專案管理輔助

其他生成式 AI 功能包括:

  • 通用翻譯:自動翻譯不同語言的程式碼註解
  • 舊版螢幕預覽:無需運行應用程式即可預覽畫面佈局
  • 專案活動摘要:自動總結專案進展
  • 「為我執行」功能:從會議筆記中識別任務並自動分配

這些功能讓團隊成員能夠專注於真正需要他們專業知識的高價值任務,而非例行性工作。

AWS 雲端架構與服務整合

Transamerica 從大型主機遷移到了基於 AWS 服務的現代三層架構。

從大型主機到無伺服器容器

轉型後的架構包括:

  • 前端:Angular UI 運行在 nginx HTTP 伺服器上
  • 後端:業務服務、批次處理和數據存取層
  • 持久層:從 z/OS 上的 Db2 遷移到 Linux 上的 Db2

所有服務都運行在無伺服器 Amazon ECS 容器中,這大幅降低了對專門大型主機技能的依賴。

數據庫遷移策略

Transamerica 選擇將 Db2 數據庫從 z/OS 平台遷移到 Amazon Elastic Compute Cloud (Amazon EC2) 上的Linux,保持了數據庫技術連續性的同時,實現了平台現代化:
Upadhyaya 提到「目前我們仍在 EC2 上運行 Db2,但我們計劃在 Amazon Relational Database Service (Amazon RDS) 成熟可用時考慮遷移」。

網路分段與安全性強化

轉型過程中,Transamerica 實施了增強的安全措施:

  • 網路分段
  • 改進的存取管理分段(按產品和生命週期環境)
  • 多可用區支援
  • 災難復原支援
  • 不可變備份

這些措施確保了現代化系統比原來的大型主機環境更安全、更具彈性。

測試策略與業務連續性保障

測試是 Transamerica 現代化過程中佔比最大的成本項目(超過 68%),因此他們採用了創新的測試策略來提高效率。

平行測試與模擬執行

Transamerica 執行了 100 次平行測試,使用 10 種不同的數據集,包括稅務數據、月度、季度和年終高交易量日等:
Upadhyaya 詳細說明,「每次平行測試中,我們會用一個數據集在本地和雲端運行批次,然後比較數億行的輸出結果。這種方法讓我們能夠系統性地識別並解決所有問題」。

模擬執行策略

在正式切換前,Transamerica 進行了三次「模擬切換」:

  1. 2023 3 :首次模擬中發現 60 個問題
  2. 2023 4 :第二次模擬中問題減少至 16 個
  3. 2023 5 (國殤日週末):第三次模擬中問題降至零

Upadhyaya 表示:「在解決所有問題後,我們對 2023 年 6 月 9 日的最終切換充滿信心」。切換後,大型主機的 MIPS(每秒百萬指令)使用量從峰值 11,000 MIPS 瞬間降至零,象徵著成功完成從大型主機到 AWS 雲端的轉型。

關鍵業務流程驗證

與傳統方法不同,Transamerica 只在特定階段邀請業務團隊參與:

  • 用戶驗收測試 (UAT)
  • 模擬切換執行

Transamerica 團隊分享指,「業務團隊非常感謝這種方法,因為他們的參與負擔大幅減輕,可以更加專注於核心業務職責」。

現代化成果與未來展望

完成大型主機現代化為 Transamerica 帶來了顯著效益。

業務敏捷性與技術創新基礎

轉型後,Transamerica 能夠更快速地回應業務需求:

  • 開發和測試週期顯著縮短
  • 自動化測試套件(7,000 個測試案例)支持快速功能發布
  • 從固定成本模式轉變為可變成本模式,實現更彈性的財務管理

「現在系統和數據都在雲端,我們實施新創新的路徑變得更加簡單,」Upadhyaya 表示。

從大型主機到 AI 驅動企業的轉型

完成大型主機現代化為 Transamerica 的 AI 戰略奠定了基礎:
Upadhyaya 強調「我同時負責 Transamerica 的 AI 服務,系統和數據同時位於雲端將使任何未來的 AI 創新變得更加容易實施」。

雲端最佳化與持續改進

展望未來,Transamerica 計劃持續最佳化其雲端架構:

  • 評估從 EC2 上的 Db2 遷移到 Amazon RDS 的可能性
  • 進一步最佳化容器化服務
  • 探索 AWS 無伺服器 服務的更多應用場景

Transamerica 資訊總監/技術總監 Tom 評論指:「這不僅僅是技術升級,我們已經現代化了應用程式,使其更安全、更可靠、更可用,為未來創新奠定了基礎」。

大型主機現代化的關鍵經驗與建議

從 Transamerica 的旅程中,可總結出以下關鍵經驗與建議:

  1. 數據重力挑戰:認真規劃應用程式遷移順序,避免效能風險
  2. 投資校準階段:3-4 週的投資可明確了解工具效果和預期成果
  3. 平行測試價值:系統性測試方法是確保成功的關鍵
  4. 模擬切換必不可少:在最終切換前進行多次模擬,逐步解決問題
  5. 提升雲端人才技能:內部團隊技能提升與合適的實施合作夥伴同樣重要
  6. 合理化軟體:評估雲端授權模式可節省大量成本
  7. 極致溝通:與所有利益相關者保持高頻透明的溝通

Upadhyaya 總結:「如果有人在我們開始時告訴我這些經驗,整個旅程會容易得多」。
通過採用 AWS Blu Age 與生成式 AI 技術,Transamerica 成功將其大型主機現代化轉型時間從預計的五年縮短至僅 14 個月,同時保持了業務連續性並提升了系統效能。這一案例展示了 AWS 如何助力企業快速實現遺留系統現代化,為未來數碼創新奠定堅實基礎。

參考數據

Published by
藍骨