於 2024 年 12 月壓軸登場的 AWS re:Invent,其 Monday Night Live 節目分別有主講嘉賓分享 AWS 在雲端及人工智能 (AI) 兩大範疇的革新,當中 AI 無論是 Claude 的大型語言模型 (LLM) 抑或配備訓練 AI 模型的硬件配置在過去一年都有長足發展。
很多常見的工作負載都是橫向擴展的,例如 Web 服務和大數據程式。當新增更多硬件時,橫向擴展工作負載可以非常有效率地運行系統的額外資源。AI 工作負載則是縱向擴展的。這是因為訓練 AI 模型的時候是以數據平行 (data parallelism) 的形式進行,假使有多個伺服器同時參與訓練,每個伺服器將獲派同等大小的數據用作訓練,最後歸納好所有訓練數據結果,才會派出下一項數據。當伺服器越多的時候,歸納結果所需的時間就越高,令到橫向擴展無法滿足 AI 訓練的需求。
正因如此,訓練 AI 需要以最小體積的硬件提供最多的運算效能。AWS 亦為此推出了新一代的 AI 晶片 Trainium 2。它運用了先進封裝技術,其中搭載 2 塊運算晶片以及 4 個高頻寬記憶體 (HBM) 模組。Trainium 2 伺服器亦是 AWS 迄今為機器學習而設最強的伺服器。
AWS 自家開發出 Trainium 晶片互連技術 NeuroLink,讓 Trainium 2 可以高速連接以提供更強 AI 訓練效能。連接技術支持高達每秒 2TB 傳輸,以及僅 1 微秒 (即 0.001 毫秒) 時延。AWS 以此技術組合出多塊 Trainium2 晶片,從而推出 Trainium2 UltraServer,以兩座機櫃、四個伺服器與 64 顆 Trainium2 組合而成。其配置達到 83.2 PFLOPS,比起單個 Trainium2 Server 速度達 4 倍。
AWS 了解到客戶對 AI 網絡要求比一般雲端網絡要求更高,他們亦因此在網絡上創新,推出了 10p10u 網絡,意謂在上千台伺服器間提供數十 PB 的網路傳輸能力,而時延亦不到10微秒。同時他們將 16 條獨立的光纖整合成預製光纖組件(Fiber optical trunk cable),直接在工廠組裝,減少 6 成連結器數量之餘,亦大大減低接錯線的問題,部署時間縮短近半。
Anthropic 是其中一間首屈一指的 AI 模型開發企業,他們今年推出的 Claude 模型獲得市場歡迎。他們一直以來與 AWS 緊密合作,他們亦在活動中宣布會使用擁有數十萬個 Trainium2 晶片的新 AWS 叢集 (cluster) 訓練新一代 Claude 模型,並命名項目為Project Rainier。
他們已於上個月發布了 3.5 Haiku 和升級版 3.5 Sonnet。而新項目意味客戶將能以更低價錢獲得更強 AI 模型,而且速度亦會更快。市場可以期待,不久將來會有更快及可信賴的 AI 面世,屆時企業便可委託 AI 助理去完成更重要的項目。