於 2024 年 12 月壓軸登場的 AWS re:Invent,其 Monday Night Live 節目分別有主講嘉賓分享 AWS 在雲端及人工智能 (AI) 兩大範疇的革新,當中 AI 無論是 Claude 的大型語言模型 (LLM) 抑或配備訓練 AI 模型的硬件配置在過去一年都有長足發展。
AI 模型日益龐大需要縱向擴展 推動 AWS 開發新一代 AI 晶片
很多常見的工作負載都是橫向擴展的,例如 Web 服務和大數據程式。當新增更多硬件時,橫向擴展工作負載可以非常有效率地運行系統的額外資源。AI 工作負載則是縱向擴展的。這是因為訓練 AI 模型的時候是以數據平行 (data parallelism) 的形式進行,假使有多個伺服器同時參與訓練,每個伺服器將獲派同等大小的數據用作訓練,最後歸納好所有訓練數據結果,才會派出下一項數據。當伺服器越多的時候,歸納結果所需的時間就越高,令到橫向擴展無法滿足 AI 訓練的需求。
正因如此,訓練 AI 需要以最小體積的硬件提供最多的運算效能。AWS 亦為此推出了新一代的 AI 晶片 Trainium 2。它運用了先進封裝技術,其中搭載 2 塊運算晶片以及 4 個高頻寬記憶體 (HBM) 模組。Trainium 2 伺服器亦是 AWS 迄今為機器學習而設最強的伺服器。
推自家 Trainium 互連技術 NeuroLink 造就出「四合一」Trainium 2 UltraServer
AWS 自家開發出 Trainium 晶片互連技術 NeuroLink,讓 Trainium 2 可以高速連接以提供更強 AI 訓練效能。連接技術支持高達每秒 2TB 傳輸,以及僅 1 微秒 (即 0.001 毫秒) 時延。AWS 以此技術組合出多塊 Trainium2 晶片,從而推出 Trainium2 UltraServer,以兩座機櫃、四個伺服器與 64 顆 Trainium2 組合而成。其配置達到 83.2 PFLOPS,比起單個 Trainium2 Server 速度達 4 倍。
相關文章:
Amazon Bedrock 年尾重大升級 AWS 發佈超過 100 款 AI 模型 Stable Diffusion 3.5 Large 上月新登場 AI 圖像生成能力大幅提升 開源模型挑戰 Claude 主導地位 企業 AI 選擇更趨多元
AWS 推出 10p10u 網絡以應付 AI 極高網絡要求
AWS 了解到客戶對 AI 網絡要求比一般雲端網絡要求更高,他們亦因此在網絡上創新,推出了 10p10u 網絡,意謂在上千台伺服器間提供數十 PB 的網路傳輸能力,而時延亦不到10微秒。同時他們將 16 條獨立的光纖整合成預製光纖組件(Fiber optical trunk cable),直接在工廠組裝,減少 6 成連結器數量之餘,亦大大減低接錯線的問題,部署時間縮短近半。
Anthropic Claude 推 Project Rainier 推動開發更強大 成本更低 AI 模型
Anthropic 是其中一間首屈一指的 AI 模型開發企業,他們今年推出的 Claude 模型獲得市場歡迎。他們一直以來與 AWS 緊密合作,他們亦在活動中宣布會使用擁有數十萬個 Trainium2 晶片的新 AWS 叢集 (cluster) 訓練新一代 Claude 模型,並命名項目為Project Rainier。
他們已於上個月發布了 3.5 Haiku 和升級版 3.5 Sonnet。而新項目意味客戶將能以更低價錢獲得更強 AI 模型,而且速度亦會更快。市場可以期待,不久將來會有更快及可信賴的 AI 面世,屆時企業便可委託 AI 助理去完成更重要的項目。
相關文章:
Amazon Bedrock 年尾重大升級 AWS 發佈超過 100 款 AI 模型 Stable Diffusion 3.5 Large 上月新登場 AI 圖像生成能力大幅提升 開源模型挑戰 Claude 主導地位 企業 AI 選擇更趨多元