Gen AI 大模型由去年開始成為科技界熱話。由去年以主力處理英文的大模型,到今年陸續有不同廠商開發書寫中文以至廣東話大模型。
於香港成立 10 載的科企 Votee AI (下稱 Votee) 曾為金融業及不同上市公司服務,累積豐富 AI 案例項目經驗,從網絡採集過不少廣東話語料。建立大模型需要大量數據,同時需要大量 GPU 資源。Votee 與 AWS 因此一拍即合,由 Votee 處理數據及訓練,採用 AWS 雲端平台開發廣東話大模型,冀能保留及傳承香港文化。
看準 AWS 平台技術領先 實現無縫「上雲」開發 AI 模型
自 2023 年開始,Votee 已收到不少客戶希望採用 AI 大模型。他們亦開始接觸 AWS 專家並了解有何雲端服務能滿足開發所需。Votee 在開發期間利用了 AWS Trainium 機器學習晶片,而去年底 AWS 推出了託管式服務 SageMaker Hyperpod,讓客戶一鍵建立集群 (cluster),合併大量 AI 晶片資源。這項服務完全符合 Votee 的要求,加上開發環境採用 slurm,與 Votee 原本使用的開發環境相同,完全無需花額外時間進行代碼遷移,無縫「上雲」開發 AI 模型。
開發大模型更需要高性能運算檔案系統,用以在不同階段高效儲存檔案。而 AWS 的 FSx for Lustre 亦滿足到 Votee 的需要,令他們開發過程順利無阻。
Votee CTO Jacky Chan 於 AWS Dev Day 2024 與開發者分享 Votee 如何利用Amazon SageMaker HyperPod 及 AWS Tranium 開發廣東話 LLM
廣東話資源稀缺成開發障礙 文化傳承乃開發源動力
據 2023 年統計,廣東話在全世界母語人口共有 8,600 萬人,在2024年更跌出世界排名20 位外,而網絡數據亦以英語較為主流,廣東話則面對數據稀缺的情況。Votee 在訓練大模型的過程中,無論採集或處理數據都面對不少挑戰。在採集數據方面,電影對白、書本等數據都有版權問題,不能隨意採集。收集得來的數據亦需要進行標註、刪除重覆重據等。以訓練大模型認識勞工法例為例,如以廣東話提問如「大肚」的勞工權益,它原本並不能了解廣東話「大肚」乃指懷孕的意思,經廣東話訓練後則可以應付此類問題。
語言乃文化載體,隨著大模型的普及,將來人機互動亦會越見普遍。Votee 認為投資開發廣東話大模型有助廣東話文化傳承。而隨著大模型發展成熟,今年 AI 更開始朝多模態模型發展,亦即不限文字,同時支援處理圖片、語音、影像的大模型。Votee 亦朝此方向發展,並認為多模態更能展現廣東話文化,因很多發音都甚少以文字書寫出來,例如「虢礫緙嘞」(粵音:撠溺卡勒)。
相關文章:
六大台灣領先品牌的 AI 轉型 揭示企業「彎道超車」關鍵心法 PyCon HK 2024 以 Python 編寫合作交流 AWS 大力支持技術社群發展 AWS 新 AI 模型 Amazon Nova 實測 價格親民但效能仍待提升
Votee 確信 AI 模型開源比專有更安全 更能通過企業審查把關
最近 AI 大模型掀起熱潮後,有論調認為大模型應以專有
(proprietary) 形式部署。而 Votee 則確信開源模型反而更加安全。尤其有研究發現,一些閉源的大模型如同黑盒一樣,輸入特別指令有機會觸發後門,令其表現有別於正常問題。其不可預測性絕對會令企業卻步。相反,如能公開大模型,企業則對其作答表現更加可控,更能通過公司合規要求,最終落地使用。
遠赴美國拉斯維加斯 AWS re:Invent 做深入技術分享
Votee AI CTO Jacky Chan亦是 AWS Community Builder, 在 2024 年十二月於美國拉斯維加斯的 AWS re:Invent 中深入分享使用 Amazon SageMaker HyperPod 和 AWS Trainium 為資源稀缺語言(Low-resource language)訓練大型語言模型的過程,與開發者交流討論訓練此類大型語言模型的關鍵組成部分,包括資料準備、模型架構、超參數調整和評估技術,詳情可在此重溫。
相關文章:
六大台灣領先品牌的 AI 轉型 揭示企業「彎道超車」關鍵心法 PyCon HK 2024 以 Python 編寫合作交流 AWS 大力支持技術社群發展 AWS 新 AI 模型 Amazon Nova 實測 價格親民但效能仍待提升