清華大學 KVCache.AI 團隊與趨境科技合作,成功打破大模型推理的算力瓶頸,並使單張 RTX 4090 顯卡能夠運行 DeepSeek-R1 完整版。這一突破為 AI 領域帶來重大革新,並顯示出顯卡硬件的巨大潛力。
雙方合作的《KTransformers》專案,使用全新異構計算策略,對算力需求進行了革命性提升,令到只有 24GB 顯示記憶體的顯示卡上(例如 RTX 4090),便可本地運行完整版 DeepSeek-R1 V3 671B,顯著降低成本並提高運行效率。
KTransformers 的核心技術在於稀疏性利用和 MoE(專家混合模型)架構。這一架構每次只激活一部分專家模組,並將非共享的稀疏矩陣卸載到 CPU 記憶體中。這樣一來,顯示記憶體佔用得以有效壓縮,使得整體的算力需求大幅下降。
在量化技術方面,團隊採用了 4bit 量化技術,並與 Marlin GPU 算子結合,實現了 3.87 倍的效率提升。 CPU 端則通過 llamafile 技術,實現了多線程並行處理,進一步提升了預處理速度,達到每秒 286 個 tokens 。這使得即便是單卡 RTX 4090 裝置,也能夠處理大規模 AI 模型,為中小型團隊和個人開發者提供了一個高效且經濟的選擇。
如果以傳統的方案來看,使用 8 張 NVIDIA A100 顯示卡的伺服器,其成本超過百萬元人民幣(下同),並且按需計費的情況下,每小時的開銷可能達數千元。然而使用單卡 RTX 4090 的方案,則將整體成本壓縮至僅約 2 萬元港元,大大降低了開發門檻,並適合中小型團隊及個人開發者。
資料來源:快科技
相關文章:
DeepSeek 初心教學 + 懶人包 AI 人工智能幫你解決生活難題 路透:美商務部禁 DeepSeek 中國外交部:堅定維護中國企業權益 路透:美商務部已禁用 DeepSeek 內部電郵禁政府裝置用 DeepSeek
分享到 :
最新影片
