中國科技公司 DeepSeek 公佈了其 v3 模型,小編覺得是今年最大驚喜的開源 AI 模型,然而有人發現該模型在回答時自稱為「ChatGPT」,因此戲稱它為抄襲之作。作為香港的科技媒體,我們認為與其停留在嘲笑中,不如深入探討這款 AI 為何能讓業界震驚。這並非傳統的「無知識產權、低成本抄襲並大量出貨」的淘寶貨模式,而是一次可能改寫市場規則的 AI 技術突破。
DeepSeek 是什麼公司?
DeepSeek 是由中國私募基金「幻方量化」於 2023 年創立的人工智慧公司,專注於開發先進的 AI 技術。雖然成立時間不長,DeepSeek 憑藉高效技術創新,迅速成為 AI 領域的焦點。其最新成果 DeepSeek-V3 模型,擁有高達 6710 億個參數,在性能與成本平衡上創造出新標準。
低成本背後的 2 大關鍵技術
DeepSeek 能在 2 年內以僅 557 萬美元開發出高性能的 AI 模型,與 OpenAI 的 GPT-4 模型訓練成本 6300 萬美元形成鮮明對比,甚至超越未來 GPT-5 可能高達 5 億美元的預算。這些成果背後,得益於以下幾項創新技術:
精準啟用部分「腦細胞」
DeepSeek-V3 採用了一種名為「混合專家架構」的設計,簡單來說,它只會在需要時啟動部分「腦細胞」而不是全部,這樣就大大降低了運算資源的消耗,訓練該模型只使用了 2048 部 NVIDIA H800 GPU。
數據處理及節能創新
DeepSeek 開發內部工具生成高質量訓練數據,並使用「蒸餾技術」進一步壓縮運算資源。訓練過程中採用 FP8 技術,這種低精度數據格式能顯著降低顯存需求,同時提升效率。FP8 的使用讓記憶體需求僅為傳統 FP16 技術的一半,而計算性能依然不減。
相關文章:
中國 AI DeepSeek 號稱超越 OpenAI o1 具備推理能力、能輸出「AI 思考過程」
手機及平板等將有更大 AI 優勢
DeepSeek-V3 的設計在推理過程中顯著減少了資源需求,這得益於其創新的「混合專家架構」。這個模型僅需啟動 370 億參數進行推理,而非動用完整模型的 6710 億參數,從而降低了即時運算的資源消耗。相比之下像 GPT-4 這類完整模型在推理時通常需要大量運算能力和內存資源,其運行可能需要數百 GB 的記憶體支持。
為進一步提升效能,DeepSeek-V3 引入多頭潛在注意力(MLA)技術,能大幅壓縮長文本處理時的記憶體需求,減少高達 96% 的資源消耗。同時解耦位置編碼(RoPE)的加入,也確保壓縮後的數據仍能準確保留位置信息,進一步提升推理速度與準確性。
這些突破讓人們看到,未來 AI 不僅能以高效能運行於高端伺服器,甚至能輕鬆移植到手機和平板等消費性裝置上運行,讓用戶以低成本享受到媲美傳統高性能硬件的 AI 功能,為市場帶來真正的平民化技術體驗。
訓練模型被受質疑
雖然 DeepSeek 展現了極大的潛力,卻也引來了一些質疑。例如,DeepSeek-V3 在測試中自稱為 ChatGPT,讓外界懷疑其訓練數據中是否包含了 ChatGPT 生成的內容。這引發了關於模型獨立性和數據透明性的討論。至今 DeepSeek 尚未作出正式回應,這也突顯了 AI 技術在發展過程中,透明化與規範化的必要性。Open AI 的 Sam 也在 X 上也好像對此發表了「有意思」的說話
6 大原因讓科技巨頭們感到意外
探討了 Deepseek 背後的技術後,我們了解一下為何它在業界引起極大迴響:
低成本與高效率
Deepseek 的開發僅用了兩個月和約 550 萬美元,顯著低於 OpenAI 和 Google 等巨頭開發模型所需的數十億美元。這種快速、高效的開發模式顯示出現有大型語言模型 (LLM) 的障礙正在大幅縮小。
性能不算落後
根據第三方的測試基準,Deepseek 的性能與 OpenAI 和 Meta 的最先進模型相當,甚至在某些領域表現更佳。這表明訓練出高性能的模型不再需要巨額的資金投入。
打破硬件限制
Deepseek 使用 NVIDIA H800 晶片進行訓練,這是一種性能較 H100 低但更易於獲取的版本。這種方法不僅降低了硬體成本,還避開了對 H100 的供應限制。
挑戰現有巨頭的市場優勢
Deepseek 的出現表明,巨頭如 OpenAI、Google 和 Meta 在人工智能領域的領先地位可能被新興競爭者動搖。這對現有產業格局是一個重要的警示。
對投資者的啟示
Deepseek 的成功讓投資者重新思考是否仍需投資於成本高昂的前沿模型訓練,或是以更低成本探索相似的成果。這可能改變資金流向,對現有市場秩序產生深遠影響。
總結 : 中國特色的 AI 發展之路
中國市場具備全球最龐大的數據資源,但在硬件運算能力上受制於多重因素,例如技術封鎖與硬件供應短缺,這使得中國 AI 企業更加注重效率優化。DeepSeek 的成功,正好展現了資源與效能的全新平衡點。與此同時,Google、微軟和 Meta 等巨頭因巨大的 AI 訓練耗電量,已經開始押注核能支持未來的發展。相比之下 DeepSeek 等新興企業顯然選擇了不同的道路,以技術創新減少資源浪費,為整個行業提供了新思路。DeepSeek 的故事告訴我們,未來 AI 的競爭不僅在於技術本身,更在於如何以有限資源達成最佳結果。這種模式或許正是改變市場遊戲規則的關鍵。
**這是小編 2024 最後一篇技術文章,祝各位身體健康,2025 年再見 **
相關文章:
中國 AI DeepSeek 號稱超越 OpenAI o1 具備推理能力、能輸出「AI 思考過程」