中國AI DeepSeek公開1個多月了,陸續有分析戳破低成本、低算力神話;美股從震盪中回彈,華爾街投資人再次買入輝達。DeepSeek給企業的啟示是什麼?竟讓創意、聯發科等IC設計商都讚好。
中國科技公司深度求索(DeepSeek)於今年1月公開最新大語言模型「DeepSeek-R1」,號稱只用560萬美元、2千片輝達低階晶片訓練,即可達到媲美ChatGPT的效能。不過此舉立刻被各國AI專家踢爆誇大不實。
業界分析DeepSeek背景指出,母公司深度求索前身為「幻方量化」交易模型,是應用AI於金融投資行為的早期採用者(early adopter),甚至在美國推出口管制政策之前,即購入1萬片A100晶片。對於DeepSeek造成美股暴跌的現象,他評論:「根本就是為了放空做的炒作!」
中國平價AI神話全解析,算力、成本都低報;中英回應兩樣情
半導體研究網站SemiAnalysis指出,5百萬美元僅為最終訓練成本,推估DeepSeek背後有6萬片高階到低階的輝達晶片,光是訓練成本即達到16億美元。
但為何售價可以低到GPT-o1的20分之1?工研院半導體分析師石立康認為,現在DeepSeek的目標在搶市、搶奪市占率,並不反映真實成本。「假如我今天是用AI的廠商,相對來說用微軟的(解決方案)跟用DeepSeek,使用成本一下降到20分之1,對我來講當然有利。」
根據DeepSeek釋出論文,為了降低成本,它使用蒸餾(Distillation)技術,把發展較為成熟的大模型知識轉移到小模型。實測可發現DeepSeek含有大量ChatGPT資料,因此DeepSeek-R1可能使用此模型進行訓練。
SemiAnalysis認為,此技術是最功不可沒的省錢大法,讓DeepSeek僅有800k樣本,卻可生成推理模型。但SemiAnalysis也提醒,雖DeepSeek號稱效能媲美GPT-o1,但綜合效能卻不是樣樣最強,使用時需要注意使用情境。
德國之聲則實測發現,使用中英文與DeepSeek交談,將會得到不同答案,如天安門事件、台灣主權等爭議政治事件,中文顯示無可奉告、英文則會客觀解釋歷史事實;顯示DeepSeek可能須符合中國政府的言論審查規範,也暗示在不同地區、產業別可能有使用限制。
專家直言非新事,DeepSeek給企業什麼啟示
元大投顧分析論文指出,DeepSeek採用蒸餾、強化學習(RL)、自監督、混合專家模型(MoE)、混合精度計算等策略,即可使用中低階晶片,來追上大型模型效能的效果。