DeepSeek真的這麼厲害?專家解析中國平價AI神話 法人指點下個看點

2025-02-09 09:30

? 人氣

DeepSeek驚動矽谷,給企業帶來什麼啟示?(資料照,美聯社)

DeepSeek驚動矽谷,給企業帶來什麼啟示?(資料照,美聯社)

中國AI DeepSeek公開1個多月了,陸續有分析戳破低成本、低算力神話;美股從震盪中回彈,華爾街投資人再次買入輝達。DeepSeek給企業的啟示是什麼?竟讓創意、聯發科等IC設計商都讚好。

透過<Google新聞> 追蹤風傳媒

中國科技公司深度求索(DeepSeek)於今年1月公開最新大語言模型「DeepSeek-R1」,號稱只用560萬美元、2千片輝達低階晶片訓練,即可達到媲美ChatGPT的效能。不過此舉立刻被各國AI專家踢爆誇大不實。

業界分析DeepSeek背景指出,母公司深度求索前身為「幻方量化」交易模型,是應用AI於金融投資行為的早期採用者(early adopter),甚至在美國推出口管制政策之前,即購入1萬片A100晶片。對於DeepSeek造成美股暴跌的現象,他評論:「根本就是為了放空做的炒作!」

中國平價AI神話全解析,算力、成本都低報;中英回應兩樣情

半導體研究網站SemiAnalysis指出,5百萬美元僅為最終訓練成本,推估DeepSeek背後有6萬片高階到低階的輝達晶片,光是訓練成本即達到16億美元。

但為何售價可以低到GPT-o1的20分之1?工研院半導體分析師石立康認為,現在DeepSeek的目標在搶市、搶奪市占率,並不反映真實成本。「假如我今天是用AI的廠商,相對來說用微軟的(解決方案)跟用DeepSeek,使用成本一下降到20分之1,對我來講當然有利。」

根據DeepSeek釋出論文,為了降低成本,它使用蒸餾(Distillation)技術,把發展較為成熟的大模型知識轉移到小模型。實測可發現DeepSeek含有大量ChatGPT資料,因此DeepSeek-R1可能使用此模型進行訓練。

SemiAnalysis認為,此技術是最功不可沒的省錢大法,讓DeepSeek僅有800k樣本,卻可生成推理模型。但SemiAnalysis也提醒,雖DeepSeek號稱效能媲美GPT-o1,但綜合效能卻不是樣樣最強,使用時需要注意使用情境。

德國之聲則實測發現,使用中英文與DeepSeek交談,將會得到不同答案,如天安門事件、台灣主權等爭議政治事件,中文顯示無可奉告、英文則會客觀解釋歷史事實;顯示DeepSeek可能須符合中國政府的言論審查規範,也暗示在不同地區、產業別可能有使用限制。

專家直言非新事,DeepSeek給企業什麼啟示

元大投顧分析論文指出,DeepSeek採用蒸餾、強化學習(RL)、自監督、混合專家模型(MoE)、混合精度計算等策略,即可使用中低階晶片,來追上大型模型效能的效果。

關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章