DeepSeek真的這麼厲害？專家解析中國平價AI神話　法人指點下個看點

中國AI DeepSeek公開1個多月了，陸續有分析戳破低成本、低算力神話；美股從震盪中回彈，華爾街投資人再次買入輝達。DeepSeek給企業的啟示是什麼？竟讓創意、聯發科等IC設計商都讚好。

中國科技公司深度求索（DeepSeek）於今年1月公開最新大語言模型「DeepSeek-R1」，號稱只用560萬美元、2千片輝達低階晶片訓練，即可達到媲美ChatGPT的效能。不過此舉立刻被各國AI專家踢爆誇大不實。

業界分析DeepSeek背景指出，母公司深度求索前身為「幻方量化」交易模型，是應用AI於金融投資行為的早期採用者（early adopter），甚至在美國推出口管制政策之前，即購入1萬片A100晶片。對於DeepSeek造成美股暴跌的現象，他評論：「根本就是為了放空做的炒作！」

中國平價AI神話全解析，算力、成本都低報；中英回應兩樣情

半導體研究網站SemiAnalysis指出，5百萬美元僅為最終訓練成本，推估DeepSeek背後有6萬片高階到低階的輝達晶片，光是訓練成本即達到16億美元。

但為何售價可以低到GPT-o1的20分之1？工研院半導體分析師石立康認為，現在DeepSeek的目標在搶市、搶奪市占率，並不反映真實成本。「假如我今天是用AI的廠商，相對來說用微軟的（解決方案）跟用DeepSeek，使用成本一下降到20分之1，對我來講當然有利。」

根據DeepSeek釋出論文，為了降低成本，它使用蒸餾（Distillation）技術，把發展較為成熟的大模型知識轉移到小模型。實測可發現DeepSeek含有大量ChatGPT資料，因此DeepSeek-R1可能使用此模型進行訓練。

SemiAnalysis認為，此技術是最功不可沒的省錢大法，讓DeepSeek僅有800k樣本，卻可生成推理模型。但SemiAnalysis也提醒，雖DeepSeek號稱效能媲美GPT-o1，但綜合效能卻不是樣樣最強，使用時需要注意使用情境。

德國之聲則實測發現，使用中英文與DeepSeek交談，將會得到不同答案，如天安門事件、台灣主權等爭議政治事件，中文顯示無可奉告、英文則會客觀解釋歷史事實；顯示DeepSeek可能須符合中國政府的言論審查規範，也暗示在不同地區、產業別可能有使用限制。

元大投顧分析論文指出，DeepSeek採用蒸餾、強化學習（RL）、自監督、混合專家模型（MoE）、混合精度計算等策略，即可使用中低階晶片，來追上大型模型效能的效果。

SemiAnalysis認為，以上這些技術都不是新發現，將所有做法結合在一起，是一個創新。雖然可見誇大言辭，但打破高算力、大數據迷思，可見西方實驗室將即刻投入複製其做法，市場將推出更多平價模型。（相關報導： DeepSeek規模狠甩「台灣自產」50倍？他疾呼盡快發展主權AI：沒時間浪費了｜更多文章）

最大的受惠者是一般消費者和中小企業，將大幅降低採用成本。SemiAnalysis舉傑文斯悖論（Jevon's Paradox）說明，DeepSeek可望推進大模型技術的演進，加速落地應用和使用成本降低；因此市場上需求擴張，越來越多人要買GPU來訓練，長期來說，有助於加速商品週期推展。