2025 年 DeepSeek-R1 領頭的 AI 進度恐慌之縮影

DeepSeek-R1 引來注目，完全開源且追上 o1 水準，論文公開全部方法。
How DeepSeek-R1 Was Built; For dummies 可以簡單了解其方法。

Deepseek is a side project...
DeepSeek 只是該公司的副專案，本業是交易/挖礦，因此可以開源送大家。
R1 成果代表現有各模型訓練公司的大量 GPU 其實根本就是過剩，跟著論文做根本不需要那麼多 GPU。

Nvidia sheds almost $600 billion in market cap, biggest drop ever
Nvidia 市值單日跌幅創美國股市紀錄，因為事實證明不需要那麼多 GPU 也能完成訓練，推理成本也大幅下降。

The Short Case for Nvidia Stock
裡面說 Nvidia GPU 毛利率達 75%，但性價比並非最高。比如 100x Defect Tolerance: How Cerebras Solved the Yield Problem 說明 Cerebras 如何用單一巨大晶元的高度容錯能力，打敗高度互連的多個 H100。而 Groq 晶片只適合推理不適合訓練，這代表現在 CoT 的緩慢及高成本問題完全可用 Groq 晶片來大幅改善。

除了 AMD/Intel，各 AI 巨頭 (Google/MS/Amazon/OpenAI/Apple) 也開始研發自己的 AI 晶片，大家都可以找台積電生產高效能晶片。然後各函式庫的跨 GPU 互通性也逐步改善，甚至由 CUDA 專屬程式轉移到其他架構的 LLM 轉譯能力也在提升。

裡面提到 Thread By @orikron - Each AI engineer at Meta AI earns more e..
R1 訓練費用甚至比 AI 巨頭一個高管的年薪還低，推理 API 費用大跳水，又得逼一堆公司跟進。
據說 Meta 的下一代 Llama 4 還沒達 DeepSeek v3 水準，更不用說 R1。Meta 內部進入恐慌模式，加緊照抄 R1 的功能以期快速追上。

How small Chinese AI start-up DeepSeek shocked Silicon Valley
這更使美國 AI 是否還能保持領先出現極大問號。

Sam Altman on X
OpenAI 也要跟進了，Plus 使用者將可得到每天 100 次 o3-mini 推理，連免費版都可得到。Operator 也會儘快提供給 Plus 使用者。

2025 年春節假期期間，就可看到這一整年追趕中國 AI 進度恐慌的縮影...