- 發佈於
推測 GPT-4o 是為了進駐 Apple 生態系的輕量分支
GPT-4o 不是 GPT-5 的中間檢查點
- 作者

- 作者
- ChrisTorng
在 GPT-4o 之前,您可以使用語音模式與 ChatGPT 對話,平均延遲為 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。為了實現這一目標,語音模式是由三個獨立模型組成的管道:一個簡單模型將音頻轉錄為文本,GPT-3.5 或 GPT-4 接收文本並輸出文本,第三個簡單模型將該文本轉換回音頻。
借助 GPT-4o,我們跨文字、視覺和音訊端到端地訓練了一個新模型,這意味著所有輸入和輸出都由同一神經網路處理。
GPT-4o 說是訓練端到端,我的理解是直接訓練「什麼語音輸入」應該要有「什麼語音輸出」,中間不必經過 LLM。那它的 LLM 文字能力又由哪來?
是可以說同一個神經網路接受了 文字/音訊/圖片 全部混合的訓練,所以各別的能力也都還是有在...
那這是從頭訓練的一個新模型,還是在既有 GPT-4 上繼續增加不同類型訓練數據的增量模型呢?
照公告是說從頭訓練的新模型,那為何還是沿用 GPT-4 的系列名稱,而且整體表現似乎還是跟 GPT-4 相當類似,僅是能力稍微加強而已?
有看到推測說 GPT-4o 是下一代模型尚未完成訓練的中間檢查點。我的疑問是,下一代模型,即使僅是中間檢查點,照目前觀念來說,參數量一定還比 GPT-4 更多,如何能快一倍又省一半呢?
據此推論下來,OpenAI 突破性的發展有兩種可能:
- 在參數量不增加甚至減少的情況下,還能讓新模型能力大幅超越 GPT-4 (成為最終 GPT-5 模型)
- 先訓練一個較小模型當中間檢查點,後續更多的訓練還能繼續增加參數量
另外考慮到,Google 一定會將 Project Astra 推進入 Android 生態系,OpenAI 當然不可能有 Android 原生支援,只可能是一個獨立 APP。這也代表 OpenAI 必須全力爭取 Apple 的認同。
我再大膽推測,GPT-4o 之所以能快一倍,價錢又砍一半,其最重要目的就是要爭取 Apple 採用。是否真能完全留在裝置上處理,或還是得要靠雲支撐,目前還不得而知。當然以 Apple 裝置的全球用量,不管是要純裝置上或必須配合雲端處理,模型必須足夠輕巧且不能明顯犧牲品質,才有機會獲得採用。
因此我最後的推論結果,GPT-4o 應該不是 GPT-5 的中間檢查點。我認為這是一個從頭針對語音對話而訓練之較輕量的分支,就是為了爭取進入 Apple 生態系而做的。OpenAI 選擇將這個輕量版本仍命名為 GPT-4 系列,因為它的能力確實只是在 GPT-4 等級,不會達到 GPT-5 等級。
我推測下一代的 GPT-5 仍然是更大參數,僅能在雲中運作的另一個不同的超大模型。當然它們可以共享 OpenAI 的研究成果以及相同的訓練資料集,能力上會有一定程度的重覆性。