- 發佈於
Sora 實體世界模擬器
人類的常識與智慧來自預測能力
- 作者

- 作者
- ChrisTorng
實體世界模擬器與預測能力
關注 AI 的技術人應該有看到 OpenAI 最新的 Sora 影片生成模型,可生成長達一分鐘影片,其中的破綻已經不多了。另在 技術報告 Video generation models as world simulators 裡面還有不少影片,大家全部都看完了嗎? (我感覺以日本為主題的稍微偏多?)
其中有一段說明它的弱點的,有比較明顯的問題。另我注意到比較明顯的問題,包括走動的腳會漂移,物體會一分為二,突然改變方向等。雖然一開始就有明示說影片均未經修改,但並沒有說明一個提示是否生成很多個樣本,挑其中最好的出來給大家看。
我一開始沒注意到,後來才突然發現,技術報告一開始就講到 physical world simulators 實體世界模擬器,這才注意到這才是真正的大事。我想對 AGI 而言,影片生成只是次要目標,最重要目標是了解實體世界的運作,依照目前畫面,預測事物將會如何合理演變發展。這可以補上文字模型最大的缺陷,是邁向 AGI 的一大步。當然世界的運作還至少要加上聲音,這項要達成相當逼真水準相信也不會離太遠了。而人類還有 嗅/味/觸覺 等目前還很難在技術上 建模/擬真。
我真的越來越感覺,人類所謂的常識與智慧,就是預測能力。我看 OpenAI 的說明及影片,試圖推論技術上怎麼做到,未來會如何演進。各位看這篇文章,試圖抓到我要表達的想法,給出一個評價 (這個我早就知道/原來如此我竟沒發現),決定要不要全部讀完還是直接跳過。有智慧的人,預測的正確率高,沒智慧的人,預測的正確率低,但至少有常識,能夠預測生活中的事物如何運作。AI 就是還沒辦法正確預測人類的喜好,因此還有很大的努力空間。
再以生活中的交通為例。我們在台灣,從小習慣了過馬路要左右看是否有來車,也要為遠方來車預測方向及速度,預測會有足夠大的空隙就可以安全通過。駕駛也會預測路邊的行人是否要過馬路,照目前速度是否可以搶在行人前面通過,或者必須要減速讓過。若我們去東南亞國家,車輛更密集,我們的預測能力失效,就無法像當地人一樣輕鬆過馬路。而生在車輛一定會讓行人的外國人來台灣,還會覺得台灣交通很恐怖。 最近台灣開始因為外國人給的行人地獄稱號,竟然開始轉變風氣,車輛開始會讓人,而行人還很不容易適應,大家過去養成習慣的預測能力開始失效。常常我還不敢過而站住,並算好 (預測) 車輛的速度,等著要在車子後面通過。此時車輛卻停下來,害我又得趕快小跑步通過,覺得你車子剛才就直接通過就好,你要讓我我還覺得害得你剎停,搞不好後面還可能撞上來發生危險。駕駛也開始要調整習慣的預測,需要更早決定是否要讓還是要直接通過。
我看了 大腦無時無刻都在「預判」?因為太成功了,所以你都不會注意到--《千腦智能新理論》 這篇介紹,去買了 千腦智能新理論 一書 (比爾蓋茲 2021 年選書),裡面主要就是講大腦的預測能力。此書是說目前的 AI 發展方向與大腦極為不同,認為 AGI 之路不會由目前的 AI 架構所達成,一定要由解開大腦的預測能力的方式才有可能。書中所說的各項觀點我並沒有完全認同,但我覺得充份理解目前唯一已知之智慧體的內部運作,理解目前 AI 之局限性,仍然非常有價值。我也推薦大家可以讀這本書。