Sora 實體世界模擬器

實體世界模擬器與預測能力

關注 AI 的技術人應該有看到 OpenAI 最新的 Sora 影片生成模型，可生成長達一分鐘影片，其中的破綻已經不多了。另在技術報告 Video generation models as world simulators 裡面還有不少影片，大家全部都看完了嗎? (我感覺以日本為主題的稍微偏多?)

其中有一段說明它的弱點的，有比較明顯的問題。另我注意到比較明顯的問題，包括走動的腳會漂移，物體會一分為二，突然改變方向等。雖然一開始就有明示說影片均未經修改，但並沒有說明一個提示是否生成很多個樣本，挑其中最好的出來給大家看。

我一開始沒注意到，後來才突然發現，技術報告一開始就講到 physical world simulators 實體世界模擬器，這才注意到這才是真正的大事。我想對 AGI 而言，影片生成只是次要目標，最重要目標是了解實體世界的運作，依照目前畫面，預測事物將會如何合理演變發展。這可以補上文字模型最大的缺陷，是邁向 AGI 的一大步。當然世界的運作還至少要加上聲音，這項要達成相當逼真水準相信也不會離太遠了。而人類還有嗅/味/觸覺等目前還很難在技術上建模/擬真。

我真的越來越感覺，人類所謂的常識與智慧，就是預測能力。我看 OpenAI 的說明及影片，試圖推論技術上怎麼做到，未來會如何演進。各位看這篇文章，試圖抓到我要表達的想法，給出一個評價 (這個我早就知道/原來如此我竟沒發現)，決定要不要全部讀完還是直接跳過。有智慧的人，預測的正確率高，沒智慧的人，預測的正確率低，但至少有常識，能夠預測生活中的事物如何運作。AI 就是還沒辦法正確預測人類的喜好，因此還有很大的努力空間。

再以生活中的交通為例。我們在台灣，從小習慣了過馬路要左右看是否有來車，也要為遠方來車預測方向及速度，預測會有足夠大的空隙就可以安全通過。駕駛也會預測路邊的行人是否要過馬路，照目前速度是否可以搶在行人前面通過，或者必須要減速讓過。若我們去東南亞國家，車輛更密集，我們的預測能力失效，就無法像當地人一樣輕鬆過馬路。而生在車輛一定會讓行人的外國人來台灣，還會覺得台灣交通很恐怖。最近台灣開始因為外國人給的行人地獄稱號，竟然開始轉變風氣，車輛開始會讓人，而行人還很不容易適應，大家過去養成習慣的預測能力開始失效。常常我還不敢過而站住，並算好 (預測) 車輛的速度，等著要在車子後面通過。此時車輛卻停下來，害我又得趕快小跑步通過，覺得你車子剛才就直接通過就好，你要讓我我還覺得害得你剎停，搞不好後面還可能撞上來發生危險。駕駛也開始要調整習慣的預測，需要更早決定是否要讓還是要直接通過。

我看了大腦無時無刻都在「預判」？因為太成功了，所以你都不會注意到--《千腦智能新理論》這篇介紹，去買了千腦智能新理論一書 (比爾蓋茲 2021 年選書)，裡面主要就是講大腦的預測能力。此書是說目前的 AI 發展方向與大腦極為不同，認為 AGI 之路不會由目前的 AI 架構所達成，一定要由解開大腦的預測能力的方式才有可能。書中所說的各項觀點我並沒有完全認同，但我覺得充份理解目前唯一已知之智慧體的內部運作，理解目前 AI 之局限性，仍然非常有價值。我也推薦大家可以讀這本書。