- 發佈於
Adept 目標: 做到人用電腦可完成之事的 AI
所有白領階級的末日?
- 作者

- 作者
- ChrisTorng
現在有許多 Agent 的相關 AI 研發中。今天看了這篇: Why Google failed to make GPT-3 + why Multimodality for Knowledge Work is the path to AGI - with David Luan of Adept,能感受到 Adept 這家公司的企圖心不一樣。
要做出最有用的 AI,若能做到人在電腦前能做的所有事情,那會是非常大的躍進。因此 AI 只需要學習觀看螢幕畫面 (聲音應該不太需要),學習滑鼠鍵盤操作,即可達成目標。
現今的多模態模型,在大量貓狗等世界圖片上訓練,但對於識別螢幕上內容還力有未逮。因此這家公司專注於學習「圖表、圖表、表格、發票、PDF、收據、非結構化資料、UI 等」。我沒看到 OCR,我在想,全部在電腦上作業,是否可以直接用 OS 各種現成功能取得文字,根本不用 OCR?
另許多工具/程式都沒有既有的 API,因此一般只能呼叫 API 的 AI Agent 能做到的事,覆蓋面仍然很有限。專注在操作鍵盤滑鼠能力的 AI,就有能力做到任一個人用電腦能做的所有事,當然也包括寫程式,呼叫 API。
該公司之演講影片 Climbing the Ladder of Abstraction,說到資訊抽象化的力量,推薦一看。人們若有這樣的 AI 工具幫助,將雜亂的資訊抽象化出最重要的關鍵,可以最快得到結果,做出決策,真是難以想像。
繼續往後推想,所有的白領階級都可以被這樣的 AI 提升到更高的等級,或者直接被取代,甚至包括公司 CEO 也可以。
不過最厲害的模型,當然都沒有開源。即使開源,我們自己能跑的還是極度量化的閹割版。OpenAI 的下一代 GPT,若不提高訂閱費,那應該只能限時使用數量更少。AI 繼續發展,推理成本越來越高,最終是付得出最多錢的人/公司,有本錢用得最多,達成更大的目標,獲得最大的權力,取代掉最多的員工與管理階級,取代掉所有競爭對手。未來的世界會如何發展,仍然難以預測與想像。
至於我個人,我還是會選擇投資自己,站在巨人的肩膀上。有用的好工具,就勇敢投入,站在最尖端浪頭上。不為省眼前的一些小錢,將來淘汰賽中後悔。