Adept 目標: 做到人用電腦可完成之事的 AI

現在有許多 Agent 的相關 AI 研發中。今天看了這篇: Why Google failed to make GPT-3 + why Multimodality for Knowledge Work is the path to AGI - with David Luan of Adept，能感受到 Adept 這家公司的企圖心不一樣。

要做出最有用的 AI，若能做到人在電腦前能做的所有事情，那會是非常大的躍進。因此 AI 只需要學習觀看螢幕畫面 (聲音應該不太需要)，學習滑鼠鍵盤操作，即可達成目標。

現今的多模態模型，在大量貓狗等世界圖片上訓練，但對於識別螢幕上內容還力有未逮。因此這家公司專注於學習「圖表、圖表、表格、發票、PDF、收據、非結構化資料、UI 等」。我沒看到 OCR，我在想，全部在電腦上作業，是否可以直接用 OS 各種現成功能取得文字，根本不用 OCR?

另許多工具/程式都沒有既有的 API，因此一般只能呼叫 API 的 AI Agent 能做到的事，覆蓋面仍然很有限。專注在操作鍵盤滑鼠能力的 AI，就有能力做到任一個人用電腦能做的所有事，當然也包括寫程式，呼叫 API。

該公司之演講影片 Climbing the Ladder of Abstraction，說到資訊抽象化的力量，推薦一看。人們若有這樣的 AI 工具幫助，將雜亂的資訊抽象化出最重要的關鍵，可以最快得到結果，做出決策，真是難以想像。

繼續往後推想，所有的白領階級都可以被這樣的 AI 提升到更高的等級，或者直接被取代，甚至包括公司 CEO 也可以。

不過最厲害的模型，當然都沒有開源。即使開源，我們自己能跑的還是極度量化的閹割版。OpenAI 的下一代 GPT，若不提高訂閱費，那應該只能限時使用數量更少。AI 繼續發展，推理成本越來越高，最終是付得出最多錢的人/公司，有本錢用得最多，達成更大的目標，獲得最大的權力，取代掉最多的員工與管理階級，取代掉所有競爭對手。未來的世界會如何發展，仍然難以預測與想像。

至於我個人，我還是會選擇投資自己，站在巨人的肩膀上。有用的好工具，就勇敢投入，站在最尖端浪頭上。不為省眼前的一些小錢，將來淘汰賽中後悔。