AI Token 不應成為生產力指標

Amazon workers pressured to up AI use are making up extraneous tasks

...對人工智慧越來越高的期望，正讓他們的工作環境變得越來越糟糕。「使用這些工具的壓力實在太大，」一名亞馬遜員工說。「有些人只是利用 MeshClaw 來最大限度地提升自己的代幣使用量而已。」
雖然亞馬遜明確表示，員工的使用數據不會被用於績效評估中，但並非所有員工都相信這一點。「主管們其實都在觀察這些數據，」另一位員工說。「當他們追蹤這些數據時，就會產生不良的激勵效果，而有些人則會因此而過度競爭。」
據報導，要求員工增加人工智慧使用量的公司並非只有 Amazon。在 OpenAI 和 Anthropic 等公司，每個員工每週都要耗用數十億個 token；而在 Meta 和 Shopify，管理層則將員工在人工智慧方面的使用情況納入績效評估中。在 Google，即便是非技術類的員工，也被要求在日常工作流程中運用人工智慧。

AI sticker shock hits corporate America (Internet Archive)

他們的一位客戶最近在一個月內花費了五億美元，原因是未能對員工的 Claude 授權設定使用限制。
裁員可能是他們「唯一能拉動的槓桿」來抵銷 AI 費用。
大多數人會自動化自己不喜歡的任務，而非對公司最有價值的任務。

Corporate America Is Starting to Ration AI as Cost Skyrockets (archive.today)

這種向以使用量為基礎的定價方式的轉變，迫使企業客戶不得不重新考慮自己的資源消耗方式。Uber 的一位高層表示，截至 3 月，該公司用於自動化人工智能相關功能的年度預算已經被耗盡。微軟則限制了部分員工使用 Anthropic 軟體的權限，這些員工可以改用內部的編程輔助工具。Salesforce 則引入了新的系統，用於追蹤 token 的使用方式，以及這些使用方式如何帶來正面的業務成果。

過去的程式行數

過去大家就知道，衡量工程師的生產力，不應使用撰寫程式行數，因為這是很容易被操控的指標。若想追求指標上升，很容易就可增加大量 (且無效的) 程式:

隨意增加無意義註解
不進行共用邏輯抽取重構，到處複製貼上
絕不刪除過時無用程式碼
下載加入任意開源程式碼
把引用開源套件改為下載並引用其原始碼 (然後可能就不再更版了，不管來源端是否有修正錯誤或漏洞)
...

若組織使用程式碼行數衡量工程師績效，將會懲罰認真實在工作的人，而利用以上無效技巧的人卻得到獎勵與晉升。劣幣驅逐良幣的結果，組織產出不進反退，終嚐苦果。

現在的 AI token 使用量

現在相同的劇本又開始發生在 AI token 使用量上。組織若以 token 使用量來衡量生產力，員工也很容易以隨意的浪費行為，衝高指標。比如:

輕微

所有任務一律使用最高等級模型
絕對不碰程式碼，最最簡單的任務仍要寫提示執行
加入大量非必要註解、文件

中度

要求上網搜尋大量資料，整理報告並儲存 (但沒有要看)
重複要求讀取全部程式碼尋找弱點 (沒必要修正，反正消耗用量目的已達)
加入大量重複性質測試

嚴重

重新實作引用之函式庫、既有功能
進行語言、框架的全面改寫 (當然要加入 repo 但不必上線使用)
功能需求實作十次一百次，再由 AI 挑出最好的一個

相信各位還可以想到更多的無意義浪費行為。以上全部可以要 Agent 自動代勞，還可以自主隨意變化，不會重複做相同的作業，避免被發覺。更可以在下班後繼續地自動化提升績效。

這裡刻意不將 token 用量與計費金額加以區別 (比如使用前沿模型追求計費更高，或改用便宜快速模型來最大化 token 數量，若要衝 PR 數當然也沒問題)。當然組織實際使用什麼指標，人們就會找到操弄該指標最快速又簡單的方法。只要沒有有效的方法能糾出浪費行為加以懲罰，浪費行為就必定會存在。

提升效率有上限

我相信原本就有能力的高效工程師，確實也有能力運用 AI 提升速度還能兼顧品質。但有更多的人，能力原本就不足，根本無法在大量產出中，快速發覺產出程式碼裡潛在的問題。

即使沒有以上所述無謂的浪費，我認為追求效率極大化仍然是錯誤的目標。若要確保品質，產出速度仍有一定的上限。個人小工具有些錯誤無所謂；新創要衝快速迭代，願意接受一定量的錯誤率；傳統大企業可能更偏向減少犯錯。效率上限在哪裡? 沒有一定的標準。組織若以 token 用量來訂定績效目標，鼓勵儘可能多用及快速產出，由少數人使用大量無監督的 yolo agents，製造出來的問題也將會越滾越快，越多越大。

預測組織趨勢

如報導所說，即使組織官方說不會依 token 用量來評定績效，但運用 AI 提效，就是所有組織的最重大任務。哪個組織落後了，就好像即將被淘汰，大家都在 FOMO (Fear of Missing Out 懼怕落後) 的恐懼中不斷提升。管理者都會看到每個人的用量，就會有排序有影響。更不用說明確表達獎勵衝高用量的組織了。

巧妙浪費不被發覺的人獲得晉升，堅持認真不浪費的人只能私下抱怨，想著要不要跟上其他人腳步。組織的 AI 支出增加，自然要拿不會善用 AI 的人開刀，最直接的指標仍是 token 用量。組織瘦身後，剩下的人接下其他人的工作，當然要拼用量更兇才能出頭。更少的人，更多的極速產出，加上不可計量的隱藏無效產出。而堅持以少量最高效能員工，用 AI 就可以解決一切問題的組織，必會累積更多技術債/認知債，走向無真人維護的一大堆爛攤子，小火花四處併發，最終全面失火，一燃而盡，轟然崩塌了。

只要有幾個指標組織崩塌，行業氣氛開始轉變，剩餘組織將會開始嚴格控管 AI 費用，不再鼓勵無上限使用。但過去一段全力衝刺期間產出的大量 AI 程式，剩餘的員工仍然只能用 AI 繼續產出，繼續滅火。也不可能再找回過去員工，接手反正也從無人曾經理解的 AI 程式碼了。

對 Meta 的預測

這裡想特別提出我最擔心的 Meta。先前全力投入做 XR，最後證實完全失誤，黯然退場，已經損失不少。2025 年初 DeepSeek R1 釋出，讓 Llama 4 開源模型的釋出壓力大到只能灌水。後開超高價挖來頂尖 AI 人才，內部劇烈重組。現在已經不敢拿出來現眼，只能關著門自己搞了。成效如何? 能為 Meta 帶來相對的收益嗎? 如果模型真的很強，即使不開源，也可以提論文說自己的什麼模型第幾版有多麼厲害，提供 API 服務讓大家開開眼界，同時還能收回成本。Meta 是否不如直接使用中國的開源模型，完全不需要投入那麼巨大的成本，自行開發呢?

我非常懷疑，Meta 的 AI 投入太高，卻拿不出來給外面用，內部運用的成果也不如預期 (你認為 FB 導入更多 AI 功能，就可以賺更多錢嗎?)，開始要以裁員來展示投入 AI 的成本確實能提高效益。但我猜測這已經開始走向失控的死亡旋渦了。Meta 對 AI 的全力投入，最後是否也如 XR 般下場? (當然當初 XR 是造市沒造成，現在 AI 市場已經在了，Meta 的投入也不算晚，但頂尖投入卻沒換回頂尖成果)

預測 AI 服務提供者趨勢

對於 AI 服務提供者，包括上游供應鏈如 NVIDIA 等，當然還是要大力鼓吹，強調用得多的個人與組織就是高效能的前沿代表，跟不上的人就準備要被淘汰。反正他們內部使用 token 又不計費，拿出不計成本消耗大量 token 的酷炫實驗成果，製造其他人及組織已經落後的緊張感，其他人用越多他們賺越多。而資料中心與電力設施的線性擴充速度，永遠趕不上需求指數增加的速度。提供者預測接下來的指數成長曲線，要繼續更多融資，並簽下更多的容量擴充合約，並極速建造擴充。而越來越大的前沿模型，計費等級越加提高，只會吸引更多的無效浪費行為。

但若行業氣氛開始轉變，用量真的開始降下來，不再依循先前的指數成長曲線時，恐怕先前的極速融資與擴充需要暫緩下來。不過這些跡象我推測在 IPO 前暫時還不會被顯露出來。

結論

你是高效率工程師嗎? 你也是高品質工程師嗎? 你有自信自己的 AI 產出品質優於或等於過去自己親自動手的產出嗎? 你因為組織與同事壓力，開始進行浪費行為了嗎?

可以再追問自己兩個問題：

是否重構
- 過去時代，你會針對架構不佳的程式碼架構，進行手工重構嗎?
- 現在你會注意 AI 產出的架構是否合理嗎?
- 你會主動對不合理的架構進行重構嗎?
如果以上任一為否，那你的程式碼可能正逐漸腐爛中，而且產出越快，腐爛越快。
AI 做的
如果你會說「我寫了 XXX 好多好多功能」，但在出包被抓出來後，會說「那是 AI 寫的，不是我寫的」，那你可能還沒有準備好，為自己的所有產出負上責任的態度。

如果你的組織已進展到 AI 員工有獨立的權限，你不用為 AI 員工的執行績效成敗負上責任的話，我祝福你們能以無以數計的 AI 員工，將落後的其他組織遠遠拋在後頭。最後走向無人公司的境界，只剩投資人荷包滿滿。

自省

我知道這個預測蠻具爭議性的。這篇文章主體大致寫好，但又擺了超過兩星期未發出。這其中我還一直在考慮這個預測的正確性高低，也不斷修飾用詞。並繼續關注近期的發展，看到不少案例，都已提到開始控制 AI 預算，因此最後還是決定發出。

也許我是即將被淘汰的落後者，真的追不到先行者的車尾燈，也許我是預見未來的先行者，但也許仍免不了被「善用 AI 的人」淘汰。不管結果如何，我現在已不再 AI FOMO 焦慮，我回家後花更多時間做喜歡的事，比如在家練鋼琴再去台北車站秀。