AI 工具買了一堆,錢就這樣沒了
Uber 4 個月燒完整年 AI 預算這件事,我看到的第一反應不是「哇好誇張」,而是「這我懂」。
不是說我們公司有 Uber 那個量級的問題啦,但那種「工具開好開滿,然後完全感覺不到產出在哪裡」的迷失感,我很熟。
我們在導入 AI 工具大概是去年底的事。一開始想說,工具多了選擇就多了,效率應該會變好。老闆問我要不要評估幾個工具,我說好啊,反正試試看嘛。
然後就開始了一段很混亂的時期。
真正的問題不是錢
我自己用下來,最卡的不是工具本身好不好用,而是沒有人說清楚「什麼任務用什麼工具」。
我們同時開著大概 4、5 個工具的試用,有人用 A 寫需求文件、有人用 B 跑程式、有人用 C 做 mock。每個工具的計費方式都不一樣,有些是 per seat,有些是 token-based,有些是兩者混合。
結果月底帳單出來,我花了快 2 個小時才搞清楚每個工具到底幫我們做了什麼、值不值得繼續付。
說難聽一點,那兩個小時本身就是浪費。
一天切幾次工具,其實是個問題
後來我注意到一件事:我一天大概切換工具 8 到 12 次。
這不是誇張的數字,是我真的記錄過大概一週的使用情況。每次切換都有一個「對話重建」的成本,你要重新跟 AI 講你在做什麼、上下文是什麼、你想要什麼輸出格式。
如果是工程師在用 coding 工具,這個問題更明顯。因為 context 是靠 codebase 建的,每次新起一個對話 window,就要重新餵一遍。如果你要跑高品質的推理,token 消耗更是直接翻倍。
我當時沒有想到這件事,就放任大家自由使用。現在回頭看,這個決策的成本是可以被算出來的。
驗收標準是最大的漏洞
Uber 後來加的那個 1500 美元 per person per tool per month 的 cap,我覺得這個方向是對的,但它解決的是結果,不是根因。
根因是:你不知道「做到什麼程度」算可以。
我跟工程師同事有過幾次這樣的討論:「這個需求用 AI 寫了一半,但感覺怪怪的,要繼續 prompt 還是自己接?」沒有標準,就繼續 prompt,token 繼續燒。
我自己寫需求文件的時候也一樣。一個 PRD 來回修了 13 輪,最後用的版本其實跟第 4 輪差不多。中間那 9 輪我在幹嘛?在找一個根本不存在的「更好」。
如果一開始就說:「3 輪之內要拍板,超過就代表需求本身還沒想清楚,先暫停」,可能結果會不一樣。
誰有資格開高成本模式?
這是我最後才想清楚的一件事。
我們公司有幾個人用的是比較貴的 API,是因為他們需要更強的推理能力。但也有人用高成本模式只是因為「感覺比較強」,結果做的任務根本不需要那個等級。
這不是說他們不好,是因為從來沒有人設定過「什麼任務用什麼 tier 的模型」。這個判斷力,其實要從 PM 這邊做出來,不能全部丟給工程師自己決定。
我現在做的一個簡單框架,就是把任務分三類:
草稿、探索性的東西,用基本模型就好,對錯不是重點,速度和量才是。
要給外部看的、要進產品的,可以用中等偏強的,但要設一個「最多幾輪 prompt」的限制。
需要強推理的,或者會影響架構決策的,才開高成本。而且要有人 review 輸出,不是丟進去就信。
這個框架沒有很複雜,但光是「說出來、讓團隊知道」這個動作,就已經能省掉很多亂花的成本。
回到 Uber 那個新聞。他們管理層開始懷疑 AI 支出和實際產出之間的 ROI,我完全可以理解那種感覺。
問題不是工具不好,是你沒有辦法回答「這個月我們花的這些錢,到底換到了什麼」。
如果你答不出來,那個錢就是消失了,不是被用掉的。
作者:菲菲