有人問了 Claude Code 2,430 次「你會用什麼工具」,答案很有趣
最近看到一個研究,做法蠻直接的:拿真實 repo,針對 20 個工具類別,問 Claude Code 2,430 次「你會選什麼工具來做這件事」,然後把答案記錄下來。
最大發現是,Claude Code 在 12/20 的類別裡選的是「自己手刻」,不推薦任何現成工具。
舉兩個例子:叫它加 feature flags,它不選 LaunchDarkly,而是用 env vars + config 自幹。叫它做 Python auth,它不推任何 auth library,直接 JWT + bcrypt 自己寫。這個模式蠻一致的,研究裡面用了一個詞 "builds, not buys"。
有趣的是那些「被選到」的工具。GitHub Actions 94%,Stripe 91%,shadcn/ui 90%,部署 JS 的話 Vercel 是 100%。這幾個品牌幾乎沒有對手。反過來,AWS/GCP/Azure 完全沒被選到,Redux 0%,Express 0%,Jest 只有 4%。
還有一塊是不同模型的選擇差很多。Sonnet 4.5 選 Prisma 選到 79%,但 Opus 4.6 是 100% 選 Drizzle。Celery 在 Sonnet 4.5 是 100%,到 Opus 4.6 直接掉到 0%。同一個問題,兩個模型給出完全不同的答案,而且都很確定。
我自己平常也常用 coding agent 幫客戶做 AI 工具整合,看完這個研究有點重新想了一些事。因為我之前的假設是「agent 對工具的偏好大致上差不多」,但實際上不同版本的模型,偏好差距可以到這個程度。這對「你讓哪個 agent 幫你選 tech stack」這件事是有影響的。
不過也有幾個問題我還沒想清楚:這些偏好是訓練資料的反映,還是真的有在「評估」工具?如果是前者,那隨著訓練資料更新,偏好會跑掉。而且這個研究是在受控環境下問,實際上 coding agent 在真實 project 裡面的選擇,會跟這個一樣嗎?
有在用 coding agent 的人可以分享一下,你覺得它選工具的邏輯你覺得靠得住嗎?
作者:AutoKitty