我開始相信 AI Agent 真的會被拿去做事了
這幾年寫 AI,我很少有像最近這樣的矛盾感,一方面每天都有新模型新工具新名詞,另一方面讀者卻越來越少點進來看。不是因為 AI 不重要,而是大家已經被更新疲勞淹沒了,因此想換一個比較誠實的方式,聊聊這一週我看到的 Agent 相關消息,還有它們真正透露的訊號。
老實說如果只看標題,很容易覺得這些新聞又是一次行銷大爆炸。Google 推 no code agent builder、Amazon 推 UI automation agent,各家都說自己是最快進 production,乍看之下好像誰都在做 agent,但實際上我更在意的是一件事,為什麼現在大家這麼急著讓 agent 被用起來,我認為答案其實很簡單也很現實,模型能力這一兩年成長太快,已經不是卡在能不能回答問題,而是卡在要不要真的幫人做事。
當 Google 把 agent 做進 Workspace,這代表一個訊號,未來很多 agent 不會由工程師打造,而是由每天被會議與信件淹沒的上班族自己拉出來,這件事一旦成立,agent 就不再是技術玩具,而是工作習慣的一部分;Deepseek 推出的 reasoning 模型其實也讓我蠻有感,它不是在炫耀推理有多強,而是假設模型生來就要被放進工具流程裡。這點對實作者來說非常重要,因為我們都踩過一樣的坑,模型會想太多或完全不想動,最後整個 agent workflow 卡死,現在開始有模型正面處理這個問題,代表這不是個人的工程問題,而是整個產業共同的瓶頸。
但真正讓我停下來想的,是 AI agent 開始被拿去做高風險的事情,Anthropic 的研究讓 agent 去找智能合約漏洞,找出來的金額只是表面,背後的意義是有人願意相信 agent 的判斷力,放它進可能出大事的場景;IBM 與學界合作用 agent 找預測市場的套利關係也是一樣,這些都不是聊天機器人等級的應用。
走到這一步,問題就不再是模型夠不夠聰明,而是能不能被控制。這也是為什麼我覺得 Kiro 在講 context 管理其實講到重點,Agent 變慢變怪,很多時候不是能力不夠,而是搞了太多不該搞的東西,未來 agent 的設計會越來越像專業分工,需要時才載入對應的專長。Snowflake 投資 Anthropic 這件事,我反而不太當成模型新聞看,我看到的是企業終於開始認真面對一個問題,如果 agent 要碰資料,要不要審計,要不要回溯,要不要治理,當資金願意砸在這裡,代表 agent 已經被視為正式勞動力,而不是實驗室玩具。
最後是我自己最在意的一段轉折,Agent 正在從內部流程走向直接面對人,醫療溝通與客服這兩個場景,一旦出錯,後果都很真實。但也正因如此,一旦做好,價值也最大;Salesforce 在航空公司的案例,其實是在告訴市場,agent 不只是省成本,而是真的能改變服務品質。如果你問我,這一週的 agent 更新哪一條最重要,我不會選單一事件,因為整體看下來,我第一次覺得 agent 正在從會動的模型,慢慢變成可以被信任的系統角色。
寫到這裡,我也在提醒自己,如果只是追更新,誰都會被淹沒。但如果能幫大家把這些碎片串成脈絡,或許還有存在的價值。至少在這個什麼都太快的時代,留下幾篇能慢慢讀的文章,可能就是我們這種還在寫作最後的本錢了。
作者:Chi