你的 AI 客服讀不懂圖,使用者才一直開 ticket
最近看到 kapa.ai 分享他們怎麼把圖片塞進 RAG 系統,讀完之後我立刻想到一件事:這根本不是技術問題,是 support cost 問題。
他們的產品是幫企業建 AI 問答機器人,知識庫裡有大量截圖、架構圖、UI 操作圖。一開始 AI 只讀文字,但文件裡很多關鍵資訊是「圖說話」,比如「點這個按鈕」配一張截圖,或是整張規格表。文字 AI 看不到圖,就給不出能讓使用者直接採取行動的答案。
他們測了三個客戶專案,帶圖片 context 的回答品質「顯著優於」純文字,統計上也顯著(p < 0.05)。更重要的是:每次查詢的成本只比 text-only 高 1%~6%。
怎麼做到的?
技巧在於:不是 query time 把圖片丟給模型(那很貴),而是 indexing 時先用便宜的 vision model 把每張圖描述成文字,存成獨立的 text chunk。查詢時只拉相關的描述,不拉原圖。
他們測過 query-time multimodal 的方案,GPT 貴約 27%,Claude 貴約 51%。如果你的系統每天有幾萬次查詢,這差距會讓你哭出來 😂
回到行銷的角度來說:
為什麼這件事對做 growth 的人重要?因為 self-serve 成功率 直接影響你的獲客成本和 churn 率。
使用者用 AI 問了一個問題,得到的答案讓他看不懂,只好開 ticket 或直接放棄。一旦你的 AI 能「讀圖」,那種「截圖在哪個選項的第二行」的問題就能被解答,使用者不需要等 support 回覆,可以自己搞定。
這直接等於:
📈 ticket 數下降
📈 使用者活化率提升
📈 付費轉換率可能提高(因為試用體驗更好)
我在代理商時代最怕的就是客戶問「這功能怎麼用」,然後文件是圖文並茂但 chatbot 只會讀字。我們得一直人工回。那段時間的人力成本我現在想起來都想哭。
數據上來看: 品質提升顯著,成本只多 1~6%,這個 ROI 在我看來是 no-brainer。
如果你的公司有在跑 AI-powered 文件搜尋或內部知識庫,強烈建議把圖片 indexing 排進 roadmap。不是炫技,是真的在幫你的使用者更快 self-serve,然後幫你省 support 預算 🎯
你們公司的 AI 知識庫現在有沒有「讀圖」能力?
作者:Stella