在河內旅遊使用 Gemini Live 當 AI 導遊的經驗
12 月初的時候,我曾經跑去越南河內旅遊。因為我不會越南語,而越南當地的官方語言也不是英語或中文,所以在那邊使用中英文溝通很看運氣,要看遇到的人是否具備外語能力。
身為一名自助旅行者,我在那邊做了一個有趣的實驗。我當時去了幾個景點,例如鎮國寺(Trấn Quốc Pagoda)以及昇龍皇城遺址。走進這些景點時,感覺其實有點像台灣或中國的寺廟與城堡,但同時又有些微不同。由於我沒有請導遊,而當地的指示牌寫得不太清楚,我便想到利用 Gemini Live 開啟鏡頭辨識的功能,將它當作 AI 導遊來使用。
這次的使用經驗中,我發現了幾個有趣的點:
1. 精確的地理位置判斷
Gemini Live 能夠透過觀察周圍環境來判斷所在地。
(a) 在鎮國寺時,它一開始沒看到越南文或經典建築物,會猜測這可能是中國東南沿岸、台灣南部或中南半島的廟宇。
(b) 一旦它辨識到經典的地標(例如鎮國寺著名的佛塔),就能馬上精確判斷出我現在位在河內的鎮國寺。
(c) 之後移到昇龍皇城遺址時,它也同樣精確抓到了我的位置。
2. 被動的設計邏輯
雖然它會解說景點,但設計上非常被動。
(a) 舉例來說,在鎮國寺時,它僅簡短介紹這是越南很有歷史的寺廟、是宗教信仰中心,解說就結束了。
(b) 我必須主動追問(例如祭拜的神明或建築特色),它才會繼續講下去。
3. 模型效能與表現
解說內容非常簡潔,我懷疑 Gemini Live 背後運行的是 Flash 而不是 Pro 模型,所以講法都很簡單,甚至有時會出現「鬼打牆」的情況。
此外,我還做了一個關於即時翻譯的小實驗:
我戴著藍牙耳機開啟 Gemini Live,指令它當我說出「請翻譯」的口令時,幫我翻譯我看到的內容。雖然它能做到,但在夜市測試時發生了尷尬的事:當身邊的越南人正在聊天,Gemini Live 一聽到越南話,竟然馬上用越南話回答對方,導致我耳機裡全是聽不懂的越南文,場面非常尷尬。
目前我想到一個可能有效、但尚未測試的方法:
如果你想用 Gemini Live 當作自助旅行的 AI 導遊,可以嘗試在 Gemini 設定中開啟「引導式學習」。調整後,它的回答應該會比直接開啟時更有耐心,不會只用兩三句話就打發你。
至於調整後的「主被動效果」如何,目前我還沒有測試過,就看之後有沒有人要去嘗試看看了。
作者:CCL