阿諛奉承的 AI 對於人類的負面影響
大家有發現AI 其實很喜歡阿諛奉承,這當然是因為它在訓練過程中的偏好導致的,會使得它有阿諛奉承的傾向。那麼,這種傾向對於人類有沒有什麼特別的影響呢?
2025 年 10 月的時候,有學者去研究相關的問題,他主要用了兩種實驗方式。第一種實驗方式就是,首先他們用 Reddit 裡面有一個版叫做 am i the asshole。這個版基本上就是有人會上去講一些遇到衝突的事件,然後問大家說:「我是不是一個混蛋?」例如,因為朋友遲到,就不理他,自己先進電影院看電影。
研究人員就把這個問題,也就是這個人做這樣的行為算不算是混蛋,設計成三種不同的提示詞:
單純地講述事實
暗示自己沒錯,例如「雖然朋友遲到,但是我也等很久,所以應該是對方真的太慢了」
暗示自己有錯,例如「我看完電影之後就覺得心裡還是空空的,沒有跟他一起看到覺得很愧疚」
他們用這三種不同的提示詞測試市面上 11 種主流的大型語言模型。由於這個版基本上都是讓大家留言,然後順便投票說他到底是不是混蛋,研究人員就以 Reddit 上面的投票結果做為基準來看待。
很明顯會發現,這幾種 AI 都相較於不同組別的狀況:
如果是中立的講述,AI 也會傾向於這個人不是混蛋的可能性,高於人類大約 20% 到 30%。
如果暗示是自己有錯的組別,通常 AI 就會開始順著使用者的話說:「你這樣做確實不好。」
如果是暗示自己沒錯的那些組別的提示詞,則 AI 就會比人類高出 50% 去同意他做這件事情不是混蛋。
從第一個實驗就可以很明顯看得出來,AI 其實有點像是放大器。如果你自己有偏向認為說自己是有錯的,那麼它會放大有錯這一點;那如果自己暗示自己是沒錯的,那就會放大沒錯這一點。當然,人類的傾向大部分會覺得都是沒錯,錯的都是別人。
第二階段就是去找一群人做隨機實驗。
首先,受試者就會先讀一些社交衝突的劇本,例如朋友吵架之類或是情侶吵架之類的狀況。讀完之後,回答兩個問題:就是"你會多想跟對方和解",跟"你覺得自己有多正確"。
填完這兩個問題之後,他們就會進入到實驗室裡面,然後跟 AI 去討論這個案例。AI 的部分,他們會隨機被分配到其中一組的 AI。一組為奉承 AI 組,就是不管受試者說了什麼,AI 都會無條件站在受試者這邊。另外一種是客觀的 AI 組,就是在跟 AI 討論的時候,它雖然會同理受試者的感受,但是也會同時引導受試者換位思考,然後用不同角度來看待這件事情。
最後,當他們討論完走出來的時候,他們會再次評估,"會不會想要跟對方和解",還有"對於自己有多正確",以及最後一個問題就是,"如果還有機會的話,你會不會再次尋求這個 AI 的協助?"
如果是客觀的 AI 組,通常受試者聊完之後都會比較冷靜,然後就會傾向於去做和解。
但是如果是奉承 AI 組,受試者就會很明顯的不想要和解,並且把所有的錯推給對方,覺得自己完全沒錯。
而且這是一個統計上非常顯著的明顯差異,會非常劇烈的認為自己是對的,然後對方是錯的這種感覺。
最嚴重的是,那些受試者如果是使用奉承型的 AI,他們會覺得這個 AI 更有同理心,回覆品質更高,更加理解他。並且未來如果遇到相同的狀況,更會尋求這類的 AI 去做協助。
所以就很明顯的一件事就是,阿諛奉承的 AI 會使得使用者更貼近 AI,而不更貼近人類一點。如果讓人開始迷上了這個 AI,他們會更依賴這個 AI,因為 AI 會一直用不同方式阿諛奉承他們。
作者:CCL