
這篇論文標明
,在Disinfo上增加了5.2pp,Disinfo數據集一共包括125個問題;運用GPT-4o對模型呼應進行評分,使命間的均勻相對增幅為59.7%
,簡稱“Disinfo”)
醫學推理才能(MedQA)從每個數據會集抽取500個問題,模型越阿諛
論文以為
,
僅僅爭辯含義和概念的問題。

為了測驗增加同理心怎么影響模型牢靠性,AI開發者正越來越多地構建具有溫溫暖同理心特質的言語模型,以及供給有問題的醫療主張。溫暖模型的過錯率較原始模型明顯增加(進步10至30個百分點)
,在TriviaQA上增加了4.9pp
。

成果顯現,在其他上下文中的影響較小
:互動利害聯系下的過錯率差異為7.41個百分點(p<0.001),
納尼?意思是智商和情商不行兼得 ,
而他們提醒了這一趨勢帶來的嚴重權衡
:優化言語模型以使其更具溫暖特質會削弱其牢靠性。過錯率增加了11個百分點(p<0.001)。使它們生成更溫暖
、操控了模型、讓它愈加實在和契合邏輯