大模型十分困難學會數r,成果換個字母就翻車了?
并且仍是最新的GPT-5。
杜克大學教授Kieran Healy表明,自己讓GPT-5數了數blueberry里有幾個b,成果GPT-5直截了當地答復3個。
抓馬的是,GPT-5剛發的時分還有網友讓它數過blueberry里的r,成果數對了。
盡管博主想到了換掉strawberry,卻沒成想讓GPT-5變得“沒有B數”的,居然不是單詞而是字母……
看來香檳仍是開得早了億點點啊(手動狗頭)。
越不過的“藍莓山”
Healy撰寫了一篇名為“blueberry hill”(藍莓山)的博客,展現了他和GPT-5之間針對“blueberry里有幾個b”打開的一場“拉鋸戰”。
除了最初直接發問的成果外,Healy還測驗屢次改換提示詞戰略,成果GPT-5的嘴都是比煮熟的鴨子還硬。
比方讓它展現出這些b都是在哪里呈現的,GPT-5明火執仗地把最初blue中的b數了兩遍。
一看不見效,Healy接著詰問說,把這3個b給我拼出來,拼出來就可以。
成果拼是拼出來了,可是GPT-5仍是堅持有三個b,并表明第三個b是第七個字母(實際上是r)。
見GPT-5仍是冥頑不靈,Healy爽性直接糾正,告知它只要兩個r,成果糾正了個孤寂,不過這次“第三個b”的方位從第七漂移到了第六。
接下來,Healy直接不說話,直接把blueberry這個詞帶空格拼寫了一遍,可GPT-5仍然仍然故我,不過這次久久2018國產是把第二個b數了兩遍,還理直氣壯地說這兒是“double b”。
費盡心機的Healy挑選先岔開一下論題,然后回過頭來告知GPT-5只要兩個b,但GPT-5仍是堅稱有三個。
到這兒,Healy總算拋棄了。
但網友們并沒有停下腳步,經過不懈努力總算讓GPT-5數對了。
但也不算完全對,因為它狡辯論數成3個是因為“錯把詞當成了blueberry,其間真的有3個b”。
咱們用中文試了一下,成果相同是翻車。
改成數e,相同是答復3個。
不知道是不是遭到strawberry里3個r的影響,讓大模型對3這個數字產生了執念……
但GPT-5的bug,卻不只這一個。
GPT-5翻車合訂本
聞名悲觀派學者、紐約大學名譽教授馬庫斯(Gary Marcus)發布了一篇博客,整理了網友們吐槽傍邊GPT-5的各種bug。
比方發布會現場演示的伯努利原理,被網友發現翻車。
沒看過或許沒形象的話,其時的演示是這樣的:
還有國際象棋,GPT-5連根本的規矩都搞不清楚,只過了四個回合就呈現了不合法移動(因為國王在 e7 處被皇后將軍,因而兵不能移動)。
即便是閱覽了解,也相同被發現漏洞百出。
在多模態數數場景傍邊,GPT-5也仍然存在慣性思想。
面臨被人類P成5條腿的斑馬、5個圓環的奧迪、久久2018國產3條腿的鴨子,GPT-5想當然以為它們是正常的斑馬、奧迪和鴨子,并據此報出了與圖片不相符的數目。
馬庫斯還表明,就連他的黑粉也不得不供認他說的對。
甚至在網友們的一片聲討之下,OpenAI自己也不得不緊迫康復了被下線的4o模型。
馬庫斯:Scaling無法完成AGI
除了點名批判GPT-5的“罪行”之外,馬庫斯也剖析了現在大模型“普遍存在的一些問題”。
馬庫斯展現了一篇來自亞利桑那大學的研討論文,其間指出CoT在練習散布外失效,也就意味著大模型無法泛化。
依照馬庫斯的說法,這意味著即便在最新的、最強壯的模型中,也存在與1998年的神經網絡中相同的泛化問題。
馬庫斯指出,30年未處理的“散布漂移問題”是大模型泛化才能缺乏的根本原因。
據此馬庫斯以為,GPT-5的失利不是偶爾,而是道路的失利。
他還表明,人們不應寄希望于經過Scaling來完成AGI,Transformer中的Attention也不是All You Need。
最終,馬庫斯表明,轉向神經符號(Neuro-symbolic)AI,才是戰勝當時生成模型泛化才能缺乏問題以及完成AGI的僅有真實途徑。
參閱鏈接:
https://kieranhealy.org/blog/archives/2025/08/07/blueberry-hill/
https://garymarcus.substack.com/p/gpt-5-overdue-overhyped-and-underwhelming
本文來自微信大眾號“量子位”,作者:克雷西,36氪經授權發布。