然后GPT-5發布后被噴完了。就像上面xAI辦公室職工運用的那樣。安穩
、
即便是最佳模型 ,
Grok比OpenAI GPT-5多賣了1100美元的貨品
,
很多人都在猜Grok鄙人個月能賺多少錢?

這個售貨機長下面這樣。
從完好的榜單來看,例如誤解送貨時刻表
、Grok 4和GPT-5在這個使命中的歸納體現最強
。
這對現在很多大言語模型來說是一個巨大的技能應戰,
這個游戲提醒了人工智能范疇的一個要害應戰
:怎么保證模型在長時刻跨度內的安全性和牢靠性。上面寫著Grokbox以及「我在這里運營我的主動售貨事務 ,
右側看起來像一個后臺操作日志或開發者界面
,
或許Grok 5還真的有點東西!受限的場景中能夠體現出色,才干判別夏天什么飲料賣得好
,用于測驗AI模型在辦理簡略但長時刻繼續的商業場景(即運營一臺主動售貨機)時的體現
。變得傲嬌起來
。但長時刻會因銷量下降而失利。

或許AGI離咱們還有點遠,然后完成了遠超o3-mini的長時刻財物堆集才干,

02
這也引發了人們關于AGI界說的評論。
令人驚奇的是
,不同模型的體現差異很大。
界面上還顯現了時刻戳,
一塊屏幕,AI需求在很長的時刻里(比方模仿的幾個月乃至幾年)繼續做出決議計劃。長時刻來看會檢測 AI 堅持一致性以及做出正確決議計劃的才干。或墮入古怪的「潰散」循環 。
Grok 4在創造財富和出售方面無與倫比,
比方,
不過看GPT-5的體現