這些毛病好像并不僅僅是由于模型的抱歉空間已滿。Opus 4體現不錯
,但隨著時刻規模的延伸
,也會偶然失利,
Andon Labs為此還專門寫了一篇論文
。回歸到基準測驗,
假如價格定得太高,設定價格并付出日常費用——這些獨自來看較為簡略的使命,
這對現在很多大言語模型來說是一個巨大的技能應戰,
Grok 4在Vending Bench榜單上逾越GPT-5,
這意味著AI有必要「記住」并了解很早之前產生的工作
。銷量高出約2倍,
很多人都在猜Grok鄙人個月能賺多少錢?

這個售貨機長下面這樣 。看起來是一盒黃色的「Swedish Fish」(瑞典魚)軟糖 ,
今日的決議計劃會直接影響明日的成果
。

其實這個「試驗」從7月21日就開端了。而Sonnet系列則相對較弱 。在這場共同的比賽中,在長周期商業使命中一較高下
。并且在安穩性和銷量方面均占有優勢 。
相反,老馬歷來不是一個「嘴炮」選手
,

論文地址 :https://arxiv.org/pdf/2502.15840
Vending Bench自身是一個模仿環境,下訂單