看起來是一盒黃色的「Swedish Fish」(瑞典魚)軟糖,在Slack上與我談天」。周日) 。
相反,而GPT-5則在持久性和安穩性上達到了完美 ,而Sonnet系列則相對較弱。
01
說回這次的Vending Bench榜單。動不動就把AGI掛嘴邊了。這些毛病好像并不僅僅是由于模型的抱歉空間已滿。
參考資料:
https://x.com/elonmusk/status/1958499441469739329
https://andonlabs.com/evals/vending-bench
本文來自微信大眾號“新智元”,
或許Grok 5還真的有點東西