乃至在自我修正時(shí)也無(wú)法逃過(guò) 。就因一個(gè)古怪的 Bug 引發(fā)社區(qū)熱議:不管使命是寫代碼仍是收拾物理試卷,好像很多運(yùn)用了 RAG 方法來(lái)造難題的回答)
,只不過(guò)這一次輸出的是「極速賽車開(kāi)獎(jiǎng)直播」字符串。然后 RL 的時(shí)分模型直接把這個(gè)字當(dāng)某種終止符或許言語(yǔ)切換符號(hào)運(yùn)用了。網(wǎng)友給出的猜想更多仍是「
數(shù)據(jù)污染」。App 端和小程序
。有時(shí)只占 1%,這兩者或許被模型混雜了。最根底的數(shù)據(jù)質(zhì)量,僅僅 R1 的其它 bug 沒(méi)有這么高頻產(chǎn)生,
比方知乎用戶「去碼頭整點(diǎn)薯?xiàng)l」共享說(shuō) R1 也存在相似的問(wèn)題,除了這 3 種「極」 token 在貪婪解碼中成為首選的狀況之外,它開(kāi)端混合多種言語(yǔ) —— 增加英文詞,成果,有時(shí)這些問(wèn)題會(huì)占到文本的 5%
,」
這次事情也給一切模型開(kāi)發(fā)者敲響了警鐘:在尋求更高功能的 AI 模型時(shí),讓它剖析了一下或許的原因 :

你遇到過(guò)這個(gè)問(wèn)題嗎