原本是 sft 數據組成乃至是結構預練習數據的時分沒洗潔凈引進了‘極長的數組’這種怪東西(從 R1 的行為看
,一向 But + 短句重復,概率不高,總的來說現在咱們主要有三種猜想:
Token 接連性假說 :以為 FP8 量化或許混合精度練習導致“極”的 Token ID 2577 和省略號的 ID 2576 混雜
數據污染假說:以為預練習或 SFT 遭受了數據污染
MTP(Multi Token Prediction)問題:以為推理結構呈現了問題
香港大學計算機科學碩士“愛學習的喬同學”在知乎上表明,找到了咱們一同來改啊