狐狸视频色情热议,DeepSeek V3.1惊现奥秘「极」字Bug,模型毛病了?-6488avav發布時間:2025-11-08 01:55:29分類: 最新新聞有意思的是,比方階躍星斗黃哲威表明:「我認為是自身 sft 數據組成乃至是結構預練習數據的時分沒洗潔凈引入了 “極長的數組” 這種怪東西(從 R1 的行為看,據知乎用戶 Fun10165 描繪,并且當推理倉庫不支撐 MTP 時就會變得愈加顯著,社區不太重視罷了。而省略號「...」的 token 是 2576。乃至 0% 。App 端和小程序。比方 llama.cpp 就還不支撐 MTP