這種行為和咱們了解的自然言語生成是有距離的。或許到 thinking 結尾出的英文字都破碎的各種問題)。還會順便輸出“極客園”或“極速賽車”這類詞
,則會直接把上下的代碼刪去。官方網頁 /API 能復現(xiàn)該 bug
,觸發(fā)率千分之一。
不過 ,MTP 僅僅多猜想了幾個 。不僅僅是你說的那個 token,
DeepSeek 的 SFT 數(shù)據(jù)部分來歷于自監(jiān)督的組成數(shù)據(jù)。是枚舉數(shù)列
,不僅僅 DeepSeek 模型呈現(xiàn)了這個問題。“Token 接連性假說站不住腳,“DeepSeek 一向有這個問題,僅僅曾經呈現(xiàn)的概率低
?!?/p>

還有網友稱