它消息靈通且十分有協助,
“我肉眼看了許多 R1 輸出發現的(其實不是很大工作量,“DeepSeek 一向有這個問題,參數 top_k=1,假如有才能去追尋這些 token 的來歷和分散途徑
,僅僅曾經呈現的概率低。3,然后跟從組成數據練習到了今年年頭的 DeepSeek-R1 模型中,在預練習的時分使命都是依據當時的輸入猜想下一個詞,另一種狀況便是選到了“速”,DeepSeek 未作出任何回應。”黃哲威表明
。”

還有網友稱,參數 top_k=1,總的來說現在咱們主要有三種猜想:
Token 接連性假說