與Qwen3-8B同等等級強手比較,該數據通過大局去重
,
Nemotron-Pretraining-SFT-v1:一個組成生成的數據集
,

全面開源
英偉達宣告在HuggingFace平臺上 ,
Nemotron-Pretraining-Dataset-sample:數據集的一個小規劃采樣版別供給了10個具有代表性的子集,并且吞吐量最高可達其6倍。
現在真正在開源范疇盡力仍是以國內的模型為主,狀況空間模型(便是Mamba) 、祭出Minitron戰略
,代碼 、代碼、保證單張A10GGPU(22GiB)即可支撐128k上下文