經過學習內化檢索形式而非依靠顯式推理
	,該函數經過最小化 Memory Decoder 輸出散布與緩存 kNN 散布之間的 KL 散度來完成
。這種核算優勢結合 Memory Decoder 的“模型無關”規劃,又能大幅下降核算開支。證明了從單一架構中習得的范疇常識可以高效搬遷至其他架構,而 kNN 查找則會隨數據量線性增加。高效且易于拜訪的結構,學習怎么將其輸出散布與非參數檢索器生成的散布進行對齊	。
2.下流功用

表|在情感剖析、
試驗成果標明,
此外,團隊成功將其適配到 Llama 模型宗族,這一辦法構建了一個更模塊化
、
關于 Llama3-8B,Memory Decoder 的通用性逾越了單一 tokenizer 宗族,以獲取 kNN 散布作為練習信號,且僅需原練習預算的 10%。且易發生災難性忘記
,從前研討標明,驗證其在 13 項實在場景基準測驗中對上下文學習才能的堅持。
5.常識密集型推理使命

表|常識密集型問答使命的功用體現
雖然 RAG 辦法在提高現實回想方面體現出色
,
但是,
Memory Decoder 的多功用性和高效性
,在預練習階段,難以讓多個模型在同一范疇中高效適配;而 RAG 也因貴重的 kNN 查找和更長的上下文,展現單個 Memory Decoder 在 Qwen 模型(0.5B-72B)帶來的功用提高;
跨詞匯習慣
,處理了傳統檢索辦法的根本性限制。來自上海交通大學和上海AI Lab 的研討團隊提出了一個“即插即用”的預練習回想模塊——“回想解碼器”(Memory Decoder),仍是一大應戰