論文
:https://arxiv.org/abs/2507.18484
代碼:https://github.com/thu-ml/EmbodiedActiveDefense
本文來自微信大眾號“量子位”,進一步驗證了本文辦法在安全要害體系中的運用潛力。減輕了探究和運用分配的應戰,智能體不能直接拜訪狀況,能夠經過自動探究與糾錯 ,使體系能夠自動辨認潛在高風險區域并動態調整行為戰略 ,
因為環境的部分可調查性,
在人類視覺體系啟發下,最小化方針變量的長時刻不確定性,經過REIN-EAD結構改善IResNet50模型
,
場景 下的交互進程用 標明。
黑盒、

△圖1:REIN-EAD結構
REIN-EAD由兩個中心的循環神經模塊組成
,成果標明在三個使命上REIN-EAD的作用都優于SAC、動作和觀測空間
。緩解對立進犯帶來的錯覺
。然后對對立擾動具有魯棒性。
多步累積交互方針包括最小化猜測丟失的方針項和賞罰高熵猜測的正則項
,
試驗成果標明,該性質在實際環境和常用的仿真引擎(如UE)中都是不滿足的
。2,隱變量空間下的白盒、 作為正則化項