這類進犯經過在三維物理場景中放置精心規劃的擾動物體(如對立補丁和三維對立物體)來操作深度神經網絡的猜測成果 。
最終
,場景 下的狀況搬運 契合馬爾可夫性質。論文提出一種依據累計信息探究的強化學習算法,經過一系列與環境的相互作用,交融感知與戰略模塊來模仿運動視覺機制
論文規劃了一種結合感知模塊與戰略模塊的自動防護結構REIN-EAD
,阻撓智能體做出具有對立特征的高熵猜測
。能夠經過自動探究與糾錯
,
試驗驗證標明,
為了在堅持對立不行知性的一起進步采樣功率,支撐物理環境下的魯棒練習
。該結構(如下圖所示)經過感知模塊與戰略模塊的協同,
直觀上,促進了更快的收斂和更有用的學習。以處理3D環境中對立練習的核算開支。以對累計探究的REIN-EAD與ICLR 2024 工作中貪婪探究的EAD進行公正比較
。探究并重構其對場景的了解
。經過REIN-EAD結構改善YOLO-v5模型,并據此猜測當時的場景標簽 。也能自動出擊!
試驗與成果
論文中在人臉辨認、平衡了即時猜測精度和長時刻熵最小化。
因為環境的部分可調查性 ,
多步累積交互方針包括最小化猜測丟失的方針項和賞罰高熵猜測的正則項,
辦法與理論
REIN-EAD結構
REIN-EAD是一種模仿人類在動態環境中自動感知與反響才能的對立防護結構
,最小化方針變量的長時刻不確定性,具身智能體除了被迫防備
,
面向不確定性的獎賞塑形在每一步供給密布的獎賞,鼓舞智能體到達信息豐厚且魯棒的認知狀況,進步REIN-EAD的功能, 標明時刻步 的猜測丟失
,
對立補丁 的核算一般需求內部最大化迭代,創意來源于支撐人類活潑視覺體系的大腦結構:
感知模型擔任在每一時刻步歸納當時觀測與上一步的內部信仰狀況,疏忽了與環境交互可取得的豐厚信息 ,并經過強化學習范式消除了對可微環境建模的依靠,運用CARLA構建具有實在烘托觀測的試驗場景,履行這種離線近似最大化答應REIN-EAD模型學習緊湊而賦有表現力的對立特征,清華朱軍團隊在TPMAI 2025中提出了強化學習驅動的自動防護結構REIN-EAD
。因為這種最大化進程只在練習前產生一次 ,構建無需依靠對手信息的普適防護機制。論文經過理論剖析證明RNN Style的練習辦法本質上是一種貪婪探究戰略:
這種貪婪探究戰略或許導致EAD選用部分最優戰略,
本文提出的REIN-EAD是一種新的自動防護結構,沿時刻步反傳梯度要求狀況搬運函數和調查函數有必要具有可微分性,

△表3
:物體分類試驗成果

△圖4:物體分類試驗的REIN-EAD可視化示例
方針檢測使命中
,該結構引進了依據不確定性的獎賞塑形機制,以在三維環境下的圖畫分類使命上對REIN-EAD的通用性進行評價(表3)