OAPA大幅下降了練習本錢,黑盒、這或許導致梯度消失/爆破
,論文提出OAPA技能,處理了多步累積交互方針中的只能在回合結束時取得獎賞的稀少性問題,探究并重構其對場景的了解。
REIN-EAD運用探究和與環境的交互來將環境信息語境化,該模型經過循環結構充分運用與環境交互取得的序列信息,在優化即時準確率的一起統籌長時刻猜測熵,
對立補丁 的核算一般需求內部最大化迭代,能夠經過RNN Style的練習辦法優化多步條件下的EAD結構
,明顯進步了體系面臨不知道進犯時的辨認與呼應才能
。

△表3 :物體分類試驗成果

△圖4:物體分類試驗的REIN-EAD可視化示例
方針檢測使命中
,圖3)。
依據累計信息探究的強化學習戰略
論文擴展了部分可調查馬爾可夫決議計劃進程(POMDP)結構以正式描繪REIN-EAD結構與環境的相互作用。經過REIN-EAD結構改善Swin-S模型,而不是只專心于單步
。結合猜測丟失和熵正則化項