隱變量空間下的白盒、使體系具有了與環(huán)境自動(dòng)交互
、經(jīng)過約束戰(zhàn)略的巨細(xì)來完成安穩(wěn)的戰(zhàn)略更新 。論文中選用了學(xué)習(xí)功率和收斂安穩(wěn)性較好的近端戰(zhàn)略優(yōu)化(PPO)
,論文中提出了一種結(jié)合了
面向不確定性的獎(jiǎng)賞塑形的強(qiáng)化戰(zhàn)略學(xué)習(xí)辦法。使體系能夠自動(dòng)辨認(rèn)潛在高風(fēng)險(xiǎn)區(qū)域并動(dòng)態(tài)調(diào)整行為戰(zhàn)略
,探究并重構(gòu)其對(duì)場(chǎng)景的了解。
因?yàn)榄h(huán)境的部分可調(diào)查性
,難以從多步探究中繼續(xù)獲益