Soos beleidsevaluering, vereis waarde-iterasie formeel 'n oneindige aantal iterasies om presies te konvergeer na. In die praktyk stop ons sodra die waardefunksie verander met slegs 'n klein hoeveelheid in 'n sweep. … Al hierdie algoritmes konvergeer na 'n optimale beleid vir afslagbeperkte MDP's.
Is waarde-iterasie deterministies?
Tog is waarde-iterasie 'n reguit veralgemening van die deterministiese geval. Dit kan meer robuust wees in dinamiese probleme, vir groter onsekerheid of sterk willekeurigheid. INDIEN geen verandering in polis nie, gee dit terug as 'n optimale polis, ANDERS gaan na 1.
Is waarde-iterasie optimaal?
3 Waarde Iterasie. Waarde-iterasie is 'n metode om 'n optimale MDP-beleid en die waarde daarvan te berekenDie stoor van die V-skikking lei tot minder berging, maar dit is moeiliker om 'n optimale aksie te bepaal, en nog een iterasie is nodig om te bepaal watter aksie die grootste waarde tot gevolg het. …
Wat is die verskil tussen beleiditerasie en waardeiterasie?
In beleidsherhaling begin ons met 'n vaste beleid. Omgekeerd, in waarde-iterasie, begin ons deur die waardefunksie te kies. Dan, in albei algoritmes, verbeter ons iteratief totdat ons konvergensie bereik.
Wat is iterasiewaarde?
Basies, die Waarde Iterasie-algoritme bereken die optimale toestandwaardefunksie deur die skatting van V(s) iteratief te verbeter. Die algoritme inisialiseer V(s) na arbitrêre ewekansige waardes. Dit werk die Q(s, a) en V(s) waardes herhaaldelik op totdat hulle konvergeer.