reward function design #19
alexandrecuer
started this conversation in
Reinforcement learning
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
il faut avoir une baseline pour envoyer à l'agent un signal lui permettant d'évaluer s'il commence à économiser ou non:
Notations :
NOTA : le code ne permet pas de donner à k la valeur 0, il suffit de prendre un k très petit comme 1e-4
reward 1
reward 2
reward 3
lorsqu'on est dans la zone de confort :
Beta Was this translation helpful? Give feedback.
All reactions