reward function design #19

alexandrecuer · 2023-04-11T07:58:28Z

alexandrecuer
Apr 11, 2023
Maintainer

il faut avoir une baseline pour envoyer à l'agent un signal lui permettant d'évaluer s'il commence à économiser ou non:

Notations :

tc = self.tc_episode
tint = self.tint[self.i]
vmin = self._vote_interval[0]
vmax = self._vote_interval[1]
peko = round(100 * self.tot_eko / self.wsize, 1)
pmineko = round(100 * self.min_eko / self.wsize, 1)
popteko = round(100 * self.limit / self.wsize, 1)
base_max = max(pmineko, popteko)
base_min = min(pmineko, popteko)

pmineko : économie d'énergie minimale, correspondant au maintien à tc en permanence
popteko : économie d'énergie optimale, correspondant au jeu du modèle qui connait parfaitement son environnement
peko : économie d'énergie qui sera réalisée par l'agent qui pour avoir un intérêt doit être entre pmineko et popteko

NOTA : le code ne permet pas de donner à k la valeur 0, il suffit de prendre un k très petit comme 1e-4

reward 1

reward = - self._p_c * abs(tint - tc)
if tint > tc + vmax and peko >= base_max:
    reward = peko - (1 - self._k) * base_max
if vmin <= tint - tc <= vmax:
    reward = max(self._p_c * vmin, peko - (1 - self._k) * base_min)

DuelingQ/100420231254, entrainé avec k=1e-4

reward 2

reward = - self._p_c * abs(tint - tc) + peko - (1 - self._k) * base_min
if tint > tc + vmax and peko >= base_max:
    reward = peko - (1 - self._k) * base_max
if vmin <= tint - tc <= vmax:
    reward = peko - (1 - self._k) * base_min

DuelingQ/100420231410, entrainé avec k=1e-4

reward 3

lorsqu'on est dans la zone de confort :

si _k est nul, ramène reward à zéro et annule la pénalité hystérésis, sauf si on a a mieux bossé que la baseline
si _k vaut 1, donne toujours un bonus égal au pourcentage d'énergie économisé par rapport à un chauffage permanent à la puissance max = la récompense utilisée pour ts les entrainements en mode DDQN simple, sans aucune baseline

reward = - self._p_c * abs(tint - tc)
if tint > tc + vmax and peko >= base_max:
    reward = peko - (1 - self._k) * base_max
if vmin <= tint - tc <= vmax:
    reward = peko - (1 - self._k) * base_min
    if peko < base_min:
        reward = self._k * peko

DuelingQ/0904201231019, entrainé avec k=1
DuelingQ/0904201231139, entrainé avec k=0.5
DuelingQ/0904201231443, entrainé avec k=1e-4
PERDuelingQ/090420231833, entrainé avec k=1e-4, très très moyen, à se demander si j'ai bien codé le PER
DuelingQ/100420231100, entrainé avec k=1e-4 et mean_prev=True, ie en remplacant text par la moyenne des prévisions météo jusqu'au changement d'occupation

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

reward function design #19

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

reward function design #19

Uh oh!

Uh oh!

alexandrecuer Apr 11, 2023 Maintainer

NOTA : le code ne permet pas de donner à k la valeur 0, il suffit de prendre un k très petit comme 1e-4

reward 1

reward 2

reward 3

Replies: 0 comments

alexandrecuer
Apr 11, 2023
Maintainer