No me queda claro cómo debo hacer el gráfico en la parte de aprendizaje reforzado. Dice que se debe graficar la recompensa en el tiempo, pero esto significa que en el eje x deberían ir los episodios, y en el eje y la recompensa de cada episodio? u otra configuración que tenga que ver con el tiempo?
No me queda claro cómo debo hacer el gráfico en la parte de aprendizaje reforzado. Dice que se debe graficar la recompensa en el tiempo, pero esto significa que en el eje x deberían ir los episodios, y en el eje y la recompensa de cada episodio? u otra configuración que tenga que ver con el tiempo?