Hola. Que lo que ocurre es que en un value iteration uno itera por sobre todos los posibles estados. Pero, lo que ocurre es que tenemos infinitos estados debido a que 'cart velocity' y 'pole velocity at tip' van desde menos infinito hasta más infinito. No sé si me podrían explicar cómo superar este problema. ¿Elijo unos rangos por donde elegir estados? ¿Como lo harían ustedes?
Hola. Que lo que ocurre es que en un value iteration uno itera por sobre todos los posibles estados. Pero, lo que ocurre es que tenemos infinitos estados debido a que 'cart velocity' y 'pole velocity at tip' van desde menos infinito hasta más infinito. No sé si me podrían explicar cómo superar este problema. ¿Elijo unos rangos por donde elegir estados? ¿Como lo harían ustedes?