[Tarea 4] 6.2 Como construir un policy apartir de Q-Learning

Hola. Que para la 6.2 use QLearning como me dijeron en un issue anterior y funciono bastante bien. Lo que quería preguntar es que una vez que ya tengo mi q entrenado, ¿Debería construir una policy a partir de Q? ¿O puedo entregar el agent inmediatamente a partir de Q? ¿Que recomiendan?