¿Puede un Agente RL Quedar Atrapado en un Ciclo Infinito?
Observa cómo una política mal diseñada atrapa al agente para siempre, y cómo la detección de ciclos lo rescata.
🔴
Sin Protección
Política determinista → ciclo
Esperando
0
Pasos
0
Recompensa
0
Repeticiones
🟢
Con Detección de Ciclos
Detecta repetición → explora
Esperando
0
Pasos
0
Recompensa
0
Escapes
¿Qué está pasando?
Un agente de Reinforcement Learning tiene una política que le dice qué acción tomar en cada estado.
Si la política es mala, puede hacer que el agente repita las mismas acciones indefinidamente sin llegar a la meta.
En este ejemplo, el grid es 3×3 con un muro en el centro. El agente 🤖 empieza en (0,0) y debe llegar al trofeo 🏆 en (2,2).
La política mala le dice que vaya ← desde (1,2), pero el muro lo bloquea, así que se queda atrapado repitiendo la misma acción.
🔁
El ProblemaPolítica determinista sin exploración = ciclo infinito garantizado ante un error.
🛡️
Max StepsLimitar episodios a N pasos máximo. Lo más simple y esencial.
🔍
Detección de CiclosContar visitas a estados y forzar exploración al detectar repetición.
🎲
ε-GreedyCon probabilidad ε, tomar acción aleatoria en vez de la que dice la política.