Reinforcement Learning · Interactive Demo

¿Puede un Agente RL Quedar Atrapado en un Ciclo Infinito?

Observa cómo una política mal diseñada atrapa al agente para siempre, y cómo la detección de ciclos lo rescata.

🔴
Sin Protección
Política determinista → ciclo
Esperando
0
Pasos
0
Recompensa
0
Repeticiones
🟢
Con Detección de Ciclos
Detecta repetición → explora
Esperando
0
Pasos
0
Recompensa
0
Escapes

¿Qué está pasando?

Un agente de Reinforcement Learning tiene una política que le dice qué acción tomar en cada estado. Si la política es mala, puede hacer que el agente repita las mismas acciones indefinidamente sin llegar a la meta.

En este ejemplo, el grid es 3×3 con un muro en el centro. El agente 🤖 empieza en (0,0) y debe llegar al trofeo 🏆 en (2,2). La política mala le dice que vaya ← desde (1,2), pero el muro lo bloquea, así que se queda atrapado repitiendo la misma acción.

🔁
El Problema Política determinista sin exploración = ciclo infinito garantizado ante un error.
🛡️
Max Steps Limitar episodios a N pasos máximo. Lo más simple y esencial.
🔍
Detección de Ciclos Contar visitas a estados y forzar exploración al detectar repetición.
🎲
ε-Greedy Con probabilidad ε, tomar acción aleatoria en vez de la que dice la política.