RL Cycle Demo — Agente Atrapado

🔴

Sin Protección

Política determinista → ciclo

Esperando

Pasos

Recompensa

Repeticiones

Velocidad: 350ms

🟢

Con Detección de Ciclos

Detecta repetición → explora

Esperando

Pasos

Recompensa

Escapes

Velocidad: 350ms

¿Qué está pasando?

Un agente de Reinforcement Learning tiene una política que le dice qué acción tomar en cada estado. Si la política es mala, puede hacer que el agente repita las mismas acciones indefinidamente sin llegar a la meta.

En este ejemplo, el grid es 3×3 con un muro en el centro. El agente 🤖 empieza en (0,0) y debe llegar al trofeo 🏆 en (2,2). La política mala le dice que vaya ← desde (1,2), pero el muro lo bloquea, así que se queda atrapado repitiendo la misma acción.

🔁

El Problema Política determinista sin exploración = ciclo infinito garantizado ante un error.

🛡️

Max Steps Limitar episodios a N pasos máximo. Lo más simple y esencial.

🔍

Detección de Ciclos Contar visitas a estados y forzar exploración al detectar repetición.

🎲

ε-Greedy Con probabilidad ε, tomar acción aleatoria en vez de la que dice la política.

¿Puede un Agente RL Quedar Atrapado en un Ciclo Infinito?

¿Qué está pasando?