¿Puede un algoritmo explorar entornos complejos o, en cambio, hay que dárselo todo mascado? Es decir, ¿Podemos entrenar sistemas de inteligencia artificial para que tomen decisiones explorando y comprendiendo entornos complicados y para que aprendan a adquirir recompensas de manera óptima? Esa es la pregunta que Adrien Ecoffet, Joost Huizinga y sus colegas llevan años tratando de responder y la verdad es que es una pregunta compleja.
Por suerte, tenemos videojuegos.
Algoritmos vs videojuegos
Y es que, si lo pensamos un momento, los videojuegos son un marco fantástico para entrenar inteligencias artificiales en este tipo de decisiones (y de probar que metodología funciona mejor): tienen todo lo necesario para aprender en entornos sucesivamente más complejos, permiten establecer recompensas basadas en llegar a una ubicación específica o completas un nivel en un videojuego y, de hecho, suponen un reto incluso para los humanos mismos.
Ecoffet y su equipo trabajan con algoritmos de aprendizaje por refuerzo y decidieron probar sus nuevos enfoques con los videojuegos clásicos de Atari. Concretamente, 'Montezuma's Revenge' y 'Pitfall'. No es solo un arrebato de nostalgia, es que los juegos de Atari 2600 se han convertido en un 'estándar dorado' para este tipo de sistemas. Sin ir más lejos, hasta ahora, los algoritmos conseguían modestas puntuaciones en el primero y fracasaban miserablemente en el segundo: no conseguían ni un solo punto.
La familia de algoritmos que desarrolla el equipo de Ecoffet (llamada Go-Explore) cambia el asunto, según acaba de publicar la revista Nature. La idea es que los GO-Explore pueden explorar entornos en profundidad y crear un archivo para ayudarlos a recordar dónde han estado, asegurándose de no olvidar la ruta hacia una etapa intermedia prometedora o un resultado exitoso.
Y con esas herramientas, los algoritmos de Go-Explore cuadriplican las puntuaciones anteriores en 'Montezuma's Revenge' y supera el rendimiento humano promedio en 'Pitfall' (donde, como ya decía, los algoritmos anteriores no lograron obtener ningún punto).
Tras este éxito, y siempre según los datos de 'Nature', los investigadores han aplicado los mismos algoritmos a tareas robóticas que simulan recoger y colocar objetos con un brazo robótico (en ubicaciones aisladas detrás de puertas con cerrojo). Y es una buena noticia porque aún queda mucho para que una IA pueda ganarnos en Fornite, el mero hecho de que lo hagan en juegos de 1982 es síntoma de que pronto lo harán (y que eso tiene interesantes aplicaciones prácticas).
Imagen | Atari - Vijoy Rao
Ver 3 comentarios