Que una inteligencia artificial juegue a videojuegos no es algo nuevo. Aunque sea todo un hito de la tecnología, la realidad es que ya hemos visto a máquinas jugar a 'Go', 'Starcraft I'I y hasta juegos de Atari, pero lo último de Google va más allá. Y es que DeepMind, el laboratorio de inteligencia artificial de los de Mountain View, ha anunciado SIMA, una inteligencia artificial que no solo juega, sino que entiende el lenguaje natural para saber qué tiene que hacer.
Antes vs. ahora. Hasta el momento, las inteligencias artificiales que jugaban a videojuegos jugaban a un videojuego, véanse los ya mencionados 'Go' o 'Starcraft II'. Una IA, un juego. La clave de SIMA (siglas de Scalable Instructable Multiworld Agent) es que puede aprender a jugar a, virtualmente, cualquier título. Tal y como explican desde Google, es la primera vez que un agente de IA demuestra poder entender una "amplia gama de mundos de juego" y seguir "instrucciones en lenguaje natural para realizar tareas en ellos". El informe técnico está disponible aquí (PDF).
"Pica piedra, tala árboles". Para entrenar a SIMA, DeepMind ha colaborado con ocho estudios de videojuegos y usado nuevo títulos diferentes, como 'No Man's Sky', 'Satisfactory', 'Goat Simulator 3' o 'Valheim'. Cada juego es un mundo e implica acciones diferentes que se llevan a cabo de formas diferentes. El objetivo era captar cómo el lenguaje se relaciona con el comportamiento dentro del juego.
Para ello, el laboratorio adoptó dos enfoques. En primer lugar, grabaron a parejas de jugadores humanos. Uno jugaba y el otro observaba y le daba instrucciones. En segundo lugar, hicieron que los jugadores jugaran libremente para que, posteriormente, revisaran la partida y se grabasen dando las instrucciones que habrían llevado a ejecutar las acciones realizadas en el juego.
Entender y hacer. Según explican desde Google, SIMA se basa en un modelo imagen-lenguaje y en otro modelo de vídeo que predice lo que va a ocurrir en pantalla. La IA no necesita acceder al código fuente ni a herramientas externas para funcionar, sino que solo necesita dos entradas: la imagen de la pantalla e instrucciones dadas en lenguaje natural por el usuario. Para el input usa teclado y ratón, lo que permite a la IA "interactuar potencialmente con cualquier otro entorno virtual".
Comandos básicos que pueden ir a más. Actualmente, SIMA es evaluada en 600 habilidades básicas, entre las que se encuentran el movimiento, la interacción con objetos y el uso de menús. Por ejemplo, se le puede decir a la IA que tale árboles, recoja agua o salte una valla y, según Google, es capaz de hacerlo en diez segundos. Es una cifra alta, por supuesto, pero impresionante en cualquier caso teniendo en cuenta lo que está pasando.
A mayores, la intención es que la IA sea capaz de llevar a cabo acciones que requieran una planificación mayor e impliquen más subtareas. No es lo mismo talar árboles que montar un campamento. El objetivo es poder hacer eso: decirle a la IA que nos lleve a X planeta y que la IA sepa que debe abrir el minimapa, buscar la nave, marcarla, ir hacia ella, montarse y ejecutar todos los comandos que, normalmente, haría un jugador humano. Ojalá poder ponerla a farmear oro en segundo plano algún día.
Posibles implicaciones. Aunque SIMA todavía está en una fase inicial y requiere más investigación y desarrollo, lo cierto es que el fin no es crear una IA capaz de plantar la Spike y defender larga pickeando el píxel con la Vandal. La investigación está orientada hacia sistemas más generales, "capaces de comprender y realizar con seguridad una amplia gama de tareas de forma útil para las personas en línea y en el mundo real", según Google. Tiempo al tiempo.
Imagen | Generador de imágenes de Bing
Ver 1 comentarios