Aunque no hay una cifra exacta, lo normal es que un bebé humano tarde 10 o más meses en empezar a dar sus primeros pasos. No esta mal, teniendo en cuenta que la esperanza de vida media de un español es de unos 83 años, pero no tiene nada que ver con lo que ha conseguido un robot de cuatro patas con IA de Google, que ha sido capaz de aprender a andar por sí solo en cuestión de un par de horas.
Así lo explican los investigadores en un artículo publicado en arXiv (PDF), donde explican cómo usaron aprendizaje por refuerzo profundo (Deep RL) para desarrollar un sistema de aprendizaje automático de locomoción en el mundo real. Para ello, desarrollaron un marco de aprendizaje multitarea, o lo que es lo mismo, los algoritmos se diseñaron no solo para que el robot caminase hacia delante, sino también hacia atrás o hacia los lados en función de la circunstancia.
Anda, se cae y se levanta solo
Por norma general, cuando se implementa un algoritmo de aprendizaje por refuerzo se necesita cierta intervención humana que devuelva el dispositivo hasta la posición inicial. En el caso del robot, si intenta levantarse y se cae, una persona tiene que levantarlo y volver a ponerlo bien para que lo intente de nuevo. Lo interesante del estudio de Google es que el robot lo hace todo solo, aprendiendo por sí mismo todas las pautas necesarias.
Además, cuando se usa aprendizaje por refuerzo, por norma general, se genera una simulación que simula, valga la redundancia, el comportamiento del robot en el mundo real en un escenario virtual. Así se entrena al algoritmo que, posteriormente, se implementa en el dispositivo final. Google, sin embargo, prefirió obviar esta fase y hacerlo todo en el propio dispositivo.
El motivo es que hay muchas variables que simular, pero principalmente el terreno. No es lo mismo simular una pisada en un terreno de madera o piedra que en un colchón o una superficie más blanda, así que en su lugar llevaron la simulación al plano físico, cambiando la superficie donde se entrenaba el robot para ver si era capaz de adaptarse solo.
La superficie total era de 5x2 metros y el robot tenía que aprender a quedarse dentro de los límites y a maniobrar. Dicho de otra forma, si el robot llegaba al borde entendía que tenía que moverse en dirección contraria para volver a la zona habilitada, aprendiendo de paso a ir marcha atrás. A eso es a lo que se refieren con "marco de aprendizaje multitarea".
El problema estaba en que el robot se caía (porque estaba aprendiendo, después de todo), teniendo que intervenir una persona para ponerlo de nuevo en posición. La solución fue implementar un algoritmo de recuperación que permitiera al robot mover las patas para volver a ponerse de pie. En una sola sesión de entrenamiento, el robot volcó 33 veces y se cayó otras 16, pero en todas se recuperó solo. De no tener el marco de aprendizaje multitarea, se habría salido del espacio de trabajo en 40 ocasiones, por lo que se puede decir que la idea funcionó.
El resultado fue que el robot aprendió a andar en solo dos horas en terreno plano, un colchón de espuma viscoelástica y una superficie agrietada. Como dato curioso, una vez "adquirido" este "conocimiento", el robot se pudo conectar a un mando de consola para moverlo manualmente en cualquier dirección. Esto abre la puerta a robots más inteligentes que aprendan más por sí solos, aunque por el momento es solo una prueba de laboratorio.
Vía | MIT Technology Review
Ver 7 comentarios