Ayer muchos respiramos aliviados tras comprobar que al menos de momento las máquinas no son del todo imbatibles. Tras perder las tres primeras partidas de las cinco programadas -y por tanto, el encuentro global- Lee Sedol se recompuso y pudo vencer a AlphaGo, el programa desarrollado por Google DeepMind que ha maravillado al mundo por su capacidad para lograr jugar de una forma casi perfecta a un juego tan singular como el Go, algo que parecía improbable en al menos otra década.
La victoria de Sedol fue toda una sorpresa tras los tres primeros encuentros, pero lo que más se comenta es cómo AlphaGo pareció equivocarse en un momento cumbre de la partida. El ahora célebre movimiento 79 de AlphaGo en aquella partida ha sido considerado como un error que no es propio de una máquina, sino más bien de un jugador principiante de Go. ¿Qué ha podido ocurrir?
La máquina (aún) no es perfecta
En GoGameGuru analizaban esa partida y explicaban como Sedol había modificado de forma radical su forma de jugar contra AlphaGo frente a las partidas anteriores. En el movimiento 78 ejecutó lo que se conoce como un "tesuji",un movimiento especialmente inteligente que revelaba una táctica que por alguna razón AlphaGo no entendió y a la que respondió de forma extraña .
De hecho, explicaban en ese análisis, el tesuji de Sedol no era un movimiento normal y corriente, sino un movimiento "exquisito" que ni siguiera la mayoría de jugadores profesionales hubieran visto durante la partida.
Lo curioso de la situación es que AlphaGo no cometió solo ese error: tras fallar en su respuesta siguió cometiendo errores que parecían derivados de ese primer fallo, haciendo que su situación fuese empeorando y la de Sedol, que aprovechaba gradualmente esa ventaja, acabara ganando la partida.
¿Qué falló en AlphaGo?
Los propios responsables de DeepMind no podían explicar qué podía haber pasado y confesaron que tendrían que esperar a volver al Reino Unido tras la partida para volver a analizar el problema en detalle. Según los expertos que analizaban la partida, algo falló en la parte de los algoritmos del Método de Montecarlo de AlphaGo.

Este método forma parte de las técnicas de aprendizaje por refuerzo, una parte del aprendizaje automático en la que se maximiza la "recompensa" -en este caso, ganar la partida-. En este tipo de aprendizaje, como explica la Wikipedia, "el aprendizaje por refuerzo es especialmente adecuado para los problemas que incluyen un razonamiento a largo plazo frente a uno a corto plazo".
En HackerNews también debatían sobre el problema que tuvo AlphaGo y uno de los que allí comentaba explicaba que este "es un problema clásico de los agentes entrenados con aprendizaje por refuerzo: tras cometer un error inicial -tanto si es un accidente como debido al ruido, etc- el agente llega a un estado con el que no está familiarizado, así que comete otro error, cavando un hoyo aún más profundo: los errores continúan sumándose unos a otros". Aún así, admitía este usuario, también pudo pasar que AlphaGo simplemente decidiera arriesgar mucho más para tratar de recuperar el terreno perdido.
Pequeñas victorias, grandes derrotas
En esa parte de su inteligencia artificial es posible descartar los movimientos más eficientes, y ese objetivo de estos algoritmos -los de maximizar la probabilidad de ganar- acaban llevando a extremos: o la máquina gana por poco, o pierde de forma desastrosa.

"Cuando el ordenador va por detrás, asume riesgos al intentar igualar la partida, en algunos casos con jugadas muy arriesgadas que hacen que sea más fácil eliminarlos de la partida", explicaban estos expertos, que señalaban como la forma de jugar de AlphaGo hace que los movimientos que llevan a la victoria suman poco a poco, pero si una derrota está próxima se toman riesgos que pueden hacer que esta sea especialmente importante.
Queda por ver qué es lo que ocurrirá en la quinta y última partida que se celebrará mañana en Seúl, pero los analistas creen que será difícil que una situación de este tipo se repita porque movimientos como el tesuji de Sedol son raras excepciones. Los interesados podéis asistir a la emisión en directo de la partida en YouTube en la madrugada del lunes al martes a las 04:30.
En Xataka | Google tiene la tecnología para que la máquina por fin supere al hombre en el Go
Ver 10 comentarios
10 comentarios
jmc123
Buenas.
El movimiento 78 de Lee fue increíble y todos los profesionales estuvieron de acuerdo en que fue el movimiento ganador.
Lo que ocurrió después, en torno al movimiento 87 es que AlphaGo fue capaz de ver lo que había ocurrido 9 movimeintos atrás, y como comenta el CEO de DeepMind, su probabilidad de victoria (acorde a su algoritmo) decreció drásticamente.
Desde ese momento, AlphaGo se comportó como el Bot basado en Montecarlo que es, y jugó a buscar el fallo de Lee en lugar de intentar recuperar la ventaja maximizando puntos. Hay que notar que esto le ocurre a todos los bots basados en montecarlo, no sólo a AlphaGo.
Respecto a que parece improbable que Lee gane la 5 partida, no me atrevería a decir nada. El cambio radical de estilo en su juego parece hacer notar que conoce las debilidades del Bot. Parece algo trivial y arbitrario, pero lo que hizo podría ser comparado como si el Barcelona de Guardiola hubiera jugado al contrataque por placer.
No es su estilo y no es el más fuerte en este tipo de partidas y aun así, pudo ganar esa partida. Parece estúpido alegrarse de una victoria sobre cuatro, pero la realidad es que no es sólo una victoria, es encontrar una estrategia ganadora. De hecho, me atrevería a decir, que si Lee gana la partida de mañana, probablemente sea capaz de ganar al Bot casi siempre.
Ahora, no hay que quitar mérito a DeepMind, han hecho un trabajo increible, y lo que se creía imposible hace 2 meses se ha hecho realidad, un ordenador a ganado a un profesional top en un duelo igualado.
Pero tampoco hay que infravalorar lo que Lee ha conseguido, perdiendo tres partidas, con una presión que él mismo calificó de insoportable y con todo el peso del mundo del Go a sus espaldas, consiguió encontrar una grieta en el sólido juego de AlphaGo. Y como sabréis, las grietas en algoritmos, no son algo puntua
SpaceWorm
Por lo que tengo entendido, el método de Monte Carlo no es más que un método bruto de hacer millones y millones de intentos.
Ahora, DeepBlue (el que jugaba y ganó al ajedrez) funcionaba a base de fuerza bruta, es decir que calculaba todas las posibles jugadas y finalmente decidía la mejor tras haberlas analizado todas. Monte Carlo puro y duro.
AlphaGo, en cambio, tengo entendido que debido a la imposibilidad de llevar acabo el mismo tipo de juego en base a la fuerza bruta en el Go, se decidió utilizar un método de inteligencia artificial de aprendizaje y por tanto necesario de entrenamiento, por lo que lo único que se me ocurre, es que cuando se refieren al fallo en al parte de los algoritmos de Montecarlo, imagino que se refiere al proceso de entrenamiento. Es decir, que lo entrenaron mal.
De qué sirve tanta IA si luego la lías a la hora de enseñarle?
Es lo que tengo entendido, a ver si algún experto en IA nos lo aclara.
aps
jmc123: "ha ganado", por lo demás buen comentario
c4x30x
creo que alphago ganara mañana 4 - 1 es un gran resultado para google
Luis
He leido en ars techinica que alphago gano 3-0 ¿de quien me fio?