Etiquetas

, , , ,

Artículo publicado por Elizabeth Gibney el 27 de enero de 2016 en Nature News

El software de aprendizaje profundo derrota por primera vez a un profesional humano.

Un computador ha derrotado por primera vez a un profesional humano en el juego del Go — un antiguo juego de tablero que durante mucho tiempo se ha visto como uno de los mayores desafíos a la inteligencia artificial (IA).

Los mejores jugadores humanos de ajedrez, damas y backgammon ya habían sido derrotados por computadores. Pero era necesario darle una considerable ventaja a los ordenadores para que ganasen al Go. Ahora, una compañía de Google de Inteligencia Artificial con sede en Londres, DeepMind, afirma que su máquina ha logrado dominar el juego.

Go stones on go board

Tablero de Go

El programa AlphaGo de DeepMind derrotó a Fan Hui, campeón europeo de Go, cinco veces en cinco partidas en condiciones de torneo, según reveló la forma en una publicación en Nature el 27 de enero1. También derrotó a sus rivales de silicio, ganando el 99,8% de sus enfrentamientos contra los mejores programas actuales. El programa aún tiene que jugar en el equivalente al campeonato del mundo de Go, pero tiene previsto un encuentro contra el profesional surcoreano Lee Sedol, considerado por muchos como el mejor jugador del planeta, el próximo marzo. “Tenemos mucha confianza”, señala el cofundador de DeepMind Demis Hassabis.

“Éste es un resultado realmente grande, es descomunal”, comenta Rémi Coulom, programador en Lille, Francia, que diseñó un programa comercial de Go llamado Crazy Stone. Pensaba que el dominio computacional del juego estaba a una década vista.

El ordenador de ajedrez de IBM, Deep Blue, que derrotó en un famoso enfrentamiento al gran maestro Gary Kasparov en 1997, fue explícitamente programado para ganar esta disputa. Pero AlphaGo no estaba preprogramado para jugar al Go: en lugar de esto, aprendió usando un algoritmo de propósito general que le permitía interpretar los patrones del juego de una forma similar a la que el programa DeepMind aprendió a jugar a 49 juegos distintos de tipo arcade2.

Esto significa que podría aplicarse una técnica similar a otros dominios de la IA que requieren reconocimiento de patrones complejos, planificación a largo plazo, y toma de decisiones, explica Hassabis. “Gran parte de las cosas que tratamos de hacer, en el mundo llegan bajo esta rúbrica”. Como ejemplos están el uso de imágenes médicas para realizar diagnósticos o planes de tratamiento, y mejorar los modelos de cambio climático.

En China, Japón y Corea del Sur, el Go es muy popular e incluso hay famosos profesionales del mismo, pero el juego ha interesado desde hace mucho tiempo a los investigadores en IA debido a su complejidad. Las reglas son relativamente simples: el objetivo es lograr el máximo territorio posible colocando y capturando piedras blancas y negras en un tablero de 19 × 19. Pero la partida media consta de unos 150 movimientos y contiene más posibles configuraciones del tablero — 10170 — que átomos hay en el universo, por lo que no puede resolverse mediante algoritmos que busquen exhaustivamente el mejor movimiento.

Estrategia abstracta

El ajedrez es menos complejo que el Go, pero aun así tiene demasiadas configuraciones posibles como para resolverse sólo mediante fuerza bruta. En lugar de esto, los programas podan sus búsquedas analizando sólo unos pocos movimientos futuros y juzgando qué jugador tendría mejor posición. En el Go, reconocer las posiciones de victoria y derrota es mucho más difícil: las piedras tienen valores iguales y pueden tener un sutil impacto en puntos alejados del tablero.

Para interpretar los tableros de Go y aprender los mejores movimientos posibles, el programa AlphaGo aplicó el aprendizaje profundo en redes neuronales — programas inspirados en el funcionamiento del cerebro con conexiones entre capas de neuronas simuladas que son reforzadas mediante ejemplos y experiencia. Inicialmente estudió 30 millones de posiciones procedentes de partidas entre expertos, consiguiendo una información abstracta sobre el estado del juego a partir de los datos del tablero, de forma similar a como otros programas categorizan imágenes a partir de los píxeles. Luego jugó contra él mismo en 50 ordenadores, mejorando con cada iteración, una técnica conocida como aprendizaje por refuerzo.

El software ya era competitivo respecto a los principales programas comerciales de Go, que seleccionan el mejor movimiento buscando en una muestra de futuros juegos simulados. DeepMind combinó entonces este enfoque de búsqueda con la capacidad de elegir movimientos e interpretar tableros de Go — dando a AlphaGo una mejor idea de qué estrategia es probable que tenga éxito. La técnica es «fenomenal», dice Jonathan Schaeffer, científico de la computación en la Universidad de Alberta en Edmonton, Canadá, cuyo software Chinook resolvió3 el juego de las damas en 2007. En lugar de seguir la tendencia de los últimos 30 años, tratando de vencer en estos juegos usando la potencia de cálculo, DeepMind ha invertido la tendencia hacia tratar de imitar el conocimiento humano, entrenándose más que siendo programado, comenta. La hazaña también demuestra la potencia del aprendizaje profundo, que va de un éxito a otro, explica Coulom. “El aprendizaje profundo está acabando con todos y cada uno de los problemas de la IA”.

AlphaGo juega de una forma humana, señala Fan. “Si nadie me lo hubiese dicho, tal vez pensaría que el jugador es un poco extraño, pero uno muy bueno, una persona real”. El programa parece haber sido desarrollado para un estilo conservador (en lugar de agresivo), añade Toby Manning, un veterano jugador de Go que actuó como árbitro en la partida.

La firma rival de Google, Facebook, también ha estado trabajando en un software que usa el aprendizaje máquina para jugar al Go. Si programa, llamado darkforest, aún está lejos sistemas comerciales de última generación que juegan al Go, de acuerdo con un borrador publicado en noviembre4.

Hassabis dice que aún quedan muchos desafíos en el objetivo de DeepMind por desarrollar un sistema de IA generalizado. En particular, sus programas aún no pueden transferir útilmente su aprendizaje de un sistema — como el Go — a nuevas tareas; una hazaña que los humanos realizan continuamente. “No tenemos idea de cómo hacer esto. Aún no”, explica Hassabis.

Los jugadores de Go estarán deseosos de usar el software para mejorar su juego, señala Manning, aunque Hassabis dice que DeepMind aún tiene que decidir si creará una versión comercial.

AlphaGo no ha acabado con la diversión del juego, señala Manning. El eslogan que dice que el juego del Go es uno al que los computadores no pueden ganar, es algo que tiene que cambiarse, apunta. “Pero sólo porque algún software haya llegado a un nivel con el que yo ni siquiera puedo soñar, no significa que vaya a dejar de jugar”.

Referencias

1.- Silver, D. et al. Nature 529, 484–489 (2016).
2.- Mnih, V. et al. Nature 518, 529–533 (2015).
3.- Schaeffer, J. et al. Science 317, 1518–1522 (2007).
4.- Tian, Y. & Zhu, Y. Borrador en arXiv http://arxiv.org/pdf/1511.06410.pdf (2015).