Describir con todo lujo de detalles una imagen: el nuevo desafío de la IA de Google

Sabíamos que el análisis de imágenes de Google era bueno. Si nos vamos a Google Fotos y por ejemplo ponemos la palabra 'perro", nos devolverá todas las fotos donde salga uno. Y si escribimos árbol, pizza o coche lo mismo. Google también es capaz de identificar personas, pero por motivos de privacidad no sirve únicamente escribiendo el nombre.

Desde hace años, también existe la búsqueda inversa de imágenes donde podemos colocar una foto y nos busca imágenes similares. Pero es solo la punta del iceberg de lo que Google es capaz de identificar y analizar en una imagen.

En Xataka

Google Fotos: 32 trucos (y algún extra) para exprimir al máximo la gestión de tus fotos

Open Images incorpora "narrativas localizadas"

Para entrenar sus algoritmos, Google dispone de Open Images, una enorme base de datos donde guarda imágenes con anotaciones y las utiliza para que sus redes neuronales "practiquen". En total, casi 60 millones de imágenes diferenciadas en unas 20.000 categorías.

Su primera versión llegó en 2016 y este mes de febrero se ha presentado Open Images V6, una nueva versión que añade una nueva capa de análisis para poder entender mejor qué hay presente en cada foto. Inicialmente eran anotaciones, descripciones como "un coche rojo" o "una guitarra". Pero con el paso del tiempo se ha ido mejorando la base de datos para que el algoritmo pueda trabajar con niveles de información más profundos.

Un total de 9 millones de imágenes contienen anotaciones, con 36 millones de niveles y etiquetas. En esta sexta versión, el set de imágenes de Google ha expandido las anotaciones asociadas y presenta lo que llaman "narrativas localizadas". Se trata de una nueva forma de información contextual de la imagen, con texto y una voz sincronizada que va describiendo la foto a medida que un cursor se mueve por el archivo.

Google explica que dispone de más de 500.000 imágenes con esta nueva narrativa. Una base suficiente grande como para ir entrenando su algoritmo y ser capaz en un futuro de que el algoritmo de Google haga algo similar con otras imágenes. En el vídeo que os dejamos a continuación se aprecia cómo funciona.

La voz empieza describiendo el centro de la imagen, con los colores, la ropa y el tipo de objetos que lleva. Estas narrativas localizadas son generadas por anotadores que ofrecen una descripción identificando la posición de cada objeto en la imagen y relacionándolos con un gesto del cursor. El objetivo es intentar que la IA de Google tenga una base de datos sobre la que trabajar, pudiendo tener una idea clara de dónde está situado cada objeto.

Estructurando los objetos de la imagen a través de voz, texto y un cursor

Anteriormente, cuando el algoritmo de Google trabajaba con fotos de "un perro" este sabía dónde estaba situado ya que sabe diferenciar el animal de lo que es el cielo o la tierra. Sin embargo, si hablamos de la "oreja del perro" o el "gorro naranja", la posición exacta es más complicada. Además de no tener una estructura clara de dónde está situada cada cosa. Con estas narrativas localizadas, Google tiene una herramienta para especificar mejor a su algoritmo qué es cada cosa.

Para que las descripciones sean lo más accesibles posibles y estructuradas, los anotadores transcriben manualmente su descripción y la relacionan con distintos colores. Esto permite generar "zonas" dentro de la imagen y además tener un texto para describir la foto. Google tiene por tanto una foto, una voz que describe la imagen, un texto y un rastreo del ratón; varios elementos que de manera sincronizada permiten a Google tener una descripción bastante precisa de lo que hay en la foto.

Una de las limitaciones de las descripciones o categorías a secas es que es difícil generar un enlace directo entre lo que es la visión y el lenguaje. El subtítulo puede ser muy específico, pero Google no tenía ninguna herramienta para especificar a qué objeto se refería en cada palabra. Ahora con la combinación de estas narrativas localizadas Google por fin tiene un punto de partida para afinar, todavía más, su entendimiento de las imágenes.

Con la última versión de Open Images, la base de datos de Google trabaja con conceptos tan específicos como "un hombre haciendo skateboard", un "hombre y una mujer dándose una mano, saltando y riendo" o "un perro atrapando un disco". Porque esta diferencia es muy relevante para ofrecer la imagen más apropiada en cada momento.

Según los datos de Open Images V6, se incluyen más de 2.5 millones de anotaciones de humanos realizando acciones independientes como "saltar", "sonreír" o "tumbarse". Para que cuando le preguntemos sobre qué hay en una imagen no solo sepa decirnos si hay un hombre o un animal, también detalles tan especificos como la acción que está haciendo, si la chaqueta le viene grande, de qué color es el zapato o todo tipo de detalles.

Porque la base de datos sobre la que trabaja la IA de Google está creada por humanos, pero cuanto más precisos sean estos datos, mejor resultado logrará producir el algoritmo.

Imágenes | Google Blog AI