"Un grupo de gente joven jugando al frisbee". Ése es uno de los muchos pies de foto que la imagen que os dejamos sobre estas líneas podría llevar en cualquier artículo. ¿Qué tiene de especial? En este caso no ha sido un humano el que lo ha escrito, sino un software especial diseñado por Google y un grupo de investigadores de la Universidad de Standford que es capaz de identificar escenas en una fotografía.
¿Cómo funciona el algoritmo que han utilizado? En primer lugar, analiza automáticamente cada imagen y sobre ella identifica objetos, acciones y colores. A cada elemento o región se le asocia una mayor importancia en función de su tamaño y posición en la foto. Por ejemplo, si en una foto se ve a una mujer con una raqueta en la mano jugando al tenis, destacaría la mujer, el vestido blanco que lleva y, sobre todo, la raqueta y el hecho de que esté jugando al tenis, como puede verse en la imagen que os dejamos a continuación:
Una vez el software ya sabe lo que hay en la imagen, llega la parte difícil: generar una descripción de ella que tenga sentido. Para ello han implementado un sistema de inteligencia artificial basado en una red neuronal recurrente a la que han entrenado tanto para reconocer imágenes como para describir lo que está ocurriendo en ellas.
Sí, habéis leído bien, "entrenado". Ésta es precisamente una de las ventajas de las redes neuronales: poseen una fase de aprendizaje. En este caso, se le mostraron pequeños conjuntos de imágenes con la descripción escrita por un humano. Una vez el software ya adquirió las capacidades deseadas, lo aplicaron a otras imágenes hasta entonces desconocidas para ver los resultados.
En la siguiente foto podemos ver un ejemplo de su funcionamiento. En verde aparece la descripción que le daría una persona, en rojo la descripción más parecida que se puede obtener del grupo de imágenes de entrenamiento que se utilizó para el programa y, en morado, el texto final que devuelve la red neuronal, que en este caso es bastante exacto.
Sin embargo, el modelo propuesto no es infalible. Por ejemplo, dice que una cometa verde que surca un cielo soleado es realmente "un hombre volando por el aire en snowboard" o que unos elefantes en un barrizal están "atravesando un campo de hierba seca". Para solucionar estas inexactitudes, tienen pensado "entrenar" al software con conjuntos más grandes de imágenes. Pese a ello, con otras fotografías sí que consiguieron resultados bastante exactos.
Los programas de reconocimiento de imágenes no son nuevos, pero hasta ahora han tenido una aproximación distinta a la que proponen estos investigadores e ingenieros de Google. En lugar de centrarse en verbos o en acciones, se habían centrado en detectar objetos concretos (como por ejemplo una persona o un coche). El modelo que proponen en Standford quiere imitar precisamente la percepción humana, que es capaz de poner en contexto lo que está ocurriendo en una fotografía y no sólo quedarse en lo que sale en ella.
Más información | Standford
Vía | NY Times
En Xataka | Facebook está cerca de no fallar al reconocerte en fotos
Ver todos los comentarios en https://www.xataka.com
VER 9 Comentarios