¿Qué está ocurriendo en esta foto? A menudo la respuesta es obvia y basta con mirar la imagen, pero lograr que una máquina describa eso mismo es mucho más complicado de lo que parece.
Google ha logrado desarrollar un sistema que a través de TensorFlow puede generar esos pies de foto, y ahora ese sistema se ha publicado bajo licencia Open Source, lo que significa que si tienes la tarea de describir un buen conjunto de imágenes, podrás hacer uso de este desarrollo de forma libre.
Más preciso, más rápido, y ahora además Open Source
La tecnología del llamado Brain Team de Google es realmente notable y según sus responsables es capaz de ofrecer un 93,9% de precisión en ese proyecto llamado "Show and Tell" que hace que el motor de inteligencia artificial indique en un pequeño texto lo que ocurre en la foto.
Para lograr esa precisión se ha tenido que entrenar al algoritmo con pies de foto creados por nosotros, algo que entre otras cosas ha permitido que las descripciones sean frases bien construidas y no solo combinaciones de nombres de objetos.
El sistema es ahora mucho más rápido: antes entrenar con cada imagen requería tres segundos usando una GPU NVIDIA G20, pero en esta nueva edición liberada al Open Source ese tiempo se reduce a 0,7 segundos. Las aplicaciones prácticas son numerosas, pero hay una que es especialmente llamativa: hacer la web más accesible para todos los que no pueden ver pero sí "oír" esos contenidos. Ahora también sabrán lo que ocurre en las imágenes que se incluyen en dichos contenidos.
Más información | Google
En Xataka | Deep Learning: qué es y por qué va a ser una tecnología clave en el futuro de la inteligencia artificial
Ver todos los comentarios en https://www.xataka.com
VER 0 Comentario