Leer los labios no es una tarea sencilla, quienes dicen dedicarse a ello de forma profesional garantizan resultados que van desde el 20% hasta el 60%, una variación muy grande ya que hay muchos factores que intervienen para que la lectura sea la adecuada y sirva para determinar con seguridad lo que se dijo.
Esto podría terminar en un futuro no muy lejano cuando los sistemas basados en inteligencia artificial puedan realizar esta tarea de forma automatizada, donde el deep learning juega un papel determinante al ser capaz de administrar una gran cantidad de datos y 'aprender' con el paso del tiempo. Ahora un proyecto desarrollado por la Universidad de Oxford nos acerca a esa realidad.
93,4% de precisión, pero en bajo ciertas condiciones
Un grupo de investigadores del departamento de inteligencia artificial de la Universidad de Oxford han mostrado las primeras pruebas de un sistema capaz de leer los labios, sistema en el que han trabajado los últimos años y que ahora parece dar los primeros frutos con resultados alentadores.
Se trata de un programaba basado en deep learning, que incluso cuenta con financiación por parte de Alphabet (Google), conocido como LipNet, el cual ha logrado superar a los profesionales en esta disciplina al haber obtenido 93,4% de precisión en las pruebas, mientras que los humanos sólo acertaron en el 52,3% de los casos. Esto podría sonar asombrosos si no fuera porque se trata de pruebas que contienen ciertos patrones que han hecho, que en este caso la máquina, tenga unos mejores resultados.
El sistema fue entrenado bajo un conjunto de datos de investigación conocido como GRID, los cuales contienen miles de vídeos cortos con frases sin sentido, las cuales contienen el mismo patrón: comando, color, preposición, letra, número del 1 al 10 y un adverbio. Dentro de este patrón las palabras son limitadas, por lo que algunos investigadores mencionan que los resultados de estas pruebas son exagerados y no se apegan a la realidad.
Los responsables del proyecto confirmaron que están trabajando sólo con cierto vocabulario y gramática, pero aseguran que esto hace que el sistema crezca y así puedan detectar fallos con mayor facilidad, por lo que podrán alimentar la base de datos con mayor información con el paso del tiempo.
Contrario a lo que muchos podrían pensar, este sistema no está pensado para tareas de vigilancia o espionaje, ya que según sus creadores para que el programa tenga una lectura clara necesita ver la lengua del sujeto, además de buena iluminación que destaque los labios del resto de la cara. Las primeras aplicaciones para este sistema están dirigidas hacia la ayuda a personas con discapacidad auditiva, e incluso sueñan con aplicaciones dentro de gafas inteligentes que ayuden a transcribir las palabras de otra persona en entornos ruidosos, así como funciones de dictado silencioso a asistentes personales ya sea en el móvil o dentro del ordenador.
Más información | LipNet
Ver 5 comentarios