El equipo de la división de Inteligencia Artificial e Investigación de Microsoft acaba de publicar un documento en el que asegura haber alcanzado un gran hito en el reconocimiento del habla conversacional. Según los investigadores, su sistema de reconocimiento de voz alcanzó una tasa de error del 5,9%, cifra que está a la par de las capacidades humanas. O, dicho de otro modo, actualmente existen máquinas que transcriben como nosotros.
La tasa de error reportada por los investigadores de Microsoft, es equivalente a la de una persona capaz de transcribir la misma conversación. Además, es la más baja registrada en los proyectos de reconocimiento de voz de toda industria.
¿Y eso en qué nos afecta? Más allá del logro en sí, este paso facilita enormemente que el ser humano pueda comunicarse y hasta conversar con los ordenadores, ofreciendo no solo nuevos niveles de interacción sino también posibilidades tanto para uso diario como para las personas con dificultades localizadas. Así mismo, este es un paso importante para Microsoft, pues ya estaría en la capacidad de desarrollar robustos asistentes personales para competir con Google Home o Alexa de Amazon.
Este nuevo logro llega apenas un mes después de que la compañía de Redmond reportara un récord mundial en este tipo de tareas, alcanzando una tasa de error del 6,3%.
El objetivo final de Microsoft

Aunque este nuevo logro alcanzado por la compañía ha sido catalogado como histórico, Engadget asegura que el equipo de Inteligencia Artificial de Microsoft está trabajando para obtener un funcionamiento óptimo de su sistema de transcripción en situaciones de la vida cotidiana, como cuando hay mucho ruido en el ambiente y el reconocimiento de voz se puede complicar.
De igual manera, la compañía estaría contemplando la posibilidad de transcribir discursos producidos por varias personas a la vez, lo que sería muy interesante, pues el ordenador podría reconocer lo que dicen grandes grupos de usuarios por separado.
Vía | Microsoft
Ver 24 comentarios
24 comentarios
Ekalpe
Pisha... lan probao en Caí?
francisco.rodrigueze
Hace rato los ordenadores transcriben con muy buena precisión lo que les decimos, el reto está en que no nos contesten estupideces lo que es muy muy frecuente
pabloj
Cortana ya te suelta alguna que otra cosa que te quedas muy "¡muérete Skynet!" xD
prxy
¿Algún físico Voluntario para enviar a schwarzenegger al pasado? ¿No? ¿nadie? ok
darkyevon
Eso seguro que no lo han probado con un andaluz ni con borrachos ni con niños pequeños jajaj, dejadmelo que lo pongo a prueba con un humano al lado.
eufrasio
A mi Siri me ha sorprendido en iOs10 su nivel de exactitud, incluso pidiéndole en español que busque un video con el titulo en ingles y reconocérmelo todo, la parte castellana y la inglesa. Ah y me ha encontrado el video.
¿Qué porcentaje de acierto tiene?
ZellDich
Vamos haber, el reto no es que transcriban correctamente en silencio, eso ya lo hacen unos cuantos programas de forma bastante decente, incluido en los coches para el manos libres, el problema es cuando hay ruido, que el ser humano sigue siendo muy superior diferenciando lo que quiere oír de lo que no, es cierto que no distinguimos nada en una discoteca, pero ahora mismo un programa no distingue ni cuando hay una ventana abierta por el viento, o cuando estas con la tv baja y hablas normal, hay es cuando se vera el avance, si no no han conseguido nada.
Usuario desactivado
"De igual manera, la compañía estaría contemplando la posibilidad de transcribir discursos producidos por varias personas a la vez, lo que sería muy interesante, pues el ordenador podría transcribir lo que dicen grandes grupos de usuarios por separado."
Vale, y voy yo y esto me lo creo...
Ahhhh! ya lo pillo. Grandes grupos en los que cada uno de sus integrantes tiene su micro.
Vale, perdón por poner en duda la capacidad multitarea del windows 95.
airiartev
Y sin embargo ninguna sabe hacer un mísero asistente de voz en condiciones... Para hacerlo simplemente hace falta recopilar ingentes cantidades de preguntas y respuestas.
Y una vez hecha la base algoritmizas todo con el fin de que puede aprender sólo, previa revisión humana. Pero actualmente para una respuesta hay muy pocas preguntas o maneras de preguntar