Uno de los problemas de la inteligencia artificial es que no siempre sabemos qué criterios sigue para tomar las decisiones que toma; no sabemos, por ejemplo, qué es lo que ve en las imágenes que hace que se decante por una u otra opción a la hora de identificar alguna característica de un sujeto (como su género).
Por eso, Google ha estado trabajando para lograr desarrollar modelos de machine learning que sean más transparentes. El motivo lo explicaba hoy Sundar Pichai, CEO de Google, durante la presentación del Google I/O.
"El sesgo ha sido una preocupación para la ciencia desde mucho antes de que existiera el machine learning. Pero claramente las apuestas han subido al llegar la IA. Queremos estar seguros de que nuestros modelos de IA no repiten los mismos sesgos que vemos en el mundo real.
Construir un Google más útil para todos pasa por abordar [el problema de] el sesgo. Es necesario quepamos cómo puede surgir, y cómo funciona un modelo de IA".
Detectando sesgos con un traductor IA-Humano
De entre todas las novedades e iniciativas vinculadas a la IA que ha expuesto Pichai ante el público asistente, quizá lo más notable para los profesionales del sector sea precisamente la herramienta con la que Google pretende aumentar la transparencia e inclusividad de la IA: TCAV (siglas de 'Testing with Concept Activation Vectors', o "Pruebas con vectores de activación de concepto", en español).
Google define TCAV como "un nuevo método de interpretación para comprender qué señales usan los modelos de redes neuronales para generar predicciones". Hasta ahora, los métodos de interpretabilidad típicos ponían el acento en los datos de entrada -a nivel de píxel, lo que no nos resulta de mucha ayuda-. En cambio, TCAV muestra cuánta importancia concede una red neuronal a conceptos de alto nivel (por ejemplo: "color", "género", "raza") a la hora de lanzar predicciones.
En pocas palabras, TCAV hace que las IAs expliquen sus razones en términos que los humanos podamos entender. Pero el mejor modo de entender de qué estamos hablando es con un ejemplo; por ejemplo, el de esta imagen (extraída de la presentación del Google I/O):
Aquí podemos ver cómo TCAV, a la hora de identificar si en una serie de imágenes aparecen o no médicos, ordena las variables a tener en cuenta y les concede un determinado peso. Así, podemos supervisar el modelo y comprobar por nosotros mismos que la presencia de una 'bata blanca' o un 'estetoscopio' son factores con un peso, respectivamente, de un 68% y un 46%.
Sin embargo, el siguiente factor por orden de importancia es que el sujeto de la foto sea de género masculino (37%), una información que en otras circunstancias no habría salido a la luz y que nos permitirá detectar las carencias del dataset utilizado antes de que las decisiones de la IA entrenada a partir del mismo puedan generar algún problema (como la pérdida de una oportunidad laboral).