En noviembre de 2016, los investigadores Xiaolin Wu y Xi Zhang publicaron un 'paper' titulado "La inferencia automatizada de la criminalidad mediante el uso de imágenes faciales", en el que trataban de explorar el uso del machine learning como medio para detectar la existencia de rasgos del rostro humano asociados con la "criminalidad", afirmado haber desarrollado algoritmos que permiten diferenciar (con una precisión del 90%) a criminales y no criminales recurriendo únicamente a fotos de carnet.
Muchos medios se hicieron eco entonces de la investigación, centrándose fundamentalmente en el debate ético que se planteaba: ¿qué sería de nuestro concepto de los derechos individuales inalienables cuando contáramos con una manera de señalar a los criminales... aunque aún no hayan delinquido?
Lo que Wu y Zhang proponían era recuperar las teorías fisiognómicas de Cesare Lombroso, el famoso médico y criminólogo autor del libro 'L'uomo delinquente', que afirmaba que el estudio de la estructura craneal de los individuos podía servir, igualmente, para detectar qué patrones del rostro humano se correlacionaban con una 'personalidad criminal'.
Las teorías de Lombroso gozaron de gran repercusión hasta que el desarrollo científico las fue desacreditando a lo largo del siglo XX. De modo que, ¿podría ser que la inteligencia artificial permitiera ahora relegitimarlas, detectando patrones antes invisibles para el ojo humano?
"Un algoritmo es tan bueno como el dataset que usamos para entrenarlo" (y éste no parece serlo demasiado)
Para entender la investigación de Wu y Zhang debemos partir de la base de que cualquier algoritmo es tan parcial o imparcial como el dataset que utilicemos para entrenarlo.
El escogido por los investigadores en este caso fue uno que contenía 1800 fotos de varones de nacionalidad china, entre los 18 y los 55 años de edad: 1100 se componían de fotos de no delincuentes, extraídas de múltiples fuentes online, mientras que el resto eran fotos de delincuentes aportadas por la policía (3/4 de los mismos, condenados por delitos no violentos).
Pero Carl T. Bergstrom y Jevin West, dos investigadores que mantienen un blog sobre datos engañosos, han señalado dos problemas metodológicos relevantes en la selección de los datos:
- "Las imágenes de los no delincuentes han sido publicados en sitios web supuestamente diseñados para fines promocionales, ya sean páginas web de empresas o perfiles personales. Muchas de estas imágenes han sido elegidas [...] para transmitir una impresión positiva. Por el contrario, las imágenes de la serie de los delincuentes son descritos como "fotografías de identificación". Aunque no está claro exactamente lo que eso significa, es de suponer que no se han seleccionado con el objetivo de dar a esa persona en una luz favorable".
- Una segunda fuente de sesgo viene del hecho de que usar fotografías de convictos no garantiza saber qué rasgos se correlacionan con la criminalidad, sino cuáles son más frecuentes entre aquellas personas condenadas por jurados: estudios realizados en EEUU demuestran que los miembros de un jurado están más predispuestos a condenar a personas poco atractivas (cabe suponer que los chinos no estarán libres de tal prejuicio).
"Así", afirman Bergstrom y West, "pese a que los autores afirman que su algoritmo está libre de sesgos humanos, lo que podríamos estar viendo es una recopilación de estos sesgos, debido a la elección de sus datos de entrenamiento".
Una de las imágenes incluidas en el paper muestra los rasgos en los que el algoritmo se basa para realizar sus predicciones: según éste, los criminales muestran una menor distancia entre las esquinas internas de los ojos, menores ángulos entre la nariz y las comisuras de la boca, y una mayor curvatura del labio superior.
Pero "una explicación salta a la vista" en lo que respecta a dos de esos rasgos: "cuando alguien sonríe, las comisuras de la boca se extienden y el labio superior se endereza".
Dado que en las imágenes del dataset todos los criminales tienen el ceño fruncido, mientras que los no criminales se muestran ligeramente sonrientes, el algoritmo no permite diferenciar los rasgos de los no delincuentes: ¡sólo está mostrando las diferentes actitudes que una misma persona podría mostrar según se esté haciendo una foto para Linkedin o posando en una rueda de reconocimiento!
"Los autores han confundido los rasgos faciales con expresiones faciales. Los primeros son aspectos inmutables de la estructura facial, mientras que los segundos son configuraciones dependientes de la situación de contracción de los músculos faciales".
Bergstrom y West concluyen que "las afirmaciones acerca de la detección de la criminalidad son mentira" y señalan que Wu y Zhang se han negado a responder las preguntas que les han planteado por correo electrónico.
"Las afirmaciones extraordinarias requieren pruebas extraordinarias. Hemos argumentado que, teniendo en cuenta toda la información disponible públicamente, sus resultados pueden explicarse por una hipótesis mucho más razonable: los no criminales tienen más probabilidades de estar sonriendo en las fotos elegidas con fines publicitarios que los delincuentes en sus fotografías de identificación".
"Nótese que hemos hecho todo esto sin cavar en los detalles de los algoritmos de aprendizaje automático en absoluto. No lo necesitamos: sabemos que un algoritmo de aprendizaje automático es sólo tan bueno como los datos con que lo entrenamos, y podemos ver que el dataset usado aquí es fundamentalmente defectuoso para el propósito con que se utiliza".
Ver 5 comentarios