"Cometemos errores en la ciencia de datos desde el principio, al recoger esos datos": Catherine d'Ignazio, profesora adjunta del MIT

Durante los últimos años, la ciencia de datos ha ido cobrando más y más importancia en el mundo de la tecnología. El big data ya se mete en el fútbol o incluso en la selección de personal: los algoritmos son cada vez más importantes en nuestro día a día. Recientemente hemos podido comprobarlo en el caso de las ciudades inteligentes dentro del marco del evento Smart City Expo World Congress de Barcelona.

Pero más allá de la ciencia y de los algoritmos para tratar todos esos datos, ¿qué hay del factor social? ¿Ya hemos visto todos los modos más efectivos a nivel social de interpretar esos datos? ¿De mostrar su impacto? ¿Esos algoritmos son ya perfectos? Hemos hablado con Catherine d'Ignazio, experta en ciencia de datos y profesora adjunta del MIT, para averiguarlo.

Catherine imparte clases de planificación urbana, pero desde un punto de vista de esa ciencia de datos de la que es especialista. Nuestra charla con ella comienza con ella explicándonos que en sus clases intenta impartir esa planificación urbana desde un punto de vista social y humano, hablando con organizaciones cívicas y proponiendo tecnologías que puedan ayudar con sus objetivos. "Podríamos llamarlo 'tecnología cívica'", propone. Nos revela que tiene planeado contactar con algunas instituciones como la biblioteca pública de Boston o con algunas organizaciones feministas para ampliar sus proyectos.

La "visceralicación" de los datos

Catherine fue una de las organizadoras del evento llamado Boston Coastline: Future Past, que nos sirve de buen ejemplo sobre cómo una buena visualización empírica de los datos puede concienciar más a la gente del resultado de un estudio. En dicho evento se reunieron voluntarios que trazaron con una cuerda la línea de la costa que la ciudad de Boston puede llegar a tener en el año 2100, que básicamente dejaría bajo el agua más de la mitad de la ciudad justo como ocurría en el año 1788 (la ciudad le ha ido ganando terreno al agua a base de verter tierra basura).

La profesora nos remarca la diferencia que hay entre simplemente mostrar ese aumento del nivel del mar en un mapa, o directamente trazar la línea de la costa del futuro en la misma calle y delante de todos los transeúntes que suelen pasearse por el centro financiero de Boston. "Lo que impactaba más era que los que veían a los voluntarios con la cuerda trazando la línea de la costa les era imposible ver el mar desde ese mismo sitio. Yo lo llamo la 'visceralización' de los datos, porque muestras la cruda realidad de lo que puede llegar a pasar directamente en el mismo sitio donde puede pasar".

Le recuerdo a Catherine lo que recientemente ocurrió en Venecia: literalmente dos minutos después que el parlamento de la región Italiana en la que se encuentra esa ciudad no aprobara un paquete de medidas especiales contra las mareas altas cada vez mayores, la sala de plenos quedó inundada y tuvo que evacuarse. "Más 'visceralización' de la que comento", me responde. "El cambio climático nos está dando imágenes y efectos que simplemente ya no podemos ignorar más".

Las ciudades del futuro según Catherine: más infraestructura pública, menos discriminación en los datos y más regulaciones

Le proponemos a Catherine un lienzo en blanco. Si le dieran un enorme terreno vacío y un presupuesto prácticamente ilimitado, ¿qué tipo de ciudad crearía para una población de más o menos un millón de personas? Es un ejercicio mental divertido, pero en realidad no estamos hablando de demasiada ficción con proyectos similares en algunos países.

Su respuesta es clara: alta densidad de viviendas (edificios altos de pisos y apartamentos) y una red de servicios que se enfoquen en las necesidades básicas como sanidad, educación y cuidados de personas mayores. "Añadiría también espacios amplios para que las familias estén a gusto", continúa. "Algo que las distintas generaciones de estas familias puedan recordar".

Pero lógicamente, los casos en los que una ciudad se levantaría desde la nada son escasos. Casi todas las ciudades del futuro se levantarán a partir de las ciudades actuales, dependiendo de las innovaciones tecnológicas y de cómo reaccionamos ante las necesidades que el mundo tendrá a partir de ahora. Catherine no da demasiados detalles acerca de qué cambios cree que verá a cinco o a cincuenta años vista, aunque se ríe pidiendo que antes que nada hay que sacar a Trump de la Casa Blanca.

"A corto plazo pienso en las ciudades aprendiendo y sacando conclusiones de todos los datos que las nuevas tecnologías puedan recopilar. Espero que para entonces tengamos muy buenos casos de estudio y que se apliquen responsablemente para cubrir las necesidades de la gente. Ya más a largo plazo sueño con unas ciudades con regulaciones más fuertes para las compañías, que éstas no hayan tenido más remedio que ceder parte de su poder a los gobiernos a base de leyes"

Otro ejemplo que Catherine nos pone para demostrar que el feminismo aplicado a los datos tiene importancia viene directamente de España: Inés Sánchez de Madariaga, una experta que ahora mismo trabaja en la UNESCO, ha hablado varias veces de la 'movilidad del cuidado'.

Básicamente lo que plantea es que históricamente las ciudades han sido diseñadas por y para los hombres, y que por ejemplo las redes de transporte público están más ideadas para llevar a esos hombres de casa al trabajo pero no para las mujeres que llevan a los niños al colegio, compran la comida o se encargan de cuidar a los mayores. Ahora que en el presente esos roles empiezan a mezclarse también en los hombres, ese transporte público empieza a replantearse y aparecen nuevas ideas de optimización para esos desplazamientos.

Le preguntamos a Catherine si cree que el modelo de ciudad estadounidense, con mares de casas unifamiliares, puede cambiar. "Está definitivamente cambiando", afirma. "Cada vez es más atractivo vivir en las ciudades, y tendremos que pensar en invertir más en infraestructura pública".

La necesidad de unos algoritmos objetivos

Catherine ha recibido también cierta popularidad por mezclar la discriminación con el de la ciencia de datos. Lo considera completamente necesario y pone motivos de peso encima de la mesa:

"El principal fallo que cometemos ahora mismo con la ciencia de datos es en la recogida de datos: es en esa primera fase del análisis de datos donde discriminamos sin darnos cuenta. Y cuando lo demostramos ante los expertos, éstos quedan sorprendidos. Acoso sexual, violencia contra la mujer, asaltos... son asuntos estigmatizados de los que es extremadamente difícil sacar datos. Y acabamos con muestras muy poco fiables. Creemos que la discriminación se puede solucionar mejorando el 'output' de ese análisis de datos, pero la realidad es que cometemos ese fallo en el 'input'.

Algunos ejemplos de esa discriminación que nos menciona Catherine: "siempre tendremos más datos de vigilancia policial sobre personas de color que sobre personas blancas". O el problema que hay en los Estados Unidos con sus datos sobre mortalidad de mujeres al dar a luz: en cada estado esos datos se recogen de una forma muy diferente, y la diferencia de calidad es tal que "al final simplemente no sabes cuál es el promedio nacional de mujeres que fallecen al dar a luz. No puedes medirlo". Uno más: si entrenas un algoritmo de reconocimiento facial con caras mayoritariamente caucásicas, no funcionará bien con gente de color, o asiática, o latina.

La privacidad también cuenta como factor importante. La profesora nos comenta un caso que ya tiene cierta antigüedad pero que sigue siendo válido: el de la cadena de tiendas Target analizando las compras que hacían las mujeres para determinar si éstas estaban embarazadas o no. Con el informe final se hizo público que una adolescente que había comprado en una de esas tiendas estaba embarazada, cuando la muchacha había decidido mantenerlo en secreto. La moraleja que Catherine nos quiere transmitir es que hay que tener cuidado con quien accede a esos datos.

También en términos de privacidad informo a Catherine sobre la iniciativa del INE que recopilará datos de los móviles de los españoles durante varios días para así mejorar los servicios de transporte público español:

"Me parece extraño y peligroso, sobre todo por quien está solicitando esos datos. No tengo una opinión desarrollada porque justo me entero ahora, pero a priori diría que son datos que se pueden correlacionar y desanonimizar fácilmente para obtener información privada a nivel individual. Es algo invasivo"

Ver todos los comentarios en https://www.xataka.com

VER 4 Comentarios

Portada de Xataka