Big data es una palabra de moda desde hace algunos años, tanto que ya está algo en declive (casi diría que en el valle de la desilusión del famoso gráfico del hype). Pero lo cierto es que el Big Data está cada vez más presente en nuestras vidas, lo sepamos o no.
El Big data es, básicamente, la capacidad de analizar grandes cantidades de datos y obtener resultados que ayuden a un objetivo. El uso es muy general, puede ser un Facebook ordenando el feed por lo que cree que va a interesar más o un banco a la hora de decidir hasta qué cantidad puede prestar a alguien para una casa nueva.
La parte positiva del Big Data está clara: empresas más efectivas y usuarios más satisfechos. Pero también tiene una cara negativa: la privacidad, la discriminación y la marginación. Y es que no todo es perfecto cuando se analizan grandes cantidades de datos.
Privacidad
Uno de los grandes retos del Big Data es la privacidad. Que los usuarios estemos cómodos con ciertas funcionalidades que nos ofrecen a través del análisis de datos masivos que les proporcionamos los usuarios no quiere decir que queramos prescindir de nuestra privacidad.
Este debate lleva abierto más de diez años. Cuando Google lanzó su servicio de correo electrónico, Gmail, fue bastante polémico que se mostrara publicidad relacionada con el contenido de los correos. Al final la sociedad ha acabado aceptando que los correos fueran escaneados pero siempre bajo el compromiso de Google de que únicamente lo hacía un sistema automático, nadie en Google puede leerlos ni los anunciantes pueden tener acceso a los mismos.

Cada vez compartimos más datos con ciertas empresas, de las que por cierto Google es una de las más avanzadas. Con un teléfono Android también es fácil compartir la ubicación, fotografías e historial de navegación con el gigante de Mountain View. Esto puede hacer que Google nos ofrezca servicios de mayor calidad (como anuncios relevantes a la zona donde nos encontramos, algunas pistas cuando hacemos turismo o anuncios más adaptados a lo que normalmente requerimos) pero también pone de manifiesto que estamos compartiendo mucha información sensible.
Hace poco un ex-CEO de American Express dijo en público que si la empresa quisiera, a través de la información de los hábitos de compra, podría determinar si un cliente tiene una relación extramatrimonial. Efectivamente, los datos están ahí dispuestos a que alguien los analice. Pero los resultados pueden ser que una empresa financiera decida poner en una lista negra a esta gente y no concederles un crédito. ¿Dónde quedó la privacidad?
Todos el mundo ha experimentado alguna vez que después de realizar unas cuantas búsquedas de algún producto por Internet no paran de aparecer anuncios relacionados con las mismas durante mucho tiempo, a pesar de que se haya perdido interés en el asunto o que ya se haya efectuado la compra. Esto puede no pasar de una anécdota en muchos casos pero en otros puede ser grave. Por ejemplo, puede que alguien que vea el navegador abierto descubra intereses no convencionales o puede ser traumático que insistan con publicidad de ropa de bebés cuando se acaba de tener un aborto espontáneo.
Por otro lado también está China, como no. Desde el Gobierno están empezando a crear un sistema que a través del Big Data puede determinar si sus ciudadanos son fieles al régimen o no. Y los que no lo sean se enfrentarán a sanciones que les excluirán de muchos ámbitos de la vida pública. Todo ello sin realizar nada ilegal, solo por acciones que unos algoritmos determinen que son anti-sistema.
Y por supuesto está el tema de los hackeos, donde nadie parece estar libre de tener problemas. Que las empresas recopilen ingentes cantidades de datos sobre nosotros para darnos un mejor servicio podría no ser un problema pero si dichos datos son robados por terceros hay un gran problema. Empresas como Yahoo o Sony han visto las consecuencias de ello.
La ética del Big Data y la seguridad son temas cada vez más importantes, y más cuando cada vez se presentan más de dispositivos que escuchan todo el rato lo que decimos para darnos soluciones, tanto los teléfonos móviles como dispositivos en el hogar.
Discriminación y marginación algorítmica

El otro gran problema del Big Data, una vez que asumimos que los datos que compartimos son privados y que se solucionan los efectos no deseados, es la posible discriminación y marginación por parte de algoritmos.
El análisis de datos puede hacer que las empresas se enfoquen en los grupos que resultan más rentables. Puede que un análisis concienzudo de los datos diga al banco que es mejor no dar un crédito a una persona negra. O soltera. O a una mujer. O simplemente a alguien que no viva en una ciudad densamente poblada. ¿Y si una universidad decide que las notas de corte para estudiar deben ser más bajas para mujeres porque en media lo hacen mejor (incluso con peores resultados previos)? ¿Y si un bar decide no aceptar a personas asiáticas porque suelen consumir menos? ¿Y si Amazon Prime cobrara más a ciertos grupos étnicos porque suelen devolver más los productos? ¿Y si Google decide dar menos espacio de almacenamiento a los grupos de usuarios cuyo profiling es menos atractivo para los anunciantes?
Hoy en día si un banco deniega un crédito por motivos de raza o sexuales el escándalo es mayúsculo. Pero si no lo decide un oficinista sesgado sino un algoritmo sin sesgos, si simplemente analiza los datos, ¿a quién podemos recriminar una actitud maliciosa?
Es más, esta marginalidad algorítmica es aún más peligrosa que la que existe en la actualidad por los prejuicios individuales, puesto que estamos acostumbrados a poner en duda los criterios de la gente pero no la de los algoritmos. Tenemos una tendencia a poner en duda lo que dice la gente, estamos acostumbrados a ver equivocaciones y mentiras por parte de los individuos pero tenemos una excesiva fe en un algoritmo que se supone no tiene errores y es neutral.
Y los algoritmos no son perfectos, fallan. En 2008 Google lanzó un algoritmo que predecía las epidemias de gripe en base a las búsquedas. Pero en el año 2013 el algoritmo falló estrepitosamente. Puede ser únicamente una anécdota pero si las decisiones de inversiones en prevención o vacunas se hubieran hecho por este algoritmo las consecuencias habrían sido nefastas, y los más afectados hubieran sido los más vulnerables de la sociedad.
También tenemos el caso de Wisconsin (EEUU), donde los jueces tienen un polémico "ayudante" que les indica el riesgo a reincidir en la actitud criminal. Este "ayudante" no es más que un software con un algoritmo secreto. Y los jueces se fían. Y quizá estén condenando de forma más dura a ciertas personas en base a un algoritmo secreto que no se puede evaluar de forma pública y transparente.
En 2010 la ciudad de Chicago creó un algoritmo para predecir qué personas (con antecentes) podrían cometer un crimen. Se usó un par de años y luego se cerró. Los responsables dijeron que fue un éxito aunque hay críticos, y precisamente por la discriminación: no está claro que el efecto que tuvo realmente sobre la criminalidad (es complicado aislar efectos) y realmente se estaba discriminando a quién tenía antecedentes, era de raza negra y su situación económica era mala.
También tenemos el caso de Amazon, que está discriminando a barrios de mayoría negra en EEUU de sus envíos en el día. La discriminación es puramente algorítmica, claro. Dichos barrios tienen menos tiendas, menos almacenes y por tanto esto también afecta al servicio de envío rápido de Amazon. Décadas de racismo están haciendo que una tecnología que podía ser igualadora (poder tener acceso a productos variados y baratos igual que en un barrio con mayor densidad de tiendas) no esté disponible para las zonas más deprimidas.
El big data puede servir para, basados en experiencias pasadas, predecir el futuro. Pero algoritmos que pueden ser muy precisos con eventos físicos, como el clima, puede que no sirvan con la sociedad. En los últimos 200 años ha habido un gran progreso de la humanidad. La pobreza se ha reducido, hay menos discriminación, las mujeres han pasado a tener una posición cada vez más importante en la sociedad... pero si únicamente miramos al pasado podemos impedir estos avances. Si se hubieran usado algoritmos de big data en 1800 a lo mejor ninguna mujer podría haber entrado en la universidad o no habría movilidad social ya que lo normal entonces era que la gente se dedicara a lo mismo que sus padres.
Este es el gran problema del Big Data. Si se acumulan muchos datos y se procesan bien puede que haya grupos, que actualmente están marginados, que lo sean aún más, que sean completamente excluidos de lo que la sociedad considera normal. Alguien que vive en situación de marginalidad puede lograr, con muchas dificultades, salir de ahí. Pero si las empresas e instituciones excluyen completamente a estas personas en base a análisis de datos masivos quizá la marginalidad se extienda aún más. La discriminación del Big Data será lesiva para la sociedad.
Imagen | Vodafone Institute for Society and Communications | KamiPhuc | KamiPhuc
Ver 18 comentarios
18 comentarios
alejandrocampaiglesias
Ese Big Data lleva años discriminando día a día en España. Los operadores de telefonía deciden si un cliente les interesa o no o si le van a financiar un móvil con esas técnicas. Quizá menos espectacular que decidir que me compro estás Navidades en Amazon por las predicciones de 6 meses de mis busquedas pero se usan. Y si no que se intente un inmigrante con menos de 6 meses de contrato de móvil portar a ciertas compañías y pedir un teléfono de 800€ y verás lo que pasa, máxime si ha devuelto o pagado tarde un recibo. O no te dejan coger línea o línea si y móvil no, o móvil si pero no de esa gama, o tiene pago inicial para ti y para otro cliente no. Ese es el famoso Scoring que nadie sabe que barema ni como.
nemeus
Buen artículo e interesante conclusión. Gracias!
marckos.e.sol
¿Cuál es la fuente de tu artículo? Se nota mucha similitud con lo que se plantea en el libro "armas de destrucción matemática"; donde se examina como el uso de los algoritmos están sirviendo, cuando menos en los Estados Unidos para generar una mayor brecha económica y una reducción de oportunidades hacia los pobres.
Maluma
Pero entonces si el Big Data hace algo mal, como la discriminación que se critica en esta nota, entonces no hay que usarlo, los humanos somos más capaces para no caer en discriminaciones....
kawjones
Me parece que confundimos terminos o, por la moda del rimbombante nombre de "Big Data", metemos en el mismo saco actividades muy diversas. Incialmente habia analisis de riesgos (no fiar a clientes nuevos, no prestar a gente sin ingresos regulares) paso despues a considerarse "Business Intelligence" para despues ser "Data Mining" y ahora "Big data". Cada uno tiene diferencias respecto al anterior pero ahora parece englobarse todo bajo la denominación "Big Data"
No hay que escudarse en el término "algoritmo" para motrar la actividad discriminatoria que muchos negocios realizan desde su creación. Un banco siempre (hace siglos y ahora) discriminaciones a la hora de conceder préstamos. Por supuesto que no te va a decir que no te da la pasta por ser negro, gitano o moro. Ni lo hacen ni son tan imbeciles. Y si alegan que no es discriminación sino "el sistema informático" le cortan los bemoles al lumbreras que diseño el algoritmo, sistema o método de elección.
Te hacen, antes y ahora, un analisis de riesgo, más o menos profundo: edad, capital previo, formación, ingresos regulares, tipo de trabajo, residencia, estado de salud, etc y de ahi deciden si es posible el crédito o no. Por cierto, los algoritmos SIEMPRE TIENEN SESGO pues en su diseño se ponen unos límites y parámetros que dependen de humanos. Nivel de ingresos, historial crediticio, etc. ¿Y si resulta que el ingreso mínimo para conceder un prestamo es superior a los ingresos del 98% de la población inmigrante subsahariana y además es necesario un trabajo fijo? Pues que no hay préstamos a ese sector ni a cualquier otro que no cumpla las condiciones.
Las compañias de seguros SIEMPRE han hecho lo que ahora se quiere llamar big data y antes era analisis de riesgos. Conductores jovenes pagan más que los veteranos, petroleros que mercantes, conductores con accidentes que los que no, seguros de casa que dependen de la localización, altura o medios defensivos (verjas, puertas blindadas) etc.
El Big Data, el analisis másivo de datos, es otra cosa. Y tiene que ver más con la obtención de correlaciones a partir del analisis de todos ( o la mayoria) de los datos de un sector o varios. Algunas gasolineras saben que el viernes es cuando más venden. . Pueden afinar más y deducir si tienen más o menos coches de alta gama por el tipo de combustible que echan. Forma de pago. Nada más. Esto no es big data.Es su negocio.
En cambio una empresa de tarjetas puede deducir todo lo anterior y si despues van a un centro comercial, donde compra, tipo de negocio que usa o si va al cine o cenar o se mete en un hotel de la ciudad donde vive. Los datos del tracking de la tarjeta o de la geolocalización del movil conectan varias actividades que si generan big data al dar información sobre hábitos que antes no eran objetivables. Y esto lo pueden comercializar dando, por ejemplo, cupones descuento para restaurantes o tiendas del centro al que se va despues de la gasolinera.
Aunque claro, si se afina el analisis y se llega a personalizar tarjetas se puede llegar a la "discriminación preventiva":
Un seguro te cobra más por ser joven o tener el carnet con pocos años pero, salvo que te hallan pillado antes, no saben si bebes o no. Con el big data podrá saber cuando cobras, echas (lugar y hora) gasolina al buga y sitios donde vas de copas y horas que estas en ellos y hora de llegada a casa por la geolocalización o, si estas en condiciones, hora de activación de la alarma.
José Manuel
"Y si no que se intente un inmigrante con menos de 6 meses de contrato de móvil portar a ciertas compañías y pedir un teléfono de 800€ y verás lo que pasa, máxime si ha devuelto o pagado tarde un recibo"
Si devuelves o pagas tarde un recibo pasas a la categoría de apestado y posiblemente (de forma ilegal a formar parte del ASNEF), seas inmigrante o no.
whisper5
El problema que nos plantea el aprendizaje automático (las técnicas que procesan enormes cantidades de información del llamado 'big data' para aprender y clasificar) es la opacidad. Son cajas negras que por un lado reciben datos y por otro sacan resultados, y esto presenta problemas:
- No sabemos por qué dan una determinada respuesta.
- No pueden explicar las respuestas, como lo haría una persona.
- Si la información del 'big data' tiene sesgos los resultados obtenidos también los tendrán.
Si, por ejemplo, una entidad bancaria detecta un fallo en algún cálculo de sus operaciones financieras, sus técnicos pueden revisar el código que realiza las operaciones, encontrar el fallo y corregirlo. Existe una relación causa-efecto sencilla que podemos tratar. Esto no existe en el aprendizaje automático. Es una caja negra de la que no podemos obtener explicaciones, se crean modelos tan complejos que no pueden ser entendidos por la mente humana. No digo que no lo entendamos a nivel teórico, porque lo hemos construido nosotros, lo que quiero decir es que aquello que surge de lo que hemos construido no puede ser analizado ni entendido por nuestra mente. Nosotros funcionamos en un espacio de tres dimensiones (más el tiempo) y algunos de estos sistemas de aprendizaje automático operan en espacios de miles de dimensiones.
mafeking
Excelente artículo. Se está usando la información para tantas cosas cotidianas que es imposible no dejarse alguna.
Me preocupan varios temas sobre lo que apuntas:
Cuán respetuoso con tu privacidad es un sistema que no te llama por tu nombre pero te ubica en un barrio, sabe tu edad, color de ojos, oficio, marca de coche etc etc etc? Creo que empezamos a ser traspasados mucho más de lo razonable y no veo que ningún organismo público lo investigue con detenimiento.
Y abundando en el tema de la privacidad, como decía chema Alonso, llegará un momento en que tu seguro de salud cancele tu póliza o tu banco te deniegue un crédito porque vea tu Facebook y se entere de que has enfermado.
También apuntas a la realidad markoviana, ciertamente criticable, cuanto se tiene que parecer el futuro al pasado registrado? Esa fue la base para los primeros computadores orientados a predecir el tiempo y fracasaron...
Y luego están los prejuicios, hay casos muy claros para diagnosticar (comportamientos de compra, penales, etc), pero cuantos no son así? Y cuántos cambiarán porque reconocieron su error? Y como en los miserables, a cuantos condenarán negándoles la posibilidad de cambiar?
charlesftw
Interesante artículo, es cierto que los algoritmos y el Big Data pueden tener este aspecto negativo, pero al final los datos están al servicio de quien los usa.
De la misma forma que medimos qué personas resultan más rentables para darles una hipoteca, se puede medir qué programas resultan más efectivos para aumentar los ingresos de las clases desfavorecidas, o ahondar en las razones que contribuyen a mantener a esas clases en la pobreza.
En mi opinión los datos son una herramienta, y igual que un cuchillo puede usarse para cosas positivas y negativas, con esto sucede lo mismo.
ciubux30
Interesante artículo, sin embargo discrepo en algunos puntos, porque son muy simples para considerarlos como determinantes para considerar que BIGDATA discrimina:
Actualmente es cierto que los anuncios que nos envían son de lo peor, pero los temas de NBO van mejorando y justo para evitar ofrecer algo que ya no necesitas, en uno de los ejemplos mencionas que puede ser traumático que insistan con publicidad de ropa de bebés cuando se acaba de tener un aborto espontáneo, ¿entonces cerramos todas las tiendas de ropa para bebés?, peor aún ¿evitamos que algún bebé pase cerca de esa madre?, yo he perdido mi madre hace poco por leucemia, quién controla que cuando vea televisión no me aparezca una propaganda de seguros de cancér, pues nadie, solo me aparece y ya, ahora bien que ayudaría a que eso no pase ¿no es el conocimiento? imagínate, si una persona a perdido su bebé y recién te la presentan, tu haces una broma de bebes y ella se pone a llorar, ¿que te salva de esa situación?, pues el conocimiento, que alguien te comente que perdió su bebé hace poco, creo que ese es el punto entonces, conocimiento, si NBO madura y llega hasta ese punto sería genial para muchas personas, quizá no para todos, pero es probable que no solo dejen de poner anuncios para bebés en internet a esa madre, sino que no aparezca en la TV, justo lo mejor para ella utilizando BIG DATA.
Por otro lado
Puede que un análisis concienzudo de los datos diga al banco que es mejor no dar un crédito a una persona negra. O soltera, correcto ¿pero eso no han venido haciendo los datos desde siempre?, cuando te vas al banco y te dicen señor evaluaremos su solicitud ¿que crees que están haciendo?, lo que ellos quieren es evitar riegos y entregar el producto lo más rápido posible, antes de que otro banco te anime y te haga firmar con ellos.
"Hoy en día si un banco deniega un crédito por motivos de raza o sexuales el escándalo es mayúsculo. Pero si no lo decide un oficinista sesgado sino un algoritmo sin sesgos, si simplemente analiza los datos, ¿a quién podemos recriminar una actitud maliciosa?", pues obviamente a nadie porque NO habría actitud maliciosa, ¿como puedes esperar que una PC tenga actitud maliciosa?, las PCs no tienen conciencia, me puedes hablar de inteligencia artificial, redes neuronales, etc, pero un tesla no se buelo malo en el sentido de moral o ética por atropellar a un niño, si en caso el algoritmo tiene una programación defectuosa o intencional, si hay alguién a quien se le puede culpar, yo diría a mi colega programador.
"SI ÚNICAMENTE MIRAMOS AL PASADO, COMO HACE EL BIG DATA, PODEMOS IMPEDIR AVANCES SOCIALES", BigData no solo intenta utilizar el pasado también intenta incluir el presente, por eso una de sus "V" es velocidad, ahora bien, siendo más pesados ¿en que basas tus decisiones?,¿no es en el pasado?, como es que se llega al avance social, ¿no es a través de lo ya elaborado antes?, lo que en el pasado hicieron y nosotros tomamos como referencia, pues el pasado es muy importante, CIENCIA, HISTORIA, etc el pasado está creciendo en este momento, hay que aprovecharlo y mejorar, pero no digamos que BIG DATA discrimina o margina como si tuviera conciencia.
Podemos hablar más sobre este tema, pero ya se cansaron los dedos.
osiriso
Pues el bigdata pareciera ser como las armas de fuego, el uso que se les da depende de quien las maneje. He leido los comentarios y en su mayoria son negativos o pesimistas. También puede servir para cosas positivas y serian muchas. Todo depende de las leyes que moderen éstos datos. He ahí la cuestión.
facialteam
Me gustó el artículo y sobre todo la conclusión.
andresgonzalezcuesta
Siempre los empleados de las empresas te conocen, te conoce la panadera, el cagero del banco... y saben todo lo que hacen y no lo llaman bigData lo llaman amistad o cotilleo
gamaliel.cano.58
Entonces el cerebro humano no hace mal en discriminar? al final de cuenta, los algoritmos neutrales e imparciales hacen lo mismo que ya hacíamos desde hace mucho tiempo, prejuzgar...