Recientemente Google despedía a una renombrada investigadora en ética aplicada a la inteligencia artificial después de que expresara su frustración con la compañía por obligarla a retirar un trabajo de investigación. El documento ponía de manifiesto los riesgos de la inteligencia artificial para el procesamiento del lenguaje, el tipo de tecnología utilizada por el motor de búsqueda de Google y otros servicios de análisis textual.
Entre los riesgos está la gran cantidad de emisiones de dióxido de carbono necesarias para el desarrollo de este tipo de IA. Según algunas estimaciones, entrenar un modelo de inteligencia artificial produce tanto dióxido de carbono como el necesario para construir y conducir cinco coches durante toda su vida útil.
Trabajo como investigadora y me dedico al estudio y desarollo de modelos de IA por lo que estoy muy familiarizada con el coste energético y económico de la investigación de la IA. ¿Por qué los modelos de inteligencia artificial necesitan tanta energía y en qué se diferencian de los centros de computación de datos tradicionales?
El modelo de entrenamiento actual es poco eficiente
Entre las tareas tradicionales de procesamiento de datos que se llevan a cabo en los centros de computación se incluyen la retransmisión de vídeo, los correos electrónicos y las redes sociales. La IA requiere una computación más intensa porque necesita leer muchos datos hasta que aprende a entenderlos, o lo que es lo mismo, se entrena.
Este modelo de entrenamiento es poco eficaz en comparación con la forma en la que una persona aprende. La IA moderna utiliza redes neuronales artificiales: cálculos matemáticos que imitan las neuronas del cerebro humano. En estas redes neuronales artificiales, cada vínculo entre neuronas en un parámetro denominado "peso". Para aprender a entender el lenguaje, la red comienza con pesos aleatorios y los ajusta hasta que el resultado concuerda con la respuesta correcta.
Así funcionan las redes neuronales artificiales.
Una forma común de entrenar una red basada en el lenguaje es alimentarla con corpus lingüísticos de páginas web como Wikipedia y de medios de comunicación, ocultando algunas de las palabras y pidiendo que las adivine. Un ejemplo sería "mi perro es bonito", ocultando la palabra "bonito". En primera instancia, el modelo se equivoca, pero tras muchas rondas de ajuste los pesos de conexión empiezan a cambiar y a obtener patrones en los datos hasta que la red se acaba volviendo precisa.
Un modelo reciente llamado Representación de Codificador Bidireccional de Transformadores (BERT, por sus siglas en inglés) utilizó 3.300 millones de palabras procedentes de libros en lengua inglesa y artículos de la Wikipedia. Además, durante dicho aprendizaje BERT "leyó" el conjunto de datos no una vez, sino 40 veces. A modo de comparación, un niño escucha de media unas 45 millones de palabras a los cinco años, 3.000 veces menos que BERT.
Buscando la estructura adecuada
El motivo de que los modelos basados en el lenguaje sean más complejos de construir es que el proceso de entrenamiento suele ir a la par que el desarrollo del mismo. Esto se debe a que los investigadores quieren encontrar la mejor estructura para la red: el número de neuronas, el número de conexiones neuronales, el ritmo de adaptación de los parámetros durante el aprendizaje, etc. Cuantas más combinaciones se prueben, más posibilidades hay de que la red alcance una buena precisión. Por el contrario, los cerebros humanos no necesitan averiguar cuál es la estructura óptima, puesto que vienen con una estructura predeterminada que ha sido perfeccionada gracias a la evolución.
A medida que tanto empresas como académicos compiten en el mundo de la IA existe una presión por mejorar la tecnología. Incluso un 1% de mejora en la precisión en tareas complejas como la traducción automática se considera significativo y equivale a buena publicidad y mejores productos. Sin embargo, para conseguir esa mejora del 1% un investigadores puede tener que entrenar el modelo miles de veces, cada vez con una estructura diferente, hasta hallar la que mejor se adapta.
Investigadores de la Universidad de Massachusetts Amherts calcularon el consumo energético del desarrollo de los modelos de IA basados en el lenguaje midiendo el consumo energético de hardware utilizado durante el entrenamiento. Descubrieron que el entrenamiento de BERT tiene la misma huella de carbono que un pasajero en un viaje de ida y vuelta entre Nueva York y San Francisco. Sin embargo, al tener que probar diferentes estructuras (es decir, entrenando el algoritmo para los datos varias veces modificando ligeramente el número de neuronas, conexiones y otros parámetros) el consumo energético para a ser el equivalente a 315 pasajeros o un jet 747 entero.
Más grandes y más consumo
Los modelos de IA también son mucho más grandes de lo necesario y cada año su tamaño aumenta. Un modelo basado en el lenguaje más reciente y parecido al BERT, GPT-2, tiene 1.500 de pesos en su red. El modelo GPT-3, que ha supuesto toda una revolución este año debido a su alta precisión, cuenta con 175.000 millones de pesos.
Los investigadores se dieron cuenta de que contar con redes más grandes conlleva una mayor precisión, incluso cuando solamente una pequeña fracción de dicha red termina siendo útil. Algo parecido ocurre con el cerebro de los niños cuando primero se añaden las conexiones neuronales y luego se reducen. Sin embargo, el cerebro biológico es mucho más energéticamente eficiente que los ordenadores.
Los modelos de IA se entrenan en hardware especializado como puede ser unidades de procesamiento de gráficos que consumen más energía que las CPU tradicionales. Si tienes un portátil para videojuegos, probablemente cuente con uno de estos tipos de unidades de procesador de gráficos para crear gráficos avanzados para juegos como Minecraft RTX. También podrás notar que generan mucho más calor que un portátil normal.
Todo esto viene a decir que el desarrollo de modelos avanzados de IA es muy contaminante. A menos que pasemos a un modelo de fuentes de energía 100% renovables, el progreso de la IA podría no cumplir los objetivos de reducción de emisiones de gases de efecto invernadero y de frenar el cambio climático. El coste económico del desarrollo también se está volviendo tan alto que solamente unos pocos laboratorios determinados pueden permitírselo y serán los que establezcan el futuro de los tipos de modelos de IA que se desarrollen.
Hacer más con menos
¿Qué implicaciones tienen estos datos para el futuro de la investigación en inteligencia artificial? Puede que las cosas no estén tan mal como parece. El coste del entrenamiento de los modelos de IA podría bajar a medida que se inventen métodos de entrenamiento más eficientes. Del mismo modo, se había previsto que el consumo energético de los centros de datos se dispararía en los últimos años y es algo que no se ha producido gracias a las mejoras en la eficiencia de los centros de datos, así como al uso de hardware y sistemas de refrigeración más eficientes.
También existe una compensación entre el coste del entrenamiento de los modelos y el coste de su uso, por lo que gastar más energía en el entrenamiento para crear un modelo más pequeño podría abaratar su uso. Teniendo en cuenta que un modelo será utilizado muchas veces a lo largo de su vida útil, puede suponer un ahorro energético importante.
En la investigación de mi laboratorio hemos estado buscando formas de hacer los modelos de IA más pequeños compartiendo pesos o usando los mismos en múltiples partes de la red. A estas redes las denominamos shapeshifter networks, o redes polimórficas, puesto que un conjunto pequeño de pesos puede ser reconfigurado en una red más grande de cualquier tipo de forma o estructura. Otros investigadores han demostrado que compartir pesos tiene un mejor rendimiento en la misma cantidad de tiempo de entrenamiento.
De cara al futuro, la comunidad de desarrolladores de IA debería invertir más en el desarrollo de modelos de entrenamiento de bajo consumo. De lo contrario, corremos el riesgo de que la inteligencia artificial pase a estar controlada por unas pocas manos que puedan permitirse definir el futuro de esta tecnología, incluyendo qué tipos de modelos se desarrollan, qué tipos de datos se utilizan durante el entrenamiento y para qué se utilizan los modelos.
Fotos: Thomas Peter, Lee Jin-man, Denis Balibouse.
Autora: Kate Saenko, profesora asociada de informática por la Universidad de Boston.
Este artículo ha sido publicado originalmente en The Conversation. Puedes leer el artículo original aquí.
Traducido por Silvestre Urbón.