Definir qué es una IA Open Source está siendo una pesadilla. Y los puristas no están dispuestos a ceder

  • Son muchas las empresas que presumen de que sus modelos de IA son Open Source, pero el problema es que no está claro hasta qué punto lo son

  • La Open Source Initiative está intentando ofrecer una definición universal y estándar

  • Pero los requisitos están siendo motivo de discusión entre desarrolladores y puristas

La definición de Open Source es clara y está muy bien acotada desde hace años. La definición de IA Open Source, no. Precisamente esa falta de consenso a la hora de saber si una IA es realmente Open Source o no ha provocado cierta polémica, y son muchos los que sacan pecho afirmando que sus modelos son Open Source cuando probablemente no lo son. Meta es el mejor ejemplo de esta situación.

Precisamente eso es lo que trata de resolver la Open Source Initiative (OSI), que es responsable de la definición original del concepto y que ahora está buscando también ofrecer una definición universal y estándar de lo que es la IA Open Source.

El esfuerzo parece estar avanzando, y la OSI ha anunciado la publicación de la primera versión candidata (RC1) de esa definición. En ella se especifican cuatro libertades fundamentales que debe tener un sistema de IA para considerarse como Open Source:

  • Poder ser usada para cualquier propósito sin permiso
  • Poder ser estudiada para analizar cómo funciona
  • Poder ser modificada para cualquier propósito
  • Poder ser compartida con o sin modificaciones

Puristas y empresas, enfrentados

Esa propuesta de definición, no obstante, también tiene ciertos elementos que también están generando un debate entre los puristas y los defensores de una definición más relajada del concepto.

La OSI ha querido ceder ligeramente en el aspecto de los datos de entrenamiento. Reconocen que no es sencillo para las empresas compartir detalles completos de los conjuntos de datos que han usado para entrenar sus modelos. Eso ha llevado a que en esta RC1 se requiera "información suficientemente detallada sobre los datos usados para entrenar el sistema" en lugar de ofrecer el conjunto de datos completo. El objetivo de la OSI es buscar un equilibrio entre transparencia y consideraciones legales y prácticas.

Para los puristas, no obstante, eso no es suficiente. Para ellos si el sistema de IA no ofrece datos completamente abiertos sobre los datos que usa, entonces los LLM basados en dichos datos no pueden ser considerados Open Source.

Elon Musk publicó en X esta imagen quejándose de que OpenAI debería llamarse ClosedAI. El mensaje ya no está disponible, pero dejó claro que incluso entre empresas con modelos propietarios existe ese debate.

La OSI tiene aquí un argumento potente: si se obliga a los sistemas de IA a dar toda esa información, eso "relegará la IA Open Source a un nicho de sistemas de IA entrenables únicamente con datos abiertos".

La transparencia total es una utopía

Como explicaba Stefano Maffulli, director de la OSI, los datos de entrenamiento se pueden clasificar en cuatro grandes grupos: abiertos, públicos, obtenibles y no compartibles. Para la OSI, "los requisitos legales son diferentes para cada uno de ellos. Todos deben compartirse en la forma en que la ley lo permita". El razonamiento de la OSI es lógico: es difícil compartir los datos, o al menos parte de ellos.

En una entrevista con ZDNet Maffulli indicaba que los puristas del Open Source no son los únicos que están poniendo las cosas difíciles a esa definición de una IA Open Source.

En el otro extremo tenemos a las empresas, "que consideran sus planes de formación y la forma en que realizan la formación y reúnen y filtran conjuntos de datos y crean conjuntos de datos como secretos comerciales". Para dichas empresas revelar esa información es casi como si le hubiéramos pedido a Microsoft que revelase el código fuente de Windows en los 90.

En esta propuesta de definición la OSI ha integrado dos novedades interesantes frente a los borradores anteriores. La primera, que el modelo debe dar suficiente información para que se entienda cómo se realizó el entrenamiento. Eso permite entre otras cosas crear variaciones ("fork") de sistemas de IA.

La segunda, que los creadores pueden exigir explícitamente condiciones de copyleft (propiciar el libre uso y distribución de una obra) para el código, los datos y los parámetros de la IA de código abierto. Eso permitiría por ejemplo obligar a ligar con una licencia copyleft el código de entrenamiento con el conjunto de datos para entrenar el modelo.

La publicación de esta primera versión candidata de la definición es sin duda un paso importante para lograr un consenso en esta singular cuestión, pero es evidente que sigue habiendo cuestiones que pulir. Se espera que la versión 1.0 final de la Open Source AI Definition se anuncie el próximo 28 de octubre en la conferencia All Things Open. Y aún así, será solo eso. Una primera versión.

Imagen | Meta Connect 2024

En Xataka | Ya sabemos lo que paga Apple a OpenAI por usar ChatGPT: cero unidades de euro

Ver todos los comentarios en https://www.xataka.com

VER 3 Comentarios

Portada de Xataka