Los modelos OpenELM destacan por su reducido conjunto de parámetros
El más pequeño es 14 veces más pequeño que Phi-3, el modelo "compacto" de Microsoft
Este es otro claro indicio de la inclusión de algún tipo de chatbot en las futuras versiones de iOS y sus variantes
En Apple parecían haber perdido el tren de la IA, pero en los últimos meses han tratado de ponerse las pilas y poco a poco —y a base de dinero— han comenzado a compartir algunos de sus avances en este terreno. El último es especialmente interesante, porque apunta directamente a qué tipo de IA veremos en sus iPhone más temprano que tarde.
Los diminutos OpenELM. Investigadores de Apple han publicado OpenELM (Open-source Efficient Language Models), una familia de cuatro grandes modelos de lenguaje (LLM) que en realidad son diminutos si los comparamos con la mayoría de modelos en los que se basan ChatGPT o Gemini, por ejemplo. Apple también tiene un estudio de investigación que acompaña a la publicación de los modelos.
Cuatro "tamaños". Los modelos están disponibles en versiones 270M, 450M, 1,1B y 3B. El más pequeño, el de 270 millones de parámetros, es significativamente compacto, y por ejemplo el modelo Phi-3 Mini que Microsoft acaba de publicar tiene 3.8B parámetros, es decir, es 14 veces más grande en número de parámetros. Cada tamaño tiene dos versiones, una "pre-trained" (más general) y una "instruction-tuned" (más centrado en un propósito específico).
La eficiencia por bandera. Como su nombre indica, el objetivo en estos modelos es buscar la eficiencia, o lo que es lo mismo, poder ejecutarlos sin que el consumo de recursos sea gigantesco. Los modelos más grandes requieren más capacidad de cálculo para poder generar texto con fluidez, pero en OpenELM los requisitos son mucho más modestos, y eso apunta directamente a un objetivo.
El iPhone, a por su propio "AppleGPT". Ya hemos hablado en el pasado de los planes de Apple para crear su propio chatbot, al que hemos bautizado tentativamente como "AppleGPT". Es más que probable que no se llame así, pero lo que sí está claro es que se ejecutará en el iPhone (u otros dispositivos Apple) de forma local, sin necesitar la nube. Estos nuevos modelos son los suficientemente pequeños para ejecutarse sin aparentes problemas en los potentes chips de Apple, aunque también tienen una desventaja.
Más limitados. Cuando más pequeño es un modelo, más "generalista" y menos rico, preciso y específico puede ser. No podrán competir por tanto con modelos mucho más ambiciosos como GPT-4 o los usados en Gemini 1.5 Pro o Claude 3 Opus, pero es que estos modelos necesitan mucho más recursos para poder funcionar de forma fluida, de ahí que por ahora la nube sea la alternativa para usarlos.
Pruebas sintéticas. La variante de 450M es la que mejor se comporta comparativamente según las pruebas realizadas en el estudio de investigación, pero es superado por otros modelos Open Source en diversos escenarios. Quienes lo han probado lo califican como un modelo "sólido pero muy alineado", lo que quiere decir que sus respuestas son poco creativas y muy formales.
Y también pueden equivocarse. La propia Apple avisa de que estos modelos "se ponen a disposición sin ninguna garantía de seguridad. Por consiguiente, existe la posibilidad de que estos modelos produzcan resultados inexactos, perjudiciales, sesgados o censurables en respuesta a las indicaciones de los usuarios".
En Xataka | El plan de Apple para liderar en IA, más vivo que nunca: la compra de Darwin AI es prueba de ello
Ver todos los comentarios en https://www.xataka.com
VER 12 Comentarios