Devin promete ser "el primer ingeniero de software IA": uno que detecta y corrige errores de código solito

La programación nunca volverá a ser lo mismo. No desde que herramientas como GitHub Copilot comenzaron a demostrar que parte del trabajo lo podíán hacer las máquinas. El éxito de estas soluciones es cada vez más claro en este ámbito, y ahora ha aparecido otra nueva y prometedora solución llamada Devin, y está desarrollada por Cognition Labs.

Ingeniero software robótico. Sus creadores la califican como "el primer ingeniero de software IA", y presumen de cómo Devin supera de largo a otros competidores en las pruebas SWE-Bench. En ellas se evalúa el comportamiento de distintos LLM a la hora de corregir problemas y peticiones de pull de repositorios Python muy populares, y según las pruebas este agente de IA es capaz de superar a Claude 2, Llama o GPT-4, entre otros.

En Xataka

Llevo algunos días usando Copilot de GitHub para programar y esta es mi experiencia

Él se lo guisa, él se lo come. El CEO de Cognition Labs, Scott Wu, explicaba en su presentación cómo basta describirle el problema a Devin para que él se encargue de todo. Consulta las APIs y el código, y tiene una consola, un IDE y un navegador propio para ir evaluando todo el proceso. Es capaz de detectar errores, modificar el código y probarlo para comprobar que el error está resuelto. La automatización es sorprendente y vuelve a demostrar la capacidad de estos agentes autónomos.

Un programador de lo más solvente. En los ejemplos que compartieron Wu y su equipo en el hilo de Twitter inicial se ve cómo Devin es capaz de "aprender" a generar imágenes que esconden un texto dentro, pero también cómo son capaces de contribuir a repositorios de código ya maduros y que por ejemplo contienen errores. En un ejemplo adicional, Devin hizo el trabajo y solucionó un problema remunerado en la plataforma Upwork.

Otra amenaza para los desarrolladores. Algunos programadores ya tienen claro que esto es un hito más en ese teórico futuro en el que parte de su trabajo lo harán las máquinas. Es lo que apunta Adam Rackis, que es desarrollador en Spotify y que explicaba que "los días de graduarse en ocho semanas en un bootcamp en el que aprendes React y luego logras un trabajo con un sueldo de 200.000 dólares se terminaron".

Está basado en GPT-4. Eso es curioso, porque la solución creada por Devin no es exactamente original: según algunos expertos, sus creadores la han construido alrededor de GPT-4, y aprovechan todas las capacidades de este LLM y las aplican específicamente a este escenario para programadores.

Hay una pequeña inversión detrás. Parece razonable pensar que efectivamente Devin está basado en GPT-4: la empresa recibió una inversión de 21 millones de dólares del Founders Fund —una firma de capital riesgo cofundada por Peter Thiel—, pero esa cantidad, aunque relevante, es pequeña para lo que se suele manejar en estos ámbitos y no es ni de lejos la que permitiría crear un modelo equiparable a GPT-4 desde cero.

Imagen | Danial Igdery

En Xataka | Code Llama 70B es el nuevo modelo de IA de Meta para programar. Está a un paso de superar a GPT-4