#LM11: El Impacto de los Agentes Autónomos en las Métricas y la Calidad del Desarrollo de Software

¿Cómo podemos medir la eficiencia y calidad del desarrollo de software con IA Generativa? ¿Son realmente confiables estos nuevos compañeros desarrolladores agenticos?

abr 26, 2025

La integración de la inteligencia artificial en las herramientas de desarrollo de software ha dejado de ser una novedad para convertirse en un “must” omnipresente para cualquier desarrollador.

Asistentes de codificación como Cursor, Copilot o Windsurf, y los emergentes agentes autónomos, están reconfigurando los flujos de trabajo de los ingenieros de software. ¿Cómo impactan realmente estos agentes en las métricas fundamentales del desarrollo, la productividad y la calidad del código? (Si es que tal cosa podemos estandarizarla y medirla)

La Compleja Tarea de Medir la Productividad en el Desarrollo

Antes de evaluar el impacto de la IA Generativa, es crucial comprender la dificultad inherente a la medición de la productividad en el desarrollo de software. Las métricas tradicionales, como las Líneas de Código (LOC) por desarrollador/día, han demostrado ser no solo insuficientes sino a menudo contraproducentes, al incentivar el volumen sobre la calidad y la eficiencia.

El desarrollo de software (afortunadamente) es una disciplina creativa, colaborativa y de resolución de problemas, cuya eficacia no se refleja adecuadamente en simples conteos de subidas a pro, líneas de código y resolución de historias de usuario.

La industria, consciente la necesidad de medir y de esta complejidad ha ido refinando hacia marcos de medición más holísticos, algunos ejemplos de los últimos años:

Métricas DORA (DevOps Research and Assessment): Este conjunto de métricas, creada por Google, se ha consolidado como un estándar para medir el rendimiento de la entrega de software a nivel de equipo y sistema. Incluye entre otras otras:
- Frecuencia de Despliegue (Deployment Frequency): Indicador de la agilidad y velocidad del equipo para entregar valor.
- Tiempo de Entrega para Cambios (Lead Time for Changes): Mide la eficiencia del ciclo de vida completo, desde el commit hasta la producción.
- Tasa de Fallo de Cambios (Change Failure Rate): Refleja la estabilidad y calidad de los despliegues.
- Tiempo para Restaurar el Servicio (MTTR): Mide la resiliencia del sistema y la capacidad de recuperación ante incidentes.
Marco SPACE: Propuesto por investigadores de Microsoft y GitHub, este marco de medición aboga por una visión multidimensional, reconociendo que la productividad no es un concepto único. Sus componentes son:
- Satisfaction and Well-being: La satisfacción y bienestar del desarrollador son cruciales para la sostenibilidad y la creatividad.
- Performance: Se refiere a los resultados del trabajo, como la calidad del software entregado y el valor aportado.
- Activity: Cuantifica las acciones realizadas (commits, PRs, etc.), aunque debe interpretarse con cautela.
- Communication and Collaboration: Evalúa la eficiencia de la interacción y el trabajo en equipo.
- Efficiency and Flow: Mide la capacidad de realizar trabajo sin interrupciones ni fricciones, manteniendo un estado de concentración.

Estos frameworks de medición desplazan el foco desde la producción individual hacia el flujo de valor, la estabilidad del sistema y la experiencia del desarrollador. Sin embargo, nunca ha habido un estándar consensuado y aceptado por toda la industria para poder medir la productividad y calidad de un equipo de programación. Si esto es así, entonces ¿Cómo podemos evaluar de forma estándar la mejora (indudable por otro lado) que supone el uso de IA Generativa en el ciclo de vida del desarrollo de software?

Agentes e IA en el Ecosistema de Desarrollo

La IA Generativa se integra principalmente de dos formas en el desarrollo actual:

Asistentes de Código: Integrados directamente en el IDE (ej. Copilot, CodeWhisperer) o formando parte de IDEs diseñados específicamente en torno a la IA (ej. Cursor, Windsurf). Sus funciones principales incluyen entre otras: autocompletado, generación de código a partir de lenguaje natural,
documentación, generación de pruebas, refactorización, detección temprana de errores, etc.
Agentes Autónomos: Representan una evolución más ambiciosa (CrewAI, ADK, etc.). Su objetivo es abordar tareas de desarrollo completas a partir de descripciones de alto nivel. Pueden planificar pasos, escribir y modificar múltiples archivos, ejecutar comandos de compilación o prueba, interpretar resultados y errores, e iterar hasta alcanzar el objetivo. En definitiva, hacer el trabajo de desarrollo ellos solos.
Realidad actual (y esto va a envejecer muy pronto y mal):
Aun fallan al interpretar requisitos ambiguos, a veces pierden el contexto global del proyecto, pueden entrar en bucles de error o generar soluciones subóptimas o inseguras. Aún requieren una supervisión humana intensiva y validación en cada etapa.

Agentes y como impactan en métricas clave

La adopción de agentes de IA en los flujos de desarrollo está generando datos y observaciones que permiten empezar a cuantificar su impacto en las métricas de productividad y experiencia del desarrollador, aunque siempre con la necesaria cautela interpretativa.

Reducción del Tiempo de Codificación: La evidencia más sólida apunta a una aceleración significativa en la velocidad de escritura y completitud de código. Un experimento controlado realizado por GitHub con desarrolladores profesionales encontró que el grupo asistido por GitHub Copilot completó una tarea de programación específica un 55% más rápido que el grupo de control. En términos absolutos, el grupo con Copilot tardó un promedio de ~1.2 horas frente a ~2.7 horas del grupo sin asistencia
Optimización de Tareas Específicas: Investigaciones de McKinsey indican que las herramientas de IA generativa pueden permitir a los desarrolladores completar ciertas tareas (como escritura de código nuevo, refactorización o documentación) hasta el doble de rápido. Específicamente, estiman reducciones de tiempo de hasta un 50% para tareas de documentación o generación de pruebas, y alrededor de un 33% para refactorización de código existente, comparado con realizarlas sin asistencia de IA.

Más allá de estudios, se dice de forma subjetiva, por ejemplo, que el uso de Cursor puede llevar a aumentos de productividad de "como mínimo un 200%" en ciertas tareas, permitiendo completar en horas trabajos que normalmente tomarían días

Esta aceleración en tareas de codificación y relacionadas impacta directamente la dimensión de Eficiencia/Flow del marco SPACE. Si esta velocidad se traduce efectivamente en ciclos de desarrollo más cortos y no introduce cuellos de botella posteriores, tiene el potencial de reducir el Lead Time for Changes y, posiblemente, permitir una mayor Frecuencia de Despliegue .

Uno de los beneficios más consistentemente reportados es la mejora en la experiencia subjetiva del desarrollador. En encuestas a gran escala realizadas por GitHub, una amplia mayoría de usuarios de Copilot reportaron beneficios cualitativos significativos:

74% afirmó poder concentrarse en trabajo más satisfactorio.
88% percibió ser más productivo (completar tareas más rápido).
73% indicó poder mantenerse mejor en el estado de flujo.
87% sintió que requería menos esfuerzo mental en tareas repetitivas.
Entre un 60% y 75% reportó sentirse más satisfecho con su trabajo y menos frustrado al programar

Estos datos subjetivos, pero relevantes, sugieren un impacto positivo directo en las dimensiones de Satisfacción y Eficiencia/Flow del marco SPACE. Un desarrollador feliz tiende a ser más productivo y sostenible a largo plazo.

¿Y como afecta todo esto a la calidad, seguridad y estabilidad?

Si bien la aceleración en el desarrollo es notable, su impacto neto en la estabilidad (por ejemplo en Change Failure Rate y MTTR) es más complejo y aún objeto de estudio. Sí que existen algunos, por ejemplo sobre seguridad en código C generado con asistencia de IA que concluyó que no se introducían significativamente más vulnerabilidades críticas en comparación con el desarrollo manual

Ojo! La degradación de la calidad no es una consecuencia inevitable al usar Agentes, sino un riesgo a gestionar.

La velocidad sin calidad carece de valor sostenible en el desarrollo de software. Es imperativo, a la vez que usamos estas herramientas y/o agentes, introducir nuevas métricas destinadas a analizar cómo afectan a la calidad.

Más que medir la velocidad que aportan estos sistemas (algo casi obvio en cuanto se prueban), hay que poner foco en medir KPIS relacionados con el QA y la estabilidad como: Densidad de Bugs, Complejidad Ciclomática, Índice de Mantenibilidad, Cobertura de Pruebas, Número y Severidad de Vulnerabilidades de Seguridad.

El código generado por IA no puede considerarse de alta calidad por defecto. Requiere los mismos (o incluso más rigurosos) procesos de revisión, prueba y análisis estático que el código escrito manualmente.

Así mismo, la seguridad representa una de las preocupaciones más significativas asociadas al uso de agentes de desarrollo. Los modelos, entrenados en código que a menudo contiene vulnerabilidades y pueden aprender y replicar patrones inseguros: Inyección SQL, Cross-Site Scripting (XSS), etc.

Algunas estrategias de mitigación de riesgos de seguridad podrían incluir: Revisión humana obligatoria, ejecución sistemática de herramientas SAST, DAST y SCA, Prompt Engineering Seguro (ej. "usar sentencias preparadas para prevenir SQLi"), etc.

Agentes Autónomos No Supervisados

La visión de agentes de IA desarrollando software de forma completamente autónoma, sin intervención humana directa, aunque tecnológicamente es una realidad, se considera actualmente de alto riesgo para la mayoría de las aplicaciones críticas, conviene recordar que los agentes a día de hoy (Abril 2025 y otra vez, intuyo que esto se quedará muy pronto obsoleto) tienen algunas de estas deficiencias:

A veces, tienen una comprensión limitada del contexto: Carecen de la comprensión profunda del dominio de negocio, los requisitos implícitos y las complejidades de sistemas reales.
Fragilidad ante la Ambigüedad y el Cambio: Luchan por manejar requisitos ambiguos o cambiantes, que son la norma en el desarrollo real.
Riesgos de Seguridad: La posibilidad de que un agente autónomo introduzca y despliegue vulnerabilidades críticas sin supervisión es un riesgo inasumible.
Accountability: ¿Quién es responsable si un agente autónomo causa un fallo catastrófico?

Por el momento, el rol de los agentes autónomos se utiliza más como asistentes muy avanzados para tareas bien definidas y acotadas, siempre bajo estricta supervisión y validación humana.

Equipos Mixtos: Agentes + Devs

Los agentes de IA están marcando un punto de inflexión en el desarrollo de software. Ofrecen beneficios tangibles, particularmente en la mejora de la rapidez, eficiencia individual y el flujo de trabajo, lo que se traduce en ciclos de entrega más rápidos. La reducción de tareas tediosas también impacta positivamente la satisfacción del desarrollador.

Sin embargo, estos beneficios no están exentos de riesgos significativos en términos de calidad y seguridad. La promesa de una productividad aumentada solo se materializará de forma sostenible si se acompaña de procesos rigurosos de revisión humana, pruebas exhaustivas y análisis de seguridad. La idea de una autonomía completa sin supervisión llegará pero a día de hoy el camino más pragmático y responsable es concebir a estos agentes como herramientas de human developer augmentation y generar equipos mixtos de Agentes + Devs.

La clave reside en desarrollar una simbiosis efectiva: delegar a la IA las tareas donde sobresale (automatización, reconocimiento de patrones, generación de código estándar) mientras los devs se concentran en el pensamiento crítico, el diseño, arquitectura, la comprensión del negocio, la validación de la calidad y la garantía de la seguridad.

La adopción requiere una estrategia cuidadosamente planificada que incluya formación, establecimiento de buenas prácticas, adaptación de procesos y, sobre todo, un enfoque crítico y consciente por parte de cada desarrollador.

Las métricas nos ayudarán a navegar esta transición, pero solo si medimos lo que realmente importa: no solo la velocidad, sino también la calidad, la seguridad y el valor entregado de forma sostenible.

En definitiva, en mi opinión, habrá que reforzar en todos los equipos los perfiles seniors de QA, Seguridad, Arquitectura, Product Design, etc. Y una parte no desdeñable de los developers debemos acelerar la adquisición de estos conocimientos para reforzar nuestro perfil y delegar a estos nuevos compañeros developers agénticos las labores simples de programación, aportando valor en la supervisión y guíado de los agentes.

Lerende Machine

Discusión sobre este post