Evaluación empírica comparativa de la automatización de pruebas de software mediante inteligencia artificial y diseño manual de casos de prueba

No Thumbnail Available
Date
2026
Journal Title
Journal ISSN
Volume Title
Publisher
PUCE - Esmeraldas
Abstract
Este estudio presenta una comparación empírica entre casos de prueba diseñados manualmente y aquellos generados automáticamente por herramientas de inteligencia artificial generativa —ChatGPT y Diffblue Cover— aplicadas al sistema Spring PetClinic, desar-rollado en Java y Spring Boot. El experimento, completamente automatizado, comprendió 2 480 ejecuciones distribuidas en 12 clases de prueba (6 humanas y 6 generadas por IA), con 40 iteraciones por clase una duración total de 6.18 horas. Se evaluaron cuatro métricas principales —cobertura de instrucciones, cobertura de ramas, mutation score y tiempo de ejecución— mediante análisis descriptivo e inferencial (t de Student, Welch y Mann-Whitney U). En el nivel agregado (N = 12) no se encontraron diferencias significativas (p > 0.05; d < 0.30), mientras que en el nivel completo (N = 2 480) se observaron efectos pequeños (r < 0.15) en todas las métricas, indicando diferencias marginales entre ambos enfoques. Los resulta-dos confirman que la IA generativa puede alcanzar un rendimiento cuantitativo comparable al de las pruebas humanas, aunque con razonamiento funcional mas limitado. Este trabajo aporta evidencia empírica sobre las capacidades y restricciones actuales de la IA en el testing automatizado, destacando su potencial para acelerar tareas repetitivas y mejorar la productividad sin reemplazar el juicio analítico humano
Description
Keywords
Inteligencia artificial, Automatización, Sistemas expertos (Computadores)
Citation