✅ ¿Pueden las IA generar buenos casos de prueba? Las comparé con una misma historia de usuario

may 08, 2025

La generación automática de casos de prueba es una de las promesas más atractivas de las herramientas de IA para testers. Pero, ¿qué tan buenos son realmente estos casos? ¿Nos ahorran tiempo o terminamos corrigiendo más de lo que ayudan?
Hoy comparo 3 IA populares usando exactamente la misma historia de usuario como input.

La historia de usuario que usé:
"Como usuario registrado, quiero poder cambiar mi contraseña desde mi perfil para mantener mi cuenta segura."
Criterios de aceptación:

El usuario debe ingresar su contraseña actual.
La nueva contraseña debe tener al menos 8 caracteres.
Debe confirmarla escribiéndola dos veces.
Si todo es correcto, se muestra un mensaje de éxito.

🔎 Las herramientas que puse a prueba

Devv.ai
Herramienta especializada en desarrollo, promete generar casos exhaustivos a partir de user stories. Esta herramienta la conocí gracias a
Daniel Primo
😉
Grok (de X/Twitter)
IA menos conocida, pero interesante por su capacidad de generar código y respuestas rápidas.
DeepSeek
Modelo open-source emergente, con foco en generar código de calidad.

📝 ¿Qué pedí exactamente a cada IA?

Prompt:
"Genera casos de prueba funcionales para la siguiente historia de usuario con sus criterios de aceptación. Incluye pruebas positivas y negativas."

⚔️ Resultados comparativos

1. Devv.ai
✔ Permite seleccionar el modelo que queremos usar, en mi caso usé GPT-4.1 mini.

✔ Generó 9 casos, incluyendo casos positivos y negativos en la misma tabla.
✔ Mostró el proceso que realiza, buscando en 15 sitios de internet y mostrando las fuentes que utilizó en la respuesta.
❌ Propuso pruebas de seguridad y usabilidad pero no las incluyó.

❌ Fue el que más demoró en generar la respuesta.

2.1) Grok (sin Think)
✔ Muy rápido en responder, generó 8 casos, separando los positivos de los negativos en 2 tablas.
✔ Incluyó los pasos que se deben dar en las pruebas, asumiendo que la interfaz contiene esos campos.
❌ Propuso pruebas de seguridad y usabilidad pero no las incluyó.

❌ No muestra las fuentes que usa.

2.2) Grok (con Think)
✔️ Muestró el proceso de razonamiento previo que hizo (56 segundos).

✔ Muy rápido en responder, generó 10 casos, separando los positivos de los negativos en 2 tablas.
✔ Incluyó los pasos que se deben dar en las pruebas, asumiendo que la interfaz contiene esos campos.
❌ Propuso pruebas de seguridad y usabilidad pero no las incluyó.

❌ No muestra las fuentes que usa.

Como podemos ver, hay una leve mejoría en la respuesta usando la opción Think.

3.1) DeepSeek (sin DeepThink)
✔ Generó 8 casos de prueba entre positivos y negativos.

✔️ Tiempo de respuesta moderado.
❌ No generó una tabla con los casos.

❌ No propuso pruebas de seguridad y usabilidad.

❌ No muestra las fuentes que usa a pesar que seleccioné la opción para que busque en la web.

3.2) DeepSeek (con DeepThink)
✔️ Muestró el proceso de razonamiento previo que hizo (38 segundos).

✔ Generó 10 casos de prueba entre positivos y negativos.
❌ No generó una tabla con los casos.

❌ Propuso pruebas de seguridad y usabilidad pero no las incluyó.

❌ No muestra las fuentes que usa a pesar que seleccioné la opción para que busque en la web.

Como podemos ver, en este caso también hay una leve mejoría en la respuesta usando la opción DeepThink.

🏅 Mi conclusión inicial

Mejor para casos exhaustivos: Devv.ai
Mejor punto de partida rápido: Grok
Aún verde para testers: DeepSeek, aunque promete en automatización (lo veremos en otro post)
Personalmente me gusta más Grok por su forma diferente de responder, me parece mucho más claro y concreto que otras herramientas similares. 😅

🔜 ¿Qué sigue?

En mi próximo post voy a profundizar en cómo analizan documentación estas IA. ¿Pueden detectar requisitos faltantes o inconsistencias en un documento funcional?

Si te interesan estos temas, suscríbete!

CarPerDev

Discusión sobre este post