🔄 ¿Pueden las IA entender bien los criterios de aceptación?
Analizando historias de usuario
Una de las habilidades clave en testing es entender a fondo los criterios de aceptación de una historia de usuario. No solo para validar lo que se espera, sino para detectar lo que falta, sobra o está mal definido. En este post te propongo algo distinto: explorar cómo se desempeñan distintas herramientas de IA frente a un tester humano en este análisis.
🧠 IA vs Humanos: ¿una competencia o una colaboración?
No se trata de reemplazar al humano, sino de comparar cómo interpreta una IA los criterios de aceptación y qué tanto contexto logra captar. Lo interesante es ver:
Qué interpreta literalmente.
Qué sugiere como faltante.
Qué ignora por completo.
📋 La historia de usuario
Utilicé la misma historia de usuario del post anterior sobre restablecimiento de contraseña. Tiene criterios definidos, pero también ambigüedades intencionales para ver cómo reaccionan las IA:
Como usuario registrado,
quiero poder restablecer mi contraseña cuando la olvido,
para poder acceder nuevamente a mi cuenta.
Criterios de aceptación:
Si el correo ingresado no está registrado, se debe mostrar un mensaje genérico.
El enlace para restablecer expira después de un tiempo.
🤖 Prompts utilizados
A cada herramienta de IA le pedí que analice la historia de usuario usando exactamente estos tres prompts:
¿Qué posibles ambigüedades detectás en esta historia de usuario y sus criterios de aceptación?
¿Qué requisitos funcionales faltantes podrías sugerir a partir de este texto?
¿Qué preguntas deberíamos hacerle al Product Owner para aclarar esta historia antes de escribir los casos de prueba?
📊 IA en acción: Resultados
Probé esta historia en tres herramientas: ChatGPT, Gemini y Grok. Estos fueron los hallazgos principales:
🔍 Reflexiones del análisis
ChatGPT dio buenas respuestas para las tres preguntas realizadas sobre la historia de usuario.
Gemini respondió muy similar a ChatGPT, aunque agregó una sugerencia para intentos fallidos.
Grok superó ampliamente a los anteriores en cantidad de sugerencias, además incluyó cuestiones sobre la interfaz y experiencia de usuario, accesibilidad y usabilidad así como también sugirió soporte multicanal que las otras herramientas no mencionan.
Como lo mencioné en un post anterior, personalmente prefiero Grok por la calidad de sus respuestas.
🤝 ¿Y los testers humanos?
Al compartir esta historia con colegas testers, detectaron rápidamente:
Falta de definición de tiempo de expiración.
Ausencia de criterios para la fortaleza de contraseña.
La necesidad de manejo de errores múltiples (enlace vencido, intento inválido, etc.).
Una IA puede ayudarte a iniciar el análisis, pero el juicio humano sigue siendo irremplazable para captar contexto, lógica del negocio y casos límite que una máquina aún no puede prever.
💡 Conclusión
Herramientas como ChatGPT y Gemini muestran un entendimiento decente del contexto. Pero el juicio humano sigue siendo indispensable para:
Entender el negocio.
Anticipar escenarios reales de uso.
Cuestionar supuestos que no están escritos.
📌 Como testers, podemos usar IA como una primera capa de análisis: rápida, útil y repetible. Pero la validación real sigue dependiendo de nuestra experiencia, intuición y pensamiento crítico. 😉
📅 En el próximo post vamos a hablar de IA para automatización: ¿Qué tan bien escriben scripts Grok, Gemini y ChatGPT para testers? ¡No te lo pierdas!
Si te interesan estos temas, suscríbete!