¿Cómo se testean las aplicaciones generadas por IA?

Lo que cambia… y lo que no

jul 17, 2025

En el mundo del desarrollo de software, todo cambia muy rápido. Pero pocos avances están teniendo tanto impacto como el surgimiento de aplicaciones generadas con inteligencia artificial, especialmente con modelos generativos como los LLMs (Large Language Models).

Y cuando el desarrollo cambia, el testing también debe adaptarse.
¿Pero qué tanto cambia realmente?

Lo que no cambia

Aunque las herramientas se transforman, hay ciertos pilares del testing que siguen firmes:

✅ Hay que validar funcionalidades: ¿La app hace lo que promete?

✅ La automatización sigue siendo clave: Para escalar pruebas, mejorar tiempos y reducir errores humanos.

✅ Diseñar buenos casos de prueba sigue siendo arte y ciencia: Comprender el flujo, los riesgos y las condiciones límite sigue siendo fundamental.

Lo que sí cambia

Pero también hay transformaciones profundas. Algunas herramientas ya no alcanzan, y otras prácticas requieren una relectura. En palabras de Federico Toledo, referente en el mundo del testing y cofundador de Abstracta:

❝ En sistemas con IA, el oráculo —es decir, quién decide si la respuesta es correcta— ya no es tan claro. Hay que diseñar criterios de aceptación mucho más abiertos. ❞

1. ¿Cuál es la respuesta correcta?

Cuando una IA genera contenido, puede haber múltiples respuestas válidas. Un sistema de IA que responde preguntas o genera texto no siempre devuelve lo mismo, pero eso no significa que esté fallando.

🧪 En estos casos:

No se testea un valor exacto, sino un rango aceptable.
Se pueden usar validaciones semánticas, detección de intención o respuestas representativas.

2. El comportamiento puede no ser determinista

Las salidas no son siempre iguales con los mismos inputs. Como bien dice Federico:

❝ Cuando la IA genera resultados no deterministas, no podemos esperar que un test tradicional pase o falle siempre igual. ❞

Esto cambia cómo se automatiza:

Hay que validar la intención más que el texto exacto.
Se puede usar un modelo para evaluar al modelo: por ejemplo, un LLM que puntúe la respuesta de otro.

3. Nuevas dimensiones de calidad

Ya no basta con que la app funcione. También importa:

¿Hay sesgos en las respuestas?
¿La IA respeta la privacidad y la seguridad?
¿Es accesible para todos los usuarios?
¿Podemos rastrear y auditar las decisiones que tomó la IA?

❝ Las pruebas deben incluir el análisis de sesgos, accesibilidad, seguridad y trazabilidad de la información generada. ❞
— Federico Toledo

Esto amplía el rol del tester: de encontrar errores funcionales a garantizar un uso responsable y ético.

Herramientas que ayudan en este nuevo escenario

Frente a estos desafíos, surgen nuevas soluciones como los MCP Servers.
Por ejemplo, el Playwright MCP Server permite integrar modelos como GPT a los scripts de testing, y validar resultados no deterministas con mayor flexibilidad.

💡 ¿Qué aporta?

Testing contextualizado e interactivo.
Capacidad de comparar outputs usando IA.
Mejores herramientas para interpretar resultados en tiempo real.

Conclusión

El testing no desaparece con la IA. Se transforma. 🔁

Testear aplicaciones generadas por IA exige nuevas formas de pensar:
✔ Validar comportamientos amplios
✔ Aceptar resultados diversos
✔ Garantizar calidad ética y trazabilidad
✔ Aprender a trabajar con modelos y no solo con código

🎥 Si querés profundizar, te recomiendo esta charla de Federico Toledo:
Testing de aplicaciones basadas en LLMs – YouTube

Y si te quedaste con ganas de más, en el próximo post vamos a ver cómo el Playwright MCP Server puede ser tu aliado en este nuevo paradigma de testing con IA.

Suscríbete para recibirlo en tu casilla! 😉

CarPerDev

Discusión sobre este post