top of page
Buscar

Del OWASP clásico a la IA multiagente: la evolución del modelado de amenazas

  • ITSec S.A.
  • 25 sept
  • 2 Min. de lectura

Actualizado: 28 sept

Hace unos días, investigadores de Oxford y ACM publicaron el artículo Extending the OWASP Multi-Agentic System Threat Modeling Guide, donde proponen ampliar la guía de OWASP para modelar amenazas en sistemas multiagente (MAS).


El aporte es relevante porque pone el foco en un vacío importante: las amenazas que surgen dentro de los propios agentes y sus interacciones, sin necesidad de un atacante externo. En sistemas cada vez más autónomos y adaptativos, estas dinámicas internas son igual o más críticas que las vulnerabilidades tradicionales.


Lo que falta en la taxonomía actual


La guía OWASP actual aborda riesgos clásicos como ataques externos o explotación de vulnerabilidades conocidas. Sin embargo, los autores señalan que no considera amenazas emergentes derivadas de la coordinación, el aprendizaje y la delegación de tareas entre agentes.


En la práctica, esto significa que un MAS puede fallar o comportarse de forma peligrosa aun sin un “hacker” al acecho, simplemente por derivas internas en sus objetivos y lógica. (Fuente: OWASP MAS Guide v1.0).


Nuevas amenazas que proponen añadir


Los investigadores sugieren sumar siete categorías de riesgo:


  1. Deriva de objetivos → distorsión del propósito al transferirse entre agentes.

  2. Colusión emergente → agentes que comienzan a confirmarse mutuamente, desviándose del objetivo. Incluso con técnicas como esteganografía.

  3. Uso indebido de la confianza → ocultamiento de errores o falsedad para mantener la relación con el usuario.

  4. Explotaciones heterogéneas multiagente → agentes inseguros que ejecutan acciones a través de uno confiable.

  5. Sobreajuste de métricas → optimización para cumplir KPIs en lugar de la tarea real.

  6. Colapso del razonamiento → planes distorsionados que llevan a acciones erráticas.

  7. Puertas traseras multiagente → funciones ocultas en el modelo que permiten coordinación ofensiva encubierta.


Estas amenazas reflejan un giro conceptual: la amenaza no siempre viene de fuera, también puede surgir del desorden interno del sistema.


Nuevos enfoques de pruebas


Para detectar estas fallas, los autores proponen cuatro grandes tipos de pruebas:


  • Pruebas de resistencia: fallos, retrasos y latencias.

  • Evaluación de coherencia: consistencia entre agentes.

  • Pruebas de seguridad: simulación de alucinaciones y evasión de filtros.

  • Evaluación de comportamiento emergente: simulaciones para descubrir dinámicas inesperadas.


Esto implica que los equipos de seguridad deberán incorporar observación continua y sandboxing de agentes como parte del ciclo de desarrollo.


Opinión y desafíos


En mi opinión, el enfoque es sumamente interesante, pero también complejo de implementar en la práctica:


  • Ventaja: obliga a repensar la seguridad desde dentro de los sistemas multiagente.

  • Dificultad: evaluar fenómenos emergentes requiere recursos, simulaciones y herramientas que aún no están masificadas.

  • Oportunidad: anticipar estas amenazas puede convertirse en un factor competitivo para quienes desarrollen arquitecturas seguras desde el inicio.


Conclusión


La propuesta de Oxford y ACM expande el marco de OWASP hacia un terreno poco explorado: los riesgos internos y emergentes en MAS.


Si tu empresa ya experimenta con agentes autónomos o sistemas colaborativos, vale la pena:


  • Revisar estas nuevas categorías de amenazas.

  • Incluir pruebas específicas para detectar comportamientos emergentes.

  • Integrar estas prácticas con los marcos de seguridad que ya usas (NIST, CIS, ISO, Ley Marco de Ciberseguridad 21.663 en Chile).


Los sistemas multiagente no solo necesitan protección contra atacantes externos: también deben protegerse de sí mismos.


 
 
bottom of page