user-avatar
Jamie Redman

Deepmind detalla seis “trampas” para agentes de IA con inyecciones de contenido exitosas en hasta el 86%

Investigadores de Google Deepmind publicaron el primer marco sistemático que clasifica cómo contenido web malicioso puede manipular, secuestrar y convertir en arma a agentes de IA autónomos contra sus propios usuarios. El trabajo identifica 6 categorías de “trampas” para agentes, con tasas de éxito de inyección de contenido de hasta el 86%. En pruebas documentadas, las trampas de control de comportamiento dirigidas a Microsoft M365 Copilot lograron 10/10 exfiltraciones de datos, según los autores.