Deepmind detalla seis “trampas” para agentes de IA con inyecciones de contenido exitosas en hasta el 86%

Investigadores de Google Deepmind publicaron el primer marco sistemático que clasifica cómo contenido web malicioso puede manipular, secuestrar y convertir en arma a agentes de IA autónomos contra sus propios usuarios. El trabajo identifica 6 categorías de “trampas” para agentes, con tasas de éxito de inyección de contenido de hasta el 86%. En pruebas documentadas, las trampas de control de comportamiento dirigidas a Microsoft M365 Copilot lograron 10/10 exfiltraciones de datos, según los autores.

Descargo de responsabilidad: El contenido anterior es solo la opinión del autor y no representa la postura de BingX. No debe interpretarse como un consejo de inversión por parte de BingX. Para obtener más información, consulta los Términos y condiciones.