OpenAI presenta EVMbench para evaluar agentes de IA en 120 fallos de contratos inteligentes

OpenAI lanzó EVMbench para medir cómo los agentes de IA detectan, corrigen y explotan problemas de seguridad en contratos inteligentes de cripto. El miércoles publicó, junto con Paradigm y OtterSec, un paper que cubre 120 vulnerabilidades y establece una clasificación, según el estudio. Claude Opus 4.6 de Anthropic lideró con un "detect award" de $37,824, por delante de OC-GPT-5.2 y Gemini 3 Pro.