OpenAI представила EVMbench для тестирования ИИ-агентов на 120 уязвимостях смарт-контрактов
OpenAI запустила EVMbench — бенчмарк для оценки того, как ИИ-агенты обнаруживают, исправляют и потенциально эксплуатируют уязвимости в крипто-смарт-контрактах. В среду компания совместно с Paradigm и OtterSec опубликовала исследование, охватывающее 120 уязвимостей, в котором модель Claude Opus 4.6 от Anthropic заняла первое место с вознаграждением за обнаружение в $37 824, опередив OC-GPT-5.2 и Gemini 3 Pro.