Разработчик собрал веб-приложение с намеренными уязвимостями и потратил $1500 на API-кредиты, чтобы проверить, смогут ли большие языковые модели взломать его автономно. В эксперименте участвовали GPT-4 и Claude: им поручили SQL-инъекции и XSS-атаки. Результаты показали: LLM находят уязвимости, но проваливают многошаговые эксплойты. Без контроля человека они бесполезны для реального пентеста.


Эксперимент отрезвляет. LLM — отличные анализаторы шаблонов, но не стратеги. Они читают инструкции, но не импровизируют, когда план рушится. Цена $1500 — маркер эпохи дорогих ассистентов под надзором. До автономных хакеров далеко.

Но это к лучшему. Будущее — гибриды: ИИ для разведки, человек для решений. Полностью автономные взломщики появятся не скоро. Эксперимент не доказал бесполезность LLM. Он показал: нужны лучшие обвязки. А это решаемо.