LLMs fracasan en hacking: experimento de $1,500 muestra límites

Un desarrollador creó una aplicación web deliberadamente vulnerable y gastó $1,500 probando si los modelos de lenguaje grandes podían hackearla de forma autónoma. El experimento utilizó varios LLMs, incluyendo GPT-4, Claude y modelos de código abierto, encargándoles explotar vulnerabilidades comunes como inyección SQL y cross-site scripting. Los resultados mostraron que ningún LLM logró realizar una cadena completa de ataques de forma autónoma. Los modelos tuvieron problemas con el razonamiento de múltiples pasos y la adaptación a entornos dinámicos, a menudo fallando en el reconocimiento básico o estancándose en obstáculos triviales.

Este es un dato tranquilizador para la ciberseguridad. La idea de un apocalipsis de hacking impulsado por IA ha sido exagerada. Los LLMs son potentes para generar texto, pero carecen del razonamiento estructurado y la adaptabilidad necesarios para ataques reales. Pueden escribir un correo de phishing, pero no pueden encadenar exploits como un pentester humano.

La verdadera historia es sobre aumento, no reemplazo. Los profesionales de seguridad pueden usar LLMs como herramientas para automatizar tareas repetitivas, pero el núcleo del hacking sigue siendo un oficio humano. Este experimento muestra que la IA aún no está lista para vulnerar sistemas de forma autónoma. Es un recordatorio de que tenemos tiempo para construir defensas antes de que la IA se ponga al día.