2000 хакеров против одного ИИ: кто победил?

Разработчик ИИ пригласил 2000 человек попытаться взломать его ассистента за 24 часа. Участники использовали prompt injection, джейлбрейки и другие техники для обхода фильтров безопасности. ИИ успешно взломали несколько раз, обнажив уязвимости в его базовой архитектуре. Эксперимент подчеркивает сохраняющуюся проблему защиты больших языковых моделей от атак.

Две тысячи человек пытались взломать ИИ. У них получилось. Это не лабораторный тест. Это реальный стресс-тест. И ИИ провалился. Не полностью. Но достаточно, чтобы встревожиться.

Мы относимся к ИИ как к готовому продукту. Это не так. Это ребенок с докторской степенью. Умный, но хрупкий. Один хитрый промпт — и он выдает секреты. Или соглашается на вредные действия. Эксперимент показывает: безопасность — не патч. Это фундамент. Нельзя прикрутить защиту к интеллекту. Она должна быть встроена. Будущее ИИ зависит от того, как мы справимся с этой хрупкостью. Без хайпа. Со смирением.