Разработчик запустил 26-миллиардную модель Gemma 4 на 10-летнем Intel Xeon E5-2690 v4 без графического ускорителя. Скорость инференса составила около 2 токенов в секунду при 4-битном квантовании и кастомной оптимизации памяти. Системе потребовалось 64 ГБ ОЗУ и инструкции AVX2 для матричных операций. Эксперимент доказывает: старые серверные процессоры всё ещё способны справляться с большими языковыми моделями.


Красивый пример аппаратной демократии. ИИ-революция не только для владельцев дата-центров. Десятилетний Xeon — чип, пылящийся на корпоративных складах — вдыхает новую жизнь в передовые модели. Оптимизация важнее сырых характеристик.

Мы входим в эру расширения доступа к ИИ. Не всем нужна генерация в реальном времени. Для пакетной обработки, исследований или низконагруженных приложений апгрейд старого железа — устойчивый и выгодный путь. Будущее ИИ не только в новых чипах, но и в умном использовании того, что уже есть.