QKV-проекции в трансформерах: переоценка?

Новая статья «Нужны ли трансформерам три проекции? Систематическое исследование QKV-вариантов» бросает вызов ключевому допущению архитектуры трансформеров. Исследователи систематически оценивали модели, использующие меньше трех отдельных проекций запроса, ключа и значения. Они обнаружили, что многие упрощенные варианты работают сравнимо или лучше стандартных трансформеров на нескольких задачах. Исследование предполагает, что традиционный дизайн QKV может быть не обязателен для высокой производительности.

Эта статья — глоток свежего воздуха. Годами мы относились к трио QKV в трансформерах как к священному. Но инновации процветают на вопрошании догм. Результаты показывают: более простые архитектуры могут быть столь же мощными. Это открывает двери для более эффективных моделей, особенно на устройствах с ограниченными ресурсами.

Мы движемся к более легковесному и умному AI. Это исследование — шаг в том направлении. Оно напоминает: прогресс часто приходит через вычитание, а не сложение. Будущее трансформеров может быть проще, чем мы думаем.