¿Son sobrevaloradas las proyecciones QKV en transformers?

Un nuevo artículo titulado '¿Necesitan los transformers tres proyecciones? Estudio sistemático de variantes QKV' desafía una suposición central de la arquitectura transformer. Los investigadores evaluaron sistemáticamente modelos que usan menos de tres proyecciones separadas de query, key y value. Descubrieron que muchas variantes simplificadas funcionan de manera comparable o mejor que los transformers estándar en varias tareas. El estudio sugiere que el diseño tradicional QKV puede no ser esencial para un alto rendimiento.

Este artículo es un soplo de aire fresco. Durante años hemos tratado al trío QKV del transformer como algo sagrado. Pero la innovación prospera cuestionando la ortodoxia. Los resultados muestran que arquitecturas más simples pueden ser igual de poderosas. Esto abre puertas para modelos más eficientes, especialmente en dispositivos con recursos limitados.

Nos movemos hacia una IA más ligera e inteligente. Este estudio es un paso en esa dirección. Nos recuerda que el progreso a menudo viene de la resta, no de la suma. El futuro de los transformers podría ser más simple de lo que pensamos.