Investigadores del laboratorio de Chen Liu descubrieron un fenómeno llamado 'pérdida de dispersión' en modelos de lenguaje pequeños. Al comprimir más información en parámetros limitados, el espacio de incrustaciones se satura y los conceptos pierden límites claros. Esto contradice la esperada 'condensación de incrustaciones', donde el conocimiento debería concentrarse. Los hallazgos sugieren que reducir el tamaño del modelo puede degradar inadvertidamente el rendimiento en tareas que requieren diferenciación semántica precisa.
Más pequeño no siempre es más inteligente. Esa es la conclusión contraintuitiva de esta investigación. Hemos perseguido la eficiencia, reduciendo modelos para que funcionen en teléfonos y dispositivos periféricos. Pero aquí está el problema: meter conocimiento en una red neuronal diminuta es como meter una biblioteca en una caja de zapatos. Los libros se desordenan. Las categorías se difuminan.
La pérdida de dispersión es el precio que pagamos por la compresión. Es una compensación fundamental que nos recuerda que la inteligencia necesita espacio para respirar. Pero esto no es un callejón sin salida. Es un desafío de diseño. Las arquitecturas futuras podrían priorizar la claridad semántica sobre la cantidad de parámetros. O encontraremos enfoques híbridos que combinen modelos pequeños con memoria externa. El camino a seguir no son modelos más pequeños, sino una compresión más inteligente.