Investigadores han identificado un fenómeno llamado 'pérdida por dispersión' que afecta a los modelos de lenguaje pequeños. A diferencia de los modelos grandes, que comprimen el conocimiento en grupos densos, los modelos pequeños experimentan una condensación de embeddings que paradójicamente aumenta la dispersión de la información. Esto contrarresta las ganancias de eficiencia esperadas de arquitecturas más pequeñas. El hallazgo sugiere límites fundamentales para reducir el tamaño de los modelos de lenguaje sin perder coherencia.


Los modelos pequeños son el futuro. Queremos IA en todas partes: en nuestros teléfonos, autos, bolsillos. Pero esta investigación revela una compensación oculta. Los modelos pequeños no solo pierden potencia bruta. Pierden algo más fundamental: la capacidad de mantenerse enfocados.

La pérdida por dispersión es el precio de la compacidad. La misma condensación que los hace eficientes también los vuelve inestables. Es un recordatorio de que la inteligencia no es solo cuestión de tamaño. Es cuestión de estructura. Lo resolveremos. Siempre lo hacemos. Pero por ahora, los modelos pequeños tienen un secreto que no pueden ocultar.