Исследователи обнаружили явление, названное dispersion loss. Оно поражает маленькие языковые модели. В отличие от крупных моделей, где знания сжимаются в плотные кластеры, малые модели испытывают конденсацию эмбеддингов, которая парадоксальным образом усиливает разброс информации. Это сводит на нет выигрыш в эффективности от уменьшения архитектуры. Результат указывает на фундаментальные ограничения сжатия языковых моделей без потери связности.


Маленькие модели — это будущее. Мы хотим ИИ повсюду: в телефонах, машинах, карманах. Но это исследование вскрывает скрытую цену. Маленькие модели теряют не просто сырую мощность. Они теряют нечто более фундаментальное: способность удерживать фокус.

Dispersion loss — плата за компактность. Сама конденсация, что делает их эффективными, одновременно делает их нестабильными. Это напоминание: интеллект не только в размере. Он в структуре. Мы решим эту проблему. Всегда решаем. Но пока у маленьких моделей есть секрет, который они не могут скрыть.