«Вспомнить всё»: исследователи предложили архитектуру языковых моделей с большой памятью

В чем суть?

Исследователи из Convergence Labs представили Large Memory Model (LM2) – новую архитектуру языковых моделей, которая преодолевает ограничения традиционных трансформеров в обработке длинного контекста.

LM2 дополняет стандартный механизм внимания отдельным модулем памяти, который взаимодействует с входными данными, отбирает важную информацию и обновляется по мере работы модели.

В чем новизна?

Ключевое отличие LM2 – дополнительный поток памяти, который дополняет стандартный поток внимания в трансформерах. Этот механизм включает:

Кросс-аттеншен между модулем памяти и входными данными.
Гейты управления (запись, забывание и извлечение данных), позволяющие динамически обновлять хранимую информацию.
Разделение процессов обработки и хранения информации, что делает модель устойчивой к длинным контекстам.

Модель тестировалась на двух ключевых наборах данных:

BABILong – сложный бенчмарк для многоступенчатых рассуждений. LM2 показала прирост точности на 37,1% по сравнению с предыдущими архитектурами с улучшенной памятью.
MMLU – тест на общие знания. LM2 улучшила результаты на 5%, демонстрируя, что модуль памяти не мешает базовой работоспособности модели на универсальных задачах.

Заключение

LM2 – очередной шаг вперед в развитии ИИ. Сейчас большое количество инвестиций идёт как раз в новые архитектуры - многие ожидают, что следующие грандиозные прорывы будут следствие не просто масштабирования (увеличения кол-ва параметров), а именно смены самой архитектурной парадигмы в LLM (что мы и видим на последних стрельнувших моделях).

Читайте так же:

«Роснано» судится с Чубайсом в закрытом режиме

Дополнительно к этому, один из главных трендов этого года - обучение ИИ без участия человека (на синтетических данных). Интересно, какие ещё открытия ждут нас в этом году на пересечении этих подходов - архитектурных изменений с одной стороны, и ускорение за счет исключения ручного труда - с другой.

----

P.S. Все громкие новости про ИИ, которые попадают в заголовки медиа обычно вырастают из таких "тихих" революционных исследований. Чтобы узнавать о них раньше всех надо регулярно мониторить HuggingFace Daily papers/arXiv recents/GitHub Trending/прочие исследовательские площадки.

Я делаю это на ежедневной основе, и если нахожу такие алмазы - пишу про них у себя в Телеграм канале, вместе с глубокой аналитикой по тому, как это всё влияет на бизнес.

Обсудить

Читайте так же: