02:43, 12 февраля 2025

«Вспомнить всё»: исследователи предложили архитектуру языковых моделей с большой памятью

9 февраля на arXiv была опубликована новая научная работа LM2: Large Memory Models, в которой исследователи описали обновление классической архитектуры LLM на базе трансформеров.

Читать на сайте

В чем суть?

Исследователи из Convergence Labs представили Large Memory Model (LM2) – новую архитектуру языковых моделей, которая преодолевает ограничения традиционных трансформеров в обработке длинного контекста.

LM2 дополняет стандартный механизм внимания отдельным модулем памяти, который взаимодействует с входными данными, отбирает важную информацию и обновляется по мере работы модели.

В чем новизна?

Ключевое отличие LM2 – дополнительный поток памяти, который дополняет стандартный поток внимания в трансформерах. Этот механизм включает:

Модель тестировалась на двух ключевых наборах данных:

Заключение

LM2 – очередной шаг вперед в развитии ИИ. Сейчас большое количество инвестиций идёт как раз в новые архитектуры - многие ожидают, что следующие грандиозные прорывы будут следствие не просто масштабирования (увеличения кол-ва параметров), а именно смены самой архитектурной парадигмы в LLM (что мы и видим на последних стрельнувших моделях).

Дополнительно к этому, один из главных трендов этого года - обучение ИИ без участия человека (на синтетических данных). Интересно, какие ещё открытия ждут нас в этом году на пересечении этих подходов - архитектурных изменений с одной стороны, и ускорение за счет исключения ручного труда - с другой.

----

P.S. Все громкие новости про ИИ, которые попадают в заголовки медиа обычно вырастают из таких "тихих" революционных исследований. Чтобы узнавать о них раньше всех надо регулярно мониторить HuggingFace Daily papers/arXiv recents/GitHub Trending/прочие исследовательские площадки.

Я делаю это на ежедневной основе, и если нахожу такие алмазы - пишу про них у себя в Телеграм канале, вместе с глубокой аналитикой по тому, как это всё влияет на бизнес.

Обсудить