Проблема контекстного окна: Почему AI забывает середину длинного текста
В недавнем интервью бывший генеральный директор Google Эрик Шмидт заявил, что контекстное окно больших языковых моделей можно использовать как краткосрочную память. Однако есть проблема — если загрузить достаточно длинный текст в контекстное окно, AI забудет середину.
По словам Шмидта, это делает AI похожим на людей, поскольку, по его мнению, человеческий мозг ведет себя так же. Но это утверждение неправильно по двум причинам.
Контекстное окно — это объем текста, который LLM может видеть и учитывать при создании нового текста. Важно понимать, что это не вся информация, на которой была обучена модель, а только небольшой фрагмент, который используется непосредственно для генерации ответа.
С математической точки зрения нейросеть — это не поисковая система, а инструмент для анализа статистических данных. Она предсказывает слова и значения на основе массивов данных, на которых была обучена. Для этого LLM использует весовые параметры, представляющие собой специальные вектора.
По этой причине любой текст, вводимый в LLM, превращается в набор чисел — этот процесс называется эмбеддингом. Причем каждый фрагмент текста, вне зависимости от его длины, вводится в виде цифровой последовательности одинаковой длины.
Этот набор чисел — это не код содержания текста, а координаты точки в векторной базе данных. Чем выше размерность этой базы, тем длиннее будет последовательность чисел, кодирующих эту точку. В некоторых продвинутых языковых моделях эта последовательность может быть очень длинной (например, координаты точки в пространстве размерностью 3072).
Однако, несмотря на сложность, это всего лишь координаты в многомерном пространстве — ничего больше.
В векторной базе данных AI эти точки группируются по смысловым значениям. Например, точки, связанные со страхом, будут находиться рядом с точками, связанными с ужасом, а радости — рядом с точками, связанными с удовольствием. Таким образом, задача нейросети заключается в поиске ближайших точек, которые имеют смысловую связь с запросом и другими частями генерируемого ответа.
Проще говоря, чем ближе смысл, тем ближе точки. И чем выше размерность модели, тем точнее анализ смыслов и связей между ними.
По этой причине AI лучше справляется с короткими запросами — они требуют меньше усилий для поддержания смысловой связности.
В отличие от AI, мозг человека действительно запоминает начало и конец текста лучше, но это связано с двумя независимыми процессами.
Эффект первичности, описанный Беннетом Мёрдоком в 1962 году, объясняет запоминание начала текста тем, что первые элементы получают больше внимания, и поэтому они переносятся в долгосрочную память. Однако длина текста, наоборот, ослабляет этот эффект.
Эффект новизны, впервые описанный Гланцером и Куницем в 1966 году, объясняет запоминание конца текста особенностями кратковременной памяти. Этот эффект слабее, чем первичность, и связан с тем, что кратковременная память ограничена по объему и фиксируется на последних элементах.
Эти примеры показывают, что схожие явления в AI и человеческом мозге — это скорее совпадения, чем признаки системного сходства.
Источник
Написать комментарий