Модель искусственного интеллекта OpenAI иногда «думает» на китайском, и никто не знает почему
Вскоре после того, как OpenAI выпустила o1, свою первую «рассуждающую» модель AI, люди начали замечать любопытное явление. Модель иногда начинала «думать» на китайском, персидском или каком-либо другом языке, даже если ей задавали вопрос на английском.
Получив вопрос, например: «Сколько букв «Р» в слове «клубника»?», o1 начинает размышлять и приходит к ответу, используя логические рассуждения. Если вопрос был задан на английском языке, то и ответ o1 даст на английском. Однако перед тем как прийти к ответу, модель выполняет несколько действий на другом языке.
«o1 внезапно начал думать по-китайски в середине процесса», — написал один пользователь на Reddit.
«Почему o1 вдруг начал думать по-китайски?» — спросил другой пользователь в сообщении на X. «Ни один из фрагментов разговора (более 5 сообщений) не был на китайском».
Компания OpenAI не дала разъяснений по поводу странного поведения модели o1 и даже не признала его. Однако некоторые пользователи, включая генерального директора Hugging Face Клемана Деланжа, обратили внимание на то, что модели рассуждений, подобные o1, обучаются на наборах данных, содержащих большое количество китайских иероглифов.
Тед Сяо, исследователь из Google DeepMind, отметил, что такие компании, как OpenAI, используют сторонние сервисы для маркировки китайских данных. Он также заявил, что переход модели o1 на китайский язык является примером «китайского лингвистического влияния на рассуждения».
«Такие лаборатории, как OpenAI и Anthropic, используют сторонние сервисы по маркировке данных для научных, математических и программистских задач на уровне докторантуры, — написал Сяо в посте на X. — Из-за нехватки квалифицированной рабочей силы и дороговизны многие из этих поставщиков данных находятся в Китае».
Метки, также известные как теги или аннотации, помогают моделям понимать и интерпретировать данные в процессе обучения. Исследования показали, что предвзятые метки могут приводить к созданию предвзятых моделей. В частности, средний аннотатор с большей вероятностью будет отмечать фразы, произнесённые на афроамериканском разговорном английском (AAVE) и использующие неформальную грамматику, как токсичные. Это, в свою очередь, приводит к тому, что детекторы токсичности искусственного интеллекта, обученные на таких метках, воспринимают AAVE как чрезмерно токсичный.
Однако другие эксперты не верят в гипотезу о том, что o1 использует китайские данные. Скорее всего, o1 и другие модели рассуждений могут просто использовать языки, которые они считают наиболее эффективными для достижения цели (или галлюцинировать).
«Модель не знает, что такое язык или что языки бывают разными, — сказал TechCrunch Мэтью Гуздиал, исследователь AI и доцент Университета Альберты. — Для неё это просто текст».
На самом деле модели не обрабатывают слова напрямую. Вместо этого они используют токены. Токены могут быть словами, например «фантастический». Или это могут быть слоги, например «фан», «тас» и «тик». Или это могут быть даже отдельные символы в словах, например «ф», «а», «н», «т», «а», «с», «т», «и», «к».
Как и маркировка, токены могут приводить к предвзятости. Например, многие программы перевода слов в токены предполагают, что пробел в предложении обозначает новое слово, несмотря на то, что не во всех языках слова разделяются пробелами.
«Охватывая все лингвистические нюансы, мы расширяем мировоззрение модели и позволяем ей учиться на основе всего спектра человеческих знаний, — написал Тичжэнь Ван в посте на X. — Например, я предпочитаю заниматься математикой на китайском, потому что каждая цифра — это всего один слог, что делает вычисления чёткими и эффективными. Но когда дело доходит до таких тем, как неосознанные предубеждения, я автоматически переключаюсь на английский, в основном потому, что именно на нём я впервые узнал и усвоил эти идеи».
Теория Вана правдоподобна. В конце концов, модели — это вероятностные машины. Обученные на множестве примеров, они изучают закономерности, чтобы делать прогнозы.
Не получив ответа от OpenAI, можно только гадать, почему o1 думает о песнях на французском, а о синтетической биологии на китайском.
Источник
Написать комментарий