OpenAI представляет GPT-4.5: новый рубеж в эволюции языковых моделей
OpenAI выпустила GPT-4.5 в качестве «Research Preview». Новая языковая модель должна быть более естественной, но она значительно дороже своих предшественников.
OpenAI выпустила GPT-4.5 в качестве «исследовательского предварительного просмотра», назвав его своей крупнейшей и лучшей моделью для чата. Новая модель изначально доступна пользователям и разработчикам ChatGPT Pro, а пользователи Plus и Team получат доступ на следующей неделе.
GPT-4.5 представляет собой эволюцию «неконтролируемого обучения», а не подход «рассуждения» серии o1. В то время как модели, такие как o1 и o3-mini, думают, прежде чем отвечать посредством рассуждений, GPT-4.5 отвечает напрямую как классическая большая языковая модель, достигая улучшения производительности посредством традиционного масштабирования перед обучением.
По данным OpenAI, GPT-4.5 (также известная как Orion) является крупнейшей моделью компании на сегодняшний день, и, по словам исследователя OpenAI Рафы Гонтихо Лопеса, компания «вероятно обучила самую большую модель в мире». В то же время компания подчеркивает в своей системной карточке, что GPT-4.5 не является «пограничной моделью». Вероятно, это связано с тем, что компания обучила o3 — модель, которая значительно превосходит GPT-4.5 во многих областях.
Цена отражает вычислительные требования: при цене $75 за миллион входных токенов и $150 за миллион выходных токенов GPT-4.5 значительно дороже, чем GPT-4o ($2.50/$10) или o1 ($15/$60). Поэтому команда не уверена, будет ли модель предлагаться через API в этой форме в долгосрочной перспективе. Как и ее предшественник, она имеет длину контекста 128 000 токенов.
OpenAI считает, что рассуждения станут основной возможностью будущих моделей и что два подхода к масштабированию — предварительное обучение и рассуждения — будут дополнять друг друга. Поскольку модели, подобные GPT-4.5, становятся более интеллектуальными и емкими в плане знаний благодаря предварительному обучению, они обеспечивают более прочную основу для рассуждений и агентов на основе инструментов. Несколько недель назад Альтман объявил, что GPT-5 объединит эти две возможности.
В тестах производительности GPT-4.5 демонстрирует значительные улучшения в некоторых областях: в тесте SimpleQA точность достигает 62,5% по сравнению с 38,2% для GPT-4o или 43,6% для недавно выпущенного Grok 3.
Уровень галлюцинаций снижается с 61,8% до 37,1%, что превосходит показатели как o1, так и o3-mini. В MMMLU (многоязычном) и MMMU (многомодальном) он превосходит своих предшественников GPT-4o (81,5% и 69,1%) и o3-mini (81,1% и NN) с показателями 85,1% и 74,4% соответственно.
В тестах на оценку людей тестировщики отдали предпочтение GPT-4.5 по сравнению с GPT-4o во всех категориях: творческий интеллект (56,8%), профессиональные вопросы (63,2%) и повседневные вопросы (57,0%).
Однако в тестах STEM он не может превзойти модели рассуждений, такие как o3-mini: в GPQA (естественные науки) он достигает 71,4% по сравнению с 53,6% для GPT-4o, но отстает от OpenAI o3-mini (79,7%). В AIME '24 (математика) GPT-4.5 достигает 36,7%, что является значительным улучшением по сравнению с GPT-4o (9,3%), но не приближается к o3-mini (87,3%). Для задач кодирования GPT-4.5 показывает лучшие результаты в тесте SWE-Lancer Diamond Test с 32,6% по сравнению с GPT-4o (23,3%) и превосходит o3-mini (10,8%) — хотя и при значительно более высоких затратах. В тесте SWE-Bench Verified он достигает 38,0% по сравнению с 30,7% у GPT-4o, но отстает от o3-mini (61,0%).
Недавно выпущенный Claude 3.7 Sonnet достигает 62,3% и 70,3% соответственно в бенчмарках, опубликованных Anthropic. Однако эти значения не являются напрямую сопоставимыми, поскольку использовались или тестировались разные методы и наборы задач. Показательный пример: в системной карте для o3-mini модель все равно достигла 49,3%.
В независимом тесте Aider Polyglot Coding Benchmark GPT-4.5 достигает 45%, что значительно больше, чем 23% GPT-4o, но все еще отстает от других моделей. Sonnet 3.7 достигает 60% без долгих размышлений.
В общем, в бенчмарках не наблюдается значительного скачка производительности — лучшие результаты, вероятно, получены в тесте SimpleQA. В ближайшие дни, вероятно, будет много дискуссий о том, умерло ли масштабирование, уперлось ли глубокое обучение в стену и когда рассуждения могут постичь те же участь.
Генеральный директор OpenAI Сэм Альтман, недавно ставший отцом, не присутствовал на презентации GPT-4.5, но прокомментировал X: «Это первая модель, которая ощущается мной как разговор с вдумчивым человеком. У меня было несколько моментов, когда я откидывался на спинку стула и был поражен, получив действительно хороший совет от ИИ». Альтман подчеркивает, что GPT-4.5 не является моделью рассуждений и не побьет рекорды производительности: «Это другой вид интеллекта, и в нем есть магия, которую я раньше не чувствовал».
Значит, речь идет скорее об ощущениях, чем о показателях. Основатель и бывший сотрудник Андрей Карпати видит аналогичный прогресс, хотя ему сложно его измерить. В своих комментариях к релизу он объясняет, что каждый шаг в 0,5 номера версии представляет собой примерно десятикратное увеличение вычислений обучения.
Карпати описывает эволюцию моделей GPT : от GPT-1, которая едва генерировала связный текст, до GPT-2 как «запутанной игрушки», и до GPT-3 , которая давала значительно более интересные результаты. Затем GPT-3.5 перешла порог готовности к выходу на рынок и спровоцировала «момент ChatGPT» OpenAI.
По словам Карпати, с GPT-4 улучшения были уже более тонкими. «Все было просто немного лучше, но в размытом виде», — пишет он. Выбор слов был несколько более креативным, понимание нюансов подсказки улучшилось, аналогии стали немного более осмысленными, модель была немного смешнее, а галлюцинации возникали несколько реже.
Он протестировал GPT-4.5 с похожими ожиданиями, модель, разработанную с десятикратным увеличением вычислений для обучения GPT-4. Его вывод: «Я был на том же хакатоне 2 года назад. Все немного лучше и это потрясающе, но и не совсем в тех аспектах, на которые можно было бы указать».
Источник
Написать комментарий