Маленькая модель, большой эффект: Glider от Patronus AI превосходит GPT-4 в ключевых задачах оценки AI

20:44
22 Декабря 2024
229

Стартап, созданный бывшими сотрудниками Meta AI, представил легковесную модель искусственного интеллекта, способную оценивать другие AI-системы так же эффективно, как и более крупные аналоги, при этом предоставляя подробные объяснения своих решений. Patronus AI выпустила Glider, языковую модель с открытым исходным кодом, содержащую 3,8 миллиарда параметров. Она превосходит GPT-4o-mini от OpenAI по нескольким ключевым критериям оценки AI-результатов, выступая в роли автоматизированного оценщика, который может анализировать реакции AI-систем по сотням различных параметров, объясняя свои выводы.

Эта разработка знаменует собой важный шаг вперед в области оценки AI. В отличие от крупных запатентованных моделей, таких как GPT-4, которые могут быть дорогостоящими и непрозрачными, Glider более экономична и предоставляет ясные обоснования своих решений с помощью маркеров и выделенных текстовых фрагментов.

"Сейчас у нас много юристов, выступающих в роли судей, но мы не знаем, кто из них лучше всего подходит для нашей задачи", – пояснил Даршан Дешпанде, ведущий инженер-исследователь Patronus AI. "Мы создали модель, которая работает на устройстве, использует только 3,8 миллиарда параметров и предоставляет высококачественные цепочки рассуждений."

Glider демонстрирует, что меньшие языковые модели могут быть столь же эффективными или даже превосходить большие модели для специализированных задач, работая с задержкой всего в одну секунду. Это делает ее подходящей для приложений реального времени, где важна быстрая оценка AI-результатов. Одной из ключевых особенностей Glider является способность одновременно оценивать множество аспектов AI-результатов, таких как точность, безопасность и тональность, без необходимости в отдельных этапах оценки. Несмотря на обучение преимущественно на английских данных, модель сохраняет многоязычные возможности.

"При работе в реальном времени важна минимальная задержка", – подчеркнул Каннаппан. "Эта модель отвечает менее чем за секунду, особенно при использовании в нашем продукте."

Glider предлагает множество преимуществ для компаний, разрабатывающих AI-системы. Ее компактный размер позволяет работать на потребительском оборудовании, решая вопросы конфиденциальности без необходимости передачи данных во внешние API. Открытый исходный код позволяет адаптировать модель под конкретные нужды организаций.

Модель обучена по 183 различным критериям оценки в 685 областях, от основ, таких как точность и согласованность, до более сложных аспектов, как креативность и этика. Это разнообразие помогает специалистам адаптироваться к различным оценочным задачам.

"Клиентам нужны модели на устройствах, так как они не могут отправлять персональные данные в OpenAI или Anthropic", – заметил Дешпанде. "Мы хотим показать, что небольшие языковые модели могут быть эффективными оценщиками."

Выпуск Glider совпадает с усилением внимания компаний к ответственной разработке AI через надежную оценку и контроль. Способность модели предоставлять детальные объяснения своих суждений может помочь организациям лучше понять и улучшить поведение своих AI-систем. Patronus AI, основанная экспертами из Meta AI и Meta Reality Labs, стремится стать лидером в области AI-оценки, предлагая платформу для автоматизированного тестирования и обеспечения безопасности языковых моделей. Компания планирует опубликовать техническое исследование о Glider на arxiv.org, демонстрируя его производительность в различных тестах. Ранние испытания показывают, что он достигает лучших результатов по нескольким стандартным критериям, предоставляя более прозрачные объяснения по сравнению с существующими решениями.

"Мы только начинаем", – добавил Каннаппан. "Мы ожидаем, что со временем все больше разработчиков и компаний будут продвигать границы в этих областях."

Успех Glider указывает на то, что будущее AI-систем может быть связано не с увеличением размера моделей, а с разработкой более специализированных и эффективных решений, оптимизированных для конкретных задач. Его достижения могут изменить подход компаний к оценке и разработке AI в будущем.

Читайте так же: