21:50, 23 февраля 2025

MLGym – новый шаг в автоматизации научных исследований

За последние время ускорение научных открытий с использованием ИИ стало одной из ключевых амбиций исследовательского сообщества. Исторически сложилось, что задачи автоматизации требовали создания гибких инструментов и бенчмарков для объективной оценки результатов.

Читать на сайте

Однако существующие фреймворки часто ограничиваются узкими задачами или слабо подходят для комплексных исследований, где требуется не просто воспроизведение известных результатов, а генерация новых идей, гипотез и алгоритмов. Поэтому исследователи представили MLGym и MLGym-Bench - первую среду для разработки и оценки ИИ-агентов в исследовательских задачах.

Цель исследования

Главная цель исследования заключается в создании универсальной платформы, позволяющей объединить и стандартизировать широкий спектр задач научного поиска, связанных с машинным обучением, посредством интеграции разнообразных задач из различных доменов – от компьютерного зрения и обработки естественного языка до теории игр и алгоритмического мышления – а также разработки и оценки автономных ИИ-агентов, способных генерировать гипотезы, оптимизировать алгоритмы и настраивать гиперпараметры в условиях междисциплинарных исследований.

Агенты должны понять задачу, запустить бейзлайн, оценить его, и начать итерировать эксперименты, чтобы улучшить результат. Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.

Методы исследования

Авторы предложили категоризировать ИИ-агентов для исследований на несколько уровней:

MLGym-Bench ориентирован на уровень 1 – базовое улучшение.

В работе описывается архитектура MLGym, которая включает три ключевых компонента:

Особое внимание уделено возможности ИИ-агентов использовать инструменты (bash-скрипты, команды для работы с файлами, поиска в литературе и модуль памяти), что позволяет ИИ-агентам осуществлять поиск информации, редактировать код и хранить промежуточные результаты для долгосрочных экспериментов.

Для объективной оценки результатов авторы предложили новую метрику — AUP (Area Under the Performance Profile curve), позволяющую сравнивать относительные достижения агентов по различным задачам с учетом разнообразных метрик (например, точности, времени работы, качества выданных решений).

Результаты

Проведённые эксперименты включали оценку ряда передовых языковых моделей — OpenAI O1-preview, Gemini-1.5-Pro, Claude-3.5-Sonnet, Llama-3.1-405B и GPT-4o — на 13 разнообразных задачах, охватывающих от задач регрессии и классификации до сложных игровых сценариев и оптимизационных проблем (3-SAT).

O1-preview практически на всех задачах выходит вперед. GPT-4o и LLama 3.1 405B демонстрируют схожий уровень, а Claude и Gemini обычно занимают второе и третье места.

Основные результаты исследования можно резюмировать следующим образом:

Авторы также представили демо работы MLGym. Сам фреймворк доступен по ссылке:

Выводы

MLGym и MLGym-Bench представляют важный шаг в развитии автономных агентов для научных исследований. Фреймворк позволяет интегрировать новые задачи и алгоритмы, автоматизируя сложные процессы и улучшая сравнение возможностей моделей.

Автономные ИИ-агенты в перспективе могут оптимизировать существующие методы и генерировать новые гипотезы, что ускорит открытия в медицине, физике и других областях. Но уже сегодня они освобождают ученых от рутинных задач, позволяя сосредоточиться на генерации идей и интерпретации результатов.

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Обсудить