Новая модель LAM способна выполнять задачи в Word
Исследователи Microsoft разработали модель, которую они называют Large Action Model — искусственный интеллект, способный самостоятельно управлять программами Windows. Это означает переход от AI, которые просто говорят о своих возможностях, к AI, которые действительно могут их реализовывать.
В отличие от традиционных языковых моделей, таких как GPT-4o, которые в основном обрабатывают и генерируют текст, LAM может преобразовывать запросы пользователей в реальные действия — будь то управление программным обеспечением или контроль над роботами. Хотя концепция не является абсолютно новой, это первая модель, специально обученная для работы с продуктами Microsoft Office.
LAM может понимать пожелания пользователей из различных типов входных данных — текста, голоса или изображений — и превращать эти запросы в подробные пошаговые планы. Более того, она способна корректировать свой подход на основе происходящего в реальном времени.
Создание LAM включает четыре основных этапа. Сначала модель учится разбивать задачи на логические шаги. Затем она учится у более продвинутого AI, такого как GPT-4o, превращать эти планы в действия. После этого модель самостоятельно ищет новые решения, даже справляясь с проблемами, которые ставили в тупик другие AI-системы. Наконец, систему дорабатывают посредством обучения на основе вознаграждений.
В качестве тестового примера они создали LAM на основе модели Mistral-7B и запустили её в тестовой среде Word. Она успешно выполнила задачи в 71% случаев, что значительно превзошло показатель GPT-4o в 63% (без визуальной информации).
LAM также была гораздо быстрее, требуя всего 30 секунд на задачу по сравнению с 86 секундами у GPT-4o. Однако, когда GPT-4o получала визуальную информацию, её точность была выше — 75,5%.
Команда начала с 29 000 пар "задача-план", собранных из документации, статей wikiHow и запросов в Bing. Для дальнейшего расширения они использовали GPT-4o для преобразования простых задач в более сложные. Например, базовая задача "Создать выпадающий список" преобразилась в "Создать зависимый выпадающий список, где первый выбор фильтрует варианты во втором списке."
Эта стратегия "эволюционирования данных" помогла им увеличить набор данных до 76 000 пар — рост на 150%. Из всех этих примеров около 2 000 успешных последовательностей действий вошли в окончательный тренировочный набор.
Система всё ещё сталкивается с рядом препятствий: существуют обоснованные опасения по поводу ошибок в действиях AI, регуляторные вопросы, требующие решения, а также технические ограничения, затрудняющие масштабирование или адаптацию к различным приложениям.
Несмотря на эти сложности, исследователи считают, что LAM представляют собой важный сдвиг в развитии AI и заявляют, что эти "Large Action Models" обозначают значительный шаг к AGI. Вместо систем AI, которые просто понимают и генерируют текст, в ближайшем будущем у нас могут появиться AI-помощники, которые активно помогают нам выполнять реальные задачи.
Источник
Написать комментарий