15:21, 21 Декабрь 2023

Tinkoff Research создала эффективный алгоритм для обучения и адаптации ИИ

Специалисты из лаборатории исследований искусственного интеллекта Tinkoff Research создали эффективный алгоритм для обучения и адаптации ИИ. Новый метод назван ReBRAC . Он представляет собой пересмотренный актор‑критик с контролируемым поведением. По словам создателей, алгоритм обучает ИИ в четыре раза быстрее и на 40% качественнее существующих мировых аналогов в области обучения с подкреплением , адаптируя его к новым условиям на ходу.

Читать на сайте

Результаты исследования были представлены на научной конференции в области ИИ по машинному обучению и нейровычислениям NeurIPS (The Conference and Workshop on Neural Information Processing Systems). В этом году конференция проходила в Новом Орлеане (США) с 10 по 16 декабря 2023 года.

Специалисты Tinkoff Research идентифицировали четыре компонента, представленные в алгоритмах последних лет. Они считались второстепенными и не подвергались детальному анализу. Список изучаемых компонентов:

Tinkoff Research интегрировала эти компоненты в алгоритм‑предшественник BRAC (Behavior Regularized Actor Critic — актор‑критик с контролируемым поведением) 2019 года и провели исследование, поочерёдно варьируя каждый из них. Правильная совокупность этих компонентов дала этому подходу высокую производительность среди существующих аналогов.

Тестирование на робототехнических симуляторах показало, что алгоритм обучает ИИ в четыре раза быстрее и на 40% качественнее всех существующих в офлайн‑бенчмарках. Ранее лидерство принадлежало алгоритму SAC‑RND, также созданному учёными из Tinkoff Research.

Визуализация вариантов тестирования алгоритма: поиск цели в лабиринте (Ant), скорость бега (Halfcheetah, Hopper, Walker2d), задачи для робокистей — правильно держать ручку (Pen), открыть дверь, забить гвоздь, переместить объект

Как утверждают специалисты Tinkoff Research, ReBRAC эффективнее существующих аналогов решает проблему дообучения искусственного интеллекта, который обычно медленно адаптируется к новым условиям. Например, если робот, изначально обученный передвигаться по траве, упадет, переместившись на лед, то ReBRAC позволит роботу лучше учиться на ходу и адаптироваться.

Обсудить
Читайте так же: