Reuters: Meta* выпускает модель искусственного интеллекта, которая может проверять работу других ИИ-моделей
В пятницу компания Meta* представила новую серию моделей искусственного интеллекта от своего исследовательского подразделения, включая инструмент под названием Самообучающийся оценщик . Этот инструмент может существенно сократить участие человека в процессе разработки ИИ.
Новый выпуск последовал за августовской статьей компании, где подробно описывалось, как этот инструмент использует технику "цепочки рассуждений" (chain of thought), применяемую в моделях OpenAI, для надёжной оценки ответов ИИ. Суть техники заключается в том, чтобы разбивать сложные задачи на последовательные логические шаги. Это повышает точность ответов на сложные вопросы в таких областях, как наука, программирование и математика.
Отличительной особенностью подхода компании стало то, что они использовали полностью сгенерированные ИИ данные для обучения модели-оценщика, исключив участие человека на этом этапе. Такая возможность, оценивать ИИ с помощью другого ИИ, открывает перспективу создания автономных агентов, которые смогут учиться на собственных ошибках и развиваться без вмешательства человека.
Многие в области ИИ видят в таких агентах будущее: цифровые помощники, которые будут достаточно умны, чтобы выполнять широкий круг задач без участия людей. Самообучающиеся модели могут исключить необходимость в дорогом и трудоёмком процессе, известном как "Обучение с подкреплением с использованием человеческой обратной связи" (Reinforcement Learning from Human Feedback, RLHF). Этот метод требует участия экспертов для маркировки данных и проверки ответов на сложные запросы.
"Мы надеемся, что по мере развития ИИ он будет становиться всё лучше в самопроверке, и в конечном итоге его способности превзойдут человеческие," — говорит Джейсон Вестон, один из исследователей Meta*. "Способность к самообучению и самооценке — ключ к достижению сверхчеловеческого уровня ИИ."
Другие компании, такие как Google и Anthropic, также занимаются исследованиями в области RLAIF (Reinforcement Learning from AI Feedback), но, в отличие от Meta*, они не публикуют свои модели для публичного использования.
Источник
*признана в РФ экстремистской организацией и запрещена
Написать комментарий