В сети начался конкурс вопросов для сложнейшего в мире теста для ИИ: за каждый можно получить до $5000

Название конкурса заслуживает отдельного внимания. Он называется буквально Последний экзамен человечества: Humanity’s Last Exam. Ученые из CAIS и ScaleAI запустили его, чтобы собрать самый большой и сложный набор вопросов, которые поставят в тупик современные LLM. Предложить вопрос может каждый, и если его примут, то автор получит от 500 до 5000 долларов, а также соавторство в статье про получившийся бенчмарк. Всего исследователи планируют собрать не менее тысячи вопросов, и уже получили часть из них от ученых из университетов MIT, UC Berkeley и Stanford.

Вот несколько правил для отправки своего вопроса:

  • Вопрос нельзя скопировать из Интернета, книг, научных статей и других источников. Он должен быть оригинальный, придуманный именно вами.

  • Вопросы должны быть сложными, на них должно быть нелегко ответить большинству людей. Кроме того, ответы должно быть сложно "нагуглить".

  • У вопроса должен быть один конкретный неспорный ответ.

  • Вопросы не должны быть связаны с оружием или любой формой насилия.

  • Когда вы подаете вопрос и указываете ответ, то прямо на сайте вашу задачку сразу пытаются решить пять передовых моделей: GPT-4o, o1-mini и o1-preview от OpenAI, Gemini от Google и Sonnet 3.5 от Anthropic. Если все пять моделей дают неверный ответ, ваш вопрос принимают на рассмотрение.

В остальном победа – вопрос вашей фантазии или глубокой экспертности в какой-либо области. Так что советуем вам попробовать: вдруг повезет. Дедлайн отправки – 1 ноября 2024 года. Весь список условий и инструкцию можно найти вот тут.

Кстати, мы в нашем тг-канале Data Secrets в честь запуска Humanity’s Last Exam решили провести свой собственный конкурс, аналогичный. Вот только особенно строгих правил у нас нет, а выиграет тот, кто напишет самый остроумный вопрос, с которым уж точно не справятся современные модели. 5000 долларов в подарок не обещаем, но победитель получит нашу фирменную футболку-альманах с изображением сразу всех архитектур глубокого обучения.

Итоги мы подведем уже завтра, так что если хотите принять участие – поторопитесь!

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"