Новый фреймворк S* помогает моделям AI писать более качественный и надежный код

Новая платформа S* позволяет языковым моделям AI генерировать более мощный и надежный код. Исследователи из Калифорнийского университета в Беркли создали фреймворк под названием S*, который улучшает способ генерации кода моделями языка AI. Система объединяет два разных подхода — параллельное и последовательное масштабирование — с новым способом выбора наилучших результатов.

Хотя генерация нескольких фрагментов кода одновременно и выбор лучшего из них (параллельное масштабирование) не является чем-то новым, команда Беркли добавила нечто дополнительное. Они объединили это с последовательным масштабированием, когда система непрерывно улучшает свои решения посредством систематической отладки.

Фреймворк представляет вариацию вычислений во время теста как один из своих строительных блоков. В отличие от текущих моделей рассуждений, таких как OpenAI o1, S* включает внешнюю обратную связь, а не полагается исключительно на внутренние цепочки рассуждений. Такая конструкция делает ее совместимой как с традиционными моделями больших языков (LLM), так и с более новыми моделями рассуждений (LRM).

Второе ключевое новшество — это то, что команда называет «адаптивным синтезом входных данных». В ходе тестирования они использовали GPT-4o mini для генерации тестовых входных данных для различных потенциальных решений. Запуская эти входные данные и анализируя фактические результаты, ИИ может надежно определить лучшее решение.

Система просит модель AI создать тестовые входы, специально предназначенные для обнаружения различий между двумя программами. Она использует тщательно продуманные подсказки, которые говорят модели учитывать пограничные случаи (например, пустые входы или экстремальные значения), генерировать сложные, но управляемые тестовые случаи и создавать входы, которые могут выявить потенциальные ошибки.

Затем система запускает обе программы, используя эти тестовые входные данные, и возвращает результаты модели AI, которая решает, какое решение работает лучше, основываясь на реальных результатах тестирования.

Команда протестировала S* с 12 различными языковыми моделями разных размеров и типов, обнаружив последовательные улучшения по всем направлениям: Qwen2.5-7B-Coder-Instruct с S* показала результаты примерно на 10% лучше, чем Qwen2.5-32B-Coder-Instruct без него, а в некоторых случаях меньшие модели с использованием S* превзошли более крупные модели рассуждений - GPT-4o mini с S* превзошла o1-Preview. Даже мощные модели рассуждений показали улучшение при использовании фреймворка.

У фреймворка есть некоторые четкие ограничения. В настоящее время он оптимизирован только для задач по программированию и не тестировался на более сложных задачах по программной инженерии. Команда также сосредоточилась исключительно на повышении точности, оставив в стороне вопросы эффективности ресурсов.

Подход, сочетающий итеративные улучшения с возможностями поиска, вероятно, способствовал успеху OpenAI в тесте ARC, где они делали несколько параллельных запросов к своей модели рассуждений o3 и выбирали лучшие ответы, хотя точный метод остается неизвестным. S* следует схожей философии и может привести к улучшению возможностей генерации кода в будущем.

Источник

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"