PhotoDoodle: система ИИ для редактирования изображений с сохранением стиля и композиции

Исследователи из университетов Китая и Сингапура совместно с ByteDance создали PhotoDoodle — впечатляющую новую систему искусственного интеллекта для редактирования изображений. Модель способна анализировать различные художественные стили всего по нескольким образцам изображений, а затем точно выполнять конкретные инструкции по редактированию.

PhotoDoodle основан на модели генерации изображений Flux.1, разработанной немецким стартапом Black Forest Labs, с использованием архитектуры диффузионного трансформера и предварительно обученных параметров.

Сначала исследователи разработали OmniEditor — версию Flux.1, модифицированную для обработки изображений с помощью LoRA (адаптации с низким рангом). Этот метод не изменяет напрямую все весовые коэффициенты сети, а вместо этого добавляет небольшие специализированные матрицы. Эти матрицы можно обучать, не сильно изменяя исходную модель, что позволяет вносить как небольшие изменения в концепцию, так и полностью менять стиль.

Вероятно, команда получила необходимый набор данных SeedEdit в результате экспериментов с одноимённой моделью редактирования изображений ByteDance, которая была представлена в прошлом году. В статье не приводится конкретных сведений о происхождении набора данных.

Затем исследователи обучили OmniEditor воспроизводить стили отдельных художников с помощью варианта LoRA под названием EditLoRA. Изучая выбранные пары изображений, EditLoRA обращает внимание на нюансы каждого художественного стиля. Согласно статье, обучающие данные были созданы в сотрудничестве с самими художниками.

Этот подход решает важнейшую проблему: гармоничное добавление декоративных элементов в изображения с сохранением правильной перспективы, контекста и желаемого стиля. Исследователи отмечают, что предыдущие методы, которые либо меняли стиль всего изображения, либо редактировали только небольшие области, не могли должным образом решить эту задачу.

Ключевым компонентом PhotoDoodle является «клонирование с кодировкой положения». Проще говоря, ИИ запоминает точное положение каждого пикселя на исходном изображении.

При добавлении новых элементов PhotoDoodle использует сохранённую информацию о положении, чтобы точно разместить их и плавно вписать в изображение. Этот метод не требует дополнительной настройки параметров, что делает процесс более эффективным.

Система также требует «очищенных от шума» входных данных, то есть исходное изображение должно быть высокого качества, чтобы предотвратить непреднамеренное изменение фона во время обработки.

Команда провела обширное тестирование, чтобы продемонстрировать возможности PhotoDoodle. Система точно выполняла такие запросы, как «Сделайте кошку немного белее» и «Добавьте розового монстра, взбирающегося на здание».

По сравнению с существующими методами, PhotoDoodle показал превосходные результаты в различных тестах, измеряющих такие аспекты, как сходство между изображениями и текстовыми описаниями. Он значительно превзошёл модели сравнения как в точечных исправлениях, так и в глобальных изменениях изображений.

Исследовательская группа признаёт, что в настоящее время PhotoDoodle требует десятков пар изображений и тысяч шагов обучения. Их следующая цель — разработать систему, которая сможет изучать стили по одной паре изображений.

Для поддержки дальнейших исследований в этой области учёные опубликовали набор данных, содержащий шесть различных художественных стилей и более 300 пар изображений.

Источник

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"