Авторы проекта отмечают, что художественные студии пытаются использовать диффузионные модели машинного обучения для раскрашивания скетчей и комиксов. При этом такие нейросети в процессе генерации искажают исходные объекты. Это мешает использовать диффузионные модели в промышленном масштабе.
Исследователи предложили ColorFlow — трёхступенчатую структуру на основе диффузии, которая не искажает объекты и не путает цвета. Нейросети надо передать два изображения: картинку, которую надо раскрасить, и уже цветной референс.
С помощью нейросети можно раскрашивать не только мангу, но и фотографии, кадры из фильмов и мультфильмов.
Для оценки качества генерации команда проекта разработала бенчмарк ColorFlow-Bench. С его помощью результаты работы ColorFlow сравнили с конкурентами, например, Manga Colorization V2 (MC-v2) и AnimeColorDeOldify (ACDO). В таблице видно, что ColorFlow оказалась лучше аналогов.
Код проекта опубликовали на GitHub, а модель можно найти на площадке Hugging Face. Также разработчики развернули бесплатное демо.
Обсудить