Подлинность потрясающая. Google и Cornell предлагают технологию завершения реального изображения RealFill.

Сделать красивую фотографию становится все проще и проще.

Путешествуя во время отпуска, фотографирование является обязательным. Однако большинство фотографий, сделанных в живописных местах, в той или иной степени вызывают сожаление: то ли на заднем плане что-то лишнее, то ли чего-то не хватает.

Источник изображения: Создано Unbounded AI

Получение «идеального» изображения было одной из долгосрочных целей исследователей CV. Недавно исследователи из Google Research и Корнельского университета совместно предложили технологию «Аутентичное завершение изображений» — RealFill, генеративную модель завершения изображений.

Преимущество моделей RealFill заключается в том, что их можно персонализировать с помощью небольшого количества эталонных изображений сцены, которые не нужно выравнивать с целевым изображением и которые могут даже сильно различаться с точки зрения угла обзора, условий освещения, апертуры камеры или стиля изображения. . После завершения персонализации RealFill может дополнить целевое изображение визуально привлекательным контентом, который будет соответствовать исходной сцене.

* Бумажная ссылка: *Страница проекта:

Модели закрашивания и перерисовки — это технологии, которые могут генерировать высококачественный и разумный контент изображения в неизвестных областях изображения. Однако контент, генерируемый этими моделями, обязательно нереалистичен, поскольку эти модели работают в контексте реальных сцен. Существуют недостатки в информации. . RealFill, напротив, генерирует контент, который «должен» быть там, делая результаты завершения изображения более реалистичными.

В статье авторы отметили, что они определили новую проблему завершения изображения — «Аутентичное завершение изображения». В отличие от традиционного генеративного восстановления изображения (содержимое, которое заменяет недостающую область, может не соответствовать исходной сцене), цель завершения реального изображения состоит в том, чтобы сделать законченное содержимое максимально близким к исходной сцене, используя содержимое, которое «должно выглядеть там». Дополните целевое изображение контентом, который «может быть там».

Авторы заявляют, что RealFill — это первый метод, расширяющий выразительные возможности моделей генеративной зарисовки изображений за счет добавления дополнительных условий в процесс (т. е. добавления эталонных изображений).

RealFill значительно превосходит существующие методы в новом тесте завершения изображений, охватывающем разнообразный и сложный набор сценариев.

метод

Цель RealFill — использовать небольшое количество эталонных изображений для заполнения недостающих частей заданного целевого изображения, сохраняя при этом как можно большую аутентичность. В частности, вам предоставляется до 5 эталонных изображений и целевое изображение, которое примерно отражает ту же сцену (но может иметь другой макет или внешний вид).

Для конкретной сцены исследователи сначала создали персонализированную генеративную модель путем точной настройки предварительно обученной модели диффузии рисования на эталонных и целевых изображениях. Этот процесс тонкой настройки разработан таким образом, что точно настроенная модель не только сохраняет хорошие априорные изображения, но также изучает содержимое сцены, освещение и стиль входного изображения. Эта точно настроенная модель затем используется для заполнения недостающих областей целевого изображения с помощью стандартного процесса диффузионной выборки.

Стоит отметить, что с точки зрения практического применения эта модель специально ориентирована на более сложный случай без ограничений, когда целевое изображение и эталонное изображение могут иметь совершенно разные точки обзора, условия окружающей среды, апертуру камеры, стили изображения и даже движения. .

Результаты эксперимента

На основе эталонного изображения слева RealFill может расширять (отрезать) или восстанавливать (закрашивать) целевое изображение справа. Полученный результат не только визуально привлекателен, но и соответствует эталонному изображению, даже если эталонное изображение изображение и целевое изображение находятся в одной и той же точке обзора. Существуют большие различия в диафрагме, освещении, стиле изображения и движении объекта.

* Эффект вывода модели RealFill. Учитывая эталонное изображение слева, RealFill может расширить соответствующее целевое изображение справа. Области внутри белого ящика передаются в сеть как известные пиксели, а области за пределами белого ящика генерируются. Результаты показывают, что RealFill может генерировать высококачественные изображения, которые соответствуют эталонному изображению, даже если существуют огромные различия между эталонным изображением и целевым изображением, включая точку обзора, диафрагму, освещение, стиль изображения и движение объекта. Источник: Бумага*

Контролируемый эксперимент

Исследователи сравнили модель RealFill с другими базовыми методами. Для сравнения, RealFill дает результаты высокого качества и работает лучше с точки зрения точности сцены и согласованности с эталонными изображениями.

Paint-by-Example не может обеспечить высокую точность сцены, поскольку он опирается на встраивание CLIP, которое может захватывать только семантическую информацию высокого уровня.

Хотя Stable Diffusion Inpainting может дать, казалось бы, разумные результаты, из-за его ограниченных выразительных возможностей окончательные результаты не соответствуют эталонному изображению.

Сравнение RealFill с двумя другими базовыми методами. Область, покрытая прозрачной белой маской, представляет собой неизмененную часть целевого изображения. Источник: realfill.github.io.

Ограничения

Исследователи также обсудили некоторые потенциальные проблемы и ограничения модели RealFill, включая скорость обработки, способность обрабатывать изменения точки зрения и способность справляться с ситуациями, которые являются сложными для базовой модели. Конкретно:

RealFill требует процесса тонкой настройки входного изображения на основе градиента, что делает его работу относительно медленной.

Когда разница между точками обзора между эталонным изображением и целевым изображением очень велика, RealFill часто не может восстановить 3D-сцену, особенно если имеется только одно эталонное изображение.

Поскольку RealFill в основном полагается на априорные изображения, унаследованные от базовой предварительно обученной модели, он не может обрабатывать ситуации, которые являются сложными для базовой модели, например стабильные диффузионные модели, которые не могут хорошо обрабатывать текст.

В заключение автор выражает благодарность соавторам:

Мы хотели бы поблагодарить Рунди Ву, Цяньцянь Вана, Вираджа Шаха, Итана Вебера, Чжэнци Ли, Кайла Дженову, Боян Денга, Майю Гольденберг, Ноа Снавли, Бена Пула, Бена Милденхолла, Алекса Рав-Ача, Пратула Сринивасана, Дора Вербина и Джону Бэррону за ценные обсуждения и отзывы, а также спасибо Зейе Пэн, Рунди Ву и Шан Нану за их вклад в набор оценочных данных. Мы особенно благодарны Джейсону Болдриджу, Кихьюку Сону, Кэти Мейер-Хеллстерн и Николь Брихтова за их отзывы и поддержку проекта.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить