Під час подорожі під час відпустки фотографування є обов’язковим. Однак більшість фотографій, зроблених у мальовничих місцях, більш-менш жалюгідні: чи то є щось зайве на тлі, чи то чогось не вистачає.
Джерело зображення: створено Unbounded AI
Отримання «ідеального» іміджу було однією з довгострокових цілей дослідників CV. Нещодавно дослідники з Google Research і Корнельського університету спільно запропонували технологію «Authentic Image Completion» — RealFill, генеративну модель для завершення зображень.
Перевага моделей RealFill полягає в тому, що їх можна персоналізувати за допомогою невеликої кількості еталонних зображень сцени, які не потрібно узгоджувати з цільовим зображенням і навіть можуть значно відрізнятися за кутом огляду, умовами освітлення, діафрагмою камери або стилем зображення. . Після завершення персоналізації RealFill може доповнити цільове зображення візуально привабливим вмістом у спосіб, який відповідає оригінальній сцені.
* Папір посилання:
Сторінка проекту:
Моделі зафарбовування та зафарбовування – це технології, які можуть генерувати високоякісний і прийнятний вміст зображення в невідомих областях зображення. Однак вміст, створений цими моделями, обов’язково є нереалістичним, оскільки ці моделі працюють у контексті реальних сцен. Є недоліки в інформації . Навпаки, RealFill генерує вміст, який «має» бути там, роблячи результати завершення зображення більш реалістичними.
У статті автори зазначили, що вони визначили нову проблему завершення зображення – «достовірне завершення зображення». На відміну від традиційної генеративної реставрації зображення (контент, який замінює відсутню область, може не відповідати оригінальній сцені), метою завершення реального зображення є зробити завершений вміст максимально вірним оригінальній сцені, використовуючи вміст, який «повинен виглядати Доповніть цільове зображення вмістом, який «може бути там».
Автори стверджують, що RealFill є першим методом, який розширює виразну силу моделей малювання генеративних зображень шляхом додавання додаткових умов до процесу (тобто додавання еталонних зображень).
RealFill значно перевершує існуючі методи за новим тестом завершення зображення, що охоплює різноманітні та складні сценарії.
метод
Метою RealFill є використання невеликої кількості еталонних зображень для завершення відсутніх частин даного цільового зображення, зберігаючи при цьому якомога більшу автентичність. Зокрема, вам надається до 5 еталонних зображень і цільове зображення, яке приблизно відображає ту саму сцену (але може мати інший макет або вигляд).
Для певної сцени дослідники спочатку створили персоналізовану генеративну модель, налаштувавши попередньо навчену модель дифузії в малюнку на еталонних і цільових зображеннях. Цей процес тонкого налаштування розроблено таким чином, щоб точно налаштована модель не лише підтримувала хороші попередні зображення, але й вивчала вміст сцени, освітлення та стиль у вхідному зображенні. Ця точно налаштована модель потім використовується для заповнення відсутніх областей цільового зображення за допомогою стандартного процесу дифузійної вибірки.
Варто зазначити, що для практичного застосування ця модель спеціально зосереджена на більш складному, необмеженому випадку, коли цільове зображення та еталонне зображення можуть мати дуже різні точки зору, умови навколишнього середовища, діафрагму камери, стилі зображення та навіть рухи. .
Експериментальні результати
Базуючись на еталонному зображенні ліворуч, RealFill може розгортати (відмінювати обрізання) або відновлювати (зафарбовувати) цільове зображення праворуч. Згенерований результат не тільки візуально привабливий, але й узгоджується з еталонним зображенням, навіть якщо еталонне зображення зображення та цільове зображення знаходяться в одній точці огляду. , існують великі відмінності в діафрагмі, освітленні, стилі зображення та русі об’єкта.
Ефект виведення моделі RealFill. Маючи контрольне зображення ліворуч, RealFill може розгорнути відповідне цільове зображення праворуч. Області всередині білої рамки надаються в мережу як відомі пікселі, тоді як області за межами білої рамки генеруються. Результати показують, що RealFill може генерувати високоякісні зображення, які точно відповідають еталонному зображенню, навіть якщо існують великі відмінності між еталонним і цільовим зображеннями, включаючи точку огляду, діафрагму, освітлення, стиль зображення та рух об’єкта. Джерело: Папір
Контрольований експеримент
Дослідники порівняли модель RealFill з іншими базовими методами. Для порівняння RealFill дає високоякісні результати та кращі результати з точки зору точності сцени та відповідності еталонним зображенням.
Paint-by-Example не може досягти високої точності сцени, оскільки він покладається на вбудовування CLIP, яке може отримувати лише семантичну інформацію високого рівня.
Незважаючи на те, що Stable Diffusion Inpainting може дати, здавалося б, розумні результати, через його обмежені виразні можливості остаточні згенеровані результати не узгоджуються з еталонним зображенням.
Порівняння RealFill з двома іншими базовими методами. Область, покрита прозорою білою маскою, є незміненою частиною цільового зображення. Джерело: realfill.github.io
Обмеження
Дослідники також обговорили деякі потенційні проблеми та обмеження моделі RealFill, зокрема швидкість обробки, здатність обробляти зміни точки зору та здатність обробляти ситуації, які є складними для основної моделі. зокрема:
RealFill потребує процесу тонкого налаштування на основі градієнта вхідного зображення, що робить його роботу відносно повільним.
Коли зміна точки огляду між еталонним зображенням і цільовим зображенням дуже велика, RealFill часто не може відновити 3D-сцену, особливо якщо є лише одне еталонне зображення.
Оскільки RealFill в основному покладається на попередні зображення, успадковані від базової попередньо навченої моделі, він не може впоратися із ситуаціями, які є складними для базової моделі, як-от стабільні моделі дифузії, які не можуть добре обробляти текст.
Насамкінець автор висловлює подяку співавторам:
Ми хотіли б подякувати Рунді Ву, Цяньцянь Вану, Віражу Шаху, Ітану Веберу, Чженчі Лі, Кайлу Генові, Боянг Денгу, Майї Голденберг, Ноа Снавелі, Бену Пулу, Бену Мілденхоллу, Алексу Рав-Ача, Пратулу Шрінівасану, Дору Вербіну та Джону Баррону за цінні обговорення та відгуки, а також подяка Зеї Пенг, Рунді Ву та Шан Нану за їхній внесок у набір даних оцінки. Ми особливо вдячні Джейсону Болдріджу, Кіхюку Сону, Кеті Майєр-Хеллштерн і Ніколь Бріхтовій за їхні відгуки та підтримку проекту.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Автентичність вражає Google і Cornell пропонують технологію завершення реальних зображень RealFill
Під час подорожі під час відпустки фотографування є обов’язковим. Однак більшість фотографій, зроблених у мальовничих місцях, більш-менш жалюгідні: чи то є щось зайве на тлі, чи то чогось не вистачає.
Отримання «ідеального» іміджу було однією з довгострокових цілей дослідників CV. Нещодавно дослідники з Google Research і Корнельського університету спільно запропонували технологію «Authentic Image Completion» — RealFill, генеративну модель для завершення зображень.
Перевага моделей RealFill полягає в тому, що їх можна персоналізувати за допомогою невеликої кількості еталонних зображень сцени, які не потрібно узгоджувати з цільовим зображенням і навіть можуть значно відрізнятися за кутом огляду, умовами освітлення, діафрагмою камери або стилем зображення. . Після завершення персоналізації RealFill може доповнити цільове зображення візуально привабливим вмістом у спосіб, який відповідає оригінальній сцені.
Моделі зафарбовування та зафарбовування – це технології, які можуть генерувати високоякісний і прийнятний вміст зображення в невідомих областях зображення. Однак вміст, створений цими моделями, обов’язково є нереалістичним, оскільки ці моделі працюють у контексті реальних сцен. Є недоліки в інформації . Навпаки, RealFill генерує вміст, який «має» бути там, роблячи результати завершення зображення більш реалістичними.
У статті автори зазначили, що вони визначили нову проблему завершення зображення – «достовірне завершення зображення». На відміну від традиційної генеративної реставрації зображення (контент, який замінює відсутню область, може не відповідати оригінальній сцені), метою завершення реального зображення є зробити завершений вміст максимально вірним оригінальній сцені, використовуючи вміст, який «повинен виглядати Доповніть цільове зображення вмістом, який «може бути там».
Автори стверджують, що RealFill є першим методом, який розширює виразну силу моделей малювання генеративних зображень шляхом додавання додаткових умов до процесу (тобто додавання еталонних зображень).
RealFill значно перевершує існуючі методи за новим тестом завершення зображення, що охоплює різноманітні та складні сценарії.
метод
Метою RealFill є використання невеликої кількості еталонних зображень для завершення відсутніх частин даного цільового зображення, зберігаючи при цьому якомога більшу автентичність. Зокрема, вам надається до 5 еталонних зображень і цільове зображення, яке приблизно відображає ту саму сцену (але може мати інший макет або вигляд).
Для певної сцени дослідники спочатку створили персоналізовану генеративну модель, налаштувавши попередньо навчену модель дифузії в малюнку на еталонних і цільових зображеннях. Цей процес тонкого налаштування розроблено таким чином, щоб точно налаштована модель не лише підтримувала хороші попередні зображення, але й вивчала вміст сцени, освітлення та стиль у вхідному зображенні. Ця точно налаштована модель потім використовується для заповнення відсутніх областей цільового зображення за допомогою стандартного процесу дифузійної вибірки.
Варто зазначити, що для практичного застосування ця модель спеціально зосереджена на більш складному, необмеженому випадку, коли цільове зображення та еталонне зображення можуть мати дуже різні точки зору, умови навколишнього середовища, діафрагму камери, стилі зображення та навіть рухи. .
Експериментальні результати
Базуючись на еталонному зображенні ліворуч, RealFill може розгортати (відмінювати обрізання) або відновлювати (зафарбовувати) цільове зображення праворуч. Згенерований результат не тільки візуально привабливий, але й узгоджується з еталонним зображенням, навіть якщо еталонне зображення зображення та цільове зображення знаходяться в одній точці огляду. , існують великі відмінності в діафрагмі, освітленні, стилі зображення та русі об’єкта.
Контрольований експеримент
Дослідники порівняли модель RealFill з іншими базовими методами. Для порівняння RealFill дає високоякісні результати та кращі результати з точки зору точності сцени та відповідності еталонним зображенням.
Paint-by-Example не може досягти високої точності сцени, оскільки він покладається на вбудовування CLIP, яке може отримувати лише семантичну інформацію високого рівня.
Незважаючи на те, що Stable Diffusion Inpainting може дати, здавалося б, розумні результати, через його обмежені виразні можливості остаточні згенеровані результати не узгоджуються з еталонним зображенням.
Обмеження
Дослідники також обговорили деякі потенційні проблеми та обмеження моделі RealFill, зокрема швидкість обробки, здатність обробляти зміни точки зору та здатність обробляти ситуації, які є складними для основної моделі. зокрема:
RealFill потребує процесу тонкого налаштування на основі градієнта вхідного зображення, що робить його роботу відносно повільним.
Коли зміна точки огляду між еталонним зображенням і цільовим зображенням дуже велика, RealFill часто не може відновити 3D-сцену, особливо якщо є лише одне еталонне зображення.
Оскільки RealFill в основному покладається на попередні зображення, успадковані від базової попередньо навченої моделі, він не може впоратися із ситуаціями, які є складними для базової моделі, як-от стабільні моделі дифузії, які не можуть добре обробляти текст.
Ми хотіли б подякувати Рунді Ву, Цяньцянь Вану, Віражу Шаху, Ітану Веберу, Чженчі Лі, Кайлу Генові, Боянг Денгу, Майї Голденберг, Ноа Снавелі, Бену Пулу, Бену Мілденхоллу, Алексу Рав-Ача, Пратулу Шрінівасану, Дору Вербіну та Джону Баррону за цінні обговорення та відгуки, а також подяка Зеї Пенг, Рунді Ву та Шан Нану за їхній внесок у набір даних оцінки. Ми особливо вдячні Джейсону Болдріджу, Кіхюку Сону, Кеті Майєр-Хеллштерн і Ніколь Бріхтовій за їхні відгуки та підтримку проекту.