З потягуванням і потягуванням троянда оживає! Google пропонує генеративну динаміку зображення, і відтепер все буде живим

Перше джерело: Xinzhiyuan

Джерело зображення: створено Unbounded AI

Подивіться, коли троянду обережно потягнути, вона починає рухатися.

Волочачи листочки вліво, сосна рушила в тому ж напрямку.

Є також зображення різних об'єктів світу, які можна оживити в одну мить.

Це останнє дослідження команди Google, яке перетворює ваші руки на «чарівні золоті пальці», які можуть керувати всім і рухати ним одним дотиком.

У цій статті Google запропонував «Generative Image Dynamics», який моделює попередній простір зображення, а потім навчає модель передбачати «нейронну текстуру випадкового руху».

Нарешті це було реалізовано, і навіть нескінченний цикл відео можна було створити шляхом взаємодії з одним зображенням.

У майбутньому фантазія художників більше не буде обмежена традиційними рамками, і все стане можливим у цьому динамічному просторі образів.

Все на картинці оживає

Рух всього в світі мультимодальний.

Одяг, що висів на подвір’ї, гойдався туди-сюди від вітру.

Великі червоні ліхтарі, що висіли на вулиці, колихалися в повітрі.

Біля фіранки спить кошеня, яке ледаче дихає животом.

Ці рухи зазвичай не передбачувані: свічки горять певним чином, дерева гойдаються на вітрі, листя шелестить...

Взявши фотографію, дослідники, можливо, зможуть уявити, як вона рухалася, коли була зроблена фотографія.

Враховуючи поточний розвиток генеративних моделей, особливо моделей дифузії, можна моделювати дуже багаті та складні розподіли.

Це робить можливим багато застосувань, які раніше були неможливими, наприклад генерування довільно реалістичних зображень із тексту. Модель дифузії не тільки корисна в полі зображення, але й може використовуватися для моделювання відеополя.

На основі цього команда Google у цьому дослідженні змоделювала генеративний попередній рух сцени в просторі зображення, тобто рух усіх пікселів в одному зображенні.

Модель навчається на основі траєкторій руху, автоматично витягнутих із великої кількості реальних відеопослідовностей.

На основі вхідного зображення навчена модель передбачає «нейронну стохастичну текстуру руху»: набір базових коефіцієнтів руху, які описують майбутню траєкторію кожного пікселя.

Дослідники Google обмежили сферу свого дослідження реальними сценами з природною динамікою коливань, такими як дерева та квіти, що дме на вітрі, тому вони обрали ряди Фур’є як базову функцію.

Потім модель дифузії використовується для прогнозування «нейронних стохастичних текстур руху». Модель генерує лише коефіцієнти для однієї частоти за раз, але координує ці прогнози в різних діапазонах частот.

Отриману частотно-просторову текстуру можна перетворити на щільні траєкторії руху пікселів на великій відстані, які можна використовувати для синтезу майбутніх кадрів і трансформації статичних зображень у реалістичну анімацію.

Далі розглянемо, як це реалізовано?

Ознайомлення з технологією

На основі одного зображення

, метою дослідника є створення відео довжиною T

, це відео може показувати динамічні дерева, квіти чи полум’я свічок, що коливаються на вітрі.

Створена дослідниками система складається з двох модулів: «модуль прогнозування дій» і «модуль візуалізації на основі зображень».

По-перше, дослідники використовували «модель прихованої дифузії» як вхідне зображення

Прогнозування текстури нейронного стохастичного руху

Це частотне представлення траєкторії руху кожного пікселя у вхідному зображенні.

На другому кроці зворотне дискретне перетворення Фур’є використовується для перетворення прогнозованої текстури випадкового руху в ряд полів переміщення руху.

.

Ці поля зміщення руху використовуватимуться для визначення положення кожного вхідного пікселя на кожному майбутньому кроці часу.

З цими прогнозованими полями руху модуль рендерингу дослідників використовує методи рендерингу на основі зображень, щоб отримати характеристики кодування з вхідних зображень RGB і декодувати ці вибрані характеристики у вихідні кадри через мережу синтезу зображень.

Нейронна текстура випадкового руху

текстура руху

У попередніх дослідженнях текстура руху визначала серію змінних у часі двовимірних карт зміщення.

де кожна координата пікселя p від вхідного зображення

Двовимірний вектор зміщення в визначає положення пікселя в майбутній час t.

Щоб створити майбутній кадр у момент часу t, можна використати відповідну карту переміщення, починаючи з

Виберіть пікселі з , що призведе до деформованого вперед зображення:

Текстура випадкового руху

Як було продемонстровано раніше в дослідженнях комп’ютерної графіки, багато природних рухів, особливо коливальних, можна описати як суперпозицію невеликого набору гармонійних осциляторів, представлених різними частотами, амплітудами та фазами.

Одним із способів введення випадковості в рух є інтеграція полів шуму. Але, як показали попередні дослідження, додавання випадкового шуму безпосередньо до просторових і часових областей прогнозованих полів руху часто призводить до нереалістичної або нестабільної анімації.

Крім того, використання текстури руху в часовій області, визначеній вище, означає, що необхідно передбачити поля T 2D зміщення для генерації відеосегменту, що містить T-кадри. Щоб уникнути прогнозування такого великого вихідного представлення, багато попередніх методів анімації або генерують відеокадри авторегресійно, або незалежно передбачають кожен майбутній вихідний кадр за допомогою додаткового тимчасового вбудовування.

Однак жодна стратегія не гарантує, що згенеровані відеокадри є тимчасово узгодженими протягом тривалого часу, і обидві можуть створювати відео, які дрейфують або розходяться з часом.

Щоб вирішити зазначені вище проблеми, дослідники представляють піксельну текстуру руху вхідної сцени в частотній області (тобто повні траєкторії руху всіх пікселів) і формулюють задачу прогнозування руху як мультимодальне перетворення зображення в зображення. завдання.

Дослідники використовували модель прихованої дифузії (LDM), щоб створити текстуру випадкового руху, що складається з 4K-канальної двовимірної спектрограми руху, де K << T — кількість змодельованих частот, і для кожної частоти дослідникам потрібні були чотири скаляри для представлення комплексні коефіцієнти Фур'є у вимірах x і y.

На зображенні нижче показано ці нейронні текстури випадкового руху.

Отже, як слід вибрати вихідну частоту К, зазначену дослідниками? Попередні дослідження анімації в реальному часі показали, що більшість природних коливальних рухів складається в основному з низькочастотних компонентів.

Щоб перевірити цю гіпотезу, дослідники розрахували середній спектр потужності руху, отриманий з 1000 випадково відібраних 5-секундних реальних відеокліпів. Як показано на лівому малюнку нижче, потужність в основному зосереджена на низькочастотних компонентах.

Частотний спектр дії експоненціально зменшується зі збільшенням частоти. Це показує, що більшість природних вібрацій дійсно можуть бути добре представлені низькочастотними термінами.

На практиці дослідники виявили, що перших K = 16 коефіцієнтів Фур’є було достатньо для точного відтворення оригінальних природних рухів у ряді реальних відео та сцен.

Використовуйте модель дифузії для прогнозування дій

Дослідники обрали модель прихованої дифузії (LDM) як основу модуля прогнозування дій дослідників, оскільки LDM ефективніша з точки зору обчислень, ніж модель дифузії в піксельному просторі, зберігаючи при цьому якість генерації.

Стандартний LDM складається з двох модулів:

  1. Варіаційний автокодер (VAE) стискає вхідне зображення в латентний простір через кодер z = E(I), а потім реконструює вхідні дані з латентних ознак через декодер I = D(z).

  2. Дифузійна модель, заснована на U-Net, яка вчиться ітеративно приглушувати приховані ознаки, починаючи з гауссового випадкового шуму.

Навчання дослідників застосовується не до вхідних зображень, а до текстур випадкових дій із реальних відеопослідовностей, які кодуються, а потім розповсюджуються на n кроків у попередньо визначеному розкладі дисперсій для створення шумових латентних змінних zn.

Частотна адаптивна нормалізація

Дослідники помітили проблему, коли текстури випадкової дії мають специфічні властивості розподілу за частотою. Як показано на лівій панелі зображення вище, амплітуда текстури руху дослідників коливається від 0 до 100 і зменшується приблизно експоненціально зі збільшенням частоти.

Оскільки дифузійні моделі вимагають вихідних значень від 0 до 1 для стабільного навчання та усунення шумів, дослідники повинні нормалізувати S-коефіцієнти, отримані з реальних відео, перш ніж тренуватися з ними.

Якщо дослідники масштабують величину коефіцієнтів S до [0,1] на основі ширини та висоти зображення, то майже всі коефіцієнти будуть близькі до нуля на вищих частотах, як показано на малюнку вище (праворуч).

Моделі, навчені на таких даних, можуть виконувати неточні дії, оскільки під час логічного висновку навіть невеликі помилки передбачення можуть призвести до великих відносних помилок після денормалізації, коли нормалізована величина S Величина коефіцієнта дуже близька до нуля.

Щоб вирішити цю проблему, дослідники застосували просту, але ефективну частотно-адаптивну техніку нормалізації. Зокрема, дослідники спочатку нормалізували коефіцієнти Фур’є на кожній частоті незалежно на основі статистичних даних, розрахованих із навчального набору.

Координоване по частоті шумопоглинання

Простий спосіб передбачити текстуру випадкової дії S із K смугами частот — це вивести тензор із 4K-каналами зі стандартної дифузійної мережі U-Net.

Однак навчання моделі створювати таку велику кількість каналів часто дає надто плавні та неточні результати.

Інший підхід полягає в тому, щоб передбачити спектрограму дії на кожній окремій частоті незалежно шляхом введення додаткових частотних вбудовань в LDM, але це призводить до нерелевантних прогнозів у частотній області та, отже, до нереалістичних дій.

Тому дослідники запропонували частотно-координовану стратегію шумозаглушення, показану на малюнку нижче. Зокрема, маючи вхідне зображення I0, ми спочатку навчаємо LDM передбачати карти текстур випадкових дій із чотирма каналами для кожної окремої частоти, де ми впроваджуємо додаткові частотні вбудовування в LDM разом із вбудовуваннями часових кроків у мережі.

### Візуалізація на основі зображень

Далі дослідники описують, як відобразити кадр ˆIt у майбутній час t, використовуючи текстуру випадкового руху S, передбачену для даного вхідного зображення I0. По-перше, дослідники використали зворотне БПФ (швидке перетворення Фур’є) для обчислення поля траєкторії руху в кожній піксельній точці p

Ці поля траєкторії руху визначають положення кожного вхідного пікселя на кожному майбутньому кроці часу. Щоб створити майбутні кадри It, дослідники використовують техніку візуалізації на основі глибинних зображень і виконують викривлення вперед (розбризкування), використовуючи прогнозоване поле руху, щоб викривити закодований I0, як показано на малюнку нижче.

Оскільки викривлення вперед може спричинити діри в зображенні, а кілька вихідних пікселів можуть бути зіставлені з однією вихідною 2D позицією, дослідники застосували стратегію викривлення піраміди функцій Softmax, запропоновану раніше в дослідженнях інтерполяції кадрів.

Ми спільно навчаємо функцію вилучення функцій і мережу синтезу з початковими та цільовими кадрами, випадково відібраними з реальних відео, де ми використовуємо оцінене поле потоку від I0 до It, щоб деформувати закодовані особливості I0, і використовуємо перцептивні втрати VGG для прогнозування ˆВін здійснює нагляд .

Як показано вище, наше викривлення функцій з урахуванням руху створює кадр без отворів або артефактів порівняно з методами прямого середнього викривлення та викривлення базової глибини.

Податкові розширені програми

Дослідники також продемонстрували застосування додавання динамічних ефектів до одного статичного зображення за допомогою представлення руху та процесу анімації, запропонованого дослідниками.

Зображення до відео

Система дослідників анімує одне статичне зображення, спочатку прогнозуючи текстуру випадкового руху нейронів із вхідного зображення та застосовуючи модуль візуалізації на основі зображень дослідників до поля зміщення руху, отриманого з текстури випадкового руху.

Оскільки ми чітко моделювали рух сцени, це дозволило нам генерувати уповільнені відео шляхом лінійної інтерполяції полів зміщення руху та збільшувати (або зменшувати) анімований рух шляхом регулювання амплітуди прогнозованих коефіцієнтів текстури випадкового руху.

Безшовна петля

Іноді корисно генерувати відео з безперервним циклічним рухом, тобто немає розриву у вигляді чи русі між початком і кінцем відео.

На жаль, важко знайти великий навчальний набір плавно повторюваних відео. Таким чином, дослідники розробили метод, використовуючи дослідницьку модель дифузії руху, яка була навчена на звичайних відеокліпах без циклу, щоб створити безперебійне циклічне відео.

Натхненний нещодавніми дослідженнями керованого редагування зображень, підхід дослідників — це техніка самостійного керування рухом, яка використовує чіткі обмеження циклу для керування процесом дискретизації шумозаглушення руху.

Зокрема, під час кожного ітеративного кроку усунення шумів у фазі логічного висновку дослідники включали додатковий сигнал керування рухом поряд зі стандартними вказівками без класифікатора, де ми примушували кожен піксель перебувати на початковому та кінцевому позиціях кадру, а швидкості були максимально подібними.

Створюйте інтерактивну анімацію з одного зображення

Спектр просторового руху зображення у спостережуваному відео коливального об’єкта наближається до модальної основи фізичної вібрації об’єкта.

Модальні форми фіксують коливальну динаміку об’єкта на різних частотах, тому проекцію вібрації об’єкта в просторі зображення можна використовувати для моделювання реакції об’єкта на визначену користувачем силу, як-от поштовх або потяг.

Тому дослідники використовували раніше вивчену техніку модального аналізу, яка передбачає, що рух об’єкта можна пояснити суперпозицією набору резонаторів.

Це дозволяє дослідникам записати двовимірне поле переміщення простору зображення фізичної реакції об’єкта як зважену суму коефіцієнтів спектру Фур’є та комплексних модальних координат кожного кроку часу моделювання t і часу t.

Експериментальна оцінка

Дослідницька група провела кількісне порівняння останнього методу з базовим методом на тестовій серії небачених відеокліпів.

Було виявлено, що підхід Google значно перевершив попередні базові лінії анімації з одним зображенням у якості синтезу зображення та відео.

Зокрема, відстані Google FVD і DT-FVD набагато нижчі, що вказує на те, що відео, згенероване цим методом, є більш реалістичним і узгодженим у часі.

Крім того, на малюнку 6 показано відстані FID ковзного вікна та DT-FVD ковзного вікна відео, створених різними методами.

Оскільки Google використовує глобальне стохастичне представлення текстури руху, його підхід генерує відео, які є більш послідовними з часом і не дрейфують або погіршуються з часом.

Крім того, команда Google провела візуальне якісне порівняння між своїм власним методом і відео, згенерованими базовою лінією, двома способами.

Спочатку показано просторово-часовий зріз згенерованого відео Xt, як показано на малюнку 7.

Динаміка відео, створених Google, більше схожа на моделі руху, які спостерігаються у відповідних реальних еталонних відео (другий стовпець). Базові лінії, такі як випадковий I2V і MCVD, не можуть реалістично імітувати зовнішній вигляд і рух з часом.

Ми також прогнозуємо зображення шляхом візуалізації

і його відповідне поле переміщення руху в момент часу t = 128. Якісне порівняння якості кожного згенерованого кадру та руху в різних методах.

Метод, створений Google, створює кадри, які демонструють менше артефактів і спотворень порівняно з іншими методами, а відповідні двовимірні поля руху найбільш схожі на еталонні поля зміщення, оцінені з відповідних реальних відео.

Дослідження абляції: з таблиці 2 видно, що всі простіші або альтернативні конфігурації призводять до гіршої продуктивності порівняно з повною моделлю.

Про автора

Чженці Лі

Zhengqi Li є науковим співробітником Google Research. Його дослідницькі інтереси включають 3D/4D комп’ютерне бачення, рендеринг на основі зображень і комп’ютерну фотографію, особливо в диких зображеннях і відео. Він отримав ступінь доктора філософії в галузі комп’ютерних наук у Корнельському університеті, де його наставником був Ноа Снейвлі.

Він отримав нагороду CVPR 2019 Best Paper Honorable Mention Award, стипендію Google PhD 2020, стипендію Adobe Research Fellowship 2020, нагороду Baidu Global Artificial Intelligence Top 100 China Rising Star Award 2021 та почесну нагороду CVPR 2023 Best Paper.

Література:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити