Посмотрите, слегка потянув, роза начинает двигаться.
Перетаскивая листья влево, сосна двинулась в том же направлении.
Есть также изображения различных объектов мира, которые можно в одно мгновение оживить.
Это последнее исследование команды Google превращает ваши руки в «волшебные золотые пальцы», способные контролировать все и перемещать одним прикосновением.
В этой статье Google предложил «Генеративную динамику изображений», предварительно моделируя пространство изображений, а затем обучая модель прогнозированию «нейронной текстуры случайного движения».
Наконец, это было реализовано, и при взаимодействии с одним изображением можно было создавать даже бесконечный цикл видео.
В будущем фантазия художников больше не будет ограничена традиционными рамками, и в этом динамичном образном пространстве станет возможно все.
Все на картинке оживает
Движение всего в мире мультимодально.
Одежда, висящая во дворе, покачивалась взад и вперед на ветру.
Большие красные фонари, висящие на улице, покачивались в воздухе.
Еще рядом с занавеской спит котенок, лениво дышащий животом вверх и вниз.
Эти движения обычно не предсказуемы: определенным образом горят свечи, качаются деревья на ветру, шелестят листья...
Взяв фотографию, исследователи смогут представить, как она двигалась, когда была сделана фотография.
Учитывая нынешнее развитие генеративных моделей, особенно моделей диффузии, можно моделировать очень богатые и сложные распределения.
Это делает возможными многие приложения, которые ранее были невозможны, например, создание произвольно реалистичных изображений из текста. Модель диффузии не только полезна в области изображений, но и может использоваться для моделирования видеополя.
Исходя из этого, команда Google в своем исследовании смоделировала генеративный априор движения сцены в пространстве изображения, то есть движения всех пикселей в одном изображении.
Модель обучается на основе траекторий движения, автоматически извлекаемых из большого количества реальных видеопоследовательностей.
На основе входного изображения обученная модель предсказывает «нейронную стохастическую текстуру движения»: набор основных коэффициентов движения, которые описывают будущую траекторию каждого пикселя.
Исследователи Google ограничили сферу своего исследования реальными сценами с естественной динамикой колебаний, такими как деревья и цветы, развевающиеся на ветру, поэтому они выбрали ряд Фурье в качестве базовой функции.
Затем диффузионная модель используется для прогнозирования «нейронных стохастических текстур движения».
Полученная текстура частотного пространства может быть преобразована в плотные траектории движения пикселей на большие расстояния, которые можно использовать для синтеза будущих кадров, превращая статические изображения в реалистичную анимацию.
Далее давайте посмотрим, как это реализовано?
Введение в технологию
На основе одного изображения
, цель исследователя — создать видео длиной T
, в этом видео могут быть показаны динамичные деревья, цветы или пламя свечей, покачивающееся на ветру.
Система, построенная исследователями, состоит из двух модулей: «модуля прогнозирования действий» и «модуля рендеринга на основе изображений».
Во-первых, исследователи использовали «модель скрытой диффузии» в качестве входного изображения.
Прогнозирование нейронной стохастической текстуры движения
Это частотное представление траектории движения каждого пикселя входного изображения.
На втором этапе обратное дискретное преобразование Фурье используется для преобразования предсказанной текстуры случайного движения в серию полей смещения движения.
。
Эти поля смещения движения будут использоваться для определения положения каждого входного пикселя на каждом будущем временном шаге.
Используя эти прогнозируемые поля движения, модуль рендеринга исследователей использует методы рендеринга на основе изображений, чтобы получить функции кодирования из входных изображений RGB и декодировать эти выбранные функции в выходные кадры через сеть синтеза изображений.
Нейронная текстура случайного движения
текстура движения
В предыдущем исследовании текстура движения определяла серию изменяющихся во времени 2D-карт смещения.
где координата каждого пикселя p входного изображения
Вектор двумерного смещения определяет положение пикселя в момент времени t в будущем.
Чтобы сгенерировать будущий кадр в момент времени t, можно использовать соответствующую карту смещения:
Выберите пиксели из , в результате чего получится изображение, деформированное вперед:
Текстура случайного движения
Как было показано ранее в исследованиях компьютерной графики, многие естественные движения, особенно колебательные движения, можно описать как суперпозицию небольшого набора гармонических осцилляторов, представленных разными частотами, амплитудами и фазами.
Один из способов привнести хаотичность в движение — интегрировать шумовые поля. Но, как показали предыдущие исследования, добавление случайного шума непосредственно в пространственную и временную области прогнозируемых полей движения часто приводит к нереалистичной или нестабильной анимации.
Кроме того, использование текстуры движения во временной области, определенной выше, означает, что необходимо спрогнозировать T 2D полей смещения для генерации видеосегмента, содержащего T кадров. Чтобы избежать прогнозирования такого большого выходного представления, многие предыдущие методы анимации либо генерируют видеокадры авторегрессионно, либо независимо прогнозируют каждый будущий выходной кадр посредством дополнительного временного внедрения.
Однако ни одна из стратегий не гарантирует, что сгенерированные видеокадры будут согласованы во времени в долгосрочной перспективе, и обе могут создавать видео, которые со временем дрейфуют или расходятся.
Чтобы решить вышеупомянутые проблемы, исследователи представляют попиксельную текстуру движения входной сцены в частотной области (т. е. полные траектории движения всех пикселей) и формулируют задачу прогнозирования движения как мультимодальное преобразование изображения в изображение. задача.
Исследователи использовали модель скрытой диффузии (LDM) для создания текстуры случайного движения, состоящей из 4K-канальной 2D-спектрограммы движения, где K << T — количество смоделированных частот, и на каждой частоте исследователям потребовалось четыре скаляра для представления комплексные коэффициенты Фурье в измерениях x и y.
На изображении ниже показаны эти нейронные текстуры случайного движения.
Итак, как следует выбрать выходную частоту K, указанную исследователями? Предыдущие исследования анимации в реальном времени показали, что большая часть естественных колебательных движений состоит в основном из низкочастотных компонентов.
Чтобы проверить эту гипотезу, исследователи рассчитали средний спектр мощности движения, извлеченный из 1000 случайно выбранных 5-секундных реальных видеоклипов. Как показано на левом рисунке ниже, мощность в основном сосредоточена на низкочастотных компонентах.
Частотный спектр действия экспоненциально уменьшается с увеличением частоты. Это показывает, что большинство естественных вибрационных действий действительно могут быть хорошо представлены низкочастотными терминами.
На практике исследователи обнаружили, что первых коэффициентов Фурье K = 16 было достаточно для точного воспроизведения оригинальных естественных движений в ряде реальных видео и сцен.
Используйте модель диффузии для прогнозирования действий
Исследователи выбрали модель скрытой диффузии (LDM) в качестве ядра модуля прогнозирования действий исследователей, поскольку LDM более эффективна в вычислительном отношении, чем модель диффузии в пиксельном пространстве, сохраняя при этом качество генерации.
Стандартный LDM в основном включает в себя два модуля:
Вариационный автокодировщик (VAE) сжимает входное изображение в скрытое пространство через кодер z = E(I), а затем восстанавливает входные данные из скрытых признаков через декодер I = D(z).
Модель диффузии, основанная на U-Net, которая учится итеративно шумоподавлять скрытые функции, начиная с гауссовского случайного шума.
Обучение исследователей применялось не к входным изображениям, а к текстурам случайных действий из реальных видеопоследовательностей, которые были закодированы, а затем распределены на n шагов по заранее определенному графику отклонений для получения шумных скрытых переменных zn.
Адаптивная нормализация частоты
Исследователи наблюдали проблему, при которой текстуры случайного действия имеют определенные свойства распределения по частоте. Как показано на левой панели изображения выше, амплитуда текстуры движения исследователей колеблется от 0 до 100 и затухает примерно экспоненциально с увеличением частоты.
Поскольку диффузионные модели требуют выходных значений от 0 до 1 для стабильного обучения и шумоподавления, исследователи должны нормализовать коэффициенты S, извлеченные из реальных видео, перед обучением с их использованием.
Если исследователи масштабируют величину коэффициентов S до [0,1] на основе ширины и высоты изображения, то почти все коэффициенты будут близки к нулю на более высоких частотах, как показано на рисунке выше (справа).
Модели, обученные на таких данных, могут производить неточные действия, поскольку во время вывода даже небольшие ошибки прогнозирования могут привести к большим относительным ошибкам после денормализации, когда нормализованная величина S коэффициента очень близка к нулю.
Чтобы решить эту проблему, исследователи применили простой, но эффективный метод частотно-адаптивной нормализации. В частности, исследователи сначала нормализовали коэффициенты Фурье на каждой частоте независимо на основе статистики, рассчитанной на основе обучающего набора.
Частотно-координированное шумоподавление
Простой способ предсказать текстуру случайного действия S с K частотными диапазонами — вывести тензор с 4K каналами из стандартной диффузионной U-сети.
Однако обучение модели созданию такого большого количества каналов часто приводит к слишком плавным и неточным результатам.
Другой подход заключается в независимом прогнозировании спектрограммы действия на каждой отдельной частоте путем введения дополнительных частотных вложений в LDM, но это приводит к нерелевантным предсказаниям в частотной области и, следовательно, к нереалистичным действиям.
Поэтому исследователи предложили частотно-скоординированную стратегию шумоподавления, показанную на рисунке ниже. В частности, учитывая входное изображение I0, мы сначала обучаем LDM прогнозировать карты текстур случайного действия с четырьмя каналами для каждой отдельной частоты, где мы вводим дополнительные частотные представления в LDM вместе с внедрениями временных шагов в сети.
### Рендеринг на основе изображений
Далее исследователи описывают, как визуализировать кадр ˆIt в момент времени t в будущем, используя текстуру случайного движения S, предсказанную для данного входного изображения I0. Во-первых, исследователи использовали обратное во времени БПФ (быстрое преобразование Фурье) для расчета поля траектории движения в каждой точке пикселя p.
Эти поля траектории движения определяют положение каждого входного пикселя на каждом будущем шаге по времени. Чтобы генерировать будущие кадры It, исследователи используют технику рендеринга на основе изображения глубины и выполняют прямое деформирование (разбрызгивание), используя прогнозируемое поле движения, чтобы деформировать закодированный I0, как показано на рисунке ниже.
Поскольку прямое деформирование может вызвать дыры в изображении, а несколько исходных пикселей могут быть сопоставлены с одной и той же выходной 2D-позицией, исследователи приняли стратегию деформации Softmax пирамиды функций, ранее предложенную в исследовании интерполяции кадров.
Мы совместно обучаем сеть извлечения признаков и синтеза, используя начальные и целевые кадры, случайно выбранные из реальных видео, где мы используем оцененное поле потока от I0 до It, чтобы исказить закодированные признаки I0, и используем потерю восприятия VGG для прогнозирования. .
Как показано выше, наша функция деформации с учетом движения создает кадр без дыр или артефактов по сравнению с методами прямой деформации по среднему значению и базовой глубины.
Дополнительные расширенные приложения
Далее исследователи продемонстрировали применение добавления динамических эффектов к одному статическому изображению с использованием предложенного исследователями процесса представления движения и анимации.
Изображение в видео
Система исследователей анимирует одно статическое изображение, сначала предсказывая нейронную текстуру случайного движения на основе входного изображения, а затем применяя модуль рендеринга на основе изображений к полю смещения движения, полученному на основе текстуры случайного движения.
Поскольку мы моделировали движение сцены явно, это позволило нам создавать замедленные видеоролики путем линейной интерполяции полей смещения движения и увеличивать (или уменьшать) анимированное движение, регулируя амплитуду предсказанных коэффициентов текстуры случайного движения.
Бесшовная петля
Иногда полезно создавать видеоролики с плавным циклическим движением, то есть между началом и концом видео нет разрывов во внешнем виде или движении.
К сожалению, сложно найти большой обучающий набор плавно зацикленных видеороликов. Поэтому исследователи разработали метод, использующий модель диффузии движения, которая была обучена на обычных видеоклипах без зацикливания, для создания плавно зацикленных видеороликов.
Вдохновленный недавними исследованиями управляемого редактирования изображений, подход исследователей представляет собой метод самостоятельного управления движением, который использует явные ограничения цикла для управления процессом выборки с шумоподавлением движения.
В частности, на каждом этапе итеративного шумоподавления на этапе вывода исследователи включали дополнительный сигнал управления движением наряду со стандартным руководством без классификатора, где мы заставляли каждый пиксель находиться в позициях начала и конца кадра, а скорости были максимально похожими.
Создание интерактивной анимации из одного изображения
Спектр пространственного движения изображения в наблюдаемом видео колеблющегося объекта аппроксимирует модальную основу физической вибрации объекта.
Модальные формы фиксируют колебательную динамику объекта на разных частотах, поэтому проекцию шаблонов вибрации объекта в пространстве изображения можно использовать для моделирования реакции объекта на определяемую пользователем силу, например толчок или тягу.
Поэтому исследователи использовали ранее изученную методику модального анализа, которая предполагает, что движение объекта можно объяснить суперпозицией набора резонаторов.
Это позволяет исследователям записать поле смещения двумерного движения в пространстве изображения физического отклика объекта как взвешенную сумму коэффициентов спектра Фурье и комплексных модальных координат каждого временного шага моделирования t и времени t.
Экспериментальная оценка
Исследовательская группа провела количественное сравнение новейшего метода и базового метода на тестовом наборе ранее не просмотренных видеоклипов.
Было обнаружено, что подход Google значительно превосходит предыдущие базовые стандарты анимации с одним изображением как по качеству синтеза изображений, так и по качеству видео.
В частности, расстояния FVD и DT-FVD Google намного ниже, что указывает на то, что видео, созданные этим методом, более реалистичны и согласованы во времени.
Кроме того, на рисунке 6 показаны расстояния FID в скользящем окне и DT-FVD в скользящем окне видео, созданных различными методами.
Поскольку Google использует глобальное стохастическое представление текстуры движения, его подход создает видео, которые более стабильны с течением времени, не дрейфуют и не ухудшаются с течением времени.
Кроме того, команда Google провела визуальное качественное сравнение собственного метода и видео, созданных по базовой линии, двумя способами.
Сначала показан пространственно-временной срез Xt сгенерированного видео, как показано на рисунке 7.
Динамика видеороликов, созданных Google, больше похожа на модели движения, наблюдаемые в соответствующих реальных эталонных видеороликах (второй столбец). Базовые линии, такие как случайные I2V и MCVD, не могут реалистично моделировать внешний вид и движение во времени.
Мы также предсказываем изображения, визуализируя
и соответствующее ему поле смещения движения в момент времени t = 128. Качественное сравнение качества каждого сгенерированного кадра и движения разными методами.
Метод, созданный Google, создает кадры, которые демонстрируют меньше артефактов и искажений по сравнению с другими методами, а соответствующие поля 2D-движения наиболее похожи на эталонные поля смещения, оцененные на основе соответствующих реальных видео.
Исследование абляции: Из Таблицы 2 видно, что все более простые или альтернативные конфигурации приводят к худшей производительности по сравнению с полной моделью.
об авторе
Чжэнци Ли
Чжэнци Ли — научный сотрудник Google Research. Его исследовательские интересы включают компьютерное зрение 3D/4D, рендеринг на основе изображений и вычислительную фотографию, особенно изображения и видео дикой природы. Он получил докторскую степень в области компьютерных наук в Корнелльском университете, где его наставником был Ной Снейвли.
Он является лауреатом премии CVPR 2019 «Почетное упоминание за лучшую статью», стипендии Google PhD 2020 года, исследовательской стипендии Adobe 2020 года, премии Baidu Global Artificial Intelligence Top 100 China Rising Star Award 2021 года и почетной награды CVPR 2023 года за лучшую статью.
Использованная литература:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
С рывком и рывком роза оживает! Google предлагает генеративную динамику изображений, и теперь все будет живо
Первоисточник: Синьчжиюань
Посмотрите, слегка потянув, роза начинает двигаться.
Наконец, это было реализовано, и при взаимодействии с одним изображением можно было создавать даже бесконечный цикл видео.
В будущем фантазия художников больше не будет ограничена традиционными рамками, и в этом динамичном образном пространстве станет возможно все.
Все на картинке оживает
Движение всего в мире мультимодально.
Одежда, висящая во дворе, покачивалась взад и вперед на ветру.
Взяв фотографию, исследователи смогут представить, как она двигалась, когда была сделана фотография.
Учитывая нынешнее развитие генеративных моделей, особенно моделей диффузии, можно моделировать очень богатые и сложные распределения.
Это делает возможными многие приложения, которые ранее были невозможны, например, создание произвольно реалистичных изображений из текста. Модель диффузии не только полезна в области изображений, но и может использоваться для моделирования видеополя.
Модель обучается на основе траекторий движения, автоматически извлекаемых из большого количества реальных видеопоследовательностей.
На основе входного изображения обученная модель предсказывает «нейронную стохастическую текстуру движения»: набор основных коэффициентов движения, которые описывают будущую траекторию каждого пикселя.
Затем диффузионная модель используется для прогнозирования «нейронных стохастических текстур движения».
Полученная текстура частотного пространства может быть преобразована в плотные траектории движения пикселей на большие расстояния, которые можно использовать для синтеза будущих кадров, превращая статические изображения в реалистичную анимацию.
Введение в технологию
На основе одного изображения
Система, построенная исследователями, состоит из двух модулей: «модуля прогнозирования действий» и «модуля рендеринга на основе изображений».
Во-первых, исследователи использовали «модель скрытой диффузии» в качестве входного изображения.
На втором этапе обратное дискретное преобразование Фурье используется для преобразования предсказанной текстуры случайного движения в серию полей смещения движения.
Эти поля смещения движения будут использоваться для определения положения каждого входного пикселя на каждом будущем временном шаге.
Используя эти прогнозируемые поля движения, модуль рендеринга исследователей использует методы рендеринга на основе изображений, чтобы получить функции кодирования из входных изображений RGB и декодировать эти выбранные функции в выходные кадры через сеть синтеза изображений.
Нейронная текстура случайного движения
текстура движения
В предыдущем исследовании текстура движения определяла серию изменяющихся во времени 2D-карт смещения.
Чтобы сгенерировать будущий кадр в момент времени t, можно использовать соответствующую карту смещения:
Как было показано ранее в исследованиях компьютерной графики, многие естественные движения, особенно колебательные движения, можно описать как суперпозицию небольшого набора гармонических осцилляторов, представленных разными частотами, амплитудами и фазами.
Один из способов привнести хаотичность в движение — интегрировать шумовые поля. Но, как показали предыдущие исследования, добавление случайного шума непосредственно в пространственную и временную области прогнозируемых полей движения часто приводит к нереалистичной или нестабильной анимации.
Кроме того, использование текстуры движения во временной области, определенной выше, означает, что необходимо спрогнозировать T 2D полей смещения для генерации видеосегмента, содержащего T кадров. Чтобы избежать прогнозирования такого большого выходного представления, многие предыдущие методы анимации либо генерируют видеокадры авторегрессионно, либо независимо прогнозируют каждый будущий выходной кадр посредством дополнительного временного внедрения.
Однако ни одна из стратегий не гарантирует, что сгенерированные видеокадры будут согласованы во времени в долгосрочной перспективе, и обе могут создавать видео, которые со временем дрейфуют или расходятся.
Чтобы решить вышеупомянутые проблемы, исследователи представляют попиксельную текстуру движения входной сцены в частотной области (т. е. полные траектории движения всех пикселей) и формулируют задачу прогнозирования движения как мультимодальное преобразование изображения в изображение. задача.
Исследователи использовали модель скрытой диффузии (LDM) для создания текстуры случайного движения, состоящей из 4K-канальной 2D-спектрограммы движения, где K << T — количество смоделированных частот, и на каждой частоте исследователям потребовалось четыре скаляра для представления комплексные коэффициенты Фурье в измерениях x и y.
На изображении ниже показаны эти нейронные текстуры случайного движения.
Чтобы проверить эту гипотезу, исследователи рассчитали средний спектр мощности движения, извлеченный из 1000 случайно выбранных 5-секундных реальных видеоклипов. Как показано на левом рисунке ниже, мощность в основном сосредоточена на низкочастотных компонентах.
На практике исследователи обнаружили, что первых коэффициентов Фурье K = 16 было достаточно для точного воспроизведения оригинальных естественных движений в ряде реальных видео и сцен.
Используйте модель диффузии для прогнозирования действий
Исследователи выбрали модель скрытой диффузии (LDM) в качестве ядра модуля прогнозирования действий исследователей, поскольку LDM более эффективна в вычислительном отношении, чем модель диффузии в пиксельном пространстве, сохраняя при этом качество генерации.
Стандартный LDM в основном включает в себя два модуля:
Вариационный автокодировщик (VAE) сжимает входное изображение в скрытое пространство через кодер z = E(I), а затем восстанавливает входные данные из скрытых признаков через декодер I = D(z).
Модель диффузии, основанная на U-Net, которая учится итеративно шумоподавлять скрытые функции, начиная с гауссовского случайного шума.
Обучение исследователей применялось не к входным изображениям, а к текстурам случайных действий из реальных видеопоследовательностей, которые были закодированы, а затем распределены на n шагов по заранее определенному графику отклонений для получения шумных скрытых переменных zn.
Адаптивная нормализация частоты
Исследователи наблюдали проблему, при которой текстуры случайного действия имеют определенные свойства распределения по частоте. Как показано на левой панели изображения выше, амплитуда текстуры движения исследователей колеблется от 0 до 100 и затухает примерно экспоненциально с увеличением частоты.
Поскольку диффузионные модели требуют выходных значений от 0 до 1 для стабильного обучения и шумоподавления, исследователи должны нормализовать коэффициенты S, извлеченные из реальных видео, перед обучением с их использованием.
Если исследователи масштабируют величину коэффициентов S до [0,1] на основе ширины и высоты изображения, то почти все коэффициенты будут близки к нулю на более высоких частотах, как показано на рисунке выше (справа).
Модели, обученные на таких данных, могут производить неточные действия, поскольку во время вывода даже небольшие ошибки прогнозирования могут привести к большим относительным ошибкам после денормализации, когда нормализованная величина S коэффициента очень близка к нулю.
Чтобы решить эту проблему, исследователи применили простой, но эффективный метод частотно-адаптивной нормализации. В частности, исследователи сначала нормализовали коэффициенты Фурье на каждой частоте независимо на основе статистики, рассчитанной на основе обучающего набора.
Частотно-координированное шумоподавление
Простой способ предсказать текстуру случайного действия S с K частотными диапазонами — вывести тензор с 4K каналами из стандартной диффузионной U-сети.
Однако обучение модели созданию такого большого количества каналов часто приводит к слишком плавным и неточным результатам.
Другой подход заключается в независимом прогнозировании спектрограммы действия на каждой отдельной частоте путем введения дополнительных частотных вложений в LDM, но это приводит к нерелевантным предсказаниям в частотной области и, следовательно, к нереалистичным действиям.
Поэтому исследователи предложили частотно-скоординированную стратегию шумоподавления, показанную на рисунке ниже. В частности, учитывая входное изображение I0, мы сначала обучаем LDM прогнозировать карты текстур случайного действия с четырьмя каналами для каждой отдельной частоты, где мы вводим дополнительные частотные представления в LDM вместе с внедрениями временных шагов в сети.
Далее исследователи описывают, как визуализировать кадр ˆIt в момент времени t в будущем, используя текстуру случайного движения S, предсказанную для данного входного изображения I0. Во-первых, исследователи использовали обратное во времени БПФ (быстрое преобразование Фурье) для расчета поля траектории движения в каждой точке пикселя p.
Мы совместно обучаем сеть извлечения признаков и синтеза, используя начальные и целевые кадры, случайно выбранные из реальных видео, где мы используем оцененное поле потока от I0 до It, чтобы исказить закодированные признаки I0, и используем потерю восприятия VGG для прогнозирования. .
Дополнительные расширенные приложения
Далее исследователи продемонстрировали применение добавления динамических эффектов к одному статическому изображению с использованием предложенного исследователями процесса представления движения и анимации.
Изображение в видео
Система исследователей анимирует одно статическое изображение, сначала предсказывая нейронную текстуру случайного движения на основе входного изображения, а затем применяя модуль рендеринга на основе изображений к полю смещения движения, полученному на основе текстуры случайного движения.
Поскольку мы моделировали движение сцены явно, это позволило нам создавать замедленные видеоролики путем линейной интерполяции полей смещения движения и увеличивать (или уменьшать) анимированное движение, регулируя амплитуду предсказанных коэффициентов текстуры случайного движения.
Бесшовная петля
Иногда полезно создавать видеоролики с плавным циклическим движением, то есть между началом и концом видео нет разрывов во внешнем виде или движении.
К сожалению, сложно найти большой обучающий набор плавно зацикленных видеороликов. Поэтому исследователи разработали метод, использующий модель диффузии движения, которая была обучена на обычных видеоклипах без зацикливания, для создания плавно зацикленных видеороликов.
Вдохновленный недавними исследованиями управляемого редактирования изображений, подход исследователей представляет собой метод самостоятельного управления движением, который использует явные ограничения цикла для управления процессом выборки с шумоподавлением движения.
В частности, на каждом этапе итеративного шумоподавления на этапе вывода исследователи включали дополнительный сигнал управления движением наряду со стандартным руководством без классификатора, где мы заставляли каждый пиксель находиться в позициях начала и конца кадра, а скорости были максимально похожими.
Создание интерактивной анимации из одного изображения
Спектр пространственного движения изображения в наблюдаемом видео колеблющегося объекта аппроксимирует модальную основу физической вибрации объекта.
Модальные формы фиксируют колебательную динамику объекта на разных частотах, поэтому проекцию шаблонов вибрации объекта в пространстве изображения можно использовать для моделирования реакции объекта на определяемую пользователем силу, например толчок или тягу.
Поэтому исследователи использовали ранее изученную методику модального анализа, которая предполагает, что движение объекта можно объяснить суперпозицией набора резонаторов.
Это позволяет исследователям записать поле смещения двумерного движения в пространстве изображения физического отклика объекта как взвешенную сумму коэффициентов спектра Фурье и комплексных модальных координат каждого временного шага моделирования t и времени t.
Экспериментальная оценка
Исследовательская группа провела количественное сравнение новейшего метода и базового метода на тестовом наборе ранее не просмотренных видеоклипов.
Было обнаружено, что подход Google значительно превосходит предыдущие базовые стандарты анимации с одним изображением как по качеству синтеза изображений, так и по качеству видео.
В частности, расстояния FVD и DT-FVD Google намного ниже, что указывает на то, что видео, созданные этим методом, более реалистичны и согласованы во времени.
Поскольку Google использует глобальное стохастическое представление текстуры движения, его подход создает видео, которые более стабильны с течением времени, не дрейфуют и не ухудшаются с течением времени.
Сначала показан пространственно-временной срез Xt сгенерированного видео, как показано на рисунке 7.
Динамика видеороликов, созданных Google, больше похожа на модели движения, наблюдаемые в соответствующих реальных эталонных видеороликах (второй столбец). Базовые линии, такие как случайные I2V и MCVD, не могут реалистично моделировать внешний вид и движение во времени.
Метод, созданный Google, создает кадры, которые демонстрируют меньше артефактов и искажений по сравнению с другими методами, а соответствующие поля 2D-движения наиболее похожи на эталонные поля смещения, оцененные на основе соответствующих реальных видео.
об авторе
Чжэнци Ли
Он является лауреатом премии CVPR 2019 «Почетное упоминание за лучшую статью», стипендии Google PhD 2020 года, исследовательской стипендии Adobe 2020 года, премии Baidu Global Artificial Intelligence Top 100 China Rising Star Award 2021 года и почетной награды CVPR 2023 года за лучшую статью.
Использованная литература: