привыкли к Stable Diffusion, и теперь у нас наконец-то есть модель Matryoshka Diffusion, опять же от Apple.
Первоисточник: Heart of the Machine
Источник изображения: Generated by Unbounded AI
В эпоху генеративного ИИ диффузионные модели стали популярным инструментом для приложений генеративного ИИ, таких как генерация изображений, видео, 3D, аудио и текста. Тем не менее, распространение модели диффузии на область с высоким разрешением по-прежнему остается серьезной проблемой, поскольку модель должна перекодировать все входные данные с высоким разрешением на каждом этапе. Решение этих задач требует использования глубоких архитектур с блоками внимания, что затрудняет оптимизацию и потребляет больше вычислительной мощности и памяти.
Что делать? Некоторые недавние работы были посвящены эффективным сетевым архитектурам для изображений с высоким разрешением. Однако ни один из существующих методов не дает результатов, выходящих за пределы разрешения 512×512, а качество генерации отстает от основных каскадных или латентных методов.
В качестве примера возьмем OpenAI DALL-E 2, Google IMAGEN и NVIDIA eDiffI, которые экономят вычислительную мощность за счет обучения одной модели с низким разрешением и нескольких моделей диффузии со сверхвысоким разрешением, где каждый компонент обучается отдельно. С другой стороны, модели латентной диффузии (LDM) обучаются только моделям диффузии с низким разрешением и полагаются на индивидуально обученные автоэнкодеры высокого разрешения. В обоих сценариях многоступенчатые конвейеры усложняют обучение и вывод, часто требуя тонкой настройки или гиперпараметризации.
В этой работе исследователи предлагают Matryoshka Diffusion Models (MDM), новую диффузионную модель для сквозной генерации изображений с высоким разрешением. Код будет выпущен в ближайшее время.
Адрес:
Основная идея, представленная в исследовании, заключается в том, чтобы выполнить совместный процесс диффузии при нескольких разрешениях с использованием вложенной архитектуры UNet в рамках генерации высокого разрешения.
В ходе исследования было установлено, что MDM совместно с вложенной архитектурой UNet обеспечил 1) потери в нескольких разрешениях: значительно улучшил скорость сходимости шумоподавления входного сигнала высокого разрешения; 2) Эффективный прогрессивный план обучения, начинающийся с обучения модели диффузии с низким разрешением и постепенным добавлением входов и выходов с высоким разрешением в соответствии с планом. Экспериментальные результаты показывают, что комбинация потерь с несколькими разрешениями и прогрессивного обучения позволяет достичь лучшего баланса между стоимостью обучения и качеством модели.
В исследовании оценивался MDM с точки зрения генерации изображений с условием класса, а также генерации изображений и видео с условием для текста. MDM позволяет обучать модели с высоким разрешением без необходимости использования каскадов или скрытой диффузии. Исследования абляции показали, что как потеря с несколькими разрешениями, так и прогрессирующая тренировка значительно повышают эффективность и качество тренировок.
Давайте взглянем на следующие изображения и видео, сгенерированные MDM.
Обзор методологии
По словам исследователей, модель диффузии MDM обучается сквозной в высоком разрешении с использованием иерархического формирования данных. MDM сначала обобщает стандартную модель диффузии в пространстве диффузии, а затем предлагает специальную вложенную архитектуру и процесс обучения.
Для начала рассмотрим, как обобщить стандартную модель диффузии в расширенном пространстве.
В отличие от каскадного или латентного подходов, MDM изучает один диффузионный процесс с иерархической структурой, вводя процесс диффузии с несколькими разрешениями в расширенном пространстве. Это показано на рисунке 2 ниже.
В частности, для точки данных x ∈ R^N исследователь определяет зависящую от времени латентную переменную z_t = z_t^1 , . . . , z_t^R ∈ R^N_1+... НР。
По мнению исследователей, диффузионное моделирование в расширенном пространстве имеет два преимущества. Во-первых, во время логического вывода нас обычно интересуют выходные данные z_t^R с полным разрешением, а все остальные выходные данные со средним разрешением рассматриваются как дополнительные латентные переменные z_t^r, что усложняет распределение моделирования. Во-вторых, зависимости с несколькими разрешениями дают возможность совместно использовать веса и вычисления в z_t^r, перераспределяя вычисления более эффективным способом и обеспечивая эффективное обучение и вывод.
Давайте посмотрим, как работает вложенная UNet.
Как и в случае с типичными диффузионными моделями, исследователи реализовали MDM с использованием сетевой структуры UNet, в которой остаточные связи и вычислительные блоки используются параллельно для сохранения детализированной входной информации. Вычислительные блоки здесь содержат многослойные свертки и слои самовнимания. Ниже приведены коды для NestedUNet и стандартной UNet.
В дополнение к своей простоте по сравнению с другими иерархическими методами, NestedUNet позволяет распределять вычисления наиболее эффективным способом. Как показано на рисунке 3 ниже, ранние исследователи обнаружили, что MDM достигает значительно лучшей масштабируемости, когда большинство параметров и вычислений размещаются с самым низким разрешением.
Наконец, есть обучение.
Исследователи обучили MDM на нескольких разрешениях, используя обычные шумоподавительные мишени, как показано в уравнении (3) ниже.
Здесь используется прогрессивное обучение. Исследователи обучили MDM непосредственно от начала до конца, следуя приведенному выше уравнению (3), и продемонстрировали лучшую сходимость, чем исходный базовый метод. Они обнаружили, что обучение моделей с высоким разрешением было значительно ускорено с помощью простого прогрессивного метода обучения, аналогичного тому, который был предложен в статье GAN.
Этот метод обучения позволяет с самого начала избежать дорогостоящего обучения с высоким разрешением и ускоряет общую сходимость. Кроме того, они также внедрили обучение со смешанным разрешением, которое одновременно обучает образцы с разными окончательными разрешениями в одном пакете.
Эксперименты и результаты
MDM — это универсальная технология для решения любых задач, которая может постепенно сжимать входные измерения. Сравнение MDM с базовым подходом показано на рисунке 4 ниже.
В таблице 1 приведено сравнение ImageNet (FID-50K) и COCO (FID-30K).
На рисунках 5, 6 и 7 ниже показаны результаты MDM при создании изображений (рис. 5), преобразовании текста в изображение (рис. 6) и преобразования текста в видео (рис. 7). Несмотря на обучение на относительно небольшом наборе данных, MDM продемонстрировал сильную способность создавать изображения и видео с высоким разрешением.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Была представлена большая модель диаграммы Wensheng от Apple: матрешка диффузионная, поддерживающая разрешение 1024x1024
Первоисточник: Heart of the Machine
В эпоху генеративного ИИ диффузионные модели стали популярным инструментом для приложений генеративного ИИ, таких как генерация изображений, видео, 3D, аудио и текста. Тем не менее, распространение модели диффузии на область с высоким разрешением по-прежнему остается серьезной проблемой, поскольку модель должна перекодировать все входные данные с высоким разрешением на каждом этапе. Решение этих задач требует использования глубоких архитектур с блоками внимания, что затрудняет оптимизацию и потребляет больше вычислительной мощности и памяти.
Что делать? Некоторые недавние работы были посвящены эффективным сетевым архитектурам для изображений с высоким разрешением. Однако ни один из существующих методов не дает результатов, выходящих за пределы разрешения 512×512, а качество генерации отстает от основных каскадных или латентных методов.
В качестве примера возьмем OpenAI DALL-E 2, Google IMAGEN и NVIDIA eDiffI, которые экономят вычислительную мощность за счет обучения одной модели с низким разрешением и нескольких моделей диффузии со сверхвысоким разрешением, где каждый компонент обучается отдельно. С другой стороны, модели латентной диффузии (LDM) обучаются только моделям диффузии с низким разрешением и полагаются на индивидуально обученные автоэнкодеры высокого разрешения. В обоих сценариях многоступенчатые конвейеры усложняют обучение и вывод, часто требуя тонкой настройки или гиперпараметризации.
В этой работе исследователи предлагают Matryoshka Diffusion Models (MDM), новую диффузионную модель для сквозной генерации изображений с высоким разрешением. Код будет выпущен в ближайшее время.
Основная идея, представленная в исследовании, заключается в том, чтобы выполнить совместный процесс диффузии при нескольких разрешениях с использованием вложенной архитектуры UNet в рамках генерации высокого разрешения.
В ходе исследования было установлено, что MDM совместно с вложенной архитектурой UNet обеспечил 1) потери в нескольких разрешениях: значительно улучшил скорость сходимости шумоподавления входного сигнала высокого разрешения; 2) Эффективный прогрессивный план обучения, начинающийся с обучения модели диффузии с низким разрешением и постепенным добавлением входов и выходов с высоким разрешением в соответствии с планом. Экспериментальные результаты показывают, что комбинация потерь с несколькими разрешениями и прогрессивного обучения позволяет достичь лучшего баланса между стоимостью обучения и качеством модели.
В исследовании оценивался MDM с точки зрения генерации изображений с условием класса, а также генерации изображений и видео с условием для текста. MDM позволяет обучать модели с высоким разрешением без необходимости использования каскадов или скрытой диффузии. Исследования абляции показали, что как потеря с несколькими разрешениями, так и прогрессирующая тренировка значительно повышают эффективность и качество тренировок.
Давайте взглянем на следующие изображения и видео, сгенерированные MDM.
По словам исследователей, модель диффузии MDM обучается сквозной в высоком разрешении с использованием иерархического формирования данных. MDM сначала обобщает стандартную модель диффузии в пространстве диффузии, а затем предлагает специальную вложенную архитектуру и процесс обучения.
Для начала рассмотрим, как обобщить стандартную модель диффузии в расширенном пространстве.
В отличие от каскадного или латентного подходов, MDM изучает один диффузионный процесс с иерархической структурой, вводя процесс диффузии с несколькими разрешениями в расширенном пространстве. Это показано на рисунке 2 ниже.
Давайте посмотрим, как работает вложенная UNet.
Как и в случае с типичными диффузионными моделями, исследователи реализовали MDM с использованием сетевой структуры UNet, в которой остаточные связи и вычислительные блоки используются параллельно для сохранения детализированной входной информации. Вычислительные блоки здесь содержат многослойные свертки и слои самовнимания. Ниже приведены коды для NestedUNet и стандартной UNet.
Исследователи обучили MDM на нескольких разрешениях, используя обычные шумоподавительные мишени, как показано в уравнении (3) ниже.
Этот метод обучения позволяет с самого начала избежать дорогостоящего обучения с высоким разрешением и ускоряет общую сходимость. Кроме того, они также внедрили обучение со смешанным разрешением, которое одновременно обучает образцы с разными окончательными разрешениями в одном пакете.
Эксперименты и результаты
MDM — это универсальная технология для решения любых задач, которая может постепенно сжимать входные измерения. Сравнение MDM с базовым подходом показано на рисунке 4 ниже.