звик до Stable Diffusion, і тепер нарешті має модель Matryoshka Diffusion, знову ж таки зроблену Apple.
Першоджерело: Heart of the Machine
Джерело зображення: Створено Unbounded AI
В епоху генеративного ШІ дифузійні моделі стали популярним інструментом для генеративних додатків штучного інтелекту, таких як генерація зображень, відео, 3D, аудіо та тексту. Однак розширення дифузійної моделі на область з високою роздільною здатністю все ще є серйозною проблемою, оскільки модель повинна перекодувати всі входи з високою роздільною здатністю на кожному кроці. Вирішення цих завдань вимагає використання глибоких архітектур з блоками уваги, що ускладнює оптимізацію і споживає більше обчислювальних потужностей і пам'яті.
Що робити? Деякі нещодавні роботи були зосереджені на ефективних мережевих архітектурах для зображень з високою роздільною здатністю. Однак жоден з існуючих методів не демонструє результатів, що виходять за межі роздільної здатності 512×512, а якість генерації відстає від якості основних каскадних або латентних методів.
Візьмемо для прикладу OpenAI DALL-E 2, Google IMAGEN та NVIDIA eDiffI, які економлять обчислювальні потужності, вивчаючи єдину модель з низькою роздільною здатністю та кілька моделей дифузії з надвисокою роздільною здатністю, де кожен компонент навчається окремо. З іншого боку, латентні дифузійні моделі (LDM) навчаються лише дифузійним моделям з низькою роздільною здатністю та покладаються на індивідуально навчені автокодери з високою роздільною здатністю. Для обох сценаріїв багатоступінчасті конвеєри ускладнюють навчання та висновок, часто вимагаючи точного налаштування або гіперпараметризації.
У цій роботі дослідники пропонують Matryoshka Diffusion Models (MDM), нову дифузійну модель для наскрізної генерації зображень з високою роздільною здатністю. Код буде випущено найближчим часом.
Адреса:
Основна ідея, представлена в дослідженні, полягає в тому, щоб виконати спільний дифузійний процес з декількома роздільними здатностями з використанням вкладеної архітектури UNet в рамках генерації з високою роздільною здатністю.
Дослідження показало, що MDM разом із вкладеною архітектурою UNet досягли 1) втрати з кількома роздільними здатностями: значно покращили швидкість конвергенції при знешумленні вхідних даних високої роздільної здатності; 2) Ефективний прогресивний план навчання, починаючи з навчання дифузійної моделі з низькою роздільною здатністю і поступово додаючи входи і виходи з високою роздільною здатністю, як і планувалося. Експериментальні результати показують, що поєднання втрат з багатороздільною здатністю та прогресивного навчання дозволяє досягти кращого балансу між вартістю навчання та якістю моделі.
У дослідженні оцінювали MDM з точки зору генерації зображень, умовних за класом, а також генерації зображень і відео з текстовими умовами. MDM дає змогу навчати моделі з високою роздільною здатністю без необхідності каскадів або латентної дифузії. Абляційні дослідження показали, що як втрата множинної роздільної здатності, так і прогресивне тренування значно підвищують ефективність і якість навчання.
Давайте подивимося на наведені нижче зображення та відео, створені MDM.
Огляд методології
За словами дослідників, дифузійна модель MDM навчається наскрізно у високій роздільній здатності з використанням ієрархічного формування даних. MDM спочатку узагальнює стандартну дифузійну модель у дифузійному просторі, а потім пропонує спеціальну вкладену архітектуру та процес навчання.
Спочатку розглянемо, як узагальнити стандартну дифузійну модель в розширеному просторі.
На відміну від каскадних або латентних підходів, MDM вивчає єдиний дифузійний процес з ієрархічною структурою, вводячи процес дифузії з кількома роздільною здатністю в розширеному просторі. Це показано на малюнку 2 нижче.
Зокрема, маючи точку даних x ∈ R^N, дослідник визначає залежну від часу латентну змінну z_t = z_t^1 , . . , z_t^R ∈ R^N_1+... NR。
На думку дослідників, дифузійне моделювання в розширеному просторі має дві переваги. По-перше, ми, як правило, маємо справу з повною роздільною здатністю z_t^R під час висновування, а всі інші виходи середньої роздільної здатності розглядаються як додаткові латентні змінні z_t^r, що ускладнює розподіл моделювання. По-друге, залежності з множинною роздільною здатністю дають можливість обмінюватися вагами та обчисленнями між z_t^r, перерозподіляючи обчислення більш ефективним способом та забезпечуючи ефективне навчання та висновки.
Давайте подивимося, як працює nestedUNet.
Подібно до типових дифузійних моделей, дослідники реалізували MDM за допомогою мережевої структури UNet, в якій залишкові з'єднання та обчислювальні блоки використовуються паралельно для збереження дрібнозернистої вхідної інформації. Обчислювальні блоки тут містять багатошарові згортки та шари самоуваги. Коди для NestedUNet і стандартного UNet наступні.
На додаток до своєї простоти в порівнянні з іншими ієрархічними методами, NestedUNet дозволяє розподіляти обчислення найбільш ефективним способом. Як показано на рисунку 3 нижче, перші дослідники виявили, що MDM досягав значно кращої масштабованості, коли більшість параметрів і розрахунків були розподілені з найнижчою роздільною здатністю.
І, нарешті, є навчання.
Дослідники тренували MDM з декількома роздільними здатностями за допомогою звичайних цілей знешумлення, як показано в рівнянні (3) нижче.
Тут використовується прогресивне навчання. Дослідники тренували MDM безпосередньо наскрізно, дотримуючись наведеного вище рівняння (3) і продемонстрували кращу збіжність, ніж оригінальний базовий метод. Вони виявили, що навчання моделей з високою роздільною здатністю було значно прискорено за допомогою простого прогресивного методу навчання, подібного до запропонованого в роботі GAN.
Цей метод навчання дозволяє уникнути дорогого навчання з високою роздільною здатністю з самого початку та прискорює загальну конвергенцію. Мало того, вони також включили навчання зі змішаною роздільною здатністю, яке навчає зразки з різними остаточними дозволами одночасно в одній партії.
Експерименти та результати
MDM — це універсальна технологія для вирішення будь-якої проблеми, яка може поступово стискати вхідні розміри. Порівняння MDM з базовим підходом показано на рисунку 4 нижче.
У таблиці 1 наведено порівняння ImageNet (FID-50K) і COCO (FID-30K).
Малюнки 5, 6 і 7 нижче ілюструють результати MDM у генерації зображень (Малюнок 5), перетворення тексту в зображення (Малюнок 6) і перетворення тексту у відео (Малюнок 7). Незважаючи на те, що MDM навчається на відносно невеликому наборі даних, вона продемонструвала потужну здатність до створення зображень і відео з високою роздільною здатністю.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Представлена велика модель діаграми Веньшен від Apple: дифузія матрьошка, що підтримує роздільну здатність 1024х1024
Першоджерело: Heart of the Machine
В епоху генеративного ШІ дифузійні моделі стали популярним інструментом для генеративних додатків штучного інтелекту, таких як генерація зображень, відео, 3D, аудіо та тексту. Однак розширення дифузійної моделі на область з високою роздільною здатністю все ще є серйозною проблемою, оскільки модель повинна перекодувати всі входи з високою роздільною здатністю на кожному кроці. Вирішення цих завдань вимагає використання глибоких архітектур з блоками уваги, що ускладнює оптимізацію і споживає більше обчислювальних потужностей і пам'яті.
Що робити? Деякі нещодавні роботи були зосереджені на ефективних мережевих архітектурах для зображень з високою роздільною здатністю. Однак жоден з існуючих методів не демонструє результатів, що виходять за межі роздільної здатності 512×512, а якість генерації відстає від якості основних каскадних або латентних методів.
Візьмемо для прикладу OpenAI DALL-E 2, Google IMAGEN та NVIDIA eDiffI, які економлять обчислювальні потужності, вивчаючи єдину модель з низькою роздільною здатністю та кілька моделей дифузії з надвисокою роздільною здатністю, де кожен компонент навчається окремо. З іншого боку, латентні дифузійні моделі (LDM) навчаються лише дифузійним моделям з низькою роздільною здатністю та покладаються на індивідуально навчені автокодери з високою роздільною здатністю. Для обох сценаріїв багатоступінчасті конвеєри ускладнюють навчання та висновок, часто вимагаючи точного налаштування або гіперпараметризації.
У цій роботі дослідники пропонують Matryoshka Diffusion Models (MDM), нову дифузійну модель для наскрізної генерації зображень з високою роздільною здатністю. Код буде випущено найближчим часом.
Основна ідея, представлена в дослідженні, полягає в тому, щоб виконати спільний дифузійний процес з декількома роздільними здатностями з використанням вкладеної архітектури UNet в рамках генерації з високою роздільною здатністю.
Дослідження показало, що MDM разом із вкладеною архітектурою UNet досягли 1) втрати з кількома роздільними здатностями: значно покращили швидкість конвергенції при знешумленні вхідних даних високої роздільної здатності; 2) Ефективний прогресивний план навчання, починаючи з навчання дифузійної моделі з низькою роздільною здатністю і поступово додаючи входи і виходи з високою роздільною здатністю, як і планувалося. Експериментальні результати показують, що поєднання втрат з багатороздільною здатністю та прогресивного навчання дозволяє досягти кращого балансу між вартістю навчання та якістю моделі.
У дослідженні оцінювали MDM з точки зору генерації зображень, умовних за класом, а також генерації зображень і відео з текстовими умовами. MDM дає змогу навчати моделі з високою роздільною здатністю без необхідності каскадів або латентної дифузії. Абляційні дослідження показали, що як втрата множинної роздільної здатності, так і прогресивне тренування значно підвищують ефективність і якість навчання.
Давайте подивимося на наведені нижче зображення та відео, створені MDM.
За словами дослідників, дифузійна модель MDM навчається наскрізно у високій роздільній здатності з використанням ієрархічного формування даних. MDM спочатку узагальнює стандартну дифузійну модель у дифузійному просторі, а потім пропонує спеціальну вкладену архітектуру та процес навчання.
Спочатку розглянемо, як узагальнити стандартну дифузійну модель в розширеному просторі.
На відміну від каскадних або латентних підходів, MDM вивчає єдиний дифузійний процес з ієрархічною структурою, вводячи процес дифузії з кількома роздільною здатністю в розширеному просторі. Це показано на малюнку 2 нижче.
Давайте подивимося, як працює nestedUNet.
Подібно до типових дифузійних моделей, дослідники реалізували MDM за допомогою мережевої структури UNet, в якій залишкові з'єднання та обчислювальні блоки використовуються паралельно для збереження дрібнозернистої вхідної інформації. Обчислювальні блоки тут містять багатошарові згортки та шари самоуваги. Коди для NestedUNet і стандартного UNet наступні.
Дослідники тренували MDM з декількома роздільними здатностями за допомогою звичайних цілей знешумлення, як показано в рівнянні (3) нижче.
Цей метод навчання дозволяє уникнути дорогого навчання з високою роздільною здатністю з самого початку та прискорює загальну конвергенцію. Мало того, вони також включили навчання зі змішаною роздільною здатністю, яке навчає зразки з різними остаточними дозволами одночасно в одній партії.
Експерименти та результати
MDM — це універсальна технологія для вирішення будь-якої проблеми, яка може поступово стискати вхідні розміри. Порівняння MDM з базовим підходом показано на рисунку 4 нижче.