Новий прорив з 2D в 3D! Поглиблений аналіз технології AIGC, стаття для розуміння історії та поточної ситуації створення 3D-даних

Автор: Chengxi Редактор: Manman Zhou

Джерело: Silicon Rabbit Race

За останні 18 місяців створення контенту штучного інтелекту (AIGC), безсумнівно, є найгарячішою та найгарячішою темою в колі венчурних інвестицій у технології Кремнієвої долини.

DALL-E (виходить у січні 2021 р.)

Midjourney (з’явиться в липні 2022 р.)

Стабільна дифузія (з’явиться в серпні 2022 р.)

Цей тип двовимірного генеративного інструменту може перетворювати текстові підказки ( ) на художні зображення всього за кілька секунд. З еволюцією та вдосконаленням таких інструментів 2D AIGC творчі робочі процеси художників, дизайнерів та ігрових студій швидко змінюються.

Де наступний прорив AIGC? Багато інвесторів і ветеранів індустрії дали прогнози - генерація 3D-даних.

Ми помітили, що 3D AIGC проходить стадію розробки 2D AIGC. У цій статті ми детальніше обговоримо нові досягнення AIGC у сфері 3D-даних і з нетерпінням чекатимемо, як генеративні інструменти штучного інтелекту можуть підвищити ефективність та інноваційність створення 3D-даних.

01 Огляд швидкого розвитку 2D AIGC

Розробку 2D AIGC можна коротко підсумувати в наступні три етапи розробки:

Фаза 1: Розумне редагування зображень

Уже в 2014 році, з появою генеративної конфронтаційної мережі (GAN, типова подальша робота StyleGAN) і варіаційного автокодувальника (VAE, типова подальша робота VQVAE, alignDRAW), моделі ШІ почали широко використовуватися в інтелектуальній генерації 2D зображення та редагування. Ранні моделі штучного інтелекту в основному використовувалися для вивчення деяких відносно простих розподілів зображень або виконання певного редагування зображень. Поширені програми включають: створення обличчя, передачу стилю зображення, суперроздільність зображення, завершення зображення та кероване редагування зображень.

Але ранні мережі створення/редагування зображень мають дуже обмежену мультимодальну взаємодію з текстом. Крім того, мережі GAN зазвичай важко навчити, і вони часто стикаються з такими проблемами, як згортання режиму та нестабільність. Згенеровані дані зазвичай мають низьку різноманітність, а ємність моделі також визначає верхню межу доступного масштабу даних; VAE часто стикається з згенероване зображення розмите та інші проблеми.

Другий етап: стрибок моделі графа Вінсента

З проривом у технології генерації дифузії (дифузії), появою та розвитком великомасштабних мультимодальних наборів даних (таких як набір даних LAION) і мультимодальних моделей представлення (таких як модель CLIP, випущена OpenAI), поле генерації 2D-зображень буде у 2021 році. Досягнуто значного прогресу. Модель генерації зображень почала глибоко взаємодіяти з текстом, і широкомасштабна графічна модель Vincent здійснила дивовижний дебют.

Коли OpenAI випустить DALL-E на початку 2021 року, технологія AIGC дійсно почне демонструвати великий комерційний потенціал. DALL-E може створювати реалістичні та складні зображення з довільних текстових підказок із значно кращим рівнем успішності. Протягом року швидко з’явилася велика кількість графічних моделей Vincent, у тому числі DALL-E 2 (оновлена у квітні 2022 року) та Imagen (випущена Google у травні 2022 року). Хоча ці технології ще не були ефективними для допомоги творцям мистецтва створювати контент, який можна було б безпосередньо використовувати у виробництві, вони привернули увагу громадськості та стимулювали творчий потенціал і виробничий потенціал художників, дизайнерів та ігрових студій.

Третій етап: від дивовижного до продуктивного

З удосконаленням технічних деталей і ітерацією інженерної оптимізації 2D AIGC швидко розвивається. До другої половини 2022 року такі моделі, як Midjourney і Stable Diffusion, стали популярними інструментами AIGC. Завдяки широкомасштабним навчальним наборам даних ефективність методів AIGC у реальних додатках принесла переваги першим користувачам у медіа, рекламній та ігровій індустрії. Крім того, поява та розвиток технологій тонкого налаштування великих моделей (таких як ControlNet і LoRA) також дозволяють людям «налаштовувати» налаштовувати та розширювати великі моделі штучного інтелекту відповідно до їхніх фактичних потреб і невеликої кількості навчальних даних, щоб краще адаптуватися до різних конкретних програм (таких як двовимірна стилізація, створення логотипу, створення QR-коду тощо).

Створення ідей і прототипування за допомогою інструментів AIGC тепер у багатьох випадках займає години або менше, а не дні чи тижні, як це було раніше. Хоча більшість професійних графічних дизайнерів все ще змінюють або відтворюють ескізи, згенеровані штучним інтелектом, у особистих блогах або рекламі все частіше використовують зображення, створені штучним інтелектом.

Різні ефекти перетворення тексту в зображення alignDRAW, DALL-E 2 і Midjourney.

На додаток до перетворення тексту в зображення, 2D AIGC продовжує мати нові розробки. Наприклад, Midjourney та інші стартапи, такі як Runway і Phenaki, розробляють можливості перетворення тексту у відео. Крім того, Zero-1-to-3 запропонував метод генерації відповідних зображень під різними кутами огляду з одного 2D-зображення об’єкта.

Через зростаючий попит на 3D-дані в індустрії ігор і робототехніки поточні передові дослідження AIGC поступово переходять до створення 3D-даних. Ми очікуємо подібної моделі розвитку для 3D AIGC.

Момент 3D AIGC "DALL-E"

Нещодавні технологічні досягнення в області 3D говорять нам про те, що момент «DALL-E» 3D AIGC наближається!

Від DreamFields наприкінці 2021 року до DreamFusion і Magic3D у другій половині 2022 року, а потім до ProlificDreamer у травні цього року, завдяки розробці мультимодальних доменів і моделей графів Вінсента було зроблено багато проривів в академічній 3D-моделі Веньшен. Кілька методів здатні генерувати високоякісні 3D-моделі з введеного тексту.

Однак більшість цих ранніх досліджень потребують оптимізації тривимірного представлення з нуля під час генерації кожної 3D-моделі, щоб 2D-перспективи, які відповідають 3D-представленню, відповідали очікуванням вхідних і попередніх моделей. Оскільки такі оптимізації зазвичай вимагають десятків тисяч ітерацій, вони часто займають багато часу. Наприклад, створення однієї 3D-моделі сітки може тривати до 40 хвилин у Magic3D і годин у ProlificDreamer. Крім того, однією з найбільших проблем генерації 3D є те, що 3D-модель повинна мати узгодженість форми об’єкта з різних кутів. Існуючі 3D-методи AIGC часто стикаються з проблемою Януса, тобто 3D-об’єкти, створені штучним інтелектом, мають кілька голов або кілька облич.

Проблема Janus через відсутність узгодженості тривимірної форми в ProlificDreamer. Ліворуч — вигляд спереду звичайної синьої пташки. Праворуч заплутане зображення птаха з двома обличчями.

Але з іншого боку, деякі команди намагаються подолати існуючу парадигму генерації на основі оптимізації та генерувати 3D-моделі за допомогою єдиного технічного шляху прямого прогнозування, що значно підвищує швидкість і точність генерації 3D. Ці методи включають Point-E і Shap-E (випущені OpenAI у 2022 і 2023 роках відповідно) і One-2–3–45 (випущені UC San Diego у 2023 році). Особливої уваги заслуговує One-2–3–45, випущений минулого місяця, який здатний генерувати високоякісну та послідовну 3D-сітку з 2D-зображення всього за 45 секунд!

Порівняльний аналіз методів одного зображення та тривимірної сітки. Зліва направо ми бачимо, що час обробки різко скоротився з понад години до менше ніж хвилини. Point-E, Shap-E та One-2–3–45 вирізняються швидкістю та точністю.

Ці останні технологічні досягнення в області 3D AIGC не тільки значно підвищують швидкість і якість генерації, але також роблять введення користувача більш гнучким. Користувачі можуть вводити дані за допомогою текстових підказок або генерувати потрібну 3D-модель за допомогою одного 2D-зображення з додатковою інформацією. Це значно розширює можливості 3D AIGC з точки зору комерційного застосування.

ШІ революціонізує процес виробництва 3D

По-перше, давайте зрозуміємо робочий процес, через який традиційні 3D-дизайнери повинні пройти для створення 3D-моделей:

  1. Концептуальні ескізи: дизайнери концептуального мистецтва проводять мозковий штурм і створюють ідеї щодо необхідних макетів на основі інформації клієнта та візуальних посилань.

  2. 3D-прототипування: дизайнери моделей використовують професійне програмне забезпечення для створення базової форми моделі та повторення на основі відгуків клієнтів.

  3. Уточнення моделі: додайте деталі, колір, текстуру та властивості анімації (наприклад, оснащення, освітлення тощо) до грубої 3D-моделі.

  4. Завершення моделі: дизайнери використовують програмне забезпечення для редагування зображень, щоб покращити остаточне відтворення, налаштувати кольори, додати ефекти або виконати синтез елементів.

Цей процес зазвичай займає кілька тижнів, можливо навіть довше, якщо використовується анімація. Однак кожен із цих кроків потенційно можна зробити швидше за допомогою ШІ.

  1. Потужний генератор багаторакурсних зображень (наприклад, Zero-1–to–3 на основі Stable Diffusion і Midjourney) сприяє творчому мозковому штурму та створює ескізи мультиракурсних зображень.

  2. Технології перетворення тексту в 3D або зображення в 3D (наприклад, One-2–3–45 або Shap-E) можуть створити кілька 3D-прототипів за лічені хвилини, надаючи дизайнерам широкий спектр можливостей.

  3. За допомогою оптимізації 3D-моделі (наприклад, Magic 3D або ProlificDreamer) вибрані прототипи можуть бути автоматично вдосконалені протягом годин.

  4. Після того, як вдосконалена модель буде готова, 3D-дизайнер може продовжити проектування та завершити високоточну модель.

Порівняння традиційного та штучного інтелекту виробничих робочих процесів 3D

**Чи замінить 3D AIGC людей? **

Наш висновок такий, що ще ні. Люди все ще залишаються незамінною ланкою в зв’язку 3D AIGC.

Незважаючи на те, що згадана вище технологія створення 3D-моделей може мати багато застосувань у робототехніці, автономному водінні та 3D-іграх, поточний виробничий процес все ще не може задовольнити широкий спектр застосувань.

З цією метою Silicon Rabbit Jun взяв інтерв’ю у професора Су Хао з Каліфорнійського університету в Сан-Дієго, провідного експерта в галузі 3D Deep Learning і Embodied AI. Один із авторів –3–45 модель. Професор Су Хао вважає, що головним вузьким місцем моделі поточного покоління 3D є відсутність великої кількості високоякісних наборів 3D-даних. Наразі широко використовувані набори 3D-даних, такі як ShapeNet (приблизно 52 тис. 3D-сіток) або Objaverse (приблизно 800 тис. 3D-моделей), містять моделі, які потребують покращення з точки зору кількості та якості деталей. Особливо порівняно з великими наборами даних у 2D-доміні (наприклад, LAION-5B), їхній обсяг даних ще недостатній для навчання великих 3D-моделей.

Професор Су Хао колись навчався під керівництвом професора Леонідаса Гібаса, піонера геометричних обчислень і члена Американської академії наук, і брав участь у проекті ImageNet під керівництвом професора Фейфея Лі як один із перших учасників. Натхненний ними, професор Су Хао підкреслив ключову роль великих наборів 3D-даних у розвитку технологій і заклав основу для появи та процвітання сфери глибокого 3D-навчання.

Крім того, 3D-моделі набагато складніші за 2D-зображення, наприклад:

  1. Структура частин: для ігор або додатків із цифровими подвійниками потрібні структуровані частини 3D-об’єктів (наприклад, PartNet), а не одна 3D-сітка;

  2. З'єднання та прив'язки: ключові властивості для взаємодії з 3D-об'єктами;

  3. Текстура та матеріал: такі як коефіцієнт відбиття, коефіцієнт поверхневого тертя, розподіл щільності, модуль Юнга та інші ключові властивості, які підтримують взаємодію;

  4. Експлуатація та маніпуляції: дозвольте дизайнерам ефективніше взаємодіяти та маніпулювати 3D-моделями.

І вищевказані моменти – це те, де людський досвід може продовжувати відігравати важливу роль.

Професор Су Хао вважає, що в майбутньому генерація 3D-даних за допомогою ШІ повинна мати такі характеристики:

  1. Підтримка генерації 3D-моделей, які підтримують інтерактивні програми. Ця взаємодія включає як фізичну взаємодію між об’єктами (наприклад, зіткнення), так і взаємодію між людьми та об’єктами (фізичні та нефізичні методи взаємодії), завдяки чому 3D-дані в грі , метавсесвіт, фізичне моделювання та інші сценарії можуть бути широко використані;

  2. Підтримка створення 3D-контенту за допомогою ШІ, що робить моделювання більш ефективним;

  3. Підтримуйте процес створення Human-in-the-loop і використовуйте людський художній талант для покращення якості згенерованих даних, тим самим покращуючи продуктивність моделювання та формуючи ефект маховика замкнутого циклу даних.

Подібно до дивовижного розвитку таких технологій, як DALL-E та ChatGPT за останні 18 місяців, ми твердо віримо, що у сфері 3D AIGC його інновації та застосування, швидше за все, перевершать наші очікування, і Silicon Rabbit продовжуватиме поглиблювати дослідження. і вихід.

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити