AIGC використовує «фізичну магію», 3D-бачення долає «межу точності»

Джерело: Light Cone Intelligence

Автор: Яо Юе

Джерело зображення: створено Unbounded AI‌

"Ніякого мистецтва, тільки фізика! Фізика робить вас щасливими, чи не так?"

Нещодавно на всесвітній конференції з комп’ютерної графіки SIGGRAPH 2023 засновник і генеральний директор Nvidia Хуан Реньсюнь оголосив, що коли він поєднав генеративний ШІ з платформою моделювання Omniverse, він був так само схвильований, як і оголосив, що «AIGC — це момент iPhone».

**На відміну від великих мовних моделей, які можна застосовувати лише до графіки та тексту, з платформою моделювання, заснованою на фізичних законах, генеративний ШІ можна безпосередньо використовувати в реальному світі. **

На додаток до Хуан Реньсюня, команда Лі Фейфея зі Стенфордського університету в Сполучених Штатах також нещодавно інтегрувала великі моделі в роботів, які не тільки дозволяють роботам ефективно взаємодіяти з навколишнім середовищем, але й виконують різні завдання без додаткових даних і навчання.

** «Генеративний ШІ, заснований на моделюванні фізичного світу, — це генеративний ШІ 2.0», — сказав Цзя Куй, засновник Kuawei Intelligence і професор Південно-Китайського технологічного університету, Light Cone Intelligence, що поєднання генеративного ШІ та втілений інтелект відіграватиме важливу роль більш детермінований ефект. **

Очікується, що з розширенням загальних можливостей штучний інтелект зруйнує «прокляття» комерціалізації.

Коли генеративний ШІ вивчає фізику

Поєднати генеративний ШІ з фізичним світом непросто, і технічний ланцюжок дуже довгий.

**Перш за все, необхідно оволодіти основними законами фізичного світу, щоб моделювати реальний світ на платформі симуляції. **

Платформа моделювання може не тільки симулювати фізичні сцени, але й моделювати взаємодію, рух і деформацію об’єктів у реальному світі.

Додавання генеративного ШІ дозволить платформі моделювання мати можливість «попереднього перегляду».

«Люди знають фізичні знання з дитинства, але штучний інтелект їх не знає.» Хуан Реньсюнь сказав: «Поєднання генеративного штучного інтелекту та платформи моделювання допоможе майбутньому штучному інтелекту вкоренитися у фізиці».

Далі Хуан Реньсюнь пояснив, що дозволяє штучному інтелекту навчитися сприймати середовище у віртуальному світі та розуміти вплив і наслідки фізичної поведінки за допомогою навчання з підкріпленням, щоб штучний інтелект міг досягти конкретних цілей.

**Це вимагає використання генеративного штучного інтелекту для прогнозування десятків мільйонів або навіть сотень мільйонів можливостей у фізичному світі для формування цінних синтетичних даних. **

Наприклад, робота-рука потребує використання «очей» тривимірного бачення, щоб точно схопити, але як усунути втручання змін навколишнього середовища та розпізнати об’єкти, які потрібно схопити (наприклад, деталі на заводі)?

Завдяки платформі симуляції ми освоїли такі фізичні закони, як «відбиття та заломлення світла на об’єкті сцени», а генеративний штучний інтелект може передбачити та імітувати пляшку з різним ступенем відбиття за різного освітлення сцени; за одного освітлення , метал, стан поверхні предметів з різних матеріалів, таких як пластмаси та вироби з дерева; купа цвяхів, усі можливі розкидані стани...

** Знову ж таки, усі дані потрібно запускати на платформі моделювання за допомогою ШІ. **

Цей крок призначений для навчання 3D-візуальної великої моделі. На відміну від великих мовних моделей, тривимірні візуальні великі моделі мають вирішальне значення для розуміння та міркування про композиційні характеристики візуальних сцен і мають справу зі складними взаємозв’язками між об’єктами, положеннями та змінами в реальному середовищі.

**Нарешті, його потрібно підключити до інтелектуального апаратного забезпечення, наприклад роботизованої руки, щоб він міг навчитися інтелектуальному управлінню. **

Можна побачити, що весь технічний ланцюг поєднання генеративного штучного інтелекту та фізичного світу включає не лише фізику, графіку, комп’ютерний зір, міждисциплінарну робототехніку, але також включає цифрових близнюків, геометричне глибоке навчання, кінематичні обчислення, гібридний інтелект, інтелектуальне апаратне забезпечення. та інші багатовимірні передові технології.

Відповідно, ланцюжок усієї галузі також відносно складний, від даних до моделей, а потім від моделей до розгортання.

У цих посиланнях є вузол, який сильно відрізняється від попереднього ШІ-шляху, і це «генерація синтетичних даних».

Використання даних, синтезованих генеративним штучним інтелектом на основі фізичних законів, для навчання великих моделей призведе до революції у фізичній галузі.

Без реального зображення,

Навчальна 3D візуальна велика модель

Чому б не навчити великі моделі безпосередньо на реальних даних?

Наразі більшість роботизованих зброї на основі тривимірного бачення в галузі використовують реальні дані для навчання алгоритмів своїх систем керування. Через такі проблеми, як комерційна конфіденційність, ці реальні дані важко отримати в загальних даних, і вони в основному збираються самими підприємствами.

**Однак фактичні дані, зібрані власноруч, насамперед показують, що ефективність витрат є дуже низькою з точки зору «ефективності та вартості», двох ключових показників роботи. **

Це пов’язано з тим, що сценарії застосування терміналів є фрагментованими, і дані взагалі не можуть бути використані універсально. Щоб зібрати реальні дані, підприємствам потрібна «килимова» колекція кожної галузі, кожної фабрики та кожної сцени. Крім того, зібрані дані не можна використовувати безпосередньо, і потрібна серія обробки.

У цьому процесі є навіть «парадокс штучного інтелекту».

«Збираючи реальні дані, більше половини вартості технології штучного інтелекту становлять витрати на дані, а обробка збору даних, очищення, маркування та вдосконалення часто є результатом накопичення великої кількості робочої сили». Деякі аналітики зазначають, Суть штучного інтелекту полягає в тому, щоб замінити штучний інтелект. «Іронія полягає в тому, що такий ШІ має очевидні трудомісткі промислові характеристики».

А як щодо синтетичних даних?

** «Використовуючи реальні дані, накопичені за п’ять-шість років і тисячі випадків, це можна завершити за кілька днів і кілька тижнів за допомогою синтетичних даних», — сказав Цзя Куй Light Cone Intelligence, що порівняно з ручним збором і маркуванням даних. , вартість синтетичних даних Можна досягти зменшення на кілька порядків. **

**Найголовніше те, що з точки зору тренувального ефекту синтетичні дані можуть бути кращими за реальні. **

Оскільки він синтезується на основі фізичних законів, синтетичні дані народжуються з абсолютно точними анотаціями, що означає, що навчання ШІ є дуже ефективним.

Крім того, «вичерпність» синтетичних даних не зрівняється з реальними даними. «Generate AI 2.0 може створювати незліченну кількість світів і змусити цей світ швидко розвиватися», — сказав Джіа Куй.

**Коли справа доходить до індустрії 3D бачення, роботизована рука схожа на «руку Бога», яка може контролювати все в минулому та майбутньому. **

«Звичайно, це не може бути поза законами фізичного світу», — підкреслив Цзя Куй.

«Наразі ми можемо завершити навчання тривимірної візуальної моделі роботизованої руки для складних сценічних операцій без використання реального зображення.» Цзя Куй сказав Lightcone Intelligence, що гнучка робота роботизованої руки може керуватися моделлю, навченою повністю за допомогою синтетики. дані, які можуть забезпечити на місці більш ніж 99,9% стабільного зчеплення.

Саме через це **синтетичні дані називають «вічним двигуном даних» великих моделей. **

Зараз, окрім поля 3D-зору, багато областей також намагаються використовувати синтетичні дані через такі проблеми, як відсутність загальних даних і високий рівень шуму. Однак є також серйозні сумніви щодо синтетичних даних, кажучи, що якщо їх ретельно не налагоджувати та інтенсивно використовувати під час навчання, це призведе до збою моделі та спричинить незворотні дефекти.

З точки зору технологічної еволюції, синтетичні дані не будуть єдиним рішенням для великих моделей.

Однак Цзя Куй зазначив: «Перед тим, як знайти кращий спосіб, синтетичні дані є найкращим способом вирішення практичних проблем на даний момент. Якщо реальні дані, накопичені людьми, все ще використовуються в багатьох сферах, включаючи 3D-зір, AGI (загальний штучний інтелект). ) інтелект) ніколи не буде можливим».

Порушення «прокляття» комерціалізації ШІ

У сфері машинного зору попит на синтетичні дані зростає, і цінність, яку може розкрити генеративний ШІ 2.0, буде ще більшою.

Як дуже важливий метод сприйняття машинного зору, 3D-зір має нагальну потребу в синтетичних даних.

«Знайдіть різницю» серед купи подібних частин, змініть матеріал і колір об’єкта, і вам потрібно налаштувати параметри». Практик 3D-бачення сказав, що різні потреби різних полів роблять сцену приземлення надто фрагментованою. Завершіть один проект, а потім повторно налаштуйте інший проект.

Це означає, що підприємствам важко формувати стандартизовані продукти, зосереджуючись на вирішенні однієї або кількох вимог проекту. Також неможливо вийти на ринок, розширити його та досягти масштабу прибутку шляхом швидкого тиражування.

**Граничні витрати важко зменшити, що перетворить технологічну компанію на проектну компанію та зрештою потягне її вниз. **

«Диявол» криється в деталях.

Наскільки крихким є традиційне 3D-візуальне сприйняття? Цзя Куй описав Light Cone Intelligence: «Якщо під час захоплення роботизованої руки хтось пройде повз і змінить світло, завдання може бути невдалим».

Це викликано принципом створення зображень апаратної 3D-камери.На зображення 3D-камери легко впливає середовище, форма об’єкта, матеріал, колір, середовище розсіювання тощо, і цю проблему важко вирішити за короткий час.

«Для вирішення проблеми може знадобитися сто кроків, але зусилля на останньому кроці можуть бути такими ж, як сума попередніх 99 кроків.» Ян Фан, співзасновник SenseTime, якось сказав, що більша частина енергії підприємство має бути використане для вирішення проблеми дрібних деталей з довгим хвостом.

Але тепер **«Generate AI 2.0 із високою універсальністю може вирішити проблему довгого хвоста, що дуже важливо для стандартизації продукту», — сказав Джіа Куй. **

У порівнянні з традиційною галузевою індивідуальною моделлю розробки, заснованою на generative AI 2.0, підприємства можуть використовувати загальну широкомасштабну модель для реалізації модульної розробки продукту, досягнення готового розгортання, а потім реалізації прямого розширення в тій самій галузі. , і різні галузі також можуть ефективно використовувати повторно. Проблема комерціалізації індустрії 3D-виділення буде легко вирішена.

У той же час вартість даних, розробки, розгортання, апаратного забезпечення та розширення галузі також різко впала в кожному зв’язку.

Під дією генеративного штучного інтелекту 2.0, як тільки тривимірне бачення вибухне, це означає, що вертикальні сцени, які значною мірою покладаються на технологію тривимірного бачення, такі як роботизована зброя, роботи, безпілотні транспортні засоби та метавсесвіти, прискорять з’їдання ШІ.

Багато даних підтверджують цю тезу.У таких сферах, як маркування даних, синтетичні дані, промислові роботи та машинне зір, розмір світового ринку зростає з високою швидкістю, особливо сукупний річний темп зростання синтетичних даних навіть перевищує 30% .

За цим насправді стоїть стратегічна цінність generative AI 2.0, яку високо оцінили технологічні та багато виробничих гігантів.

Від відомих виробничих компаній, таких як Siemens і Ford, до технологічних гігантів, таких як Nvidia, Tesla, Google, і зіркових стартапів, таких як Waabi, усі вони почали працювати в багатьох сферах, таких як промисловість, робототехніка, безпілотне водіння, медичне обслуговування. , і роздрібна торгівля Дослідіть широкі можливості generative AI 2.0.

У той же час ентузіазм капіталу також був значно мобілізований. Згідно з неповною статистикою, за останні роки іноземне фінансування синтетичних даних накопичило близько 800 мільйонів доларів США.

У Китаї компанії, пов'язані з синтетичними даними, також привернули увагу капіталу. У червні 2022 року компанія Kuowei Smart оголосила про завершення раунду фінансування Pre-A з обсягом фінансування в десятки мільйонів юанів і сукупним фінансуванням майже 100 мільйонів юанів менш ніж за рік з моменту створення; у липні цього року року компанія Guanglun Smart також оголосила про завершення раунду фінансування angel +. Загальна сума фінансування становить десятки мільйонів юанів.

**Можна сказати, що від можливості складати вірші до вивчення фізики, генеративний ШІ 2.0 відкриває велике майбутнє промислової цифровізації. **

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити