Великі кавові дебати AIGC: як кататися на вітрі та хвилях у бумі AI

Джерело: Lei Feng Net

Автор: Донг Цзибо Ван Юе

Оригінальна назва: «AIGC: Under the upsurge, where is the frontier?»丨GAIR 2023》

Від малювання картин до написання віршів, від копірайтингу до створення таблиць, від PPT до написання кодів, якби хтось більше десяти місяців тому сказав, що ШІ може виконувати всі ці завдання, мало хто б у це повірив.

Проте швидкість технологічного розвитку завжди вибухонебезпечна.До кінця 2023 року хвиля генеративного штучного інтелекту охопила весь технологічний цикл, примушуючи людей захоплюватися та скупчуватися ним.

На 7-й Глобальній конференції зі штучного інтелекту та робототехніки GAIR, яка спільно спонсорується Дослідницьким інститутом GAIR, Leifeng.com, World Science and Technology Publishing House та Kotler Consulting Group, усі відомі імена в галузі AIGC зібралися в готелі Orchard у Сінгапурі, щоб представити Світ ділиться своїми найновішими знаннями про генеративний ШІ.

Доповідачі, які взяли участь у GAIR AIGC та підфорумі генеративного контенту:

Пан Сінган, доцент, Школа комп’ютерних наук та інженерії, Наньянський технологічний університет Congxing Cai, засновник joinrealm.ai Засновник спільноти Help&Grow у Сінгапурі Ван Тонг технічний директор Lizhi Group, Дін Нін Старший науковий співробітник Наньянського технологічного університету; засновник Deepir Inc., Ву Пенчен Директор Tencent Overseas Game Publishing Algorithm Center, Lang Jun

Як зберегти ясність розуму та вдосконалити інновації в технологіях, продуктах і бізнес-моделях у поточному гарячому треку ШІ? Які ідеї гості на зустрічі, щоб вони могли кататися на вітрі та хвилях у пориві генеративного ШІ?

Nanyang Technology University Pan Xingang: перетягніть ключові моменти візуального вмісту, ми не використовували модель дифузії

Коли справа доходить до AIGC, у поточній версії всі завжди будуть думати про MidJourney, який має високу оцінку за кордоном, і технічну підтримку, що стоїть за ним, — модель розповсюдження.

Однак Пан Сінган, доцент Школи комп’ютерних наук та інженерії Наньянського технологічного університету, який колись навчався у професора Тан Сяооу в Гонконзі, рішуче відмовився від моделі дифузії у своєму останньому «редагуванні ключів за допомогою перетягування. точок візуального контенту". Використовується більш "стара" техніка - мережа генеративної конфронтації (GAN).

Багато людей бачать потужну здатність штучного інтелекту створювати зображення та думають, що настала ера AIGC; але Пан Сінган виявив, що «генерування зображень» часто не є останнім кроком у творчому процесі користувача.

Подальші коригування зображення — особливо елементи зображення, створені штучним інтелектом, часто повні невизначеності. Щоб задовольнити потреби користувачів, необхідно дозволити кожному елементу зображення бути налаштованим користувачем на наступному етапі.

Наприклад, ШІ створив дуже реалістичного лева. Якщо користувачі хочуть повернути голову лева, змінити його положення або навіть змінити вираз лева, це важко зробити в поточній формі продукту.

Ці операції звучать просто, але всі вони стосуються точного контролю просторових властивостей об’єктів, і вони все ще стикаються з величезними технічними проблемами.

У минулому існував спосіб слідувати ідеї діаграми Вінсента, редагувати зображення відповідно до вказівок тексту - наприклад, «перемістіть ніс лева вправо на 30 пікселів».

Але з цим рішенням також є проблеми:

З одного боку, текстова модель повинна мати достатньо сильне розуміння просторових атрибутів об’єктів, щоб задовольнити різні потреби редагування та методи користувачів і зробити взаємодію більш інтуїтивно зрозумілою;

З іншого боку, для мовної моделі важко точно зрозуміти довжину та розмір зображення, що також створює багато проблем для редагування візуального вмісту.

На рівні взаємодії для користувачів найбільш інтуїтивно зрозумілим і простим у використанні, безсумнівно, є взаємодія перетягування; тоді як на рівні технічної реалізації користувачам потрібно лише вказати червону точку захоплення та синю цільову точку, і AI will. Семантична частина зображення, що відповідає червоній точці, переміщується в положення синьої точки, щоб досягти ефекту редагування просторових атрибутів зображення.

У минулому деякі люди розробляли подібні функції, але зазвичай зображення, яке потрібно редагувати, має бути сітчастим, і існують певні припущення щодо висоти об’єкта – відредаговане зображення є лише двовимірним спотворенням вихідного зображення, є no не може створити новий вміст.

Він має бути точним і генерувати контент. Pan Xingang не використовував поточну найгарячішу модель дифузії, коли проводив технічні дослідження та судження, а вибрав технологію мережі генеративної конфронтації. По-перше, простір зображення, описаний GAN, дуже безперервний, набагато більш безперервний, ніж дифузійна модель; по-друге, латентний простір контакту GAN дуже підходить для редагування властивостей.

З подальшим розвитком досліджень команди Pan Xingang вони підтримали багатоточкове редагування на оригінальній основі, яке може змінити положення об’єктів на зображенні, змінити форму автомобіля або змінити перспективу автомобіля, тому що кошеня Відкрийте одне око та закрийте одне око, змініть зачіску чи вираз портрета, поставу чи довжину одягу, щоб користувачі могли зручніше редагувати зображення, і навіть завершити створення відеовмісту таким чином.

Наразі ця робота є відкритою на GitHub і отримала 32 000 зірок.

У майбутньому поєднання GAN і дифузійної моделі є баченням Pan Xingang щодо роботи, що виконується. Це не лише здатність генерувати дифузійну модель, але й переваги GAN у редагуванні зображень, а також можливо застосувати ці можливості до відео та 3D- і 4D-контенту майбутній AIGC буде розумнішим і простішим у використанні.

joinrealm.ai Congxing Cai: створіть соціальну мережу на основі AIGC

Congxing Cai з joinrealm.ai мріє стати соціальною мережею AIGC.

Приєднався до Snapchat приблизно в 2016 році та відповідав за розробку продуктів для коротких відео в компанії. Цай Конгсін пережив період надшвидкісного розвитку індустрії короткого відео. І після того, як TikTok став феноменальним продуктом за кордоном без будь-яких суперечок, у Цай Консінга були інші думки:

«Ми відчуваємо, що на шляху продуктивного короткого відеоконтенту всі вже просунулися в певному напрямку; і в майбутньому, у сфері генеративного відео, індустрія точно матиме новий прорив».

Тож Консін Цай та його друзі заснували joinrealm.ai.

Cai Congxing вважає, що AIGC є особливо широкою та абстрактною концепцією, а напрямок joinrealm.ai в основному знаходиться посередині між «прямим наданням API» та «завершенням інноваційної взаємодії людини з комп’ютером» — дослідженням бізнес-моделі. створення контенту.

«Чому режим створення контенту важливий? Виходячи з наших спостережень за короткими відео за останні десять років, велика зміна фактично пов’язана з появою розумних камер. Популярність розумних камер, значною мірою, не Замість того, щоб дати кожному мобільний телефон, він дав світові мільярди мобільної інфраструктури».

Від «слова» до «історії» є ключовим ключем підприємницької діяльності joinrealm.ai — за допомогою штучного інтелекту користувачі можуть представляти вміст у своїй свідомості у вигляді зображень, як «мисляча камера».

Щоб досягти цього ефекту, Cai Congxing виявив під час дослідження joinrealm.ai, що є ще багато проблем, які потрібно вирішити:

По-перше, все ще є відмінності від природної мови - в кінцевому підсумку це все ще мова програмування, яку людям важко зрозуміти інтуїтивно. Користувачі все ще повинні пройти через багато кроків "спробуй-невдало спробуй". створювати потрібний контент;

По-друге, базова модель все ще не може повністю задовольнити потреби користувачів AIGC сьогодні.Візьмемо як приклад Stable Diffusion, частка нових користувачів, які бажають поділитися створеним вмістом, на сьогодні, ймовірно, становить менше 20%;

Відсутність концепцій, які користувачі можуть точно налаштувати, також є першою серйозною проблемою, з якою зараз стикається AIGC.Користувачам важко контролювати створення ШІ за допомогою набору визначених концепцій, а також важко контролювати власні «розповідь» ;

Нарешті, це баланс ефективності між результатами генерації зображень і вартістю.Як генерувати якісніший контент за нижчою ціною також є питанням, яке AIGC наразі не може ігнорувати.

Щоб впоратися з цими проблемами, Цай Консін і його команда зустрілися з майже сотнею впливових розробників штучного інтелекту та виявили, що більшість їхніх методів виробництва унікальні й рідко однакові, і всі вони використовують велику кількість інструментів для постійного налагодження та коригування.

Зрештою, joinrealm.ai вирішив завершити оновлення в трьох ключових точках після дослідження та оцінки:

По-перше, це ланцюжок інструментів, який покращує роботу користувача шляхом завершення оптимізації інтерфейсу користувача;

По-друге, це дозволяє користувачам створювати власні налаштування. Наприклад, використовуючи опис «Я», продукт може точніше генерувати потрібне зображення на основі власного зображення користувача.

По-третє, створити спільноту самостійно, щоб користувачі могли отримати більше навчання та натхнення в спільноті.

Круглий стіл: AIGC "Going Global"

Ван Тонг, засновник спільноти Help&Grow у Сінгапурі, виступав модератором і обговорював питання з Цаєм Консіном, засновником joinrealm.ai, Дін Ніном, технічним директором Lychee Group, Ву Пенченгом, старшим науковим співробітником Наньянського технологічного університету та засновником Deepir Inc. , і Ланг Джун, директор Tencent Overseas Game Publishing Algorithm Center Актуальна актуальна тема AIGC і генеративного контенту.

Чи простіше для моделі комерціалізації AIGC потрапити в поле «Кому В» чи «Кому С»? Майбутню точку опори гості уявляли на власному досвіді.

Ланг Джун вважає, що зробити To B непросто, оскільки рішення потрібно абстрагувати та вдосконалити на основі кількох різних реальних випадків.Що стосується To C, це може допомогти багатьом гравцям швидко інтегруватися в гру під час керування грою. гра. Працюючи над внутрішнім алгоритмом, Ланг Джун і команда постійно оцінюватимуть, яка модель може краще поглибити сцену приземлення AIGC.

Ву Пенченг сказав, що і для B, і для C є можливості, але чудова компанія має бути для C. Він об’єднав камеру Miaoya, окуляри Apple VR, цифрові живі трансляції та інші компанії, які цього року досягли успіхів на рівні ToC, підкресливши, що AIGC To C породить багато цікавих програм.

Дін Нін вважає, що комерціалізація AIGC все ще знаходиться на ранній стадії.Хоча є деякі компанії, які взяли на себе лідерство в досягненні досягнень, більшість із них ще на шляху. Він особливо підкреслив, що для технологічних підприємців вони повинні не тільки занурюватися в дотик технологій, але також повинні більше враховувати потреби та больові точки користувачів. Щодо впровадження До B і To C, він сказав, що To B має великий ринок і потребує можливостей і ресурсів, тоді як To C має велику конкуренцію та вимагає гострого відчуття ринку та здатності керувати спільнотою. Обидва дуже перспективний у майбутньому широк.

Щодо виходу AIGC за кордон і глобалізації кілька гостей поділилися своїм досвідом.

Ланг Джун зауважив, що місцева команда має велику перевагу в талантах, ефективні канали обміну знаннями та сильний інтерес до Інтернет-індустрії.Насправді, за кордоном не так багато ресурсів для такого розподілу. Він підкреслив, що наразі AIGC не має особливо зрілої бізнес-моделі, тому той, хто має кращу здатність об’єднувати ресурси, швидше за все, «закінчиться».

Дін Нін вважає, що коли AIGC виходить за кордон, вона повинна спочатку вийти та знизити показники. Їй не обов’язково досягти певного рівня продукту. Він усвідомлює, що важко досягти успіху на ринку відразу протягом двох-трьох років років. Він додав, що дуже важливо поважати закордонні ринки, оскільки існують величезні відмінності в культурі, мові, законах і правилах, і необхідно мати чітке розуміння місцевого ринку.

Ву Пенчен вважає, що для AIGC є чудова можливість вийти за кордон. З одного боку, китайські технології можна використовувати за кордоном; з іншого боку, іноземні країни також мають місцеві потреби. Обидва вони можуть бути глибоко інтегровані, що створить величезні значення. Водночас потрібно враховувати, що поїздка на море – це лише перший крок, а також варто подумати, як краще подорожувати за кордон.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити