Большие кофейные дебаты AIGC: как оседлать ветер и волны в буме ИИ

Источник: Лэй Фэн Нет.

Автор: Дун Цзыбо Ван Юэ

Оригинальное название: «AIGC: во время подъема, где граница? «ГАИР 2023»

От рисования картинок до написания стихов, от копирайтинга до составления таблиц, от PPT до написания кодов, если бы кто-то сказал, что ИИ может выполнять все эти задачи более десяти месяцев назад, мало кто ему поверил бы.

Однако скорость технологического развития всегда взрывоопасна: еще до конца 2023 года волна генеративного ИИ захлестнула весь технологический круг, завораживая и стекаясь к нему людей.

На 7-й Глобальной конференции GAIR по искусственному интеллекту и робототехнике, спонсируемой совместно Исследовательским институтом GAIR, Leifeng.com, World Science and Technology Publishing House и Kotler Consulting Group, все громкие имена в области AIGC собрались в отеле Orchard в Сингапуре, чтобы представить Мир делится своими непосредственными и последними знаниями о генеративном ИИ.

Спикеры, принявшие участие в подфоруме GAIR AIGC и генеративного контента:

Пан Синган, доцент Школы компьютерных наук и инженерии Наньянского технологического университета Конгсин Цай, основатель joinrealm.ai Основатель сообщества Help&Grow в Сингапуре Ван Тонг Технический директор Lizhi Group, Дин Нин Старший научный сотрудник Наньянского технологического университета, основатель Deepir Inc., Ву Пэнчэн Директор Центра алгоритмов публикации игр Tencent Overseas, Лан Цзюнь

Как сохранить ясный ум и усовершенствовать инновации в технологиях, продуктах и бизнес-моделях на текущем горячем треке ИИ? Каковы идеи гостей на встрече, чтобы они могли оседлать ветер и волны в подъеме генеративного ИИ?

Наньянский технологический университет Пан Синган: перетащите ключевые точки визуального контента, мы не использовали диффузионную модель

Когда дело доходит до AIGC, в текущем направлении все всегда будут думать о MidJourney, который высоко ценится за рубежом, и о технической поддержке, стоящей за ним, — модели распространения.

Однако Пан Синган, доцент Школы компьютерных наук и инженерии Наньянского технологического университета, который когда-то учился у профессора Тан Сяоу на гонконгском китайском языке, решительно отказался от диффузионной модели в своем последнем «редактировании с помощью перетаскивания». ключевые моменты визуального контента». Используется более «старая» методика — сеть генеративного противостояния (GAN).

Многие люди видят мощную способность ИИ генерировать изображения и думают, что эра AIGC наступила, но Пан Синган обнаружил, что «генерация изображений» часто не является последним шагом в творческом процессе пользователя.

Последующие корректировки изображения, особенно элементы изображения, созданные ИИ, часто полны неопределенности.Чтобы удовлетворить потребности пользователей, необходимо, чтобы каждый элемент изображения мог быть настроен пользователем на более позднем этапе.

Например, искусственный интеллект сгенерировал очень реалистичного льва. Если пользователи хотят повернуть голову льва, изменить его положение или даже изменить выражение лица льва, это сложно сделать в текущей форме продукта.

Эти операции кажутся простыми, но все они связаны с точным контролем пространственных свойств объектов и по-прежнему сталкиваются с огромными техническими проблемами.

В прошлом был способ следовать идее диаграммы Винсента, редактировать изображение в соответствии с указаниями текста — например, «переместить нос льва вправо на 30 пикселей».

Но есть и проблемы с этим решением:

С одной стороны, текстовая модель должна иметь достаточно сильное понимание пространственных атрибутов объектов, чтобы соответствовать различным потребностям и методам редактирования пользователей и сделать взаимодействие более интуитивным;

С другой стороны, для языковой модели сложно точно понять длину и размер изображения, что также доставляет много хлопот при редактировании визуального контента.

На уровне взаимодействия для пользователей наиболее интуитивным и простым в использовании, несомненно, является взаимодействие перетаскиванием; в то время как на уровне технической реализации пользователям нужно только указать красную точку захвата и синюю целевую точку, и ИИ будет перемещать семантическую часть изображения, соответствующую красной точке, в положение синей точки для достижения эффекта редактирования пространственных атрибутов изображения.

В прошлом некоторые люди разрабатывали подобные функции, но обычно редактируемое изображение необходимо разбить на сетку, и есть определенные предположения о высоте объекта — редактируемое изображение представляет собой просто 2D-искажение исходного изображения, есть no не может генерировать новый контент.

Он должен быть точным и генерировать контент.Пань Синган не использовал текущую самую горячую модель распространения при проведении технических исследований и суждений, а выбрал технологию генеративной сети противостояния. Во-первых, пространство изображения, описываемое GAN, очень непрерывное, гораздо более непрерывное, чем диффузионная модель; во-вторых, скрытое пространство контакта GAN очень удобно для редактирования атрибутов.

С дальнейшим развитием исследований команды Пан Сингана они поддержали многоточечное редактирование на исходной основе, которое может изменить положение объектов на изображении, изменить форму автомобиля или изменить перспективу автомобиля, поэтому что котенок открывает один глаз и закрывает один глаз, изменяет прическу или выражение лица портрета, позу или длину одежды, чтобы пользователям было удобнее редактировать изображение, и даже завершать генерацию видеоконтента таким образом.

В настоящее время эта работа находится в открытом доступе на GitHub и получила 32 000 звезд.

В будущем комбинация GAN и диффузионной модели - это видение Pan Xingang для выполняемой работы - не только возможность генерации диффузионной модели, но и преимущества GAN при редактировании изображений, и также может быть возможно применить эти возможности. для видео и контента 3D и 4D, AIGC будущего будет умнее и проще в использовании.

joinrealm.ai Congxing Cai: создайте социальную сеть на основе AIGC

Congxing Cai из joinrealm.ai мечтает стать социальной сетью AIGC.

Присоединился к Snapchat примерно в 2016 году и отвечал за разработку продуктов для коротких видео в компании. Цай Цунсин пережил период сверхвысокой скорости развития индустрии коротких видео. И после того, как TikTok без всяких споров стал феноменальным продуктом за границей, у Цай Цунсин появились другие мысли:

«Мы чувствуем, что на пути продуктивного короткометражного видеоконтента все уже продвинулись в определенном направлении, и в будущем в области генеративного видео индустрию обязательно ждет новый прорыв».

Итак, Конгсин Цай и его друзья основали joinrealm.ai.

Цай Цунсин считает, что AIGC является особенно широкой и абстрактной концепцией, а направление joinrealm.ai в основном находится посередине между «предоставлением API напрямую» и «завершением инноваций взаимодействия человека с компьютером» — исследованием бизнес-модели. создания контента.

«Почему важен способ создания контента? Судя по нашим наблюдениям за короткими видеороликами за последние десять лет, большие изменения на самом деле связаны с появлением интеллектуальных камер. Популярность интеллектуальных камер в значительной степени не только вместо того, чтобы дать каждому мобильный телефон, он дал миру миллиарды мобильной инфраструктуры».

От «слова» к «истории» — ключевой ключ предпринимательской деятельности joinrealm.ai — с помощью ИИ пользователи могут представлять контент в своем уме в виде изображений, как «мыслящая камера».

Чтобы достичь этого эффекта, Цай Конгсин обнаружил в ходе исследования joinrealm.ai, что предстоит решить еще много проблем:

Во-первых, различия с естественным языком все же есть - в конечном счете, это все еще язык программирования, который трудно понять публике интуитивно, пользователям все еще приходится проходить через множество шагов "попытка-неудача-попытка". генерировать контент, который они хотят;

Во-вторых, базовая модель все еще не может полностью удовлетворить потребности пользователей AIGC на сегодняшний день.На примере Stable Diffusion доля новых пользователей, которые готовы поделиться сгенерированным контентом, сегодня, вероятно, составляет менее 20%;

Отсутствие концепций, которые могут быть точно настроены пользователями, также является первой серьезной проблемой, с которой сталкивается AIGC в настоящее время.Пользователям трудно контролировать создание ИИ с помощью набора определенных концепций, а также трудно контролировать свои собственные «рассказ»;

Наконец, это баланс эффективности между результатами генерации изображений и стоимостью.Как генерировать более качественный контент по более низкой цене, также является проблемой, которую AIGC не может игнорировать на данный момент.

Чтобы решить эти проблемы, Цай Цунсин и его команда встретились почти с сотней влиятельных создателей ИИ и обнаружили, что большинство их методов производства уникальны и редко совпадают, и все они используют большое количество инструментов для постоянной отладки и настройки.

В конце концов, joinrealm.ai решил завершить обновление в трех ключевых моментах после изучения и суждения:

Во-первых, это цепочка инструментов, которая улучшает взаимодействие с пользователем, завершая оптимизацию пользовательского интерфейса;

Во-вторых, позволить пользователям создавать свои собственные тонкие настройки.Например, используя описание «Я», продукт может более точно генерировать изображение, которое они хотят, на основе собственного изображения пользователя.

В-третьих, создать сообщество самостоятельно, чтобы пользователи могли получать больше обучения и вдохновения в сообществе.

Обсуждение за круглым столом: AIGC «Выход на мировой рынок»

Ван Тонг, основатель сообщества Help&Grow в Сингапуре, выступал в качестве модератора и обсуждал с Цай Конгсином, основателем joinrealm.ai, Дин Нином, техническим директором Lychee Group, Ву Пэнчэном, старшим научным сотрудником Наньянского технологического университета и основателем Deepir Inc. и Ланг Джун, директор Центра алгоритмов публикации игр Tencent Overseas. Текущая горячая тема AIGC и генеративного контента.

Легче ли для модели коммерциализации AIGC приземлиться в поле To B или в поле C? Гости представили будущий плацдарм, исходя из собственного опыта.

Ланг Цзюнь считает, что выполнить To B непросто, поскольку решение необходимо абстрагировать и уточнять на основе множества различных реальных случаев, а с точки зрения To C это может помочь многим геймерам быстро интегрироваться в игру при работе с играми. При внутренней работе над алгоритмом Ланг Джун и его команда также будут постоянно оценивать, какая модель может лучше углубить сцену приземления AIGC.

Ву Пэнчэн сказал, что возможности есть как в B, так и в C, но хорошая компания должна быть в C. Он объединил Miaoya Camera, очки Apple VR, цифровую прямую трансляцию и другие компании, добившиеся успехов на уровне ToC в этом году, подчеркнув, что AIGC To C создаст множество интересных приложений.

Дин Нин считает, что коммерциализация AIGC все еще находится на ранней стадии.Хотя есть некоторые компании, которые добились первых успехов, большинство из них все еще находятся в пути. Он особо подчеркнул, что технологические предприниматели должны не только быть погруженными в прикосновение к технологиям, но и больше учитывать потребности и болевые точки пользователей. Относительно реализации To B и C он сказал, что у To B большой рынок и нужны возможности и ресурсы, в то время как у To C большая конкуренция и требуется острое чувство рынка и способность управлять сообществом. перспективный в будущем широкий.

Что касается выхода AIGC за границу и глобализации, несколько гостей поделились своим опытом.

Ланг Цзюнь заметил, что местная команда имеет очень большое преимущество в области талантов, эффективные каналы обмена знаниями и большой интерес к интернет-индустрии.На самом деле, за границей не так много ресурсов для этого распределения. Он подчеркнул, что в настоящее время AIGC не имеет особенно зрелой бизнес-модели, поэтому у того, кто лучше умеет комбинировать ресурсы, больше шансов «исчерпать».

Дин Нин считает, что когда AIGC выходит за границу, она должна сначала выйти и снизить свои показатели.Ей не обязательно достигать определенного уровня продукта.Он понимает, что трудно добиться успеха на рынке сразу за два-три годы. Он добавил, что очень важно уважать зарубежный рынок, существуют огромные различия в культуре, языке, законах и правилах, и необходимо иметь четкое представление о местном рынке.

У Пэнчэн считает, что у AIGC есть прекрасная возможность выйти за границу.С одной стороны, китайские технологии могут использоваться за границей, с другой стороны, зарубежные страны также имеют местные потребности.Их можно глубоко интегрировать, что создаст огромные ценить. При этом также нужно учитывать, что выход в море – это только первый шаг, а также необходимо продумать, как лучше выезжать за границу.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить