DALL·E 3 будет запущен на тестирование! Решена проблема верховых астронавтов, на одной картине изображено 50 объектов, а Microsoft как никогда глубоко вовлечена в исследования

Источник: Кубиты

Microsoft Bing первым открыл ограниченный тест DALL·E 3. Посмотрите, являетесь ли вы одним из европейских императоров?

из WindowsLatest

Не имеет значения, если вы не получили квалификацию: в сочетании с предварительным просмотром сторонних исследований и внутренними испытаниями, проводимыми сотрудниками OpenAI, один за другим появлялись различные тестовые примеры, что гарантированно доставит удовольствие.

Самый преувеличенный из них — «На указанной картинке изображено 50 различных объектов», а нарисовано их сотни.

Помимо простого расположения плиток, эти объекты можно более творчески комбинировать.

Для контрфактической концепции астронавта, едущего на лошади, различные модели OpenAI и Google в прошлом могли рисовать только астронавтов, едущих на лошадях**.

Эту статью в целом расценили как провальную, и Маркус, в то время пессимист по искусственному интеллекту, высмеял ее.

Теперь DALL·E 3 легко с этим справится благодаря поддержке ChatGPT.

Большой прогресс DALL·E 3 на этот раз является не только результатом собственных усилий OpenAI, но и результатом совместного сотрудничества ** и Microsoft**.

Хотя это четко не указано, по крайней мере три инженера и исследователя Microsoft участвуют в исследовательской части списка вкладов, а большинство участников в части оптимизации вывода — из команды Microsoft DeepSpeed.

Возвращаясь к GPT-4, можно сказать, что он по-прежнему в основном разрабатывался внутри компании OpenAI, а затем ему был предоставлен открытый доступ для тестирования в Microsoft и других исследовательских институтах.

Это изменение модели сотрудничества** также представляет собой дальнейшее углубление отношений между двумя компаниями**.

В одной картине указано 50 объектов

Генеральный директор Microsoft Bing Михаил Парахин подтвердил, что несколько процентов счастливчиков уже прошли тест.

Поскольку количество мест действительно ограничено, пользователи сети, которым не терпится дождаться, выдвинули свои идеи в Интернете и попросили людей, у которых есть учетные записи, помочь протестировать их.

Пользователь сети, предложивший нарисовать 50 различных объектов, просто хотел проверить, сколько объектов DALL·E 3 может поместиться в одно изображение, аналогично "контекстному окну" большой языковой модели.

Натан Шипли, сторонний дизайнер, получивший предварительную версию исследования, взял на себя эту задачу.

Сначала он попросил ChatGPT случайным образом перечислить 50 ежедневных объектов, а затем напрямую попросил нарисовать эти объекты на картине. Полное слово подсказки — ChatGPT завершает его самостоятельно, а затем DALL·E 3 рисует его.

Затем Натан спросил: «Можете ли вы создать образ серфера, складывающего эти объекты в кучу во время интенсивного серфинга?»

ChatGPT добавил некоторые подробности в слово-подсказку:

Полинезийский серфер средних лет с загорелой кожей держит в руках 50 предметов во время активного серфинга, включая чашку чая, велосипед, зонтик... и выражение решимости и легкой паники, когда волны разбиваются о него. пытаясь сбалансировать эти объекты и свою доску для серфинга.

В результате я получил изображение, которое в основном соответствовало требованиям с одной попытки, за исключением того, что выражение лица персонажа больше походило на крайнюю панику, а не на легкую панику.

Позже Натан попросил более низкий ракурс. На этот раз ChatGPT изменил описание персонажа в слове-подсказке на «пожилая испанка».

Зрители сочли это очень удивительным, но также указали, почему размер карандаша был непропорционален другим предметам.

Некоторые люди предполагают, что модель знает только то, как выглядит объект, но не его относительный размер, тем более что в рекламных изображениях ручек часто используются снимки крупным планом.

Кроме того, Натан также спросил у ChatGPT, какими параметрами экрана пользователь может управлять.

ChatGPT ответил следующее:

  • описывать:

Вы можете предоставить подробное описание желаемого изображения. Чем конкретнее и детальнее вы будете, тем ближе полученное изображение будет к вашим пожеланиям.

  • Стиль и среда:

Вы можете указать стиль или способ изображения, например «Живопись», «Фото», «Иллюстрация», «Мультфильм», «Акварель», «3D-рендеринг» и т. д.

  • Разрешение:

По умолчанию изображения генерируются с разрешением 1729x1024. Но если в вашем описании предполагается портрет в полный рост или что-то более подходящее для высоких соотношений сторон, изображение будет сгенерировано с разрешением 1024x1792. При необходимости вы также можете запросить квадратное разрешение (1024x1024).

  • Количество фотографий

: Если вы не укажете ни одного, я обычно создаю четыре разных изображения на основе вашего описания. Однако вы можете запросить определенное количество (до четырех).

  • Исправлять

: Если вас не устраивают первоначальные результаты, вы можете оставить отзыв и запросить изменения. Хотя я не могу напрямую изменять существующие изображения, я могу использовать ваши отзывы для создания новых изображений, которые лучше соответствуют вашему видению.

  • Случайное зерно

: Если вы хотите изменить предыдущее изображение, я могу использовать начальное значение в метаданных этого изображения для создания новой версии. Это обеспечивает определенную согласованность между исходным и измененным изображениями.

  • Пожалуйста, обрати внимание,

Применяются некоторые ограничения. Например, изображения общественных деятелей и стили художников за последние 100 лет не могут быть созданы напрямую.

Основное внимание уделяется спине:

**Однако я могу предложить альтернативы или использовать прилагательные, чтобы передать суть определенного стиля, не цитируя его напрямую. **

Загадка космонавта, ездящего на лошадях, решена

Среди внутренних сотрудников OpenAI Уилл ДеПью наиболее активно раскрывает результаты исследования DALL·E 3.

Он сказал, что в тесте на верховую езду космонавта оно не было на 100% успешным.

Вы можете сделать это правильно за две или три попытки, потому что GPT-4 работает вместе с вами, чтобы уточнить слова-подсказки, пока вы не сделаете все правильно.

Приложив некоторые усилия, вы сможете получить практически все, что захотите.

Некоторые пользователи сети пытались использовать MidJourney для получения тех же результатов, но можно только сказать, что это не совсем невозможно, но требует больших усилий.

Почти невозможно, требует большого количества подсказок и его трудно воспроизвести.

Если вы опытный пользователь MidJourney, вы можете попробовать проверить, работает ли это.

В конкурсе «8 жирафов, пьющих воду», предложенном пользователями сети, DALL·E 3 еще раз продемонстрировал свою слабость: его трудно точно посчитать.

Посчитайте, сколько жирафов на картинке.

Более ошибочные попытки также привели к появлению двухголового жирафа.

Заставить ИИ правильно считать на этот раз не решает, но, по крайней мере, решает проблему понимания пространственных отношений.

В предложенном пользователями сети задании «Четыре зебры, бегущие по лугу, гонящийся сзади лев и орел наверху, на картинке нет других животных», пространственные отношения в основном верны, но есть еще одно лишнее. зебра.

Для сравнения, и DALL·E 2, и Stable Diffusion хуже понимают пространственные отношения.

Адам Голдберг, отвечающий за корпоративную версию ChatGPT в OpenAI, также опубликовал множество высококачественных результатов, но не поделился подсказками.

Джерри Творек, ответственный за написание кодов искусственного интеллекта и вызов инструментов, создал множество абстрактных концептуальных картин, таких как "Деление механических клеток".

и ** «Деревья компьютерных программ по всей галактике»**.

Microsoft OpenAI сотрудничает

На этот раз в DALL·E 3 произошли огромные улучшения. Помимо интеграции ChatGPT, как именно выполняется часть генерации изображений?

К сожалению, учитывая тенденцию к тому, что OpenAI становится все ближе и ближе, вполне вероятно, что он не будет публиковать статьи, как предыдущие два поколения.Мы можем только сделать несколько догадок из списка вкладов.

В статье DALL·E 2 пять авторов.

Что касается DALL·E 3, независимо от команды по продукту, безопасности, связям с общественностью и юристам, только в исследовательской части участвовало 18 человек.

Среди них Ян Сун, выпускник Цинхуа, который предложил модели согласованности.

Модель согласованности работает быстрее, чем самая популярная модель диффузии, и может генерировать 64 изображения размером 256*256 за 3,5 секунды.

Однако исследовательский вклад Сун Яна на этот раз незначителен. Неизвестно, использовал ли DALL·E 3 модель согласованности. Более вероятно, что он позаимствовал свой метод в улучшенной модели диффузии.

Кроме того, помимо автора DALL·E 2 и Оуяна Лонга из команды ChatGPT, как минимум трое исследователей представляют Microsoft.

Доктор Цзяньфэн Ван окончил Китайский университет науки и технологий и работает главным научным сотрудником в Microsoft.

Доктор Лицзюань Ван окончил Университет Цинхуа и работает директором по исследованиям в Microsoft.

Они оба участвовали в исследовании NUWA-Ininity, системы генерации изображений на бесконечном холсте.

Линдси Ли (Линдси Ли) — выпускница Пекинского технологического института. Она получила две степени магистра в Университете Пердью и Калифорнийском университете в Сан-Диего. Она является старшим научным сотрудником Microsoft и опубликовала множество ведущих статей на конференциях в области мультимодальность.

Помимо исследований, в оптимизации вывода DALL·E 3 активно участвует команда Microsoft DeepSpeed.

Deepspeed — это библиотека оптимизации глубокого обучения с открытым исходным кодом, которая снижает потребление вычислительной мощности и использование памяти, а также обучает и выводит крупномасштабные распределенные модели за счет лучшего параллелизма на существующем оборудовании.

Многие из них выразили удовольствие от участия в этой работе и были в восторге от выхода DALL·E 3.

Наконец, среди особых вкладов можно отметить генерального директора Microsoft Bing Михаила Парахина и главного вице-президента Azure Cloud Мишу Биленко.

Microsoft также подтвердила в своих предыдущих выпусках, что Bing будет напрямую интегрировать DALL·E 3.

Согласно действующим правилам, DALL·E 2 на Bing бесплатен. Будет выпущено 99 токенов ускорения. Без жетонов очередь будет занимать больше времени.

Хотя DALL·E 3 будет стоить 20 долларов США в месяц на ChatGPT Plus в октябре.

Но поскольку GPT-4 предоставляется бесплатно на Bing, вы также можете рассчитывать на волну **бесплатной игры DALL·E 3 в будущем~

Справочные ссылки:

[1]

[2]

[3]

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить