DALL·E 3 буде запущено для тестування! Проблема катання астронавтів на конях вирішена, на одній картині зазначено 50 об'єктів, а Microsoft як ніколи глибоко залучена в дослідження

2023-09-24 06:19:46

Джерело: Qubits

Microsoft Bing спочатку відкрив обмежений тест DALL·E 3. Перевірте, чи є ви одним із європейських імператорів?

△ з WindowsLatest

Не має значення, якщо ви не отримали кваліфікацію. У поєднанні з попередніми переглядами сторонніх досліджень і внутрішніми випробуваннями співробітників OpenAI один за одним з’являлися різні тестові приклади, що гарантовано приносить задоволення.

Найбільш перебільшена – «на вказаному малюнку зображено 50 різних об’єктів», а їх намальовано сотні.

Окрім простого укладання плитки, ці об’єкти можна комбінувати більш творчо.

Для контрфактичної концепції астронавта, який їздить верхи, різні моделі OpenAI і Google у минулому могли лише малювати астронавтів, які їздять верхи**.

Стаття загалом вважалася невдалою, і її висміяв Маркус, песиміст ШІ на той час.

Тепер DALL·E 3 може легко впоратися з цим завдяки підтримці ChatGPT.

Великий прогрес DALL·E 3 цього разу є результатом не лише власних зусиль OpenAI, а й результатом спільної співпраці між ** і Microsoft**.

Хоча це чітко не зазначено, щонайменше три інженери та дослідники Microsoft беруть участь у дослідницькій частині списку внесків, і більшість членів у частині оптимізації висновків належать до команди Microsoft DeepSpeed .

Озираючись на GPT-4, можна сказати, що він все ще в основному розроблявся всередині OpenAI, а потім отримав відкритий доступ для тестування в Microsoft та інших дослідницьких установах.

Ця зміна моделі співпраці** також означає подальше поглиблення відносин між двома компаніями**.

Одна картина визначає 50 предметів

Генеральний директор Microsoft Bing Михайло Парахін підтвердив, що кілька відсотків щасливих користувачів уже пройшли кваліфікацію для тестування.

Оскільки кількість місць справді обмежена, користувачі мережі, які не можуть дочекатися, виклали свої ідеї в Інтернеті та попросили людей із обліковими записами допомогти їх перевірити.

Користувач мережі, який запропонував намалювати 50 різних об’єктів, просто хотів перевірити, скільки об’єктів DALL·E 3 може вмістити в одне зображення, подібне до «контекстного вікна» великої мовної моделі.

Натан Шиплі, сторонній дизайнер, який отримав попередню версію дослідження, прийняв цей виклик.

Спочатку він попросив ChatGPT випадковим чином перерахувати 50 щоденних об’єктів, а потім прямо попросив намалювати ці об’єкти на картині. Повне слово підказки таке: ChatGPT завершує це самостійно, а потім DALL·E 3 малює його.

Далі Натан запитав: «Чи можете ви створити образ серфера, який складає ці об’єкти на купу під час важкого серфінгу?»

ChatGPT додав деякі деталі в слово підказки:

Полінезійський серфінгіст середнього віку з поцілованою сонцем шкірою тримає 50 предметів, включно з чашкою чаю, велосипедом, парасолькою... і виразом рішучості та легкої паніки, коли хвилі розбиваються навколо нього. , намагаючись збалансувати ці предмети та свою дошку для серфінгу.

У результаті я отримав зображення, яке в основному відповідало вимогам за одну спробу, за винятком того, що вираз обличчя персонажа більше нагадував надзвичайну паніку, а не легку паніку.

Пізніше Нейтан попросив переглянути нижню перспективу. Цього разу ChatGPT змінив опис персонажа в слові підказки на «літня іспанка».

Глядачі вважали це дуже дивним, але також вказували, чому розмір олівця був непропорційним іншим предметам.

Деякі люди припускають, що модель знає лише те, як виглядає об’єкт, але не знає його відносний розмір, особливо тому, що на рекламних фотографіях ручок часто використовуються знімки крупним планом.

Крім того, Натан також запитав у ChatGPT, якими параметрами екрана може керувати користувач.

ChatGPT відповів так:

опишіть:

Ви можете надати детальний опис потрібного зображення. Чим конкретніше і деталізовано ви будете, тим ближче отримане зображення буде до ваших побажань.

Стиль і середовище:

Ви можете вказати стиль або засіб зображення, наприклад «Живопис», «Фото», «Ілюстрація», «Мультфільм», «Акварель», «3D-візуалізація» тощо.

Роздільна здатність:

За замовчуванням зображення генеруються з роздільною здатністю 1729x1024. Але якщо ваш опис пропонує портрет у повний зріст або щось більш придатне для високих пропорцій, зображення буде згенеровано з роздільною здатністю 1024x1792. Ви також можете запросити квадратну роздільну здатність (1024x1024), якщо потрібно.

Кількість картинок

: Якщо ви не вкажете жодного, я зазвичай створюю чотири різні зображення на основі вашого опису. Однак ви можете запросити певну кількість (до чотирьох).

Переглянути

: якщо ви не задоволені початковими результатами, ви можете надати відгук і подати запит на зміни. Хоча я не можу напряму змінювати існуючі зображення, я можу використати ваш відгук, щоб створити нові зображення, які краще відповідають вашому баченню.

Випадкове насіння

: Якщо ви хочете змінити попереднє зображення, я можу використати початкове значення в метаданих цього зображення, щоб створити нову версію. Це забезпечує певну узгодженість між вихідним і зміненим зображеннями.

Будь ласка, запиши,

Застосовуються деякі обмеження. Наприклад, образи громадських діячів і стилі художників за останні 100 років не можуть бути створені безпосередньо.

Акцент на спині:

**Однак я можу запропонувати альтернативи або використовувати прикметники, щоб передати суть певного стилю, не цитуючи його прямо. **

Розгадана головоломка про астронавта з верховою їздою

Серед внутрішніх співробітників OpenAI Will DePue найбільш активно розкриває результати випробування DALL·E 3.

У випробуванні астронавта верхової їзди він сказав, що це не було 100% успішним.

Ви можете зробити це правильно за дві або три спроби, тому що GPT-4 працює з вами, щоб уточнити підказки, поки ви не зрозумієте це правильно.

Доклавши певних зусиль, ви можете отримати майже все, що забажаєте.

Деякі користувачі мережі намагалися використовувати MidJourney, щоб отримати такі ж результати, але можна лише сказати, що це не зовсім неможливо, але вимагає багато зусиль.

Майже неможливо, вимагає великої кількості підказок і його важко відтворити.

Якщо ви досвідчений користувач MidJourney, ви також можете спробувати перевірити, чи це працює.

У виклику «8 жирафів, які п’ють воду», запропонованому користувачами мережі, DALL·E 3 знову продемонстрував слабкість, а саме те, що його важко точно порахувати.

△ Порахуйте, скільки жирафів на картинці

Більше помилкових спроб також призвели до появи двоголового жирафа.

Змусити штучний інтелект правильно рахувати цього разу не вирішує, але принаймні вирішує проблему розуміння просторових відносин.

У завданні «Чотири зебри біжать по галявині, лев женеться позаду та орел угорі, на зображенні немає інших тварин», запропонованому користувачами мережі, просторовий зв’язок в основному правильний, але є додатковий зебра.

Для порівняння, і DALL·E 2, і Stable Diffusion гірше розуміють просторові зв’язки.

Адам Голдберг, який відповідає за корпоративну версію ChatGPT в OpenAI, також опублікував багато високоякісних результатів, але не поділився словами підказки.

Джеррі Турек, який відповідає за написання кодів штучного інтелекту та інструментів виклику, створив багато абстрактних концептуальних картин, таких як «Поділ механічних комірок».

і "Дерева комп'ютерних програм по всій галактиці".

Microsoft OpenAI співпрацює

Цього разу DALL·E 3 значно покращився. Окрім інтеграції ChatGPT, як саме виконується частина створення зображень?

На жаль, враховуючи тенденцію до наближення OpenAI, цілком імовірно, що він не буде публікувати документи, як попередні два покоління.Ми можемо лише зробити кілька припущень зі списку внесків.

У статті DALL·E 2 є п’ять авторів.

Що стосується DALL·E 3, незалежно від продукту, безпеки, зв’язку з громадськістю та юридичних команд, 18 осіб брали участь лише в дослідницькій частині.

Серед них Ян Сонг, випускник Цінхуа, який запропонував моделі узгодженості.

Модель узгодженості є швидшою за найпопулярнішу модель дифузії та може створити 64 256*256 зображень за 3,5 секунди.

Однак внесок Сонг Янга в дослідження цього разу незначний. Невідомо, чи DALL·E 3 використовував модель узгодженості. Більш імовірно, що він запозичив свій метод у вдосконаленій моделі дифузії.

Крім того, окрім автора DALL·E 2 і Оуянга Лонга з команди ChatGPT, принаймні три дослідники з Microsoft.

Доктор Jianfeng Wang закінчив Університет науки і технологій Китаю та працює головним науковим співробітником Microsoft.

Доктор Ліцзюань Ван закінчив Університет Цінхуа та працює керівником досліджень у Microsoft.

Вони брали участь у дослідженні NUWA-Ininity, нескінченного створення зображень на полотні.

Ліндсі Лі (Lindsey Li) є випускницею Пекінського технологічного інституту. Вона отримала два ступені магістра в Університеті Пердью та Каліфорнійському університеті в Сан-Дієго. Вона є старшим науковим співробітником Microsoft і опублікувала багато найкращих конференцій у галузі мультимодальність.

Крім досліджень, в оптимізації логічних висновків DALL·E 3 глибоко бере участь команда Microsoft DeepSpeed.

Deepspeed — це бібліотека для оптимізації глибокого навчання з відкритим вихідним кодом, яка зменшує споживання обчислювальної енергії та використання пам’яті, а також навчає та створює широкомасштабні розподілені моделі завдяки кращому паралелізму на наявному обладнанні.

Багато з них висловили своє задоволення брати участь у цій роботі та були в захваті від випуску DALL·E 3.

Нарешті, серед особливих внесків генеральний директор Microsoft Bing Михайло Парахін і головний віце-президент Azure Cloud Міша Біленко.

Microsoft також підтвердила у своїх попередніх випусках, що Bing безпосередньо інтегрує DALL·E 3.

Відповідно до чинних правил, DALL·E 2 на Bing є безкоштовним. Буде видано 99 жетонів прискорення. Без жетонів просто стояти в черзі потрібно довше.

Хоча DALL·E 3 коштуватиме 20 доларів США на місяць на ChatGPT Plus у жовтні.

Але оскільки GPT-4 надається безкоштовно в Bing, ви також можете сподіватися на хвилю безкоштовної гри DALL·E 3 у майбутньому~

Довідкові посилання:

[1]

[2]

[3]

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
1/3
1Simple Earn Annual Rate 24.4%
35k Популярність
2Gate Launchpad List IKA
41k Популярність
3ETH Trading Volume Surges
40k Популярність
4Gate ETH 10th Anniversary Celebration
22k Популярність
5Trump’s AI Strategy
18k Популярність

Закріпити

карта сайту