ШІ-малюнок Ali був перевірений всередині компанії, що викликало шок у деяких великих фабрик

2023-07-09 01:51:30

Автор: Ду Вей, Зенан

**Хто є головним героєм цьогорічної Всесвітньої конференції зі штучного інтелекту WAIC? ШІ-мегамодель цього заслуговує. **

Конференція тривала три дні, і різні компанії та установи послідовно представили понад 30 великих моделей.

На цьому святі великих макетів не обійтися без мовних моделей, звичайно ж, є і масштабні малярні моделі, які часто шокують людей. Ні, у сфері малювання штучного інтелекту на поле вийшов інший вітчизняний гравець.

Через три місяці після випуску великої мовної моделі Tongyi Qianwen також з’явилася велика модель для створення малюнків штучного інтелекту Алі, яка базується на власноруч розробленій комбінованій генеративній моделі Composer.

На конференції WAIC 7 липня компанія Alibaba Cloud Tongyi представила свого останнього представника «Tongyi Wanxiang».

WAIC *На тематичному форумі Alibaba Cloud «MaaS: нова парадигма для модельно-орієнтованої розробки штучного інтелекту» з’явився Тонгі Ваньсян. *

Ефект зображення генерації тексту такий, і швидкість генерації дуже висока.

Tongyi Wanxiang також може створити нове зображення в іншому заданому стилі для оригінального зображення.

Існує також гра в матрьошки, яка створює кілька схожих картинок для оригінальної картинки.

Алі сказав, що Tongyi Wanxiang має здатність генерувати графіки та графіки, які можуть допомогти людям у створенні зображення та значно зменшити поріг для дизайну зображення. У майбутньому це також можна буде застосувати до прикладних сценаріїв, таких як художній дизайн, ігри та культурна творчість.

Наразі модель відкрила направлене запрошення тестування.

До того, як ChatGPT став популярним, найпопулярнішою темою в області ШІ було малювання ШІ. Дифузійна модель зробила великий крок вперед у генеративному штучному інтелекті.За деякий час існувала велика кількість моделей штучного інтелекту, які вводять текст і генерують зображення різних стилів. Згодом з’явилося більше способів генерувати зображення із зображень і конвертувати зображення в певні стилі, що змусило людей захоплювати та дивуватися магії генеративного ШІ.

На великій сцені WAIC Алі запустив цей артефакт AI, який може генерувати графіки, а також графіки. Видно, що він дуже впевнений у своєму ефекті генерації.

Після отримання кваліфікації досвіду серце машини, звичайно, має спочатку випробувати її.

Tongyi Wanxiang Actual Measurement: різноманітний геймплей, один постріл – це шедевр

Чи внесла ця нова модель сімейства Tongyi зміни в сферу малювання ШІ? Ми говоримо з результатами.

Наразі Tongyi Wanxiang запустив три функції генерації текстових зображень, створення аналогічних зображень і передачі стилю зображення.

Почнемо зі стандартної генерації тексту в зображення. У Wenshengtu ви можете вибрати з різних стилів, таких як акварель, олійний живопис, китайський живопис, плоска ілюстрація, двовимірний малюнок, ескіз, 3D-мультфільм тощо. Після введення текстового опису та вибору стилю ШІ може автоматично створити креативне зображення. При цьому, для зручності використання, співвідношення вихідного зображення має три варіанти: 1:1, 16:9 і 9:16.

Почнемо з чогось менш складного. Ми вибираємо набір слів із «Тяньцзіньша · Осінні думки» Ма Чжіюаня, одного з чотирьох майстрів Юаньцюй, щоб описати «маленькі мости, течучу воду та будинки», і вибираємо «китайський живопис». за стиль.

В результаті Тонгі Ваньсян повністю показав нам картини, сповнені старовинного шарму, багаті деталями, і додав деякі елементи, яких не було в описі, наприклад, далекі гори та качок, що плавають у воді.

Ми могли б знову змінити два стилі, цього разу вибрати «ескіз» і «живопис маслом». Tongyi Wanxiang може вільно перемикатися між різними стилями, а створені ескізи та картини маслом однаково дивовижні. Без перебільшення можна сказати, що ці зображення такого рівня, що їх можна використовувати безпосередньо.

Нехай інший набір тексту описує «кіт у скафандрі, космос, подорожі, зоряне небо», цього разу для стилю виберіть «двовимірний» і «3D мультфільм». Ефект очевидний з першого погляду, особливо група в стилі 3D-мультфільму, коти такі милі.

Вгорі: 2D; Внизу: 3D-мультфільм

Тут мені раптом хочеться порівняти Tongyi Wanxiang зі знаменитою Stable Diffusion. Цей же текстовий опис перекладено на англійську «кіт у скафандрі, космос, подорожі, зоряне небо», а потім додано «стиль 3D картону», згенерована картинка виглядає наступним чином.

Несподівано цю хвилю виграв Tongyi Wanxiang.Коти, згенеровані Stable Diffusion, були або надто абстрактними, або надто реалістичними, і не демонстрували стилю 3D-мультфільму.

Оскільки простий текстовий опис не є складним для Tongyi Wanxiang, давайте ускладнимо його.

Цього разу є довший розділ «японська дівчина з прямим каштановим волоссям, світлою шкірою, у сукні з мереживом і бантом, з маленькою сумкою, посміхається», а стиль «двовимірний». Я хотів би запитати друзів, яким подобається другий вимір, чи збігаються ці згенеровані фотографії з японськими дівчатами у вашій уяві?

Інший набір описів у магічному стилі — «сюрреалізм, видатна текстура, роздільна здатність 4k, кіберпанк, бойовий корабель, велич, дим, металеві гіганти, лазерна зброя, октановий рендерер», а стиль — «живопис маслом». Дивлячись на фотографії нижче, ви відчуваєте напругу в битві за судний день.

Ми знову помістили той самий опис у стабільну дифузію. З точки зору багатства деталей, Stable Diffusion кращий, але його стиль зображення виглядає сірим і не дає людям сильного відчуття впливу кольору. І це більш реалістичний стиль, який трохи відрізняється від сюрреалізму.

Здається, принаймні на треку Wen Shengtu, Tongyi Wanxiang, здається, повністю зрозумілий. Люди не можуть не зітхати, здатність генеративного ШІ в області малювання розвивалася.

Далі ми поговоримо про функцію створення схожих зображень Tongyi Wanxiang Користувачам потрібно лише надати еталонне зображення, щоб отримати малюнки штучного інтелекту зі схожим вмістом і стилем. Тут слід зазначити, що розмір завантаженого зображення має бути менше 10 МБ, а формат підтримує стандартні JPG, JPEG, PNG, BMP тощо.

Давайте спершу додамо шматок Маска, який часто відвідує світ малювання штучним інтелектом, щоб побачити, як виглядає «Фенке» Маска очима Тонгі Ваньсяна. Порівняно з реальним тілом Маска, створене зображення старше, але посмішка така ж весела.

Інше пейзажне зображення, створений ефект дуже хороший. Струмок дзюрчить, а вода ще й усіяна опалим листям, що не поступається оригінальному малюнку.

На досвіді серце машини також виявило, що зображення, створені загальним значенням тексту Wanxiang, можуть безпосередньо створювати подібні зображення. Тут один із наведених вище тривимірних мультфільмів у стилі «кішки в скафандрах» вибрано як вихідне зображення. Щойно з’являться результати, згенеровані коти стають симпатичнішими, а фонові елементи більш багатими.

Нарешті подивіться на функцію міграції стилів. Вам потрібно лише завантажити оригінальне зображення, стиль якого ви хочете змінити, і схематичну діаграму цільового стилю, і ви зможете швидко обробити вихідне зображення у творче зображення цільового стилю. Так само, як і при створенні аналогічного зображення, розмір оригінального зображення та зображення стилю не має перевищувати 10 МБ, а формат є однаковим.

Спочатку ми вибираємо реалістичну оригінальну картину та картину в стилі імпресіонізму. В результаті реалістичні оригінальні картини повністю змінили свій стиль і стали картинами імпресіоністів.

Тоді спробуйте оригінальне зображення тривимірного мультфільму та зображення в стилі ескізу. З результатів видно, що перемикатися між двома стилями легко.

Нарешті, виберіть оригінальну картину в стилі китайського живопису і картину в стилі акварелі. Отримані результати однаково хороші.

Після деякого досвіду, будь то діаграма Wensheng або Tusheng, Tongyi Wanxiang подарувала нам багато сюрпризів щодо семантичної кореляції, цілісності зображення та багатства деталей. Особливо функція міграції стилів, перемикання між різними стилями настільки плавне, що створені зображення майже не мають відчуття зрощення та змазування, так само, як вони належать до цільового стилю.

Будучи новим членом сімейства великомасштабних моделей Tongyi від Alibaba Cloud, Алі сказав, що існуючі можливості Tongyi Wanxiang є лише невеликим тестом, і його можливості все ще розвиваються. У майбутньому відповідні можливості будуть поступово відкриватися галузевим клієнтам.

Саморозроблена модель Composer: 5 мільярдів параметрів, досягне вершини

Раніше великі моделі багатьох компаній створювали «мультимодальних» людей із можливостями малювання ШІ. На відміну від цього, скільки технічного змісту має універсальне значення Алі? Здається, що це не проста імітація, а має свою унікальну здатність.

Зрозуміло, що Tongyi Wanxiang базується на Composer, власно розробленій комбінованій генеративній моделі, розробленій Алі, яка має 5 мільярдів параметрів і навчена на мільярдах пар тексту та зображень. У той момент, коли індустрія розглядає, як покращити керованість моделей малювання AI, Composer подав свої інноваційні ідеї.

Через структуру «комбінованого покоління», засновану на моделі дифузії, Composer може розбирати та поєднувати елементи дизайну зображення, такі як відповідність кольорів, макет і стиль, досягаючи ефектів створення зображення з високою керованістю та великою свободою.

Результатом, як ми з вами бачимо, є те, що лише одна модель може підтримувати завдання створення багатокласових зображень. Чжоу Цзінжень, головний технічний директор Alibaba Cloud, брав участь у дослідженні Composer, і відповідні результати були включені в ICML 2023, головну міжнародну конференцію зі штучного інтелекту.

* Адреса паперу:

Адреса GitHub:

Так зване розбирання-комбінування спочатку розкладає зображення на різні елементи дизайну, такі як відповідність кольорів, ескізи, макет, стиль, семантика, матеріали тощо. Ці елементи дизайну потім рекомбінуються в нові зображення за допомогою моделей ШІ. Тут процес демонтажу та складання дозволяє вільно модифікувати та редагувати використовувані елементи, завдяки чому керованість значно покращується.

*Teardown - комбінований процес створення зображення. *

Мало того, Composer також може досягти ширшого творчого простору, «стиснувши» потенціал розбирання-комбінування. Якщо припустити, що є 100 картинок, кожна з яких поділена на 8 елементів, є 100 у 8-му ступені комбінацій усіх елементів. Це експоненціальне збільшення чисел відоме як явище комбінаторного вибуху, і, безсумнівно, створює величезний простір для генерації моделей ШІ. У той же час, люди-дизайнери також мають велику свободу та можливості налаштування під час створення персоналізованих зображень.

* Процес рекомбінації зображень. *

Це Tongyi Wanxiang базується на фреймворку Composer, який дозволяє нам випробувати дві функції створення графа подібності та передачі стилю. При використанні моделі розуміння зображення для розкладання зображення на різні елементи, при використанні дифузійної моделі для рекомбінації цих елементів у нове зображення, двосторонній підхід, створення зображення є само собою зрозумілим.

Серед них, для створення подібних зображень, збереження семантичного змісту зображення незмінним, лише зміна локальних деталей зображення може створити схожі зображення. У процесі можна краще підтримувати узгодженість основної частини вихідного зображення, а також можна покращити різноманітність і якість створеного зображення.

Для передачі стилю, з одного боку, зберігаються основна форма та структура вихідного зображення, а з іншого боку, стиль, колір, мазки пензля та інша персоналізована інформація цільового стилю зображення передається, щоб остаточно реалізувати стиль передача.

Використання великої моделі як ядра для створення єдиної бази для генеративного ШІ

Схоже, що несподіваний ефект Tongyi Wanxiang походить від власної основної технології Алі.

Насправді в Китаї Ali є однією з великих компаній, яка раніше почала досліджувати генеративний ШІ, і вона почала дослідження та розробку технології великомасштабних моделей у 2018 році. У 2019 році велика модель мовного навчання StructBERT, запропонована Dharma Institute, перевершила дослідження Google, Microsoft і Facebook і очолила на той час авторитетний список бенчмарків NLP GLUE.

У 2021 році Ali випустить першу мультимодальну великомасштабну модель M6 з десятками мільярдів параметрів у Китаї та великомасштабну мовну модель PLUG під назвою «китайська версія GPT-3». Серед них, після кількох ітерацій, M6 досяг масштабу параметрів у десять трильйонів рівнів, і M6 поєднується з бізнес-потребами Alipay і Taobao.

На минулорічному WAIC Алі випустив серію великомасштабних моделей Tongyi, яка вперше створила «базову модель» для галузі, досягнувши уніфікованого модального представлення, представлення завдань і структури моделі. Крім того, відповідні основні моделі є відкритими для розробників у всьому світі.

Що стосується реалізації генеративного штучного інтелекту, ми зіткнулися з кількома проблемами: висока вартість обчислювальної потужності, складний процес конструювання та обмежена універсальність. Tongyi створив першу в галузі уніфіковану базу штучного інтелекту та створив ієрархічну систему штучного інтелекту з узгодженими великими та малими моделями. Її мета — подолати виклик і дозволити штучному інтелекту перейти від сприйняття до пізнання.

Можна сказати, що Алі зробив передовий і провідний внесок у розробку китайських великомасштабних моделей з точки зору надвеликих моделей, мовних і мультимодальних можливостей, навчання з низьким вмістом вуглецю, послуг платформи та програм для посадки. .

До Tongyi Wanxiang Алі послідовно випустив «Tongyi Thousand Questions» для обробки природної мови та «Tongyi Listening», який спеціалізується на продуктивності аудіо та відео. На даний момент відкриті три основні напрямки ШІ. Перед обличчям величезного потенційного попиту на великі моделі та генеративний штучний інтелект Alibaba Cloud має унікальні переваги.

Окрім великомасштабного накопичення модельних технологій, потужні можливості хмарної інфраструктури мають вирішальне значення. З точки зору обчислювальної потужності Alibaba Cloud є постачальником послуг хмарних обчислень номер один в Азії та третім у світі, а його велика модель має надійну підтримку обчислювальної системи. Наприклад, Alibaba Cloud має найсильніший резерв інтелектуальної обчислювальної потужності в Китаї, а інтелектуальний обчислювальний кластер Alibaba Cloud може підтримувати максимальний масштаб GPU у 100 000 карт.

Крім того, Алі вперше запропонував концепцію «Модель як послуга» в Китаї та взяв на себе ініціативу у створенні найбільшої в Китаї спільноти сервісів моделей штучного інтелекту «Magic Build», наполягаючи на відкритому коді та відкритості, а також сприяючи інклюзивності ШІ. На тематичному форумі Alibaba Cloud «MaaS: нова парадигма для модельно-орієнтованої розробки штучного інтелекту» Чжоу Джінгрен поділився своїм баченням MaaS і способів подальшого розширення можливостей продуктів і партнерів.

*Джінгрен Чжоу, технічний директор Alibaba Cloud. *

Конкуренція AI 2.0 вийшла на новий етап. Після конкуренції 100 моделей неминуче будуть великі хвилі, і Alibaba Cloud готова.

Переглянути оригінал

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 лайків

Нагородити
1
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
GT 2025 Q2 Burn Completed
7k Популярність
Michael Saylor Hints at Buying BTC
7k Популярність
BTC
30453k Популярність
4contentstar
10720k Популярність
5NADA
11186k Популярність
6BOME
11565k Популярність
7BTC
30453k Популярність
8SMILE
9062k Популярність
9比特币
13438k Популярність

Закріпити

карта сайту