Остання промова генерального директора Midjourney Девіда Хольца: штучний інтелект є продовженням нас самих

2023-07-07 14:37:55

Джерело: Tencent Technology

7 липня генеральний директор Midjourney Девід Хольц виступив на Всесвітній конференції зі штучного інтелекту 2023 року, стверджуючи, що ШІ стане новим носієм і двигуном творчості та уяви. Завдяки штучному інтелекту ми маємо потенціал розширити необроблену уяву всього людського роду. Стосовно назви компанії Midjouney Хольц заявив, що вона походить від концепції середнього шляху в даоській книзі «Чжуан Чжоу».Він вважає, що китайська класична література принесла багато найкрасивіших і найглибших думок.

Наразі Midjouney розробляє версію 5.3 і забезпечить серію можливостей масштабування та панорамування для автоматичного генерування нових зображень, пов’язаних із різними кутами у версії 6, і може контролювати випадковість створених зображень, дозволяючи автору бути дивним. баланс між красою та дивовижними образами. У майбутньому Midjourney має на меті розробляти тривимірні генеровані зображення в реальному часі з динамічним налаштуванням.

Що стосується майбутнього технологій, він не впевнений, куди воно може піти. Але модель злиття (модель зображення/тексту для злиття) може бути більш імовірним напрямком розвитку. Він вважає, що потенціал технологічного прогресу ШІ не повністю реалізований, і він у десять разів сильніший, ніж зараз, і стократний прогрес неминучий.

Він вважає, що більша частина прогресу в технологіях на даний момент прийшла завдяки спробам зробити людей кращими, спробам розширити людські здібності. Тому AGI може бути непотрібним. Як розширення наших людських істот, ШІ є кращим вибором для розширення можливостей людей.

Стенограма виступу:

Привіт усім, я Девід Хольц, генеральний директор і засновник Midjourney. Я маю честь отримати запрошення від муніципального уряду Шанхая взяти участь у Всесвітній конференції зі штучного інтелекту та з нетерпінням чекаю приєднатися до сьогоднішньої події.

Однією з найважливіших технологій у світі є двигун. Двигун - це машина, яка використовується для генерації, передачі або посилення. Ми використовуємо двигуни для створення всіх видів транспортних засобів, таких як автомобілі, літаки та човни на різних заводах. А тепер настав час подумати про ШІ як про новий вид двигуна.

У MidJourney ми намагаємося використати цей механізм для створення нового типу транспортного засобу, який не є транспортним засобом, а транспортним засобом, який несе в собі наше мислення та уяву.

Ніби ви можете перевернути світ за допомогою футбольного м’яча, але все ще потрібні ноги, щоб бити його. Ми сподіваємося створити новий тип транспортного засобу, який можна використовувати для уявлення, а не просто створювати рух. Перш ніж ми зможемо творити, ми повинні спочатку уявити, ким ми можемо бути, куди ми можемо йти, що можливо. Я вважаю, що інструменти, які ми створюємо, більше ніж будь-що інше, зосереджені на посиленні первинної сили уяви. У нас є можливість розширити не будь-яку окрему людину, а уяву всього людського роду. Я багато разів відвідував Китай із Leap Motion (пристроєм для розпізнавання жестів), і перший офіс Leap Motion знаходиться в Шанхаї. Шанхай має особливе відчуття, яке мені дуже подобається, здається, це поєднання Сан-Франциско, Лос-Анджелеса, Нью-Йорка та деяких старих європейських міст. Він має силу давньої історії та культури, але також має відчуття нерафінованого майбутнього. Це дійсно круто, і це дві мої улюблені речі.

Насправді я затятий читач наукової фантастики, і найбожевільніші декорації, які я бачив, походять із китайської класики. Я вважаю, що стародавня китайська література містить найпрекрасніші та найглибші думки в історії людства. Назва MidJourney насправді походить від перекладу одного з моїх улюблених стародавніх даоських текстів, з Чжуан Чжоу. Наприклад, «Мрія метелика Чжуан Чжоу», «Цзи Фей Юй», «Паод Дін Цзе Ніу», «Дерево недостойного дерева», «Порожній човен», мені подобаються. Що мені подобається в назві MidJourney, так це те, що люди іноді схильні забути минуле і можуть відчувати себе розгубленими та невпевненими щодо майбутнього. Але більше я відчуваю, що ми фактично на півдорозі, ми походимо з багатого та прекрасного минулого, і нас чекає дике та неймовірне майбутнє.

Нещодавно ми випустили версію 5.2 Mid Journey і зараз працюємо над версією 5.3. Після цього я сподіваюся випустити велике оновлення, яке, сподіваюся, буде називатися версією 6. Остання функція, яку ми представили, стосується масштабування зображення, і, зменшуючи масштаб, ви можете створювати різні історії та середовища, які змінюються навколо центральної теми. Цього тижня ми випускаємо подібну функцію, яка дозволяє вам рухати камеру, а потім, коли ви рухаєте камеру вбік, ви можете продовжувати змінювати репліку, а потім розповідати історію, і ми випускаємо цю фантастичну систему керування, яка поєднує ці нові функції для кращого точного контролю над створенням зображень.

Ви також можете поєднати це з елементами керування стилем. «Керування стилем» трохи збиває з пантелику, але ідея полягає в тому, що ви хочете сказати штучному інтелекту, наскільки красивим ви хочете це створити, і скільки ризику ви приймаєте, щоб створити цю красу. Навіть якщо це нетрадиційно, безладно та дивно, іноді результати справді чудові.

Іноді потрібно бути авантюрним, і це дозволяє контролювати баланс між ризиком і випадковістю краси, або наскільки багато уваги приділяється загальній красі зображення. Ми також запровадили режим, який ми називаємо турбо. У режимі Turbo ми максимально використовуємо GPU, завдяки чому генерація зображень відбувається дуже швидко. Це робить генерацію в 4-5 разів швидше. У цьому режимі створюється враження, що ви використовуєте 64 або більше 100 GPU для створення зображень. Щоб досягти такої обчислювальної потужності, ваш комп’ютер має коштувати приблизно 500 000 доларів США. Це звучить якось божевільно, і ми працюємо над ще більш божевільними. Хоча більшість із них ще назріває, ми вважаємо, що з часом Midjourney буде розвиватися, щоб створювати не лише 2D-зображення, але й 3D-зображення, рухомі зображення, і ви навіть зможете взаємодіяти з самими пікселями. У майбутньому, можливо, ви зможете перекомпонувати та змінювати те, що малюєте, у реальному часі.

Просто потрібен такий масивний процесор штучного інтелекту, і тоді він зможе мріяти про різні світи, і мрії зможуть взаємодіяти з нашим розумом. І ми якось мріємо про це (AI), і це буде дуже круто. Послідовне відкриття моделі дифузії, моделі трансформатора та моделі кліпу фактично дозволило ШІ увійти в простір зображень. Приблизно 2 роки тому, до появи будь-якої служби штучного інтелекту зображень, усі наші дослідники спілкувалися в Сан-Франциско. Я пам’ятаю, як казав, що ці моделі, особливо модель Diffusion, точно принесуть щось зовсім інше. Існує також мережева технологія генеративної конфронтації, яка є базовою технологією, яку всі раніше використовували для створення зображень.

Просто пам’ятаю, як усі відразу незвичним чином кивнули, кажучи, що модель Diffusion справді інша. Це був дуже серйозний момент, і в мене було сильне відчуття, що я повинен взяти участь і створити більш людський інтерфейс користувача для цієї технології.

Але щодо майбутнього важко знати напевно, як розвиватимуться технології. Іноді ми говоримо про те, як зараз перетворити мовну модель на модель дифузії, тобто використовувати модель дифузії для створення тексту. Або модель зображення стане більше схожою на мовну модель. Як це досягається? Технічний термін для цього підходу — авторегресійний трансформатор, або штучний інтелект розвиватиметься до гібридної моделі. Але це справді важко сказати. Я думаю, що ми лише на початку цих змін, але я на 100% впевнений, що ще багато чого потрібно зробити. Десятикратне, стократне поліпшення, швидше за все, буде неминучим.

Цей прогрес полягає не лише в продуктивності, а й у користувацьких інтерфейсах і продуктах, які дозволяють нам краще використовувати ці технології. Як окремо, так і разом, можна створювати дійсно круті речі, які краще вирішують проблеми. Дуглас Енгельбарт був першою людиною, яка створила текстовий редактор. Спочатку комп’ютери програмувалися за допомогою перфокарт, або отворів у картках. Але Дуглас почав думати про те, що станеться, якщо ми програмуємо комп’ютери, що тоді звучало божевільно. Його ідея полягала в тому, що, програмуючи комп’ютери на комп’ютерах, ми могли б прискорити цей цикл, зробити те, що ми робимо, кращим, зробити комп’ютери потужнішими, посилити все. Цей задум нарешті здійснився. Незважаючи на те, що у нас є такі різні культури, як штучний інтелект, інтерфейс «людина-машина», культура інтелектуальних додатків, я вважаю, що більшість прогресу в технологіях наразі відбулася завдяки спробам зробити людей кращими, спробам розширити людські можливості.

Ми ще не бачили настання епохи штучного інтелекту, коли у нас буде незалежний штучний інтелект, який вирішуватиме проблеми. Але якщо ми занадто багато думатимемо про рух у цьому напрямку, ми можемо втратити багато можливостей, які існують у технології. Я думаю не лише про те, що може зробити штучний інтелект, але й про те, як створити плинність і сплутаність між різними речами. Тому що інструмент не повинен відчуватися як людина, він повинен відчуватися як продовження вас самих, вашого тіла, вашого розуму. Я думаю про те, як створити ці технології, де люди та штучний інтелект переплітаються, щоб не було відчуття, що ви співпрацюєте з художником, а більше ніби ви щось уявляєте, і це на екрані. Багато людей описують мою подорож так, ніби ці місця були частиною їхніх думок. Я думаю, що більшість штучного інтелекту має бути таким, він має бути продовженням нас самих.

Тож я хочу ще раз подякувати пану Ченю та всій аудиторії. WAIC — це дуже круто, і я сподіваюся, що в майбутньому зможу відвідати цю подію особисто. Я з нетерпінням чекаю подальшої співпраці з Китаєм, я пам’ятаю всі чудові особисті враження, які я отримав там, і я сподіваюся, що всі отримають задоволення від спілкування там.

Переглянути оригінал

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Нагородити
подобається
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
GT 2025 Q2 Burn Completed
2k Популярність
Michael Saylor Hints at Buying BTC
4k Популярність
BTC
30433k Популярність
4contentstar
10720k Популярність
5NADA
11186k Популярність
6BOME
11565k Популярність
7BTC
30433k Популярність
8SMILE
9062k Популярність
9比特币
13431k Популярність

Закріпити

карта сайту