Последнее выступление генерального директора Midjourney Дэвида Хольца: ИИ — это продолжение нас самих

Источник: Технология Тенсент.

7 июля генеральный директор Midjourney Дэвид Хольц выступил на Всемирной конференции по искусственному интеллекту 2023 года, утверждая, что ИИ станет новым носителем и двигателем творчества и воображения. Благодаря ИИ у нас есть возможность усилить необработанное воображение всего человечества. Что касается названия компании Midjouney, Хольц заявил, что оно происходит от концепции срединного пути в даосской книге «Чжуан Чжоу».Он считает, что китайская классическая литература навеяла многие из самых красивых и глубоких мыслей.

В настоящее время Midjouney разрабатывает версию 5.3 и предоставит ряд возможностей масштабирования и панорамирования для автоматического создания новых изображений, связанных с разными углами в версии 6, и может контролировать случайность сгенерированных изображений, позволяя автору быть странным. баланс между красотой и завораживающими образами. В будущем Midjourney планирует разрабатывать трехмерные динамически настраиваемые изображения в режиме реального времени.

Что касается будущего технологий, он не уверен, куда они могут пойти. Но модель слияния (модель изображения/текста для слияния) может быть более вероятным направлением развития. Он считает, что потенциал технологического прогресса ИИ не реализован до конца, и он в десять раз сильнее, чем сейчас, и стократный прогресс неизбежен.

Он считает, что большая часть технического прогресса до сих пор была связана с попыткой сделать людей лучше, с попыткой усилить человеческие возможности. Таким образом, ОИИ может и не понадобиться.Как расширение наших человеческих существ, ИИ — лучший выбор для расширения возможностей людей.

** Ниже приводится стенограмма выступления: **

Привет всем, меня зовут Дэвид Хольц, генеральный директор и основатель Midjourney. Для меня большая честь быть приглашенным муниципальным правительством Шанхая для участия во Всемирной конференции по искусственному интеллекту, и я с нетерпением жду возможности присоединиться к сегодняшнему мероприятию.

Одной из самых важных технологий в мире является двигатель. Двигатель — это машина, используемая для генерации, передачи или усиления. Мы используем двигатели для создания всех видов транспортных средств, таких как автомобили, самолеты и лодки, на различных заводах. А теперь пришло время подумать об ИИ как о новом типе двигателя.

В MidJourney мы пытаемся использовать этот движок для создания нового типа транспортного средства, которое является не транспортным средством, а транспортным средством, которое несет в себе наше мышление и воображение.

Как будто вы можете перевернуть мир с помощью футбольного мяча, но вам все еще нужны ноги, чтобы пнуть его. Мы надеемся создать новый тип транспортного средства, которое вы сможете использовать для воображения, а не просто для создания движения. Прежде чем мы сможем творить, мы должны сначала представить, кем мы можем быть, куда мы можем пойти, что возможно. Я думаю, что инструменты, которые мы делаем, больше, чем что-либо другое, сосредоточены на усилении изначальной силы воображения. У нас есть возможность усилить не только любого отдельного человека, но и воображение всей человеческой расы. Я много раз бывал в Китае с Leap Motion (устройство распознавания жестов), и первый офис Leap Motion находится в Шанхае. В Шанхае есть особая атмосфера, которая мне очень нравится, он кажется комбинацией Сан-Франциско, Лос-Анджелеса, Нью-Йорка и некоторых старых европейских городов. В нем есть сила древней истории и культуры, но также есть ощущение неочищенного будущего. Это действительно круто, и это две из моих любимых вещей.

На самом деле, я в основном заядлый читатель научной фантастики, и самые сумасшедшие настройки, которые я видел, взяты из китайской классики. Я думаю, что древняя китайская литература содержит самые прекрасные и глубокие мысли в истории человечества. Название MidJourney на самом деле происходит от перевода одного из моих любимых древних даосских текстов из Чжуан Чжоу. Например, "Сон бабочки Чжуан Чжоу", "Цзы Фей Юй", "Паод Дин Цзе Ню", "Лес недостойного дерева", "Пустая лодка", мне нравятся такие. Что мне нравится в названии MidJourney, так это то, что я думаю, что люди иногда склонны забывать прошлое и могут чувствовать себя потерянными и неуверенными в будущем. Но я больше чувствую, что мы на самом деле находимся на полпути, мы пришли из богатого и прекрасного прошлого, и у нас впереди дикое и невероятное будущее.

Недавно мы выпустили версию 5.2 Mid Journey и сейчас работаем над версией 5.3. После этого я надеюсь выпустить крупное обновление, которое, я надеюсь, будет называться версией 6. Последняя функция, которую мы представили, связана с масштабированием изображения, и по мере уменьшения масштаба вы можете создавать разные истории и среды, которые меняются вокруг центральной темы. На этой неделе мы выпускаем аналогичную функцию, которая позволяет вам перемещать камеру, а затем, когда вы перемещаете камеру в сторону, вы можете продолжать менять реплику, а затем рассказывать историю, и мы выпускаем эту причудливую систему управления, которая сочетает в себе эти новые функции для лучшего точного управления созданием изображений.

Вы также можете комбинировать это с элементами управления стилем. «Управление стилем» немного сбивает с толку, но идея в том, что вы хотите сообщить ИИ, насколько красивым вы хотите его создать, и насколько вы рискуете, чтобы создать эту красоту. Даже если это нетрадиционно, грязно и странно, иногда результаты действительно замечательны.

Иногда нужно быть авантюрным, и это позволяет контролировать баланс между риском и случайностью красоты, или сколько внимания уделяется общей общей красоте изображения. Мы также представили то, что мы называем турбо-режимом. Турбо-режим — это когда мы максимально используем GPU, что делает генерацию изображения очень быстрой. Это ускоряет генерацию в 4-5 раз. В этом режиме создается впечатление, что вы используете 64 или более 100 графических процессоров для создания изображений. Чтобы достичь такой вычислительной мощности, ваш компьютер должен стоить около 500 000 долларов США. Это звучит немного безумно, и мы работаем над еще более безумными. Хотя большинство из них все еще находятся в стадии разработки, мы думаем, что со временем Midjourney будет развиваться, чтобы создавать не только 2D-изображения, но и 3D-изображения, движущиеся изображения, и вы даже сможете взаимодействовать с самими пикселями. Возможно, в будущем вы сможете перекомпоновывать и изменять то, что вы рисуете, в режиме реального времени.

Просто нужен такой массивный ИИ-процессор, и тогда он сможет придумывать разные миры, а сны могут взаимодействовать с нашим разумом. И мы как бы мечтаем об этом (ИИ), и это будет действительно круто. Последовательное открытие модели Diffusion, модели Transformer и модели Clip фактически позволило ИИ войти в пространство изображения. Около 2 лет назад, до того, как появился какой-либо сервис искусственного интеллекта изображений, все наши исследователи общались в Сан-Франциско, я помню, как говорил, что эти модели, особенно модель Diffusion, определенно принесут что-то совершенно другое. Существует также сетевая технология генеративной конфронтации, которая является базовой технологией, которую все раньше использовали для генерации изображений.

Я только помню, как все тут же непривычно кивали, говоря, что модель Diffusion действительно другая. Это был очень серьезный момент, и у меня было сильное ощущение, что я должен вмешаться и привнести в эту технологию более человеческий пользовательский интерфейс.

Но что касается будущего, то трудно сказать наверняка, как будет развиваться технология. Иногда мы говорим о том, как теперь превратить языковую модель в модель Diffusion, то есть использовать модель Diffusion для создания текста. Или модель изображения станет больше похожа на языковую модель. Как это достигается? Технический термин для этого подхода — авторегрессионный трансформер, или ИИ будет развиваться в сторону гибридной модели. Но это действительно трудно сказать. Я думаю, что мы только в начале этих изменений, но я на 100% уверен, что нам предстоит еще многое сделать. Десятикратное, стократное улучшение, вероятно, неизбежно.

Этот прогресс заключается не только в производительности, но и в пользовательских интерфейсах и продуктах, которые позволяют нам лучше использовать эти технологии. Как индивидуально, так и коллективно можно делать действительно классные вещи, которые лучше решают проблемы. Дуглас Энгельбарт был первым, кто создал текстовый редактор. Первоначально компьютеры программировались перфокартами или отверстиями в картах. Но Дуглас начал думать о том, что произойдет, если мы будем программировать компьютеры, что в то время казалось безумием. Его идея заключалась в том, что, программируя компьютеры на компьютерах, мы могли бы ускорить этот цикл, улучшить то, что мы делаем, сделать компьютеры более мощными, усилить все. Эта идея наконец осуществилась. Несмотря на то, что у нас есть такие разные культуры, как ИИ, человеко-машинный интерфейс, культура интеллектуальных приложений, я думаю, что большая часть прогресса в технологиях до сих пор была связана с попыткой сделать людей лучше, с попыткой усилить человеческие возможности.

На самом деле мы еще не видели наступления эпохи ИИ, когда у нас будет независимый ИИ, решающий проблемы. Но если мы будем слишком много думать о том, чтобы двигаться в этом направлении, мы можем упустить многие возможности, которые существуют в технологии. Я думаю не только о том, что может сделать ИИ, но и о том, как создать плавность и запутанность между разными вещами. Потому что инструмент не должен ощущаться человеком, он должен ощущаться как продолжение вас самих, вашего тела, вашего разума. Я думаю о том, как создать эти технологии, в которых люди и ИИ переплетаются, чтобы не было ощущения, что вы сотрудничаете с художником, а больше похоже на то, что вы что-то воображаете, и это на экране. Многие люди описывают мое путешествие так, как будто эти пункты назначения были частью их мышления. Я думаю, именно таким должен быть большинство ИИ, он должен быть продолжением нас самих.

Поэтому я хочу еще раз поблагодарить г-на Чена и всю аудиторию. WAIC — это очень круто, и я надеюсь, что смогу лично присутствовать в будущем и стать частью этого мероприятия. Я с нетерпением жду дальнейшего сотрудничества с Китаем, я помню весь замечательный личный опыт, который у меня был там, и я надеюсь, что каждый получит удовольствие от общения и там.

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить