В течение долгого времени Midjourney прочно сидела на троне диаграммы AIGC Vincent, и до появления этой компании ей было мало угроз.
23 августа стартап Ideogram AI, генеративный искусственный интеллект, официально объявил: «Мы разрабатываем самые передовые инструменты искусственного интеллекта, чтобы сделать творческое выражение проще, веселее и эффективнее».
Основные члены команды также являются основными членами команды Google Brain Imagen, и считается, что Ideogram AI также пытается продвигать Imagen:
Мохаммад Норузи (генеральный директор), Джонатан Хо (соучредитель), Уильям Чан и Читван Сахария — все они являются основными авторами модели искусственного интеллекта Google Imagen для преобразования текста в изображение, а соответствующие статьи вошли в шорт-лист премии NeurIPS 2022 «Выдающаяся статья».
Imagen использует языковую модель Transformer для преобразования входного текста в последовательность встроенных векторов. Затем серия из трех моделей диффузии (модель диффузии) преобразует эти встроенные векторы в изображения размером 1024x1024 пикселей.
Поскольку Imagen концептуально прост и легок в обучении, а также может давать удивительно мощные эффекты, он не только меняет понимание моделей диффузии, но и открывает новую парадигму графов Винсента за пределами DALL-E 2.
Позже, после того как Meta анонсировала свою модель искусственного интеллекта текстового видео Make-A-Video, Google выпустила видеомодель Imagen Video (смотрите, названия похожи), которая основана на модели каскадной диффузии видео для генерации видео высокой четкости.
Imagen Video унаследовал функцию точного изображения текста от предыдущей системы изображений Imagen для генерации текста и на основе этого может генерировать различные креативные анимации только путем простого описания.
Действующий состав команды указан на официальном сайте.
«Наша команда основателей руководила преобразующими проектами искусственного интеллекта в Google Brain, Калифорнийском университете в Беркли, Университете Карнеги-Меллон и Университете Торонто», — говорится на официальном сайте.
Мохаммад Норузи проработал в Google Brain 7 лет, прежде чем открыть собственный бизнес.Последний уровень в Google был старшим научным сотрудником, специализирующимся на генеративных моделях. Ideogram AI имеет самый широкий спектр основополагающих работ в области искусственного интеллекта, включая Imagen, Imagen Video, WaveGrad для синтеза речи, нейронный машинный перевод, изучение визуальных представлений, контрастное исследование и так далее. Совместные члены команды также являются наиболее важными.
Соучредитель Джонатан Хо, аспирант Калифорнийского университета в Беркли, проделал так много работы над моделью распространения, что его уход рассматривается инсайдерами отрасли как крупная потеря для Google.
В апреле 2022 года Google предложила модели распространения видео (Video Diffusion Models) и впервые сообщила о результатах модели диффузии, генерирующей видео из текста (с хорошими результатами). Мохаммад Норузи и Джонатан Хо — основные авторы статьи.
Джонатан Хо также является одним из основоположников модели диффузии и предложил модель диффузии с шумоподавлением. Вероятностные модели диффузии с шумоподавлением. (Интересно, что один из соавторов Питер Аббил также является инвестором этой компании).
Читван Сахария возглавлял работу над моделями диффузии изображений в Google. Помимо работы над моделями диффузии, Виллиан Чан работал над нейронным распознаванием речи в Google, а вместе с Мохаммедом Норузи работал над WaveGrad для синтеза речи.
Возможно, из-за опасений Google по поводу безопасности и этики, компании необходимо принять дополнительные правила, чтобы решить, стоит ли открывать исходный код Imagen и Imagen Video. Эти магистральные компании решили покинуть бизнес.
«Мы расширяем границы искусственного интеллекта, уделяя особое внимание творчеству и высоким стандартам доверия и безопасности», — заключило официальное заявление.
Скриншот официального сайта
В тот же день компания также объявила, что привлекла в общей сложности $16,5 млн начального финансирования под руководством a16z и Index Ventures. В этом раунде инвестиций также приняли участие несколько известных отраслевых компаний.
Например, Райан Даль, отец Node.js, Ракель Уртасун, главный научный сотрудник Uber, Джефф Дин, Андрей Карпати, Питер Аббил, Том Престон-Вернер, основатель GitHub.
В то же время компания также объявила о выпуске общедоступной бета-версии v0.1. Мы также просто испытали это. В настоящее время предоставляется только услуга создания изображений из текста.Операция очень проста: просто введите свои требования, а затем выберите стиль и пропорции созданного изображения.
Умение разбираться в системе по-прежнему хорошее, особенно понимание текста, который нужно сгенерировать на картинке. Недостатком является то, что скорость ответа относительно низкая, китайские инструкции невозможно понять, а пространственное понимание композиции необходимо улучшить.
операционная страница
"Поньо ныряет в молоко с дельфином", ИИ похоже не смог понять слово "молоко" в команде, но выдал картинку по своему разумению (море).
Мы изменили ввод: «Илон Маск возьмётся за руки с Лизой (блэкпинк) в машине Тесла (кинотеатр)».
В принципе правильно. Просто у них обоих проблемы с лицами.Это Лиза?
Позвольте Маску путешествовать и попробовать стиль Ханфу, и в результате получится действительно герой.
「 Илон Маск с длинными волосами в традиционной китайской одежде, фото」
«Дженни из Блэкпинк, но очень толстая, фото» Да, после набора веса она выглядит так.
Давайте посмотрим на результаты некоторых пользователей Twitter. Даже если в сгенерированной картинке необходимо сгенерировать какой-то текст, система может это сделать.
例如,「Очаровательный миньон с табличкой с надписью 『Все кончено, MidJourney』, написано точно, 3D рендеринг, типографика」
Друзья в Твиттере сказали, что, хотя система не всегда могла писать правильно, процент успеха был хорошим.
「Милый пушистый Пикачу стоит на большой пушистой луне, держа в руках неоновую вывеску с надписью 『на луну』, 3D рендер」
Среди недавно вышедших фильмов большее внимание привлекли «Барби» и «Оппенгеймер». Пользователи Твиттера попросили создать дизайн постера к фильму о «Барбенхаймере (Барбенхаймере)», стильно отсылая к Барби и ядерному оружию. Эффект заключается в следующем.
Хотя информация о фильме, скорее всего, появится после крайнего срока обучения, система по-прежнему хорошо обрабатывает это составное слово. Кроме того, старая проблема: лица персонажей недостаточно хороши.
「Слово 『сюрреалистический』 написано и отображено в сюрреалистической картине и типографике в стиле Дали」
「 тающий снеговик в вулкане 」
「Слово 『NVIDIA』изображено в типографике микросхем графического процессора, киберпанк, научная фантастика」
「красивая девушка на картине Дали, с подписью『Стэнфорд』, типографика」
Стильный тряпичный кот в солнцезащитных очках Gucci с табличкой с надписью «Счастливое воскресенье», черный фон, плакат.
В сцене 4 объекта. Красная пирамида расположена на вершине синего куба. Желтая сфера расположена под синим кубом. Слева от пирамиды расположен мраморный шестиугольник, на вершине которого находится синий куб.
Похоже, что нынешнее понимание композиции и пространства в системе отсутствует.
Демонстрация работ на других страницах.
Съедобная ссылка:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
2 Лайков
Награда
2
1
Поделиться
комментарий
0/400
GateUser-bcf7bb63
· 2023-12-19 01:44
Как это зарегистрировать, я увидел, что токенов нет, нужно ли регистрироваться, чтобы получить баллы?
В Midjourney появился сильнейший противник, собрались гиганты финансирования начального раунда, а бета-версия позволила Маску пройти с одним «ключом»
**Источник:**Сила машины
23 августа стартап Ideogram AI, генеративный искусственный интеллект, официально объявил: «Мы разрабатываем самые передовые инструменты искусственного интеллекта, чтобы сделать творческое выражение проще, веселее и эффективнее».
Основные члены команды также являются основными членами команды Google Brain Imagen, и считается, что Ideogram AI также пытается продвигать Imagen:
Мохаммад Норузи (генеральный директор), Джонатан Хо (соучредитель), Уильям Чан и Читван Сахария — все они являются основными авторами модели искусственного интеллекта Google Imagen для преобразования текста в изображение, а соответствующие статьи вошли в шорт-лист премии NeurIPS 2022 «Выдающаяся статья».
Imagen использует языковую модель Transformer для преобразования входного текста в последовательность встроенных векторов. Затем серия из трех моделей диффузии (модель диффузии) преобразует эти встроенные векторы в изображения размером 1024x1024 пикселей.
Поскольку Imagen концептуально прост и легок в обучении, а также может давать удивительно мощные эффекты, он не только меняет понимание моделей диффузии, но и открывает новую парадигму графов Винсента за пределами DALL-E 2.
Позже, после того как Meta анонсировала свою модель искусственного интеллекта текстового видео Make-A-Video, Google выпустила видеомодель Imagen Video (смотрите, названия похожи), которая основана на модели каскадной диффузии видео для генерации видео высокой четкости.
Imagen Video унаследовал функцию точного изображения текста от предыдущей системы изображений Imagen для генерации текста и на основе этого может генерировать различные креативные анимации только путем простого описания.
«Наша команда основателей руководила преобразующими проектами искусственного интеллекта в Google Brain, Калифорнийском университете в Беркли, Университете Карнеги-Меллон и Университете Торонто», — говорится на официальном сайте.
Мохаммад Норузи проработал в Google Brain 7 лет, прежде чем открыть собственный бизнес.Последний уровень в Google был старшим научным сотрудником, специализирующимся на генеративных моделях. Ideogram AI имеет самый широкий спектр основополагающих работ в области искусственного интеллекта, включая Imagen, Imagen Video, WaveGrad для синтеза речи, нейронный машинный перевод, изучение визуальных представлений, контрастное исследование и так далее. Совместные члены команды также являются наиболее важными.
Соучредитель Джонатан Хо, аспирант Калифорнийского университета в Беркли, проделал так много работы над моделью распространения, что его уход рассматривается инсайдерами отрасли как крупная потеря для Google.
Джонатан Хо также является одним из основоположников модели диффузии и предложил модель диффузии с шумоподавлением. Вероятностные модели диффузии с шумоподавлением. (Интересно, что один из соавторов Питер Аббил также является инвестором этой компании).
Читван Сахария возглавлял работу над моделями диффузии изображений в Google. Помимо работы над моделями диффузии, Виллиан Чан работал над нейронным распознаванием речи в Google, а вместе с Мохаммедом Норузи работал над WaveGrad для синтеза речи.
Возможно, из-за опасений Google по поводу безопасности и этики, компании необходимо принять дополнительные правила, чтобы решить, стоит ли открывать исходный код Imagen и Imagen Video. Эти магистральные компании решили покинуть бизнес.
«Мы расширяем границы искусственного интеллекта, уделяя особое внимание творчеству и высоким стандартам доверия и безопасности», — заключило официальное заявление.
В тот же день компания также объявила, что привлекла в общей сложности $16,5 млн начального финансирования под руководством a16z и Index Ventures. В этом раунде инвестиций также приняли участие несколько известных отраслевых компаний.
Например, Райан Даль, отец Node.js, Ракель Уртасун, главный научный сотрудник Uber, Джефф Дин, Андрей Карпати, Питер Аббил, Том Престон-Вернер, основатель GitHub.
В то же время компания также объявила о выпуске общедоступной бета-версии v0.1. Мы также просто испытали это. В настоящее время предоставляется только услуга создания изображений из текста.Операция очень проста: просто введите свои требования, а затем выберите стиль и пропорции созданного изображения.
Умение разбираться в системе по-прежнему хорошее, особенно понимание текста, который нужно сгенерировать на картинке. Недостатком является то, что скорость ответа относительно низкая, китайские инструкции невозможно понять, а пространственное понимание композиции необходимо улучшить.
"Поньо ныряет в молоко с дельфином", ИИ похоже не смог понять слово "молоко" в команде, но выдал картинку по своему разумению (море).
В принципе правильно. Просто у них обоих проблемы с лицами.Это Лиза?
「 Илон Маск с длинными волосами в традиционной китайской одежде, фото」
例如,「Очаровательный миньон с табличкой с надписью 『Все кончено, MidJourney』, написано точно, 3D рендеринг, типографика」
Друзья в Твиттере сказали, что, хотя система не всегда могла писать правильно, процент успеха был хорошим.
Хотя информация о фильме, скорее всего, появится после крайнего срока обучения, система по-прежнему хорошо обрабатывает это составное слово. Кроме того, старая проблема: лица персонажей недостаточно хороши.
Похоже, что нынешнее понимание композиции и пространства в системе отсутствует.