Довгий час Midjourney міцно сиділа на троні діаграми AIGC Вінсента, мало загроз до появи цієї компанії.
23 серпня Ideogram AI, стартап генеративного штучного інтелекту, офіційно оголосив: «Ми розробляємо найдосконаліші інструменти штучного інтелекту, щоб зробити творче самовираження простішим, веселішим та ефективнішим», — йдеться на офіційному сайті.
Основні члени команди також є основними членами команди Google Brain Imagen, а також вважається, що Ideogram AI намагається просувати Imagen:
Мохаммад Норузі (генеральний директор), Джонатан Хо (співзасновник), Вільям Чан і Чітван Сахарія є основними авторами моделі штучного інтелекту Imagen для перетворення тексту в зображення Google, а пов’язані статті увійшли до короткого списку видатної статті NeurIPS 2022.
Imagen використовує модель мови Transformer для перетворення вхідного тексту на послідовність вбудованих векторів. Потім серія з трьох моделей дифузії (модель дифузії) перетворить ці вбудовані вектори в зображення 1024x1024 пікселів.
Оскільки він концептуально простий і легкий у навчанні, а також може створювати напрочуд потужні ефекти, Imagen не лише змінює загальне розуміння дифузійних моделей, але й відкриває нову парадигму графів Вінсента за межами DALL-E 2.
Пізніше, після того як Meta анонсувала свою модель штучного інтелекту текстового відео Make-A-Video, Google випустила відеомодель Imagen Video (дивіться, назви схожі), яка базується на моделі каскадного розповсюдження відео для створення відео високої чіткості.
Imagen Video успадковує функцію точного відображення тексту від попередньої системи Imagen Text Generation Image, на основі чого може генерувати різні творчі анімації лише за простим описом.
Поточні члени команди показані на офіційному сайті.
«Наша команда засновників керувала трансформаційними проектами штучного інтелекту в Google Brain, Каліфорнійському університеті в Берклі, Університеті Карнегі-Меллона та Університеті Торонто», — йдеться на офіційному веб-сайті.
Мохаммад Норузі працював у Google Brain протягом 7 років, перш ніж розпочати власний бізнес. Останній рівень у Google був старшим науковим співробітником, який зосереджувався на генеративних моделях. Ideogram AI має найширший діапазон фундаментальних робіт у штучному інтелекті, включаючи Imagen, Imagen Video, WaveGrad для синтезу мовлення, Neural Machine Translation, для навчання візуальних представленьконтрастного дослідження тощо. Члени спільної команди також найбільше.
Співзасновник Джонатан Хо, який отримав ступінь доктора філософії в Каліфорнійському університеті в Берклі, зробив стільки роботи над моделлю дифузії, що інсайдери галузі вважають його відхід великою втратою для Google.
У квітні 2022 року Google запропонував моделі розповсюдження відео (Video Diffusion Models) і вперше повідомив про результати моделі розповсюдження, яка генерує відео з тексту (з хорошими результатами). Мохаммад Норузі та Джонатан Хо є основними авторами статті.
Джонатан Хо також є одним із основоположників дифузійної моделі та запропонував модель шумопоглинання дифузії Denoising Diffusion Probabilistic Models. (Цікаво, що один із співавторів Пітер Аббіл також є інвестором цієї компанії).
Чітван Сахарія очолював роботу над моделями дифузії зображення в зображенні в Google. Окрім роботи над дифузійними моделями, Вілліан Чан працював над нейронним розпізнаванням мови під час роботи в Google, працюючи з Мохаммадом Норузі над WaveGrad для синтезу мови.
Можливо, через занепокоєння Google щодо безпеки та етики, їй потрібно прийняти додаткові правила, щоб вибрати, чи використовувати Imagen і Imagen Video з відкритим кодом. Ці магістралі вирішили залишити бізнес.
«Ми розширюємо межі штучного інтелекту, зосереджуючись на креативності та високих стандартах довіри та безпеки», — йдеться в офіційному повідомленні.
Скріншот офіційного сайту
Того ж дня компанія також оголосила, що залучила 16,5 мільйонів доларів початкового фінансування під керівництвом a16z та Index Ventures. У цьому раунді інвестицій також взяли участь кілька відомих галузевих магістралей.
Наприклад, Райан Дал, батько Node.js, Ракель Уртасун, головний науковий співробітник Uber, Джефф Дін, Андрей Карпаті, Пітер Аббіл, Том Престон-Вернер, засновник GitHub.
У той же час компанія також оголосила про початок публічної бета-версії v0.1. Ми теж це просто пережили. На даний момент надається лише послуга генерації зображень із тексту, операція дуже проста, просто введіть свої вимоги, а потім виберіть стиль і пропорції створеного зображення.
Здатність розуміти систему все ще хороша, особливо розуміння тексту, який потрібно згенерувати на зображенні. Недоліком є те, що швидкість відповіді відносно повільна, китайські інструкції неможливо зрозуміти, і просторове розуміння композиції потрібно покращити.
сторінка операції
«Поньо пірнає в молоці з дорфіном», ШІ, здається, не може зрозуміти «молоко» в команді, але надав зображення відповідно до свого розуміння (море).
Ми змінили введення: «Ілон Маск візьметься за руки з Лізою (чорно-рожевий) у автомобілі Tesla (кінематографічний)»
В основному правильно. Просто в них обох проблема з обличчями Це Ліза?
Дозвольте Маску подорожувати та спробувати стиль Hanfu, і результат справді стане героєм.
「Ілон Маск з довгим волоссям у традиційному китайському одязі, фото」
«Чорнорожова Дженні, але дуже товста, фото.» Так, вона виглядає так після набору ваги.
Давайте подивимося на результати деяких користувачів Twitter. Навіть якщо на створеному зображенні потрібно згенерувати текст, система зможе це зробити.
例如,「Чарівний міньйон тримає табличку з написом “Все закінчилось, MidJourney』, написано точно, 3D візуалізація, типографіка」
Друзі з Twitter сказали, що, хоча система не завжди могла правильно писати, рівень успіху був добрим.
「Симпатичний пухнастий пікачу стоїть на великому пухнастому місяці та тримає неонову вивіску з написом 『до місяця』, 3D візуалізація」
Серед нещодавно випущених фільмів більшу увагу привернули як «Барбі», так і «Оппенгеймер». Користувачі Twitter попросили створити дизайн плаката фільму про «Барбенгеймера (Barbenheimer)», в стилістиці якого згадується Барбі та ядерна зброя. Ефект наступний.
Хоча інформація про фільм, швидше за все, з’явиться після кінцевого терміну навчання, система все ще добре обробляє це складне слово. Крім того, стара проблема, обличчя персонажів недостатньо гарні.
「Слово 『сюрреалістичний』 написане та передане в сюрреалістичному стилі Далі, типографіці」
「танучий сніговик у вулкані」
「Слово 『NVIDIA 』відображено в типографіці мікросхем GPU, кіперпанк, наукова фантастика」
「гарна дівчина на картині Далі, з написом 『Стенфорд』, типографіка」
Стильний кіт регдолл в сонцезахисних окулярах Gucci тримає табличку з написом "З неділею", чорний фон, плакат
У сцені є 4 об'єкти. Червона піраміда розташована на вершині синього куба. Під синім кубом розташована жовта сфера. Ліворуч від піраміди розташований мармуровий шестикутник із синім кубом на вершині.
Здається, нинішнє розуміння системи композиції та простору не на місці.
Демонстрація роботи на інших сторінках.
Їстівне посилання:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
2 лайків
Нагородити
2
1
Поділіться
Прокоментувати
0/400
GateUser-bcf7bb63
· 2023-12-19 01:44
Як це зареєструвати, я побачив, що токенів немає, чи потрібно реєструватися, щоб отримувати бали?
Midjourney відкрило найсильнішого суперника, гіганти початкового раунду фінансування зібралися, а бета-версія дозволила Маску пройти одним «ключем»
**Джерело: **The Power of the Machine
23 серпня Ideogram AI, стартап генеративного штучного інтелекту, офіційно оголосив: «Ми розробляємо найдосконаліші інструменти штучного інтелекту, щоб зробити творче самовираження простішим, веселішим та ефективнішим», — йдеться на офіційному сайті.
Основні члени команди також є основними членами команди Google Brain Imagen, а також вважається, що Ideogram AI намагається просувати Imagen:
Мохаммад Норузі (генеральний директор), Джонатан Хо (співзасновник), Вільям Чан і Чітван Сахарія є основними авторами моделі штучного інтелекту Imagen для перетворення тексту в зображення Google, а пов’язані статті увійшли до короткого списку видатної статті NeurIPS 2022.
Imagen використовує модель мови Transformer для перетворення вхідного тексту на послідовність вбудованих векторів. Потім серія з трьох моделей дифузії (модель дифузії) перетворить ці вбудовані вектори в зображення 1024x1024 пікселів.
Оскільки він концептуально простий і легкий у навчанні, а також може створювати напрочуд потужні ефекти, Imagen не лише змінює загальне розуміння дифузійних моделей, але й відкриває нову парадигму графів Вінсента за межами DALL-E 2.
Пізніше, після того як Meta анонсувала свою модель штучного інтелекту текстового відео Make-A-Video, Google випустила відеомодель Imagen Video (дивіться, назви схожі), яка базується на моделі каскадного розповсюдження відео для створення відео високої чіткості.
Imagen Video успадковує функцію точного відображення тексту від попередньої системи Imagen Text Generation Image, на основі чого може генерувати різні творчі анімації лише за простим описом.
«Наша команда засновників керувала трансформаційними проектами штучного інтелекту в Google Brain, Каліфорнійському університеті в Берклі, Університеті Карнегі-Меллона та Університеті Торонто», — йдеться на офіційному веб-сайті.
Мохаммад Норузі працював у Google Brain протягом 7 років, перш ніж розпочати власний бізнес. Останній рівень у Google був старшим науковим співробітником, який зосереджувався на генеративних моделях. Ideogram AI має найширший діапазон фундаментальних робіт у штучному інтелекті, включаючи Imagen, Imagen Video, WaveGrad для синтезу мовлення, Neural Machine Translation, для навчання візуальних представленьконтрастного дослідження тощо. Члени спільної команди також найбільше.
Співзасновник Джонатан Хо, який отримав ступінь доктора філософії в Каліфорнійському університеті в Берклі, зробив стільки роботи над моделлю дифузії, що інсайдери галузі вважають його відхід великою втратою для Google.
Джонатан Хо також є одним із основоположників дифузійної моделі та запропонував модель шумопоглинання дифузії Denoising Diffusion Probabilistic Models. (Цікаво, що один із співавторів Пітер Аббіл також є інвестором цієї компанії).
Чітван Сахарія очолював роботу над моделями дифузії зображення в зображенні в Google. Окрім роботи над дифузійними моделями, Вілліан Чан працював над нейронним розпізнаванням мови під час роботи в Google, працюючи з Мохаммадом Норузі над WaveGrad для синтезу мови.
Можливо, через занепокоєння Google щодо безпеки та етики, їй потрібно прийняти додаткові правила, щоб вибрати, чи використовувати Imagen і Imagen Video з відкритим кодом. Ці магістралі вирішили залишити бізнес.
«Ми розширюємо межі штучного інтелекту, зосереджуючись на креативності та високих стандартах довіри та безпеки», — йдеться в офіційному повідомленні.
Того ж дня компанія також оголосила, що залучила 16,5 мільйонів доларів початкового фінансування під керівництвом a16z та Index Ventures. У цьому раунді інвестицій також взяли участь кілька відомих галузевих магістралей.
Наприклад, Райан Дал, батько Node.js, Ракель Уртасун, головний науковий співробітник Uber, Джефф Дін, Андрей Карпаті, Пітер Аббіл, Том Престон-Вернер, засновник GitHub.
У той же час компанія також оголосила про початок публічної бета-версії v0.1. Ми теж це просто пережили. На даний момент надається лише послуга генерації зображень із тексту, операція дуже проста, просто введіть свої вимоги, а потім виберіть стиль і пропорції створеного зображення.
Здатність розуміти систему все ще хороша, особливо розуміння тексту, який потрібно згенерувати на зображенні. Недоліком є те, що швидкість відповіді відносно повільна, китайські інструкції неможливо зрозуміти, і просторове розуміння композиції потрібно покращити.
«Поньо пірнає в молоці з дорфіном», ШІ, здається, не може зрозуміти «молоко» в команді, але надав зображення відповідно до свого розуміння (море).
В основному правильно. Просто в них обох проблема з обличчями Це Ліза?
「Ілон Маск з довгим волоссям у традиційному китайському одязі, фото」
例如,「Чарівний міньйон тримає табличку з написом “Все закінчилось, MidJourney』, написано точно, 3D візуалізація, типографіка」
Друзі з Twitter сказали, що, хоча система не завжди могла правильно писати, рівень успіху був добрим.
Хоча інформація про фільм, швидше за все, з’явиться після кінцевого терміну навчання, система все ще добре обробляє це складне слово. Крім того, стара проблема, обличчя персонажів недостатньо гарні.
Здається, нинішнє розуміння системи композиції та простору не на місці.