По мере того, как всплеск разработки и применения больших моделей ИИ продолжает расти, репортер заметил, что игроки на треке начали переключать свое внимание с больших языковых моделей на большие визуальные модели. Недавно Adobe, Meta, 360, Meitu и многие другие ведущие интернет-компании в стране и за рубежом опубликовали результаты крупномасштабных моделей, добавив огня на и без того чрезвычайно горячий рынок ИИ.
«Применение искусственного интеллекта в области видео привлекает все больше и больше внимания.» Ву Гаобинь, вице-председатель Комитета по интеграции индустриализации и индустриализации Китайской ассоциации индустрии связи, сказал репортеру «China Times», что выпуск этих больших Масштабные модели искусственного интеллекта принесли предприятиям новую конкуренцию. Конкуренция между предприятиями будет способствовать технологическим инновациям и прогрессу, а также позволит производить более качественные продукты и услуги. Конкуренция также будет способствовать сотрудничеству и совместному использованию ресурсов между предприятиями, чтобы лучше удовлетворять рыночный спрос.
Визуальная крупномасштабная модель в стране и за рубежом "Fairy Fighting"
После появления ряд за рядом крупномасштабных языковых моделей и мультимодальных крупномасштабных моделей «визуальные крупномасштабные модели» стали еще одним полем битвы для военных стратегов. Несколько дней назад Meitu выпустила MiracleVision, крупномасштабную модель видения ИИ, а также семь продуктов, включая инструмент для создания видения ИИ WHEE, инструмент для создания цифрового человека с ИИ DreamAvatar и помощник Meitu AI RoboNeo.
Согласно сообщениям, MiracleVision обладает сильным визуальным выражением и творческим потенциалом и может обратить вспять технологическую эволюцию от сцен визуального создания, таких как живопись, дизайн, кино и телевидение, фотография, игры, 3D и анимация. В отличие от других крупных моделей, представленных на рынке, он особенно хорош в создании таких направлений, как азиатская портретная фотография, национальный стиль и мода, коммерческий дизайн.
Ву Синьхун, основатель, председатель и главный исполнительный директор Meitu, сказал в интервью корреспонденту China Times: "Основное преимущество большой модели Meitu заключается в понимании эстетики. База конечных пользователей C достаточно велика. Стоимость привлечение клиентов низкое. В настоящее время у Meitu 243 миллиона активных пользователей в месяц и 7,19 миллиона VIP-членов по всему миру, которые могут быстро убедиться в успехе продукта. В отличие от других производителей, большая модель Meitu ориентирована на эстетику (рисунок экрана, качественный дизайн и т. .), в дальнейшем, если придется конкурировать, будем «катиться» на эстетике».
По совпадению, несколько дней назад компания 360 также официально выпустила «Большую модель 360 Smart Brain-Vision». Чжоу Хунъи, основатель 360, сказал, что большая языковая модель является основой для построения большой визуальной модели, а ядром расширения мультимодальных возможностей являются возможности познания, рассуждения и принятия решений большой языковой модели. В то же время большая визуальная модель также является важным компонентом возможностей «360 Smart Brain», который в будущем сможет понимать изображения, видео и звуки.
Зарубежные компании также начали выкладывать визуальные модели. Несколько дней назад гигант социальных сетей Meta объявил, что откроет для исследователей некоторые компоненты «гуманоидной» модели искусственного интеллекта под названием I-JEPA, которая может анализировать и дополнять незавершенные изображения более точно, чем существующие модели, при этом вместо того, чтобы просто создавать выводы на основе соседних пикселей, как это делают другие модели генеративного ИИ.
Ян Ликунь, главный научный сотрудник Meta, занимающийся искусственным интеллектом, однажды публично указал на то, что нынешней авторегрессионной модели GPT не хватает способности к планированию и рассуждению, и от будущей системы GPT можно отказаться, и дал то, что он считает правильным ответом — мир модель. I-JEPA считается первой моделью искусственного интеллекта, основанной на ключевых компонентах его видения, которая анализирует и дополняет незавершенные изображения более точно, чем существующие модели.
Кроме того, Meta также выпустила модель искусственного интеллекта для генерации речи «Voicebox», которая поддерживает генерацию речи из текста, может сопоставлять стили звука на основе сэмплов продолжительностью всего две секунды и преобразовывать текстовые сэмплы в другой язык. образцы голоса и возможность читать переведенный текст оригинальным голосом говорящего, в настоящее время поддерживаются шесть языков: английский, французский, немецкий, испанский, польский и португальский.
Еще в апреле этого года Adobe интегрировала свою функцию Adobe Firefly (продукты, подобные ChatGPT) в матрицу аудио- и видеопродуктов, таких как Premiere Pro, After Effects, Audition, Remix и т. д., предоставляя пользователям возможность создания контента одним щелчком мыши. , редактирование, подбор цветов, изменение музыки и другие функции.
От «Языковой модели» к «Модели видения»
«Отчет об исследовании крупномасштабных моделей искусственного интеллекта в Китае» показывает, что с точки зрения количества и распределения крупномасштабных моделей, выпущенных во всем мире, Китай и Соединенные Штаты лидируют с большим отрывом, на их долю приходится более 80% мировых моделей. общий. В то же время все больше и больше команд разработчиков в Европе, России, Израиле и т. д. также инвестируют в разработку крупных моделей. Но стоит отметить, что крупных моделей в области компьютерного зрения и других областях в моей стране пока мало.
Расследуя причину, Ян Шуичэн, главный научный сотрудник Пекинского научно-исследовательского института Чжиюань, сказал корреспонденту «China Times»: «Основная причина, по которой разработка визуальных моделей немного отстает, заключается в том, что большие визуальные модели потребляют гораздо больше вычислительной мощности. чем текст, поэтому мы также с нетерпением ждем более быстрой разработки чипов, и даже возможно интегрировать другие чипы, не относящиеся к графическим процессорам, вместе.Модели, которые вы видите сейчас, в основном относятся к килокаловому уровню, но некоторые люди могут использовать уровень 10000 карт. сделать их в следующем году».
По словам Хуанга Тецзюня, президента Пекинского научно-исследовательского института искусственного интеллекта Чжиюань, поле зрения находится в центре внимания следующей волны в области больших моделей. Он указал, что методы мышления и основные пути, лежащие в основе большой визуальной модели и большой языковой модели, одинаковы, но входными данными стали изображения и видео, а обученная модель обладает определенной общей способностью к визуальному языку. AIGC (Искусственный интеллект, автоматически генерируемый контент) может генерировать изображения и произведения искусства. «Существует также более простая способность, то есть после того, как вы увидели мир, вы должны сначала научиться различать мир (все)».
В отношении разработки крупномасштабных визуальных моделей многие организации также выразили оптимистичный настрой. Согласно исследовательскому отчету, опубликованному CICC Research, ожидается, что в будущем компьютерное зрение достигнет более высокой степени автоматизации, высокой точности и низкого энергопотребления, что еще больше обогатит экологию контента Метавселенной и снизит входные барьеры. Развитие компьютерного зрения привело к быстрому развитию технологий 3D-реконструкции и захвата движения и постепенному накоплению технического прогресса в соответствующих областях. Ожидается, что в будущем компьютерное зрение приведет к более высокой степени автоматизации, более высокой точности и более низкому энергопотреблению.Он будет постепенно улучшать визуальные эффекты на мобильном терминале, применяться в большом количестве перерабатывающих отраслей и постепенно перемещаться к соединению физического мира и цифрового мира Долгосрочное видение мира.
CITIC Securities Research также заявила, что в области дизайна большие модели приводят цифровое проектирование к интеллектуальному проектированию, а соответствующее программное обеспечение для промышленного дизайна в сочетании с GPT и другими технологиями может применяться к таким сценариям, как планирование дизайна, оптимизация компоновки, подключаемые помощники, и эскизы, В соответствии с общей тенденцией обновления ИИ начинается новый виток революции производительности.
Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Изменился ли тренд ИИ «Война сотен моделей»? 360, Meitu последовательно запустила ходы, а наглядная масштабная модель устроила «сказочный бой».
Первоисточник: China Times
По мере того, как всплеск разработки и применения больших моделей ИИ продолжает расти, репортер заметил, что игроки на треке начали переключать свое внимание с больших языковых моделей на большие визуальные модели. Недавно Adobe, Meta, 360, Meitu и многие другие ведущие интернет-компании в стране и за рубежом опубликовали результаты крупномасштабных моделей, добавив огня на и без того чрезвычайно горячий рынок ИИ.
«Применение искусственного интеллекта в области видео привлекает все больше и больше внимания.» Ву Гаобинь, вице-председатель Комитета по интеграции индустриализации и индустриализации Китайской ассоциации индустрии связи, сказал репортеру «China Times», что выпуск этих больших Масштабные модели искусственного интеллекта принесли предприятиям новую конкуренцию. Конкуренция между предприятиями будет способствовать технологическим инновациям и прогрессу, а также позволит производить более качественные продукты и услуги. Конкуренция также будет способствовать сотрудничеству и совместному использованию ресурсов между предприятиями, чтобы лучше удовлетворять рыночный спрос.
Визуальная крупномасштабная модель в стране и за рубежом "Fairy Fighting"
После появления ряд за рядом крупномасштабных языковых моделей и мультимодальных крупномасштабных моделей «визуальные крупномасштабные модели» стали еще одним полем битвы для военных стратегов. Несколько дней назад Meitu выпустила MiracleVision, крупномасштабную модель видения ИИ, а также семь продуктов, включая инструмент для создания видения ИИ WHEE, инструмент для создания цифрового человека с ИИ DreamAvatar и помощник Meitu AI RoboNeo.
Согласно сообщениям, MiracleVision обладает сильным визуальным выражением и творческим потенциалом и может обратить вспять технологическую эволюцию от сцен визуального создания, таких как живопись, дизайн, кино и телевидение, фотография, игры, 3D и анимация. В отличие от других крупных моделей, представленных на рынке, он особенно хорош в создании таких направлений, как азиатская портретная фотография, национальный стиль и мода, коммерческий дизайн.
Ву Синьхун, основатель, председатель и главный исполнительный директор Meitu, сказал в интервью корреспонденту China Times: "Основное преимущество большой модели Meitu заключается в понимании эстетики. База конечных пользователей C достаточно велика. Стоимость привлечение клиентов низкое. В настоящее время у Meitu 243 миллиона активных пользователей в месяц и 7,19 миллиона VIP-членов по всему миру, которые могут быстро убедиться в успехе продукта. В отличие от других производителей, большая модель Meitu ориентирована на эстетику (рисунок экрана, качественный дизайн и т. .), в дальнейшем, если придется конкурировать, будем «катиться» на эстетике».
По совпадению, несколько дней назад компания 360 также официально выпустила «Большую модель 360 Smart Brain-Vision». Чжоу Хунъи, основатель 360, сказал, что большая языковая модель является основой для построения большой визуальной модели, а ядром расширения мультимодальных возможностей являются возможности познания, рассуждения и принятия решений большой языковой модели. В то же время большая визуальная модель также является важным компонентом возможностей «360 Smart Brain», который в будущем сможет понимать изображения, видео и звуки.
Зарубежные компании также начали выкладывать визуальные модели. Несколько дней назад гигант социальных сетей Meta объявил, что откроет для исследователей некоторые компоненты «гуманоидной» модели искусственного интеллекта под названием I-JEPA, которая может анализировать и дополнять незавершенные изображения более точно, чем существующие модели, при этом вместо того, чтобы просто создавать выводы на основе соседних пикселей, как это делают другие модели генеративного ИИ.
Ян Ликунь, главный научный сотрудник Meta, занимающийся искусственным интеллектом, однажды публично указал на то, что нынешней авторегрессионной модели GPT не хватает способности к планированию и рассуждению, и от будущей системы GPT можно отказаться, и дал то, что он считает правильным ответом — мир модель. I-JEPA считается первой моделью искусственного интеллекта, основанной на ключевых компонентах его видения, которая анализирует и дополняет незавершенные изображения более точно, чем существующие модели.
Кроме того, Meta также выпустила модель искусственного интеллекта для генерации речи «Voicebox», которая поддерживает генерацию речи из текста, может сопоставлять стили звука на основе сэмплов продолжительностью всего две секунды и преобразовывать текстовые сэмплы в другой язык. образцы голоса и возможность читать переведенный текст оригинальным голосом говорящего, в настоящее время поддерживаются шесть языков: английский, французский, немецкий, испанский, польский и португальский.
Еще в апреле этого года Adobe интегрировала свою функцию Adobe Firefly (продукты, подобные ChatGPT) в матрицу аудио- и видеопродуктов, таких как Premiere Pro, After Effects, Audition, Remix и т. д., предоставляя пользователям возможность создания контента одним щелчком мыши. , редактирование, подбор цветов, изменение музыки и другие функции.
От «Языковой модели» к «Модели видения»
«Отчет об исследовании крупномасштабных моделей искусственного интеллекта в Китае» показывает, что с точки зрения количества и распределения крупномасштабных моделей, выпущенных во всем мире, Китай и Соединенные Штаты лидируют с большим отрывом, на их долю приходится более 80% мировых моделей. общий. В то же время все больше и больше команд разработчиков в Европе, России, Израиле и т. д. также инвестируют в разработку крупных моделей. Но стоит отметить, что крупных моделей в области компьютерного зрения и других областях в моей стране пока мало.
Расследуя причину, Ян Шуичэн, главный научный сотрудник Пекинского научно-исследовательского института Чжиюань, сказал корреспонденту «China Times»: «Основная причина, по которой разработка визуальных моделей немного отстает, заключается в том, что большие визуальные модели потребляют гораздо больше вычислительной мощности. чем текст, поэтому мы также с нетерпением ждем более быстрой разработки чипов, и даже возможно интегрировать другие чипы, не относящиеся к графическим процессорам, вместе.Модели, которые вы видите сейчас, в основном относятся к килокаловому уровню, но некоторые люди могут использовать уровень 10000 карт. сделать их в следующем году».
По словам Хуанга Тецзюня, президента Пекинского научно-исследовательского института искусственного интеллекта Чжиюань, поле зрения находится в центре внимания следующей волны в области больших моделей. Он указал, что методы мышления и основные пути, лежащие в основе большой визуальной модели и большой языковой модели, одинаковы, но входными данными стали изображения и видео, а обученная модель обладает определенной общей способностью к визуальному языку. AIGC (Искусственный интеллект, автоматически генерируемый контент) может генерировать изображения и произведения искусства. «Существует также более простая способность, то есть после того, как вы увидели мир, вы должны сначала научиться различать мир (все)».
В отношении разработки крупномасштабных визуальных моделей многие организации также выразили оптимистичный настрой. Согласно исследовательскому отчету, опубликованному CICC Research, ожидается, что в будущем компьютерное зрение достигнет более высокой степени автоматизации, высокой точности и низкого энергопотребления, что еще больше обогатит экологию контента Метавселенной и снизит входные барьеры. Развитие компьютерного зрения привело к быстрому развитию технологий 3D-реконструкции и захвата движения и постепенному накоплению технического прогресса в соответствующих областях. Ожидается, что в будущем компьютерное зрение приведет к более высокой степени автоматизации, более высокой точности и более низкому энергопотреблению.Он будет постепенно улучшать визуальные эффекты на мобильном терминале, применяться в большом количестве перерабатывающих отраслей и постепенно перемещаться к соединению физического мира и цифрового мира Долгосрочное видение мира.
CITIC Securities Research также заявила, что в области дизайна большие модели приводят цифровое проектирование к интеллектуальному проектированию, а соответствующее программное обеспечение для промышленного дизайна в сочетании с GPT и другими технологиями может применяться к таким сценариям, как планирование дизайна, оптимизация компоновки, подключаемые помощники, и эскизы, В соответствии с общей тенденцией обновления ИИ начинается новый виток революции производительности.