Компоновка мультимодальной крупномасштабной модели: команда Университета Цинхуа завершила ангельское финансирование почти на 100 миллионов юаней под руководством Ant

2023-06-20 06:42:16

Автор: Бумага

Репортер Шао Вэнь

Shengshu Technology была создана в марте 2023 г. Основные члены в основном из Школы искусственного интеллекта Университета Цинхуа.Это одна из первых команд в Китае, развернувших мультимодальные общие крупномасштабные модели. Этот раунд финансирования возглавила Ant Group, за ней последовали Baidu Ventures и Zhuoyuan Capital Текущая оценка составляет 100 миллионов долларов США.

Наметились новые тенденции в развитии отечественных мультимодальных масштабных моделей. 19 июня новая команда под руководством Чжу Цзюня, профессора компьютерных наук в Университете Цинхуа и вице-президента Института искусственного интеллекта, завершила ангельский раунд финансирования почти на 100 миллионов юаней.

Pengpai Technology (я узнал, что эта мультимодальная крупномасштабная стартап-компания под названием Beijing Shengshu Technology Co., Ltd. (далее именуемая «Shengshu Technology») объявила о завершении ангельского раунда финансирования почти на 100 миллионов юаней. Инвестиции возглавила Ant Group, затем Baidu Ventures и Zhuoyuan Capital, текущая оценка которых составляет 100 миллионов долларов США. масштабные модели и прикладные продукты.

Мультимодальная большая модель относится к модели, которая объединяет мультимодальную информацию, такую как текст, изображение, видео и аудио, для обучения. Ранее соучредитель OpenAI Илья Суцкевер (Ilya Sutskever) заявил: «Долгосрочная цель искусственного интеллекта — построить мультимодальную нейронную сеть, то есть ИИ может изучать концепции между разными модальностями, чтобы лучше понимать мир». .

Генерация изображений поддерживается моделью Shengshu.

Компания Shengshu Technology была основана в марте 2023 г. Она была разработана совместно Beijing Ruilai Smart Technology Co., Ltd., Ant Group и Baidu Venture Capital.Тан Цзяюй, бывший вице-президент Ruilai Smart, выпускник компьютерного факультета Университета Цинхуа, работал как генеральный директор, используется для создания управляемой мультимодальной большой модели общего назначения. Сообщается, что это первый случай, когда Ant Group инвестировала в крупную модельную компанию после популярности ChatGPT, а также это второе предприятие Чжу Цзюня после Ruilai Wisdom. Ruilai Wisdom — поставщик инфраструктуры и решений искусственного интеллекта.

Основные члены команды Shengshu Technology пришли из Института искусственного интеллекта Университета Цинхуа, в основном из исследовательской группы под руководством Чжу Цзюня. Исследовательская группа занимается базовой теорией и исследованием эффективных алгоритмов байесовского машинного обучения и является одной из первых групп в мире, изучающих глубокие вероятностные генеративные модели. В январе 2022 года предложенная командой не обучающая структура рассуждений Analytic-DPM была применена OpenAI к стратегии обработки модели DALL E 2. После этого был предложен алгоритм выборки DPM-Solver, который на данный момент является самой быстрой в мире генерацией изображений. алгоритм Stable Diffusion и другие многочисленные проекты, принятые проектами с открытым исходным кодом.

Измените элементы экрана в видео (подсказка: лебедь из кристаллов Swarovski плывет по реке), исходное видео в крайнем левом углу, эффект цифровых технологий в середине и эффект «Подиум» в крайнем правом углу.

Согласно сообщениям, Shengshu Technology является одной из первых команд в Китае, которая разработала мультимодальные крупномасштабные модели общего назначения.В начале 2023 года она открыла исходный код первой в мире мультимодальной диффузионной крупномасштабной модели UniDiffuser на основе трансформатора. Выполняйте различные задачи генерации, такие как генерация текста на основе изображения, генерация изображения и текста, а также переписывание изображения и текста.

Модель Transformer была запущена командой Google в 2017 году. Это модель глубокого обучения, которая может назначать различные веса в зависимости от важности каждой части входных данных. Эта модель в основном используется в области обработки естественного языка (NLP) и компьютерного зрения (CV). В настоящее время основные крупные модели, такие как GPT, разрабатываются на базе Transformer.

«В целом текущая идея создания крупномасштабных моделей генерации изображений в отрасли одинакова, и все они основаны на диффузионной модели. Наша инновация заключается в модификации базовой основной сети. первым, кто использовал технологию Transformer in the Diffusion Model для достижения многорежимного отношения», — сказал Тан Цзяюй в недавнем интервью средствам массовой информации.

Тан Цзяюй считает, что модели и продукты, представленные на рынке на данном этапе, решают проблему генерируемости только на начальном этапе, но сгенерированные результаты по-прежнему имеют большую неопределенность и неконтролируемость.Есть еще большие недостатки, например, трудно точно управлять положением и деталями элементов в сгенерированном изображении, а сгенерированная 3D-модель все еще находится на относительно низком уровне с точки зрения чистоты поверхности и точности цвета, света и тени.

Генерация 3D-контента (подсказка: цифровая зеркальная фотография голубой сойки, стоящей на большой корзине с радужными макаронами).

Shengshu Technology представила Pengpai Technology, что с точки зрения генерации 3D-контента, она разработала первую в отрасли технологию автоматического создания 3D-контента на основе трех представлений, а также технологию 3D-контента Wensheng, которая не требует никаких данных для обучения 3D, и эффект может быть мелкодетализированный, может быть близок к приложениям промышленного уровня: «Обученная большая модель превзошла последнюю версию базовой модели Stable Diffusion с точки зрения генерации изображений и, как ожидается, догонит последнюю версию Midjourney в течение этого года. ."

Stable Diffusion — это модель генерации текста в изображение, разработанная стартапами StabilityAI, CompVis и Runway, выпущенная в 2022 году и теперь имеющая открытый исходный код. Midjourney — инструмент для преобразования текста в изображение, запущенный в марте 2022 года. Он прошел несколько итераций и вышел на стадию публичного бета-тестирования. Его реалистичные эффекты вызвали бурные обсуждения в китайском Интернете. И Stable Diffusion, и Midjourney являются ведущими в отрасли и высоко оцененными инструментами искусственного интеллекта во всем мире.

Посмотреть Оригинал

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
Dr.Han Joins Gate Square
10k Популярность
Gate VIP New Upgrade
12k Популярность
Nonfarm Payrolls Update
12k Популярность
4BTC
30271k Популярность
5contentstar
10719k Популярность
6NADA
11186k Популярность
7BOME
11564k Популярность
8BTC
30271k Популярность
9SMILE
9062k Популярность
10比特币
13350k Популярность

Закрепить

Карта сайта