Компоновка мультимодальной крупномасштабной модели: команда Университета Цинхуа завершила ангельское финансирование почти на 100 миллионов юаней под руководством Ant
Shengshu Technology была создана в марте 2023 г. Основные члены в основном из Школы искусственного интеллекта Университета Цинхуа.Это одна из первых команд в Китае, развернувших мультимодальные общие крупномасштабные модели. Этот раунд финансирования возглавила Ant Group, за ней последовали Baidu Ventures и Zhuoyuan Capital Текущая оценка составляет 100 миллионов долларов США.
Наметились новые тенденции в развитии отечественных мультимодальных масштабных моделей. 19 июня новая команда под руководством Чжу Цзюня, профессора компьютерных наук в Университете Цинхуа и вице-президента Института искусственного интеллекта, завершила ангельский раунд финансирования почти на 100 миллионов юаней.
Pengpai Technology (я узнал, что эта мультимодальная крупномасштабная стартап-компания под названием Beijing Shengshu Technology Co., Ltd. (далее именуемая «Shengshu Technology») объявила о завершении ангельского раунда финансирования почти на 100 миллионов юаней. Инвестиции возглавила Ant Group, затем Baidu Ventures и Zhuoyuan Capital, текущая оценка которых составляет 100 миллионов долларов США. масштабные модели и прикладные продукты.
Мультимодальная большая модель относится к модели, которая объединяет мультимодальную информацию, такую как текст, изображение, видео и аудио, для обучения. Ранее соучредитель OpenAI Илья Суцкевер (Ilya Sutskever) заявил: «Долгосрочная цель искусственного интеллекта — построить мультимодальную нейронную сеть, то есть ИИ может изучать концепции между разными модальностями, чтобы лучше понимать мир». .
Компания Shengshu Technology была основана в марте 2023 г. Она была разработана совместно Beijing Ruilai Smart Technology Co., Ltd., Ant Group и Baidu Venture Capital.Тан Цзяюй, бывший вице-президент Ruilai Smart, выпускник компьютерного факультета Университета Цинхуа, работал как генеральный директор, используется для создания управляемой мультимодальной большой модели общего назначения. Сообщается, что это первый случай, когда Ant Group инвестировала в крупную модельную компанию после популярности ChatGPT, а также это второе предприятие Чжу Цзюня после Ruilai Wisdom. Ruilai Wisdom — поставщик инфраструктуры и решений искусственного интеллекта.
Основные члены команды Shengshu Technology пришли из Института искусственного интеллекта Университета Цинхуа, в основном из исследовательской группы под руководством Чжу Цзюня. Исследовательская группа занимается базовой теорией и исследованием эффективных алгоритмов байесовского машинного обучения и является одной из первых групп в мире, изучающих глубокие вероятностные генеративные модели. В январе 2022 года предложенная командой не обучающая структура рассуждений Analytic-DPM была применена OpenAI к стратегии обработки модели DALL E 2. После этого был предложен алгоритм выборки DPM-Solver, который на данный момент является самой быстрой в мире генерацией изображений. алгоритм Stable Diffusion и другие многочисленные проекты, принятые проектами с открытым исходным кодом.
Измените элементы экрана в видео (подсказка: лебедь из кристаллов Swarovski плывет по реке), исходное видео в крайнем левом углу, эффект цифровых технологий в середине и эффект «Подиум» в крайнем правом углу.
Согласно сообщениям, Shengshu Technology является одной из первых команд в Китае, которая разработала мультимодальные крупномасштабные модели общего назначения.В начале 2023 года она открыла исходный код первой в мире мультимодальной диффузионной крупномасштабной модели UniDiffuser на основе трансформатора. Выполняйте различные задачи генерации, такие как генерация текста на основе изображения, генерация изображения и текста, а также переписывание изображения и текста.
Модель Transformer была запущена командой Google в 2017 году. Это модель глубокого обучения, которая может назначать различные веса в зависимости от важности каждой части входных данных. Эта модель в основном используется в области обработки естественного языка (NLP) и компьютерного зрения (CV). В настоящее время основные крупные модели, такие как GPT, разрабатываются на базе Transformer.
«В целом текущая идея создания крупномасштабных моделей генерации изображений в отрасли одинакова, и все они основаны на диффузионной модели. Наша инновация заключается в модификации базовой основной сети. первым, кто использовал технологию Transformer in the Diffusion Model для достижения многорежимного отношения», — сказал Тан Цзяюй в недавнем интервью средствам массовой информации.
Тан Цзяюй считает, что модели и продукты, представленные на рынке на данном этапе, решают проблему генерируемости только на начальном этапе, но сгенерированные результаты по-прежнему имеют большую неопределенность и неконтролируемость.Есть еще большие недостатки, например, трудно точно управлять положением и деталями элементов в сгенерированном изображении, а сгенерированная 3D-модель все еще находится на относительно низком уровне с точки зрения чистоты поверхности и точности цвета, света и тени.
Генерация 3D-контента (подсказка: цифровая зеркальная фотография голубой сойки, стоящей на большой корзине с радужными макаронами).
Shengshu Technology представила Pengpai Technology, что с точки зрения генерации 3D-контента, она разработала первую в отрасли технологию автоматического создания 3D-контента на основе трех представлений, а также технологию 3D-контента Wensheng, которая не требует никаких данных для обучения 3D, и эффект может быть мелкодетализированный, может быть близок к приложениям промышленного уровня: «Обученная большая модель превзошла последнюю версию базовой модели Stable Diffusion с точки зрения генерации изображений и, как ожидается, догонит последнюю версию Midjourney в течение этого года. ."
Stable Diffusion — это модель генерации текста в изображение, разработанная стартапами StabilityAI, CompVis и Runway, выпущенная в 2022 году и теперь имеющая открытый исходный код. Midjourney — инструмент для преобразования текста в изображение, запущенный в марте 2022 года. Он прошел несколько итераций и вышел на стадию публичного бета-тестирования. Его реалистичные эффекты вызвали бурные обсуждения в китайском Интернете. И Stable Diffusion, и Midjourney являются ведущими в отрасли и высоко оцененными инструментами искусственного интеллекта во всем мире.
Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Компоновка мультимодальной крупномасштабной модели: команда Университета Цинхуа завершила ангельское финансирование почти на 100 миллионов юаней под руководством Ant
Автор: Бумага
Репортер Шао Вэнь
Shengshu Technology была создана в марте 2023 г. Основные члены в основном из Школы искусственного интеллекта Университета Цинхуа.Это одна из первых команд в Китае, развернувших мультимодальные общие крупномасштабные модели. Этот раунд финансирования возглавила Ant Group, за ней последовали Baidu Ventures и Zhuoyuan Capital Текущая оценка составляет 100 миллионов долларов США.
Наметились новые тенденции в развитии отечественных мультимодальных масштабных моделей. 19 июня новая команда под руководством Чжу Цзюня, профессора компьютерных наук в Университете Цинхуа и вице-президента Института искусственного интеллекта, завершила ангельский раунд финансирования почти на 100 миллионов юаней.
Pengpai Technology (я узнал, что эта мультимодальная крупномасштабная стартап-компания под названием Beijing Shengshu Technology Co., Ltd. (далее именуемая «Shengshu Technology») объявила о завершении ангельского раунда финансирования почти на 100 миллионов юаней. Инвестиции возглавила Ant Group, затем Baidu Ventures и Zhuoyuan Capital, текущая оценка которых составляет 100 миллионов долларов США. масштабные модели и прикладные продукты.
Мультимодальная большая модель относится к модели, которая объединяет мультимодальную информацию, такую как текст, изображение, видео и аудио, для обучения. Ранее соучредитель OpenAI Илья Суцкевер (Ilya Sutskever) заявил: «Долгосрочная цель искусственного интеллекта — построить мультимодальную нейронную сеть, то есть ИИ может изучать концепции между разными модальностями, чтобы лучше понимать мир». .
Компания Shengshu Technology была основана в марте 2023 г. Она была разработана совместно Beijing Ruilai Smart Technology Co., Ltd., Ant Group и Baidu Venture Capital.Тан Цзяюй, бывший вице-президент Ruilai Smart, выпускник компьютерного факультета Университета Цинхуа, работал как генеральный директор, используется для создания управляемой мультимодальной большой модели общего назначения. Сообщается, что это первый случай, когда Ant Group инвестировала в крупную модельную компанию после популярности ChatGPT, а также это второе предприятие Чжу Цзюня после Ruilai Wisdom. Ruilai Wisdom — поставщик инфраструктуры и решений искусственного интеллекта.
Основные члены команды Shengshu Technology пришли из Института искусственного интеллекта Университета Цинхуа, в основном из исследовательской группы под руководством Чжу Цзюня. Исследовательская группа занимается базовой теорией и исследованием эффективных алгоритмов байесовского машинного обучения и является одной из первых групп в мире, изучающих глубокие вероятностные генеративные модели. В январе 2022 года предложенная командой не обучающая структура рассуждений Analytic-DPM была применена OpenAI к стратегии обработки модели DALL E 2. После этого был предложен алгоритм выборки DPM-Solver, который на данный момент является самой быстрой в мире генерацией изображений. алгоритм Stable Diffusion и другие многочисленные проекты, принятые проектами с открытым исходным кодом.
Согласно сообщениям, Shengshu Technology является одной из первых команд в Китае, которая разработала мультимодальные крупномасштабные модели общего назначения.В начале 2023 года она открыла исходный код первой в мире мультимодальной диффузионной крупномасштабной модели UniDiffuser на основе трансформатора. Выполняйте различные задачи генерации, такие как генерация текста на основе изображения, генерация изображения и текста, а также переписывание изображения и текста.
Модель Transformer была запущена командой Google в 2017 году. Это модель глубокого обучения, которая может назначать различные веса в зависимости от важности каждой части входных данных. Эта модель в основном используется в области обработки естественного языка (NLP) и компьютерного зрения (CV). В настоящее время основные крупные модели, такие как GPT, разрабатываются на базе Transformer.
«В целом текущая идея создания крупномасштабных моделей генерации изображений в отрасли одинакова, и все они основаны на диффузионной модели. Наша инновация заключается в модификации базовой основной сети. первым, кто использовал технологию Transformer in the Diffusion Model для достижения многорежимного отношения», — сказал Тан Цзяюй в недавнем интервью средствам массовой информации.
Тан Цзяюй считает, что модели и продукты, представленные на рынке на данном этапе, решают проблему генерируемости только на начальном этапе, но сгенерированные результаты по-прежнему имеют большую неопределенность и неконтролируемость.Есть еще большие недостатки, например, трудно точно управлять положением и деталями элементов в сгенерированном изображении, а сгенерированная 3D-модель все еще находится на относительно низком уровне с точки зрения чистоты поверхности и точности цвета, света и тени.
Shengshu Technology представила Pengpai Technology, что с точки зрения генерации 3D-контента, она разработала первую в отрасли технологию автоматического создания 3D-контента на основе трех представлений, а также технологию 3D-контента Wensheng, которая не требует никаких данных для обучения 3D, и эффект может быть мелкодетализированный, может быть близок к приложениям промышленного уровня: «Обученная большая модель превзошла последнюю версию базовой модели Stable Diffusion с точки зрения генерации изображений и, как ожидается, догонит последнюю версию Midjourney в течение этого года. ."
Stable Diffusion — это модель генерации текста в изображение, разработанная стартапами StabilityAI, CompVis и Runway, выпущенная в 2022 году и теперь имеющая открытый исходный код. Midjourney — инструмент для преобразования текста в изображение, запущенный в марте 2022 года. Он прошел несколько итераций и вышел на стадию публичного бета-тестирования. Его реалистичные эффекты вызвали бурные обсуждения в китайском Интернете. И Stable Diffusion, и Midjourney являются ведущими в отрасли и высоко оцененными инструментами искусственного интеллекта во всем мире.