Шанхайская лаборатория искусственного интеллекта выпускает реальную 3D-модель сцены Shusheng·Tianji LandMark

Источник: Бумага

Репортер Ву Тяньи Стажер Чен Сяоруй

Источник изображения: сгенерировано инструментом Unbounded AI

· Первая в мире крупномасштабная трехмерная модель NeRF в реальном времени со 100 миллиардами параметров. · Sky LandMark может поддерживать несколько функций редактирования города. В демонстрации здание Укан может использовать технологию NeRF для изменения своего стиля и световых и теневых эффектов в соответствии с различными периодами времени; Дворец китайской культуры может выполнять общее вращение или вращение различных слоев.

· Шанхайская лаборатория искусственного интеллекта запустила общую систему крупномасштабных моделей для ученых, включая три базовые модели мультимодальности, Puyu и Tianji.В то же время она запустила первую полноценную систему с открытым исходным кодом для крупномасштабных моделей разработка и применение.

6 июля на пленарном заседании Всемирной конференции по искусственному интеллекту (WAIC) 2023 года «Границы науки» Линь Дахуа, эксперт в области глубокого обучения и информатики, профессор Шанхайской лаборатории искусственного интеллекта и профессор Китайского университета Хун Kong выпустила большую 3D-модель Shusheng Tianji LandMark в реальном времени, а также представила ее технический принцип и функциональное применение.

Линь Дахуа сказал, что Shusheng·Tianji LandMark — это первая в мире крупномасштабная трехмерная модель NeRF со 100 миллиардами параметров, которая была разработана совместно Шанхайской лабораторией искусственного интеллекта, Китайским университетом Гонконга и Шанхайским институтом геодезии и картографии. моделирования светового поля распространяется от уровня объекта до уровня города. Линь Дахуа сказал, что выпуск Shusheng·Tianji LandMark является инновационным применением больших моделей, которое «обеспечивает нам техническую возможность реализовать в будущем AIGC (контент, генерируемый искусственным интеллектом) на уровне города».

«Общая модельная система Shusheng» (далее именуемая «Большая модель Shusheng») также была впервые представлена на конференции, включая три базовые модели Shusheng·Multimodal, Shusheng·Puyu и Shusheng·Tianji, а также первая крупномасштабная модельно-ориентированная система с открытым исходным кодом для исследований, разработок и приложений.

От яблока до целого города

«Помимо генерации текста, большая модель также может дать нам более воображаемый мир.» Лин Дахуа сказал, что ученый Tianji LandMark использует технологию NeRF, чтобы предоставить больше возможностей для применения технологии больших моделей.

NeRF — это новый тип технологии 3D-моделирования светового поля, впервые предложенный исследовательской группой Google в марте 2020 года. Первоначально он применялся к 3D-моделированию и был ограничен уровнем небольших объектов (размером с яблоко). . «Но мы думаем, что технология NeRF — это нечто большее», — сказал Линь Дахуа, — «10 декабря 2021 года наша команда впервые предложила расширить возможности моделирования светового поля NeRF с уровня объекта небольшого яблока до уровня города. Это глобальный Это первый раз, когда возможности технологии NeRF расширяются от объектов до городов.Он сказал, что после того, как их исследовательская группа некоторое время предлагала NeRF на уровне города, Университет Карнеги-Меллона и Google выпустили свои соответствующие технологии NeRF на уровне города .

10 декабря 2021 года команда Линь Дахуа впервые предложила расширить возможности моделирования светового поля NeRF с уровня объекта небольшого яблока до уровня города.

«Основываясь на базовой технологии NeRF на уровне города, мы постоянно улучшаем ее масштабируемость и возможности». исследовательской группы и поддерживает полный спектр высокоточного рендеринга в реальном времени, включая 200 миллиардов параметров, охватывающих 100 квадратных километров, каждая деталь в реальной сцене поддерживает разрешение высокой четкости 4K.

Реальное 3D — это цифровое пространство, которое отражает и выражает реальное, трехмерное и последовательное во времени человеческое производство, жизнь и экологическое пространство в определенном диапазоне. Согласно сообщениям, Shusheng·Tianji LandMark интегрирует алгоритмы, операторы и вычислительные системы и предлагает новую модель представления 3D-моделей реального мира и парадигму обучения на уровне модели.При эффективном обучении он может точно отображать крупномасштабные 3D-городские сцены, и Добейтесь высококачественных эффектов нейрорендеринга. Он лидирует в четырех аспектах: высокоточное моделирование, высокоточный рендеринг, функциональная масштабируемость и интеграция обучения и взаимодействия.

Shusheng·Tianji LandMark также может поддерживать такие функции, как редактирование на уровне города и преобразование стиля. В демонстрации здание Укан может использовать технологию NeRF для изменения своего стиля и световых и теневых эффектов в соответствии с различными периодами времени; Дворец китайской культуры может выполнять общее вращение или вращение различных слоев. «Это обеспечивает техническую возможность для нашего AIGC на уровне города в будущем», — сказал Линь Дахуа.

Различные части Дворца китайской культуры можно «вращать».

Линь Дахуа сказал: «Я надеюсь, что с помощью новой технологии создания трехмерных реальных сцен мы сможем внедрить новое воображение и инновационное пространство в наше городское пространство будущего. В будущем Шанхайская лаборатория искусственного интеллекта расширит возможности моделирования и функции Shusheng Tianji, а также Алгоритмы, операторы и системы Shusheng Tianji имеют открытый исходный код».

Первая общая крупномасштабная модельная система для ученых

На встрече Линь Дахуа также представил ученым общую систему крупномасштабных моделей, в том числе три базовые модели мультимодальных моделей, Puyu и Tianji.В то же время он запустил первую полноценную систему с открытым исходным кодом для крупных разработка и применение масштабной модели. Среди них мультимодальная большая модель имеет 20 миллиардов параметров, поддерживает 3,5 миллиона семантических тегов и лидирует в мире по более чем 80 задачам; большая модель языка Pu — первая большая модель, официально выпущенная в Китае со 100 миллиардами параметров, которая поддерживает несколько языки.

«Ученый Пую превзошел LLaMA-7B (языковая модель искусственного интеллекта, разработанная командой FAIR Meta AI) во всех измерениях». существующие модели с открытым исходным кодом в Китае.

7 июня этого года Шанхайская лаборатория искусственного интеллекта и SenseTime совместно с Китайским университетом Гонконга, Фуданьским университетом и Шанхайским университетом Цзяотун выпустили крупномасштабную языковую модель «Scholar·Puyu». Модель имеет 104 миллиарда параметров и является одной из текущих крупных языковых моделей с сотнями миллиардов параметров и обучается на основе многоязычного высококачественного набора данных, содержащего 1,6 триллиона токенов.

Согласно сообщениям, с момента своего официального дебюта в июне, Scholar·Puyu претерпела всестороннее обновление в течение одного месяца, включая пять аспектов. Во-первых, длина контекстного окна была увеличена с 2K до 8K, что позволяет ему понимать длинный ввод, развивать сложные рассуждения и проводить длительные многократные раунды диалога; во-вторых, возможности многоязычного и структурированного выражения были расширены. усилена, новая версия модели поддерживает более 20 языков, а также может обобщать и представлять сложную информацию с помощью таблиц и диаграмм; в-третьих, многомерные возможности были всесторонне улучшены, а производительность на 42 основных наборах оценок была значительно повышена. улучшена, и производительность на 35 из них Beyond ChatGPT; В-четвертых, значительно улучшились математические логические способности, и математические способности, такие как численные вычисления, операции с функциями и решение уравнений, были значительно улучшены. Производительность на наборе для оценки математики GSM8K увеличился с 62,9 до 73,2.В вопросах с несколькими вариантами ответов на вступительном экзамене в колледж 2023 года точность увеличилась более чем на 70%, в-пятых, возможности безопасности и выравнивания были значительно улучшены.Благодаря более эффективной точной настройке инструкций , включая обучение с подкреплением на основе обратной связи с человеком (RLHF), новая версия модели может более надежно следовать инструкциям человека, а также значительно улучшена безопасность.

«Конечная ценность всех крупных моделей по-прежнему заключается в том, чтобы создавать ценность для жизни и производства. Шанхайская лаборатория искусственного интеллекта не только достигает технологических прорывов за счет инноваций, но также стремится продвигать внедрение этих технологий в конкретных отраслях», — сказал Линь Дахуа. на встрече.

Линь Дахуа сказал, что в дополнение к самой большой модели команда также открыла исходный код всей цепочки инструментальных систем, охватывающих пять основных звеньев данных, предварительной подготовки, тонкой настройки, развертывания и оценки в процессе разработки. большая модель. "Благодаря системе инструментов с открытым исходным кодом модель может быть полностью использована. Я считаю, что открытый исходный код действительно может помочь разработчикам развиваться и внедрять инновации на основе больших моделей".

Согласно сообщениям, официальной версией с открытым исходным кодом является облегченная версия InternLM-7B с 7 миллиардами параметров, которая демонстрирует отличную и сбалансированную производительность в полноразмерной оценке, включая 40 наборов оценок, что опережает существующие модели с открытым исходным кодом.

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить