Le laboratoire d'intelligence artificielle de Shanghai publie le modèle de scène réelle 3D de Shusheng·Tianji LandMark

2023-07-07 03:00:09

Source: Le papier

Journaliste Wu Tianyi Stagiaire Chen Xiaorui

Source de l'image : générée par l'outil d'IA illimitée

·Le premier modèle à grande échelle réel NeRF 3D au monde avec 100 milliards de paramètres ·Sky LandMark peut prendre en charge plusieurs fonctions d'édition de villes. Dans la démonstration, le bâtiment Wukang peut utiliser la technologie NeRF pour modifier son style et ses effets d'ombre et de lumière en fonction de différentes périodes ; le palais de la culture chinoise peut effectuer une rotation globale ou une rotation de différentes couches.

·Le laboratoire d'intelligence artificielle de Shanghai a lancé le système général de modèles à grande échelle pour les chercheurs, y compris trois modèles de base de multimodalité, Puyu et Tianji. Dans le même temps, il a lancé le premier système open source à chaîne complète pour les modèles à grande échelle développement et application.

Le 6 juillet, lors de la réunion plénière Frontières de la science de la Conférence mondiale sur l'intelligence artificielle (WAIC) 2023, Lin Dahua, expert en apprentissage profond et en informatique, professeur au Laboratoire d'intelligence artificielle de Shanghai et professeur à l'Université chinoise de Hong Kong, a publié un grand modèle de scène réelle 3D de Shusheng Tianji LandMark, et son principe technique et son application fonctionnelle sont présentés.

Lin Dahua a déclaré que Shusheng·Tianji LandMark est le premier grand modèle NeRF 3D réel au monde de 100 milliards de paramètres, qui a été développé conjointement par le Laboratoire d'intelligence artificielle de Shanghai, l'Université chinoise de Hong Kong et l'Institut d'arpentage et de cartographie de Shanghai. ) La capacité de la modélisation du champ lumineux s'étend du niveau de l'objet au niveau de la ville. Lin Dahua a déclaré que la sortie de Shusheng·Tianji LandMark est une application innovante de grands modèles, qui "nous offre la possibilité technique de réaliser l'AIGC (Contenu généré par l'intelligence artificielle) au niveau de la ville à l'avenir".

Le "Shusheng General Model System" (ci-après dénommé "Shusheng Large Model") a également été présenté pour la première fois lors de la conférence, comprenant trois modèles de base de Shusheng·Multimodal, Shusheng·Puyu et Shusheng·Tianji, ainsi que le premier modèle à grande échelle Un système open source à chaîne complète pour la R&D et l'application.

D'une pomme à toute une ville

"En plus de générer du texte, le grand modèle peut également nous offrir un monde plus imaginatif." Lin Dahua a déclaré que le chercheur Tianji LandMark utilise la technologie NeRF pour offrir plus de possibilités d'application de la technologie des grands modèles.

NeRF est un nouveau type de technologie de modélisation de champ lumineux 3D, qui a été proposé pour la première fois par l'équipe de recherche de Google en mars 2020. Il a été initialement appliqué à la modélisation 3D, et il était limité au niveau des petits objets (la taille d'une pomme) . "Mais nous pensons que la technologie NeRF est plus que cela." Lin Dahua a déclaré: "Le 10 décembre 2021, notre équipe a d'abord proposé d'étendre la capacité de modélisation du champ lumineux NeRF du niveau objet d'une petite pomme au niveau de la ville. Il s'agit de la première fois à étendre les capacités de la technologie NeRF des objets aux villes. Il a déclaré qu'après que leur équipe de recherche ait proposé pendant un certain temps le NeRF au niveau de la ville, l'Université Carnegie Mellon et Google ont publié leurs technologies NeRF respectives au niveau de la ville. .

Le 10 décembre 2021, l'équipe de Lin Dahua a proposé pour la première fois d'étendre la capacité de modélisation du champ lumineux NeRF du niveau objet d'une petite pomme au niveau de la ville.

"Sur la base de la technologie de base du NeRF au niveau de la ville, nous améliorons constamment son évolutivité et ses capacités." Lin Dahua a annoncé que le grand modèle 3D réel de Shusheng·Tianji LandMark est basé sur la technologie et l'algorithme CT NeRF de deuxième génération de l'équipe de recherche, et prend en charge une gamme complète de rendus en temps réel de haute précision, y compris 200 milliards de paramètres, couvrant 100 kilomètres carrés, chaque détail de la scène réelle prend en charge la résolution haute définition 4K.

La 3D réelle est un espace numérique qui reflète et exprime des espaces de production, de vie et écologiques humains réels, tridimensionnels et séquencés dans le temps dans une certaine plage. Selon les rapports, Shusheng·Tianji LandMark intègre des algorithmes, des opérateurs et des systèmes informatiques, et propose un nouveau paradigme de représentation et de formation de modèle 3D du monde réel au niveau du modèle. Tout en s'entraînant efficacement, il peut représenter avec précision des scènes urbaines 3D à grande échelle, et obtenir des effets de rendu neuronal de haute qualité. Il prend les devants sur quatre aspects : modélisation de haute précision, rendu de haute précision, évolutivité fonctionnelle et intégration de la formation et de l'interaction.

Shusheng·Tianji LandMark peut également prendre en charge des fonctions telles que l'édition au niveau de la ville et la conversion de style. Dans la démonstration, le bâtiment Wukang peut utiliser la technologie NeRF pour modifier son style et ses effets d'ombre et de lumière en fonction de différentes périodes ; le palais de la culture chinoise peut effectuer une rotation globale ou une rotation de différentes couches. "Cela offre une possibilité technique pour notre AIGC au niveau de la ville à l'avenir", a déclaré Lin Dahua.

Diverses parties du palais de la culture chinoise peuvent être "tournées".

Lin Dahua a déclaré: "J'espère que grâce à la nouvelle technologie de génération de scènes réelles 3D, nous pourrons injecter un nouvel espace d'imagination et d'innovation dans notre futur espace urbain. À l'avenir, Shanghai AI Lab élargira la portée et les fonctions de modélisation de Shusheng Tianji, et Les algorithmes, les opérateurs et les systèmes de Shusheng Tianji sont tous open source.

Le premier système de modèle général à grande échelle pour les chercheurs

Lors de la réunion, Lin Dahua a également présenté le système général de modèles à grande échelle pour les universitaires, y compris trois modèles de base de multimodal, Puyu et Tianji. Dans le même temps, il a lancé le premier système open source à chaîne complète pour les grands développement et application de modèles à l'échelle. Parmi eux, le grand modèle multimodal compte 20 milliards de paramètres, prend en charge 3,5 millions de balises sémantiques et mène le monde dans plus de 80 tâches ; le grand modèle en langage Pu est le premier grand modèle officiellement publié en Chine avec 100 milliards de paramètres prenant en charge plusieurs langues.

"Scholar Puyu a dépassé LLaMA-7B (un modèle de langage d'intelligence artificielle développé par l'équipe FAIR de Meta AI) dans toutes les dimensions." Lin Dahua a déclaré que Shusheng Puyu, en tant que grand modèle avec des centaines de milliards de paramètres, a atteint Les deux surpassent les meilleurs modèles open source existants en Chine.

Le 7 juin de cette année, Shanghai AI Lab et SenseTime ont publié conjointement le modèle de langage à grande échelle de "Scholar·Puyu" conjointement avec l'Université chinoise de Hong Kong, l'Université Fudan et l'Université Jiaotong de Shanghai. Le modèle compte 104 milliards de paramètres et est l'un des grands modèles linguistiques actuels avec des centaines de milliards de paramètres. Il est formé sur la base d'un ensemble de données multilingues de haute qualité contenant 1,6 billion de jetons.

Selon les rapports, depuis ses débuts officiels en juin, Scholar·Puyu a subi une mise à niveau complète en un mois, comprenant cinq aspects. Premièrement, la longueur de la fenêtre contextuelle a été augmentée de 2K à 8K, ce qui lui permet de comprendre les entrées longues, de développer un raisonnement complexe et d'effectuer plusieurs cycles de dialogue à long terme ; deuxièmement, les capacités d'expression multilingue et structurée ont été améliorées renforcée, la nouvelle version du modèle prend en charge plus de 20 langues et peut également résumer et présenter des informations complexes au moyen de tableaux et de graphiques ; troisièmement, les capacités multidimensionnelles ont été complètement améliorées et les performances sur 42 ensembles d'évaluation traditionnels ont été considérablement améliorées. améliorées et les performances de 35 d'entre elles ont dépassé ChatGPT ; Quatrièmement, la capacité de logique mathématique s'est considérablement améliorée et les capacités mathématiques telles que le calcul numérique, l'utilisation de fonctions et la résolution d'équations ont été considérablement améliorées. Les performances de l'ensemble d'évaluation mathématique GSM8K est passé de 62,9 à 73,2. Sur les questions à choix multiples de l'examen d'entrée à l'université de 2023, le taux de précision a augmenté de plus de 70 % ; Cinquièmement, les capacités de sécurité et d'alignement ont été considérablement améliorées. Grâce à un réglage plus efficace des instructions, y compris l'apprentissage par renforcement basé sur la rétroaction humaine (RLHF), la nouvelle version du modèle peut suivre les instructions humaines de manière plus fiable, et la sécurité est également évidente.

"La valeur ultime de tous les grands modèles est toujours de créer de la valeur pour la vie et la production. Le laboratoire d'intelligence artificielle de Shanghai réalise non seulement des percées technologiques grâce à l'innovation, mais s'engage également à promouvoir la mise en œuvre de ces technologies dans des industries spécifiques", a déclaré Lin Dahua. lors de la réunion.

Lin Dahua a déclaré qu'en plus du grand modèle lui-même, l'équipe a également ouvert l'ensemble de la chaîne de systèmes d'outils, couvrant les cinq principaux liens de données, de pré-formation, de réglage fin, de déploiement et d'évaluation lors du développement du grand "Grâce au système d'outils open source, le modèle peut être La valeur a été pleinement utilisée. Je pense que l'open source peut vraiment aider les développeurs à développer et à innover sur la base de grands modèles."

Selon les rapports, la version open-source officielle est un InternLM-7B léger avec 7 milliards de paramètres, qui montre des performances excellentes et équilibrées dans l'évaluation pleine dimension comprenant 40 ensembles d'évaluation, ce qui est en avance sur les modèles open-source existants.

Voir l'original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 J'aime

Récompense
1
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
Dr.Han Joins Gate Square
39k Popularité
Michael Saylor Hints at Buying BTC
451 Popularité
BTC
30402k Popularité
4contentstar
10720k Popularité
5NADA
10746k Popularité
6BOME
10761k Popularité
7BTC
30402k Popularité
8SMILE
9062k Popularité
9比特币
13416k Popularité

Épingler

Le laboratoire d'intelligence artificielle de Shanghai publie le modèle de scène réelle 3D de Shusheng·Tianji LandMark

** D'une pomme à toute une ville **

Le premier système de modèle général à grande échelle pour les chercheurs

D'une pomme à toute une ville