Mise en page d'un modèle multimodal à grande échelle : l'équipe de l'Université de Tsinghua a réalisé près de 100 millions de yuans de financement providentiel, dirigé par Ant

2023-06-20 06:42:16

Auteur : Le Papier

Journaliste Shao Wen

Shengshu Technology a été créée en mars 2023. Les membres principaux sont principalement issus de l'École d'intelligence artificielle de l'Université de Tsinghua, qui est l'une des premières équipes en Chine à déployer des modèles généraux multimodaux à grande échelle. Ce tour de financement a été mené par Ant Group, suivi de Baidu Ventures et Zhuoyuan Capital.La valorisation actuelle est de 100 millions de dollars.

Il existe de nouvelles tendances dans le développement de modèles domestiques multimodaux à grande échelle. Le 19 juin, une nouvelle équipe dirigée par Zhu Jun, professeur d'informatique à l'Université de Tsinghua et vice-président de l'Institut d'intelligence artificielle, a conclu un tour de financement providentiel de près de 100 millions de yuans.

Pengpai Technology (j'ai appris que cette startup multimodale à grande échelle nommée Beijing Shengshu Technology Co., Ltd. (ci-après dénommée "Shengshu Technology") a annoncé l'achèvement d'un cycle de financement providentiel de près de 100 millions de yuans. L'investissement a été mené par Ant Group. Suivi par Baidu Ventures et Zhuoyuan Capital, la valorisation actuelle est de 100 millions de dollars américains. Cette ronde de financement sera principalement utilisée pour la construction de l'équipe de R&D de base et accélérera le développement de grands multimodaux. -modèles réduits et produits d'application.

Un grand modèle multimodal fait référence à un modèle qui combine des informations multimodales telles que du texte, des images, de la vidéo et de l'audio pour la formation. Auparavant, le co-fondateur d'OpenAI, Ilya Sutskever (Ilya Sutskever), a déclaré : "L'objectif à long terme de l'intelligence artificielle est de construire un réseau neuronal multimodal, c'est-à-dire que l'IA peut apprendre des concepts entre différentes modalités, afin de mieux comprendre le monde". .

Génération d'images prise en charge par le modèle Shengshu.

Shengshu Technology a été créée en mars 2023. Elle a été incubée conjointement par Beijing Ruilai Smart Technology Co., Ltd., Ant Group et Baidu Venture Capital. Tang Jiayu, ancien vice-président de Ruilai Smart et diplômé du département informatique de l'Université Tsinghua, a servi en tant que PDG Il est utilisé pour créer un grand modèle polyvalent multimodal contrôlable. Il est rapporté que c'est la première fois qu'Ant Group investit dans une entreprise de modèles à grande échelle après la popularité de ChatGPT, et c'est aussi la deuxième entreprise de Zhu Jun après Ruilai Wisdom. Ruilai Wisdom est un fournisseur d'infrastructures et de solutions d'intelligence artificielle.

Les principaux membres de l'équipe Shengshu Technology proviennent de l'Institut d'intelligence artificielle de l'Université Tsinghua, principalement du groupe de recherche dirigé par Zhu Jun. Le groupe de recherche est engagé dans la théorie de base et la recherche d'algorithmes efficaces de l'apprentissage automatique bayésien, et est l'une des premières équipes au monde à étudier des modèles génératifs probabilistes approfondis. En janvier 2022, le cadre de raisonnement hors formation Analytic-DPM proposé par l'équipe a été appliqué à la stratégie de traitement de modèle DALL E 2 par OpenAI, puis l'algorithme d'échantillonnage DPM-Solver a été proposé, qui est maintenant la génération d'images la plus rapide au monde. algorithme par Stable Diffusion et d'autres grands nombres d'Adopté par des projets open source.

Modifiez les éléments de l'écran dans la vidéo (invite : un cygne en cristal Swarovski nage dans une rivière), la vidéo originale à l'extrême gauche, l'effet de technologie numérique au milieu et l'effet Runway à l'extrême droite.

Selon des rapports, Shengshu Technology est l'une des premières équipes en Chine à avoir mis au point des modèles multimodaux à grande échelle à usage général. Elle a ouvert le premier modèle à grande échelle de diffusion multimodale basé sur Transformer au monde, UniDiffuser, au début de 2023. Effectuez diverses tâches de génération telles que la génération de texte à base d'image, la génération conjointe d'image-texte et la réécriture d'image-texte.

Le modèle Transformer a été lancé par une équipe de Google en 2017. Il s'agit d'un modèle d'apprentissage en profondeur qui peut attribuer différents poids en fonction de l'importance de chaque partie des données d'entrée. Ce modèle est principalement utilisé dans les domaines du traitement du langage naturel (TAL) et de la vision par ordinateur (CV). Actuellement, les principaux grands modèles tels que GPT sont développés sur la base de Transformer.

"Dans l'ensemble, l'idée actuelle de faire des modèles de génération d'images à grande échelle dans l'industrie est la même, et ils sont tous basés sur le modèle de diffusion. Notre innovation réside dans la modification du réseau principal sous-jacent. C'est le premier à utiliser la technologie Transformer in the Diffusion Model pour obtenir une attitude multimode", a récemment déclaré Tang Jiayu dans une interview accordée aux médias.

Tang Jiayu estime que les modèles et les produits sur le marché à ce stade ne résolvent le problème de la générabilité qu'au stade initial, mais les résultats générés présentent encore une grande incertitude et une incontrôlabilité.Il existe encore de grandes lacunes, par exemple, il est difficile de déterminer avec précision contrôler la position et les détails des éléments dans l'image générée, et le modèle 3D généré est encore à un niveau relativement bas en termes de finesse de surface et de précision de la couleur, de la lumière et de l'ombre.

Génération de contenu 3D (indice : une photo DSLR d'un geai bleu debout sur un grand panier de macarons arc-en-ciel).

La technologie Shengshu a présenté à la technologie Pengpai qu'en termes de génération de contenu 3D, elle a développé la première technologie de l'industrie pour générer automatiquement du contenu 3D basé sur trois vues, et la technologie de contenu 3D Wensheng qui ne nécessite aucune donnée de formation 3D, et l'effet peut être finement détaillé, peut être proche des applications de niveau industriel, "Le grand modèle formé a dépassé la dernière version du modèle de base de Stable Diffusion en termes de génération d'images, et devrait rattraper la dernière version de Midjourney dans le courant de cette année ."

Stable Diffusion est un modèle de génération de texte en image développé par les startups StabilityAI, CompVis et Runway. Il est sorti en 2022 et est maintenant open source. Midjourney est un outil de génération de texte en image lancé en mars 2022. Il a connu de multiples itérations et est entré en phase de bêta publique.Ses effets réalistes ont suscité de vives discussions sur l'Internet chinois. Stable Diffusion et Midjourney sont des outils d'IA de pointe et hautement cotés dans le monde entier.

Voir l'original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
Dr.Han Joins Gate Square
10k Popularité
Gate VIP New Upgrade
12k Popularité
Nonfarm Payrolls Update
12k Popularité
4BTC
30271k Popularité
5contentstar
10719k Popularité
6NADA
11186k Popularité
7BOME
11564k Popularité
8BTC
30271k Popularité
9SMILE
9062k Popularité
10比特币
13350k Popularité

Épingler