Nous vivons une vague massive de nouvelles infrastructures d'IA.
En l'espace de six mois, le modèle à grande échelle s'est rapidement répandu à partir d'un consensus à petite échelle. Selon le rapport publié par le CITIC, le nombre de modèles à grande échelle avec plus d'un milliard de modèles de paramètres publiés à ce jour est proche de 80, dont la moitié proviennent d'entreprises et l'autre moitié d'institutions de recherche scientifique.
Dans le processus de formation progressive de l'écologie domestique des modèles à grande échelle, il a également commencé à abandonner sa poursuite d'OpenAI et à trouver progressivement sa propre voie. La norme pour mesurer le succès des grands modèles a également changé, passant de la compétition de paramètres des ponts durs et des chevaux durs à la résolution de problèmes réels.
SenseTime a annoncé le système de modèles à grande échelle de « SenseNova » pour la première fois en avril de cette année, et a publié un certain nombre de modèles et d'applications d'IA à grande échelle, y compris le modèle de langage à grande échelle chinois « SenseChat ». Récemment, lors de la conférence mondiale sur l'intelligence artificielle, SenseTime a annoncé la première itération majeure du système "Daily New SenseNova Large Model". Le grand modèle de langage "négociation" a été mis à niveau vers la version 2.0.
C'est plus fort. Dans l'ensemble du système de mise en page de modèles à grande échelle SenseTime, son rôle devient de plus en plus évident.
"Négociation 2.0" plus forte
Comment rendre compte visuellement de l'amélioration capacitaire de "Consultation 2.0" ? Xu Li, président et PDG de SenseTime, a démontré un dialogue inexistant entre Lao Tzu et Confucius.
La réponse à "Consultation 2.0" tourne autour de "Tao". Confucius a demandé à Lao Tzu. Bien que Lao Tzu s'était éveillé, il ne pouvait pas parler à Confucius, alors il s'est simplement éloigné. Le dialogue joué dans cette scène est fluide et fluide. "Discussion 2.0" a même ajouté une blague au texte :
Confucius a dit : "J'ai entendu le nom de Maître, et c'est vraiment une grande chance de vous rencontrer aujourd'hui !"
Lao Tseu dit avec un sourire : "Non, je marche sur le même chemin que toi, pourquoi les 'trois vies' ?"
Et selon la question, tout le dialogue apparaît en chinois classique. Et afin d'éviter toute confusion, "Consultation 2.0" a également énoncé la prémisse de "ce n'est qu'une fiction et ne doit pas être considérée comme un véritable enregistrement de l'histoire" dans la première phrase de la réponse.
Lorsque "Consultation 1.0" a été lancée pour la première fois, la démonstration sur site a démontré ses excellentes capacités de dialogue multi-tours et de co-création homme-machine. Trois mois plus tard, "Consultation 2.0" a apporté davantage d'améliorations dans l'exactitude des informations sur les connaissances, la capacité de jugement logique, la capacité de compréhension du contexte et la créativité.
Par exemple, utilisez "Consultation 2.0" pour planifier votre voyage et dites-lui de faire un tableau :
Ou mettez à l'épreuve la chose à propos de "les copines ont raison":
Non seulement vous pouvez comprendre les copines, mais "Discussion 2.0" peut aussi lire un peu d'ironie ou de ton yin et yang :
Qu'est-il arrivé à "Consultation 2.0" au cours des trois derniers mois, en fait, il suffit de regarder les résultats de quelques examens. Dans les résultats d'évaluation de trois référentiels d'évaluation de grands modèles linguistiques faisant autorité (MMLU, AGI, C-) dans le monde entier, les performances de "Consultation 2.0" ont dépassé ChatGPT.
De plus, certaines personnes ont peut-être remarqué sur la photo de démonstration du dialogue entre Lao Tzu et Confucius que "Shangshang 2.0" a une démonstration en écran partagé des versions XL et S. Il existe de nombreux grands modèles avec différents paramètres et tailles pour que les clients puissent choisissez, et la version du modèle avec les paramètres les plus petits peut même fonctionner sur des terminaux mobiles.
En termes de langue, "Consultation 2.0" a ajouté de nouvelles langues telles que l'arabe et le cantonais. Soutenir l'interaction entre le chinois simplifié, le chinois traditionnel et l'anglais et d'autres langues. Et la prise en charge de "Consultation 2.0" pour les textes super longs a également été augmentée de 2k à 32k, permettant une meilleure compréhension du contexte.
Pour les fabricants de modèles à grande échelle orientés ToB tels que SenseTime, la qualité du grand modèle lui-même n'est qu'un point de départ.Comment les entreprises clientes peuvent-elles définir un contour spécifique pour le grand modèle en fonction de leurs propres besoins, et comment ce dernier peut-il atteindre un processus itératif stable et l'aborder étape par étape ?
Capacités de fusion de la base de connaissances ouverte
Après que SenseTime ait formé une "Consultation 2.0" avec une super compréhension, un dialogue, un raisonnement et d'autres capacités, les entreprises clientes peuvent également utiliser leurs connaissances d'entreprise accumulées pour transformer le grand modèle en un "talent professionnel" qui peut bien servir leurs propres entreprises. .
Comment résoudre efficacement ces problèmes d'ingénierie est très important.
La "Consultation 2.0" lancée par SenseTime a ajouté une interface d'intégration de la base de connaissances, permettant aux entreprises d'acquérir rapidement des connaissances et des capacités professionnelles sans attendre les mises à niveau itératives du grand modèle de base. Une fois la base de connaissances intégrée, la capacité du modèle à mettre à jour et à comprendre les connaissances peut être améliorée et la compréhension et l'acquisition rapides des connaissances peuvent être renforcées.Dans le même temps, le coût des modèles de formation des clients sera considérablement réduit.
Wang Xiaogang, co-fondateur et scientifique en chef de SenseTime, a déclaré : "Avec la base de connaissances, il est relativement simple et pratique de résumer les connaissances correspondantes dans ce domaine sans entrer dans notre modèle lui-même", et parce que les informations sont plus précises, a également résolu le problème des hallucinations.
Digital Human comme outil de productivité
Parallèlement à la mise à niveau complète de "Consultation 2.0", les capacités de la plate-forme AIGC dans le système "SenseNova Large Model" sont constamment en train de percer, et après l'intégration des capacités de langage des grands modèles, une amélioration a été réalisée.
Par exemple, la plate-forme de création Wenshengtu "Miaohua" mentionnée ci-dessus a été mise à niveau vers la version 3.0 cette fois, les paramètres du modèle ont été augmentés de l'ordre de 7 milliards et les détails des images générées ont atteint le niveau de la photographie professionnelle. En ce qui concerne le casse-tête des mots rapides, "Discussion 2.0" fournit à "Miahua 3.0" la possibilité d'étendre automatiquement les mots rapides. Cela signifie que les utilisateurs n'ont besoin que de quelques mots simples pour obtenir un résultat d'image détaillé.
Dans le domaine des humains numériques, la plate-forme de génération de vidéo humaine numérique de SenseTime "Ruying" a également été mise à niveau vers la version 2.0. La fluidité de la voix et de la bouche de "Ruying 2.0" a augmenté de plus de 30 % et la vidéo 4K peut être réalisée. Effet . Lors de la conférence de presse, les images humaines numériques de l'économiste Ren Zeping, Maître Yancan et Xu Li sont apparues, et l'effet était assez réaliste.
Dans la scène d'atterrissage du grand modèle, l'humain numérique est une méthode de transport très importante.Le streaming en direct humain numérique très populaire récent est une scène typique. La diffusion en direct, y compris de courtes vidéos, est également l'une des scènes les plus ciblées pour les clients au cours des trois mois de test interne et public de "Ruying 2.0".
Luan Qing, directeur général du département de divertissement numérique de SenseTime, a déclaré que dans le cadre de l'AIGC, "Discussion 2.0" peut entreprendre la rédaction et la création de scripts pour de courtes diffusions vidéo en direct. Et la façon dont "Ronin 2.0" peut suivre la tendance en matière de communication dépend également de la grande capacité du modèle linguistique de "Consultation 2.0" à apprendre le dernier corpus vidéo court.
En plus des scènes vidéo courtes et de diffusion en direct, "Ronin 2.0" accélère son entrée dans tous les horizons.
Par exemple, dans le secteur de l'assurance, chaque spécialiste de l'assurance a besoin de promouvoir de nouveaux produits ou d'autres contenus personnalisés axés sur les services pour les clients. "Ruying 2.0" peut remplacer les spécialistes de l'assurance lors des anniversaires des clients ou lors de la sortie de certains produits de gestion de patrimoine. Contenu et services personnalisés ; dans le secteur de l'éducation, "Roning 2.0" a commencé à aider les enseignants des principales plateformes nationales d'enseignement professionnel à produire du matériel pédagogique pour répondre aux besoins internes de production vidéo.
"Digital Human est un outil d'efficacité typique au sein d'une entreprise", a déclaré Luan Qing.
En tant que plate-forme de création AIGC, Ronin continuera à approfondir dans le domaine de la génération vidéo à l'avenir. Luan Qing pense que c'est parce que la création de contenu subit un changement dimensionnel du texte, des images aux vidéos.
Vers le multimodal
Les images et les informations vidéo représentant une part énorme dans le monde réel, dépassant de loin les informations linguistiques, le besoin de comprendre le monde réel fera évoluer l'avenir du modèle de base à grande échelle vers la multimodalité, qui a été vue pour la première fois via "Consultation 2.0" Clue.
En plus du texte, "Consultation 2.0" a la capacité d'analyser les images et le contenu vidéo.
Par exemple, comme le montre la figure ci-dessus, "Consultation 2.0" peut identifier des objets spécifiques dans une photo de bureau en désordre, et combiner les caractéristiques de chaque objet pour répondre "que faites-vous quand vous avez chaud ?" C'est proche de la conception de processus questions ouvertes ; ou après avoir vu une photo de menu, aidez les utilisateurs à proposer des options à la carte dans une fourchette de prix limitée.
SenseTime, qui est initialement entré dans le domaine de l'IA à partir de la recherche de la vision par ordinateur et a traversé une vague d'IA, est de plus convaincu que cette vague de grands modèles sera une réelle opportunité.
La recherche actuelle sur les modèles à grande échelle est basée sur l'architecture du réseau de transformateurs. "SenseTime est engagé dans la recherche de modèles à grande échelle depuis 2019. À cette époque, c'était la voie pour faire de la vision." Selon Wang Xiaogang, co-fondateur et scientifique en chef de SenseTime, certaines normes visuelles et normes de langage naturel sont progressivement convergent aujourd'hui. , "Lorsque nous nous développons dans une direction multimodale, le langage et la vision commencent à avoir une intégration plus profonde, ce qui reflète une accumulation et une capacité relativement fortes dans ce domaine."
De nombreux scénarios d'application que nous rencontrons dans la vie réelle, comme dans une série de domaines tels que la conduite autonome et la robotique, doivent être appliqués à la multimodalité. "Cependant, les données multimodales et certaines tâches ne sont souvent pas faciles à obtenir et nécessitent une accumulation profonde de l'industrie. C'est aussi l'avantage de SenseTime", a présenté Wang Xiaogang.
Trois mois après sa première apparition publique à la Conférence mondiale sur l'intelligence artificielle de cette année, le système "Daily New SenseNova Large Model" de SenseTime a été entièrement mis à niveau et ouvert aux utilisateurs en entreprise. Dans le même temps, beaucoup de gens n'ont pas remarqué que Shangtang a également publié un modèle multimodal à grande échelle d'universitaires avec le Laboratoire d'intelligence artificielle de Shanghai. À l'avenir, il vaut la peine d'attendre avec impatience si SenseTime peut prendre l'initiative de trouver la clé de la route multimodale.
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
L'évolution de "Consultation 2.0", debout devant le grand modèle de mise en page de SenseTime
Nous vivons une vague massive de nouvelles infrastructures d'IA.
En l'espace de six mois, le modèle à grande échelle s'est rapidement répandu à partir d'un consensus à petite échelle. Selon le rapport publié par le CITIC, le nombre de modèles à grande échelle avec plus d'un milliard de modèles de paramètres publiés à ce jour est proche de 80, dont la moitié proviennent d'entreprises et l'autre moitié d'institutions de recherche scientifique.
Dans le processus de formation progressive de l'écologie domestique des modèles à grande échelle, il a également commencé à abandonner sa poursuite d'OpenAI et à trouver progressivement sa propre voie. La norme pour mesurer le succès des grands modèles a également changé, passant de la compétition de paramètres des ponts durs et des chevaux durs à la résolution de problèmes réels.
SenseTime a annoncé le système de modèles à grande échelle de « SenseNova » pour la première fois en avril de cette année, et a publié un certain nombre de modèles et d'applications d'IA à grande échelle, y compris le modèle de langage à grande échelle chinois « SenseChat ». Récemment, lors de la conférence mondiale sur l'intelligence artificielle, SenseTime a annoncé la première itération majeure du système "Daily New SenseNova Large Model". Le grand modèle de langage "négociation" a été mis à niveau vers la version 2.0.
C'est plus fort. Dans l'ensemble du système de mise en page de modèles à grande échelle SenseTime, son rôle devient de plus en plus évident.
"Négociation 2.0" plus forte
Comment rendre compte visuellement de l'amélioration capacitaire de "Consultation 2.0" ? Xu Li, président et PDG de SenseTime, a démontré un dialogue inexistant entre Lao Tzu et Confucius.
Confucius a dit : "J'ai entendu le nom de Maître, et c'est vraiment une grande chance de vous rencontrer aujourd'hui !"
Lao Tseu dit avec un sourire : "Non, je marche sur le même chemin que toi, pourquoi les 'trois vies' ?"
Et selon la question, tout le dialogue apparaît en chinois classique. Et afin d'éviter toute confusion, "Consultation 2.0" a également énoncé la prémisse de "ce n'est qu'une fiction et ne doit pas être considérée comme un véritable enregistrement de l'histoire" dans la première phrase de la réponse.
Lorsque "Consultation 1.0" a été lancée pour la première fois, la démonstration sur site a démontré ses excellentes capacités de dialogue multi-tours et de co-création homme-machine. Trois mois plus tard, "Consultation 2.0" a apporté davantage d'améliorations dans l'exactitude des informations sur les connaissances, la capacité de jugement logique, la capacité de compréhension du contexte et la créativité.
Par exemple, utilisez "Consultation 2.0" pour planifier votre voyage et dites-lui de faire un tableau :
En termes de langue, "Consultation 2.0" a ajouté de nouvelles langues telles que l'arabe et le cantonais. Soutenir l'interaction entre le chinois simplifié, le chinois traditionnel et l'anglais et d'autres langues. Et la prise en charge de "Consultation 2.0" pour les textes super longs a également été augmentée de 2k à 32k, permettant une meilleure compréhension du contexte.
Pour les fabricants de modèles à grande échelle orientés ToB tels que SenseTime, la qualité du grand modèle lui-même n'est qu'un point de départ.Comment les entreprises clientes peuvent-elles définir un contour spécifique pour le grand modèle en fonction de leurs propres besoins, et comment ce dernier peut-il atteindre un processus itératif stable et l'aborder étape par étape ?
Capacités de fusion de la base de connaissances ouverte
Après que SenseTime ait formé une "Consultation 2.0" avec une super compréhension, un dialogue, un raisonnement et d'autres capacités, les entreprises clientes peuvent également utiliser leurs connaissances d'entreprise accumulées pour transformer le grand modèle en un "talent professionnel" qui peut bien servir leurs propres entreprises. .
Comment résoudre efficacement ces problèmes d'ingénierie est très important.
Wang Xiaogang, co-fondateur et scientifique en chef de SenseTime, a déclaré : "Avec la base de connaissances, il est relativement simple et pratique de résumer les connaissances correspondantes dans ce domaine sans entrer dans notre modèle lui-même", et parce que les informations sont plus précises, a également résolu le problème des hallucinations.
Digital Human comme outil de productivité
Parallèlement à la mise à niveau complète de "Consultation 2.0", les capacités de la plate-forme AIGC dans le système "SenseNova Large Model" sont constamment en train de percer, et après l'intégration des capacités de langage des grands modèles, une amélioration a été réalisée.
Par exemple, la plate-forme de création Wenshengtu "Miaohua" mentionnée ci-dessus a été mise à niveau vers la version 3.0 cette fois, les paramètres du modèle ont été augmentés de l'ordre de 7 milliards et les détails des images générées ont atteint le niveau de la photographie professionnelle. En ce qui concerne le casse-tête des mots rapides, "Discussion 2.0" fournit à "Miahua 3.0" la possibilité d'étendre automatiquement les mots rapides. Cela signifie que les utilisateurs n'ont besoin que de quelques mots simples pour obtenir un résultat d'image détaillé.
Dans le domaine des humains numériques, la plate-forme de génération de vidéo humaine numérique de SenseTime "Ruying" a également été mise à niveau vers la version 2.0. La fluidité de la voix et de la bouche de "Ruying 2.0" a augmenté de plus de 30 % et la vidéo 4K peut être réalisée. Effet . Lors de la conférence de presse, les images humaines numériques de l'économiste Ren Zeping, Maître Yancan et Xu Li sont apparues, et l'effet était assez réaliste.
Dans la scène d'atterrissage du grand modèle, l'humain numérique est une méthode de transport très importante.Le streaming en direct humain numérique très populaire récent est une scène typique. La diffusion en direct, y compris de courtes vidéos, est également l'une des scènes les plus ciblées pour les clients au cours des trois mois de test interne et public de "Ruying 2.0".
Luan Qing, directeur général du département de divertissement numérique de SenseTime, a déclaré que dans le cadre de l'AIGC, "Discussion 2.0" peut entreprendre la rédaction et la création de scripts pour de courtes diffusions vidéo en direct. Et la façon dont "Ronin 2.0" peut suivre la tendance en matière de communication dépend également de la grande capacité du modèle linguistique de "Consultation 2.0" à apprendre le dernier corpus vidéo court.
En plus des scènes vidéo courtes et de diffusion en direct, "Ronin 2.0" accélère son entrée dans tous les horizons.
Par exemple, dans le secteur de l'assurance, chaque spécialiste de l'assurance a besoin de promouvoir de nouveaux produits ou d'autres contenus personnalisés axés sur les services pour les clients. "Ruying 2.0" peut remplacer les spécialistes de l'assurance lors des anniversaires des clients ou lors de la sortie de certains produits de gestion de patrimoine. Contenu et services personnalisés ; dans le secteur de l'éducation, "Roning 2.0" a commencé à aider les enseignants des principales plateformes nationales d'enseignement professionnel à produire du matériel pédagogique pour répondre aux besoins internes de production vidéo.
"Digital Human est un outil d'efficacité typique au sein d'une entreprise", a déclaré Luan Qing.
En tant que plate-forme de création AIGC, Ronin continuera à approfondir dans le domaine de la génération vidéo à l'avenir. Luan Qing pense que c'est parce que la création de contenu subit un changement dimensionnel du texte, des images aux vidéos.
Vers le multimodal
Les images et les informations vidéo représentant une part énorme dans le monde réel, dépassant de loin les informations linguistiques, le besoin de comprendre le monde réel fera évoluer l'avenir du modèle de base à grande échelle vers la multimodalité, qui a été vue pour la première fois via "Consultation 2.0" Clue.
En plus du texte, "Consultation 2.0" a la capacité d'analyser les images et le contenu vidéo.
La recherche actuelle sur les modèles à grande échelle est basée sur l'architecture du réseau de transformateurs. "SenseTime est engagé dans la recherche de modèles à grande échelle depuis 2019. À cette époque, c'était la voie pour faire de la vision." Selon Wang Xiaogang, co-fondateur et scientifique en chef de SenseTime, certaines normes visuelles et normes de langage naturel sont progressivement convergent aujourd'hui. , "Lorsque nous nous développons dans une direction multimodale, le langage et la vision commencent à avoir une intégration plus profonde, ce qui reflète une accumulation et une capacité relativement fortes dans ce domaine."
De nombreux scénarios d'application que nous rencontrons dans la vie réelle, comme dans une série de domaines tels que la conduite autonome et la robotique, doivent être appliqués à la multimodalité. "Cependant, les données multimodales et certaines tâches ne sont souvent pas faciles à obtenir et nécessitent une accumulation profonde de l'industrie. C'est aussi l'avantage de SenseTime", a présenté Wang Xiaogang.
Trois mois après sa première apparition publique à la Conférence mondiale sur l'intelligence artificielle de cette année, le système "Daily New SenseNova Large Model" de SenseTime a été entièrement mis à niveau et ouvert aux utilisateurs en entreprise. Dans le même temps, beaucoup de gens n'ont pas remarqué que Shangtang a également publié un modèle multimodal à grande échelle d'universitaires avec le Laboratoire d'intelligence artificielle de Shanghai. À l'avenir, il vaut la peine d'attendre avec impatience si SenseTime peut prendre l'initiative de trouver la clé de la route multimodale.