Le meilleur traitement contre les hallucinations du pays ! Avec 53 milliards de paramètres, la capacité de raisonnement de Baichuan2 a grimpé de 100 % et l’API a été ouverte à un usage commercial pour la première fois.

2023-09-26 04:13:21

Source originale : Xinzhiyuan

Source de l'image : générée par Unbounded AI

Le grand modèle de Baichuan a été entièrement mis à niveau hier !

Le 25 septembre seulement, Baichuan Intelligent a officiellement publié un nouveau grand modèle de 53 milliards de paramètres, le Baichuan2-53B.

Adresse de l'expérience :

Cette fois, ses capacités de raisonnement mathématique et logique sont considérablement améliorées.

Plus important encore, grâce à un système de données de haute qualité et à l'amélioration de la recherche, l'hallucination du Baichuan2-53B a été considérablement réduite, ce qui en fait le plus grand modèle national avec le plus faible problème d'hallucination.

De plus, en tant que l'une des premières grandes entreprises modèles à réussir le processus d'enregistrement, Baichuan Intelligence a également ouvert l'interface API Baichuan2-53B.

Cela signifie que Baichuan Intelligence est officiellement entré dans le domaine To B et va désormais lancer le processus de commercialisation.

Traitement des illusions, loin devant en Chine

La chose la plus remarquable est que le Baichuan2-53B récemment amélioré est déjà loin en avance dans l'industrie nationale en termes de traitement des « illusions ».

Pour le dire simplement, « illusion » signifie que LLM parle souvent de manière sérieuse et absurde sans aucun fait connu pour l'étayer.

Bien que GPT-4 fonctionne bien dans diverses tâches, il ne peut échapper à cette malédiction.

Alors pourquoi les grands modèles ont-ils des « hallucinations » ?

En avril, John Schulman, co-fondateur et chercheur d'OpenAI, a expliqué les difficultés difficiles à surmonter avec les grands modèles dans un discours prononcé à l'UC Berkeley.

Selon Schulman, il existe un « graphe de connaissances » caché à l’intérieur de la boîte noire du LLM. S'il n'y a aucune connaissance dans cette architecture, et enseigner uniquement les connaissances du grand modèle (c'est-à-dire le clonage comportemental) via SFT, c'est en fait lui apprendre à produire des illusions.

En réponse à ce problème, comment Baichuan Intelligence atteint-il des performances de pointe dans le « traitement des illusions » de grands modèles ?

En termes de construction de données de haute qualité, Baichuan2-53B a créé un système de qualité de données unique.

Classez les données en fonction de normes de qualité faible et élevée pour garantir que Baichuan2-53B utilise toujours des données de haute qualité pour la pré-formation.

De plus, en termes d'acquisition d'informations, Baichuan2-53B a mis à niveau plusieurs modules, y compris des composants clés tels que la compréhension de l'intention de commande, la recherche intelligente et l'amélioration des résultats.

Ce système complet pilote avec précision la recherche de termes de requête grâce à une compréhension approfondie des instructions utilisateur et combine enfin une technologie de modèle de langage étendu pour optimiser la fiabilité de la génération de résultats de modèle, obtenir des résultats de réponse de modèle plus précis et intelligents et réduire les illusions de modèle.

Par exemple, lorsqu'il s'agit d'expliquer le problème du « crochet trois brins, quatre cordes et cinq », GPT-4 dit évidemment des bêtises.

En revanche, Baichuan2-53B a donné la bonne réponse du premier coup.

Pour un autre exemple, la réponse de Baichuan2-53B à la question classique « Zhou Shuren et Lu Xun sont-ils la même personne ? » est à la fois complète et précise.

On peut voir que grâce à la construction d'un système de données de haute qualité et à l'optimisation de la technologie d'amélioration de la recherche, Baichuan2-53B réduit efficacement l'illusion du modèle.

Les résultats après l'évaluation FacTool montrent que Baichuan2-53B a un score global de 140,5, se classant seulement derrière GPT-4 parmi les grands modèles de base traditionnels, et se situe au premier niveau national.

FacTool est un cadre général proposé conjointement par des chercheurs de l'Université Jiao Tong de Shanghai, de l'Université Carnegie Mellon, de l'Université de la ville de Hong Kong, de Meta et d'autres institutions. Il peut vérifier l'exactitude factuelle du contenu généré par de grands modèles (il peut également vérifier l'exactitude factuelle contenu général).

adresse du projet :

Mise à niveau des capacités, raisonnement à 100 %

En fait, Baichuan2-53B est déjà le sixième grand modèle publié par Baichuan Intelligence.

Depuis la création de Baichuan Intelligence le 10 avril, elle innove à une vitesse étonnante : la vitesse d'itération a atteint en moyenne le lancement d'un grand modèle tous les 28 jours !

Dès le 8 août, lorsque Baichuan2-53B a été publié pour la première fois, il a montré d'excellentes capacités de questions-réponses et de création littéraire.

Si vous souhaitez savoir quels sont les indicateurs importants pour évaluer si un grand modèle est leader, je pense que « les capacités de raisonnement mathématique et logique » seront la réponse donnée par de nombreuses personnes dans l'industrie.

Cette fois, basé sur Baichuan-53B, Baichuan2-53B se concentre sur le renforcement de ses capacités de raisonnement mathématique et logique, et améliore également de manière globale ses capacités globales.

Plus précisément, sa capacité de raisonnement logique est augmentée de 100 %, sa capacité mathématique est augmentée de 31 %, sa capacité de compréhension du langage est augmentée de 29 %, sa capacité de création de texte est augmentée de 18 % et sa capacité de questions et réponses est augmentée. de 9%.

### Raisonnement mathématique

Baichuan2-53B, qui a considérablement amélioré ses capacités mathématiques, peut facilement résoudre des problèmes de mots mathématiques.

Par exemple, la somme de deux nombres est 572 et le chiffre des unités de l’un des addends est 0. Après avoir supprimé le 0, c’est identique au deuxième addend. Alors, quels sont ces deux chiffres ?

Baichuan2-53B répertorie l'équation, en supposant qu'un addend est 10A et l'autre est B, puis, sur la base des conditions connues, la solution correcte est obtenue.

Pour un autre exemple, dans la question ci-dessous, Baichuan2-53B a d'abord calculé le revenu total du transport, puis l'a divisé par la perte par boîte de verre pour obtenir le nombre de boîtes de verre endommagées.

Prenons une autre question classique : « Combien de kilomètres y a-t-il entre deux endroits ? » Baichuan2-53B a obtenu la bonne réponse grâce à des calculs étape par étape.

En termes de raisonnement, commençons par une question simple : la météo annonçait qu’il pleuvrait ce mercredi, et il a plu hier. Quel jour de la semaine sommes-nous aujourd’hui ?

Baichuan2-53B a trouvé sans effort « Jeudi » !

Ensuite, le raisonnement est légèrement plus difficile : supposons qu’il y ait un étang contenant une quantité infinie d’eau.

Il y a deux bouilloires vides d'une capacité respective de 5 litres et 6 litres. Comment puis-je récupérer 3 litres d'eau du bassin avec seulement ces 2 bouilloires ?

Baichuan2-53B a commencé à répondre en douceur et a donné la bonne réponse en 6 étapes.

Après de nombreuses séries de tests, il peut être constaté que les capacités de raisonnement mathématique et logique du Baichuan2-53B amélioré sont effectivement différentes de celles du même modèle. Il s’est grandement amélioré sur des sujets pour lesquels il n’était pas très bon auparavant.

Problème de rapidité

En termes de rapidité, les performances du Baichuan2-53B sont excellentes.

Les Jeux asiatiques de Hangzhou viennent de s'ouvrir et le plus jeune joueur n'a que 9 ans. Baichuan2-53B a également répondu correctement à la dernière question.

Baichuan2-53B a même expliqué avec précision le principe du réseau de neurones derrière Optimus, le robot humanoïde que vient d'annoncer Tesla.

Pour un autre exemple, début septembre de cette année, le 80ème Festival du Film de Venise s'est terminé en Italie.

Y a-t-il des films et des acteurs chinois qui ont remporté des prix à ce festival du film ?

Baichuan2-53B a immédiatement répondu que "Love is a Gun" de Li Hongqi avait remporté le meilleur premier long métrage et que Tony Leung avait remporté le Lion d'or pour l'ensemble de sa carrière.

Le contrat de Boss Mei avec Paris expire fin juin de cette année et il a officiellement rejoint l'Inter Miami en juillet.

Baichuan2-53B le sait aussi très bien.

De même, il peut également vous indiquer avec précision que Druid a remporté un total de 24 tournois du Grand Chelem, dont celui-ci en 2023.

Ouvrez l'API et entrez officiellement dans l'utilisation commerciale

De plus, cette fois, Baichuan2-53B a également officiellement ouvert l'interface API, permettant aux entreprises et aux développeurs d'intégrer le modèle dans leurs propres applications et services.

Adresse API :

Y a-t-il un seuil pour ce service ?

On peut dire que presque aucun. L'interface API de Baichuan2-53B est très pratique et facile à utiliser. Elle ne nécessite qu'une configuration et une intégration simples pour y accéder.

De plus, il est hautement compatible avec l'interface d'OpenAI, ce qui permet aux clients de migrer rapidement, réduisant considérablement à la fois les coûts de déploiement du modèle et les coûts de conversion.

Bref, qu'il s'agisse désormais d'un service client intelligent, d'une écriture intelligente ou d'une recommandation intelligente, tout peut s'appuyer sur les capacités des grands modèles.

Ce qui préoccupe le plus les utilisateurs en entreprise, ce sont les problèmes de conformité en matière de sécurité.

Il n'y a pas lieu de s'inquiéter à ce sujet.

En tant que l'une des premières entreprises de modèles à grande échelle à adopter les « Mesures provisoires pour la gestion des services d'intelligence artificielle générative », Baichuan Intelligent a créé des améliorations de sécurité pour Baichuan2-53B qui couvrent le cycle complet de pré-formation des modèles à grande échelle, réglage et inférence.On peut dire que l'ensemble du processus est sous sécurité.

Grâce aux capacités de modèle riches et puissantes de Baichuan2-53B, les utilisateurs d'entreprise peuvent non seulement mettre à niveau les services existants et réduire les coûts, mais également explorer davantage de scénarios d'application.

On pense qu’à l’heure actuelle, une grande vague d’innovations impressionnantes se prépare déjà dans le sol.

Les références:

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime

Récompense
1
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1Simple Earn Annual Rate 24.4%
39k Popularité
2Gate Launchpad List IKA
41k Popularité
3ETH Trading Volume Surges
42k Popularité
4Gate ETH 10th Anniversary Celebration
22k Popularité
5Trump’s AI Strategy
18k Popularité

Épingler