Le modèle de texte long le plus puissant au monde, capable de lire 350 000 caractères chinois à la fois : Baichuan2-192K est en ligne

2023-11-01 06:04:35

Lire des livres avec de grands modèles n’a jamais été aussi rapide.

Source de l’image : Généré par Unbounded AI

Les start-ups nationales de modèles réduits à grande échelle créent de nouveaux records à la pointe de la technologie.

Le 30 octobre, Baichuan Intelligence a officiellement publié le grand modèle Baichuan2-192K à longue fenêtre, qui a augmenté la longueur de la fenêtre contextuelle du grand modèle de langage (LLM) à 192K token.

Cela équivaut à ce que le grand modèle traite environ 350 000 caractères chinois à la fois, ce qui est 14 fois plus long que GPT-4 (32 000 jetons, environ 25 000 caractères) et 4,4 fois plus long que Claude 2.0 (100 000 caractères, environ 80 000 caractères).

En d’autres termes, Baichuan2-192K peut lire une copie du problème à trois corps 2 en une seule séance, ce qui en fait le plus grand modèle avec la plus longue fenêtre de contexte de traitement au monde. En outre, il surpasse également considérablement ses concurrents dans de multiples dimensions telles que la qualité de la génération de texte, la compréhension contextuelle et la capacité de questions-réponses.

Qu’est-ce qu’un grand modèle capable de comprendre des textes très longs à la fois ? Baichuan Intelligent a fait une démonstration simple.

Téléchargez un fichier PDF de l’intégralité de « Three-Body Problem 2 : Dark Forest », et le modèle Baichuan est de 300 000 mots. Ensuite, si vous posez des questions sur le roman, le modèle peut donner une réponse concise et précise.

Parfois, nous nous tournons vers l’IA pour obtenir de l’aide, non pas pour utiliser leur imagination, mais pour extraire des informations précises. Avec Baichuan2-192K, nous pouvons rapidement déchiffrer des dizaines, voire des centaines de pages de documents contractuels, et laisser l’IA donner rapidement un résumé concis, en arrondissant la lecture de la vitesse quantique :

Que se passe-t-il si je reçois soudainement un nouveau devoir et que j’ai un tas de fichiers à lire ?

Vous pouvez directement l’empaqueter et le télécharger ensemble, et le modèle Baichuan peut facilement intégrer cinq articles de presse en un seul.

Au fur et à mesure que le contenu que le grand modèle peut comprendre devient plus long, plus il sera appliqué dans de directions différentes. Comme nous le savons tous, la capacité à modéliser un texte long est une condition préalable à l’application de nombreux scénarios. Cette fois, Baichuan a pris la tête de l’industrie.

De dizaines de milliers de mots à des centaines de milliers de mots, les grandes startups se précipitent pour saisir la « longue fenêtre"

Si vous prêtez attention à l’application de grands modèles dans le sens de la compréhension du texte, vous remarquerez peut-être un phénomène : au début, les textes utilisés pour évaluer la capacité du modèle peuvent être des rapports financiers et des rapports techniques, qui vont généralement d’une douzaine à des dizaines de pages, et le nombre de mots est généralement de dizaines de milliers de mots. Mais ensuite, le texte test s’est progressivement transformé en plusieurs heures de procès-verbaux de réunion, ou des centaines de milliers de mots de romans, et la compétition est devenue de plus en plus intense et difficile.

Dans le même temps, les grandes entreprises modèles qui prétendent être capables de comprendre des contextes plus longs gagnent du terrain. Par exemple, il y a quelque temps, Anthropic, la société derrière Claude, qui prétendait être capable de réaliser une fenêtre contextuelle de 100 000 jetons, a reçu des milliards de dollars de financement de Microsoft et Google, poussant la course aux armements des grands modèles à un nouveau niveau.

Pourquoi ces entreprises contestent-elles les longs textes ?

Tout d’abord, du point de vue de l’application, de nombreux travailleurs qui utilisent de grands modèles pour améliorer la productivité doivent inévitablement faire face à de longs textes, tels que des avocats, des analystes, des consultants, etc., et plus la fenêtre contextuelle est grande, plus l’éventail de choses que ces personnes peuvent faire avec de grands modèles est large ; Deuxièmement, d’un point de vue technique, plus la fenêtre peut contenir d’informations, plus le modèle peut se référer à des informations lors de la génération du mot suivant, moins il est probable que des « hallucinations » se produisent, et plus l’information sera précise, ce qui est une condition nécessaire à la mise en œuvre de la technologie des grands modèles. Par conséquent, tout en essayant d’améliorer les performances du modèle, les entreprises sont également en concurrence pour voir qui peut agrandir la fenêtre contextuelle et ainsi la mettre dans plus de scénarios d’application.

Comme vous pouvez le voir dans certains des exemples présentés précédemment, Baichuan2-192K excelle à la fois dans la qualité de la génération de texte et dans la compréhension contextuelle. Et, en plus de ces résultats qualitatifs, nous pouvons également le voir dans certaines données d’évaluation quantitatives.

Baichuan2-192K : Plus le fichier est long, plus l’avantage est évident

Dans l’évaluation de la qualité de la génération de texte, une mesure très importante est appelée « confusion » : lorsque nous prenons des documents de haute qualité qui sont conformes aux habitudes de langage naturel humain comme ensemble de test, plus la probabilité que le modèle génère la version chinoise de l’ensemble de test est élevée, plus la confusion du modèle est faible et meilleur est le modèle.

L’ensemble de test utilisé pour tester la perplexité du grand modèle de Baichuan est appelé PG-19. Cet ensemble de données a été produit par les chercheurs de DeepMind et a été réalisé à l’aide de matériaux provenant des livres du Projet Gutenberg, de sorte que PG-19 a une qualité de livre.

Les résultats des tests sont présentés dans la figure ci-dessous. Comme vous pouvez le voir, dans la phase initiale (à gauche de l’axe horizontal, lorsque la longueur du contexte est plus courte), le niveau de confusion de Baichuan2-192K est à un niveau bas. Au fur et à mesure que la longueur du contexte augmente, ses avantages deviennent plus apparents, et même la confusion continue de diminuer. Cela suggère que Baichuan2-192K est mieux à même de maintenir la qualité de génération de texte au niveau du livre dans des contextes longs.

En termes de compréhension contextuelle, les performances de Baichuan2-192K sont également très impressionnantes.

Cette compétence est évaluée à l’aide de Long, le benchmark de compréhension de texte faisant autorité pour les longues fenêtres. Long est une liste publiée par l’Université de Californie à Berkeley et d’autres universités pour l’évaluation des modèles de fenêtres longues, qui mesure principalement la capacité du modèle à se souvenir et à comprendre le contenu des fenêtres longues, et plus le score du modèle est élevé, mieux c’est.

Comme vous pouvez le voir dans les résultats de l’évaluation dans le graphique ci-dessous, Baichuan2-192K a été en mesure de maintenir des performances élevées et constantes à mesure que la longueur du contexte augmente, même après que la longueur de la fenêtre dépasse 100K. En revanche, les performances globales de Claude 2 chutent considérablement après une fenêtre de plus de 80K.

De plus, le modèle a été testé sur Dureader, NarrativeQA, TriviaQA, LSHT et d’autres ensembles d’évaluation de questions-réponses et de résumés en chinois et en anglais. Les résultats montrent que le Baichuan 2-192K est également performant, surpassant les autres modèles dans la plupart des tâches d’évaluation de texte long.

En bref, plus le contenu est traité longtemps, meilleures sont les performances relatives du grand modèle de Baichuan.

**192K contexte super long, comment Baichuan a-t-il fait ? **

Il existe un consensus dans l’industrie de l’IA sur le fait que l’extension de la fenêtre contextuelle peut améliorer efficacement les performances des grands modèles, mais la fenêtre contextuelle ultra-longue signifie des exigences de puissance de calcul plus élevées et une plus grande pression sur la mémoire.

Afin d’alléger cette pression, certaines méthodes de compromis ont émergé dans l’industrie, telles que la réduction de la taille du modèle ; Laissez le modèle abandonner activement le texte précédent en faisant glisser la fenêtre, etc., et ne conservez le mécanisme d’attention que pour la dernière entrée ; En sous-échantillonnant le contexte ou RAG (Retrieval Enhanced Generation), le mécanisme d’attention qui ne retient qu’une partie de l’entrée, et ainsi de suite.

Bien que ces méthodes puissent augmenter la longueur de la fenêtre contextuelle, elles nuisent toutes aux performances du modèle à des degrés divers. En d’autres termes, ils sacrifient les performances d’autres aspects du modèle en échange de la longueur de la fenêtre contextuelle, comme l’incapacité du modèle à répondre à des questions complexes basées sur des informations en texte intégral et la difficulté de prendre en compte les réponses dans plusieurs textes.

Le Baichaun2-192K** publié par Baichuan cette fois-ci atteint un équilibre entre la longueur de la fenêtre et les performances du modèle grâce à l’optimisation ultime des algorithmes et de l’ingénierie, et permet d’améliorer simultanément la longueur de la fenêtre et les performances du modèle**.

En termes d’algorithmes, Baichuan Intelligent propose un schéma d’extrapolation pour le codage de position dynamique de RoPE et ALiBi, qui peut effectuer différents degrés d’interpolation dynamique de masque d’attention d’ALiBi_mask de différentes résolutions, ce qui peut améliorer la capacité de modélisation du modèle à s’appuyer sur de longues séquences tout en assurant la résolution.

En termes d’ingénierie, sur la base du cadre d’apprentissage distribué auto-développé, Baichuan Intelligent intègre toutes les technologies d’optimisation avancées du marché, y compris le parallélisme tensoriel, le parallélisme de flux, le parallélisme de séquence, les fonctions de recalcul et de déchargement, etc., pour créer un ensemble complet de solutions distribuées parallèles 4D. Cette solution peut trouver automatiquement la stratégie distribuée la plus appropriée en fonction de la situation de charge spécifique, ce qui réduit considérablement l’occupation de la mémoire dans le processus d’inférence à longue fenêtre.

Combattez la bataille des grands modèles, soyez rapide

Fondée en avril de cette année, Baichuan Intelligence peut presque être considérée comme une start-up modèle à grande échelle avec l’itération technologique la plus rapide du secteur. En seulement six mois depuis sa création, la société a publié quatre modèles commerciaux open source et gratuits, Baichuan-7B/13B et Baichuan2-7B/13B, ainsi que deux modèles fermés, Baichuan-53B et Baichuan2-53B.

En moyenne, un nouveau grand modèle sort chaque mois.

La série de grands modèles Baichuan intègre des technologies de compréhension de l’intention, de récupération d’informations et d’apprentissage par renforcement, combinées à un réglage fin supervisé et à un alignement de l’intention humaine, et fonctionnent bien dans les domaines de la réponse aux questions de connaissances et de la création de texte. Ces grands modèles sont également privilégiés dans l’industrie en raison de leurs capacités : le nombre cumulé de téléchargements de la série de modèles open source Baichuan dans les principales communautés open source a dépassé les 6 millions ; Baichuan 2 est en avance sur Llama 2 dans toutes ses dimensions, menant le développement de l’écosystème open source de la Chine.

Le 31 août, Baichuan Intelligent a pris les devants en adoptant les « Mesures provisoires pour la gestion des services d’intelligence artificielle générative », et a été la seule entreprise modèle à grande échelle fondée cette année parmi le premier lot de 8 entreprises. Le 25 septembre, Baichuan Intelligent a ouvert l’interface API de Baichuan, est officiellement entré dans le champ To B et a commencé le processus de commercialisation.

On peut dire que de la recherche et du développement technologique à l’atterrissage, la vitesse de Baichuan est assez rapide.

Le Baichuan2-192K, qui vient de sortir, a officiellement commencé le test bêta fermé et sera ouvert aux partenaires principaux sous la forme d’appels d’API. Baichuan a déclaré qu’il avait conclu une coopération avec des médias financiers et des cabinets d’avocats, et qu’il avait appliqué les capacités de contexte long de pointe de Baichuan2-192K à des scénarios spécifiques tels que les médias, la finance et le droit, et qu’il serait bientôt fourni aux utilisateurs d’entreprise sous la forme d’appels d’API et de déploiement privatisé.

Après avoir été entièrement ouvert sous la forme d’API, Baichuan2-192K peut être profondément intégré à un grand nombre de scénarios verticaux, jouer un rôle dans le travail, la vie et l’apprentissage des gens, et aider les utilisateurs de l’industrie à améliorer considérablement l’efficacité. Baichuan2-192K peut traiter et analyser des centaines de pages de documents à la fois, ce qui est d’une grande aide pour les scénarios du monde réel tels que le résumé de documents longs, l’examen de documents longs, la rédaction d’articles ou de rapports longs et l’assistance à la programmation complexe.

Auparavant, Wang Xiaochuan, fondateur et PDG de Baichuan Intelligence, avait révélé qu’au cours du second semestre de cette année, Baichuan lancera un grand modèle de 100 milliards de dollars, et qu’il devrait y avoir un déploiement de super application C-end l’année prochaine.

Face à l’écart avec OpenAI, Wang Xiaochuan a admis qu’il y a effectivement un fossé entre nous et OpenAI en termes d’idéaux, l’objectif d’OpenAI est d’explorer le plafond de l’intelligence, et ils espèrent même concevoir une technologie qui connecte 10 millions de GPU entre eux. Cependant, en termes d’application, nous allons plus vite que les États-Unis, et l’expérience applicative et écologique accumulée à l’ère d’Internet peut nous faire aller plus vite et plus loin, donc le concept de Baichuan pour faire un grand modèle s’appelle « Un pas plus lent sur l’idéal, trois pas plus rapides sur le terrain ».

De ce point de vue, Baichuan2-192K est une extension de ce concept, et la plus longue fenêtre contextuelle au monde accélérera sans aucun doute le processus de la technologie intelligente des grands modèles de Baichuan.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime

Récompense
1
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
#Show My Alpha Points
19k Popularité
#SOL Futures Reach New High
2k Popularité
#ETH ETF Sees 12 Weeks of Inflows
2k Popularité
#Crypto Market Rebound
170k Popularité
#CandyDrop Airdrop Event 6.0
96k Popularité

Épingler