Benchmark Open Source! Le grand modèle bilingue chinois-anglais le plus fort est ici, avec 34 milliards de paramètres, surpassant tous les modèles open source tels que Llama2-70B

2023-10-13 13:51:44

Auteur:Jin Lei

Source : Qubits

Le modèle bilingue chinois-anglais le plus puissant du monde open source, Wudao Skyhawk 34B, est arrivé !

Quelle est sa force? En un mot :

La capacité complète en chinois et en anglais, la capacité de raisonnement logique, etc., surpassent complètement Llama2-70B et tous les modèles open source précédents!

En termes de capacité de raisonnement, le benchmark d’évaluation IRD du modèle de dialogue est le deuxième après GPT4.

Non seulement le modèle est assez grand pour se battre, mais il envoie également un ensemble complet de périphériques de luxe de niveau « baril familial » en une seule fois.

Ce qui peut avoir un si gros problème, c’est le pionnier de la grande école open source de la Chine, KLCII Research Institute.

Si vous regardez l’approche open source à grand modèle de KLCII au fil des ans, il n’est pas difficile de constater qu’elle mène une nouvelle tendance:

Dès 2021, le plus grand corpus du monde a été rendu public et, en 2022, il a été le premier à transmettre le système open source de technologie de grand modèle FlagOpen et a successivement lancé le système d’évaluation Flag, l’ensemble de données COIG, le modèle vectoriel BGE et d’autres projets d’étoiles de pile à technologie complète.

Cette audace vient du positionnement de KLCII en tant qu’institution de recherche neutre, non commerciale et à but non lucratif, et son objectif principal est une « co-création open source sincère ».

Il est entendu que le modèle de piédestal Aquila2-34B mène le classement complet de 22 repères d’évaluation, y compris la langue, la compréhension, le raisonnement, le code, l’examen et d’autres dimensions d’évaluation.

Voici une image pour ressentir ce sentiment:

△Figure : Résultats de l’évaluation du modèle de base (voir le référentiel open source officiel pour les résultats détaillés de l’évaluation des ensembles de données)

Comme nous venons de le mentionner, l’Institut de recherche en intelligence artificielle KLCII de Beijing met également en œuvre très consciencieusement l’open source jusqu’à la fin, apportant l’open source à l’ensemble du baril familial en une seule fois:

Mise à niveau complète de la série de modèles Aquila2: modèle de base Aquila2-34B / 7B, modèle de dialogue AquilaChat2-34B / 7B, modèle de dialogue AquilaSQL « langage texte-SQL »;

La nouvelle version du modèle vectoriel sémantique BGE est mise à niveau : les quatre principales exigences de recherche sont couvertes.

Cadre de formation parallèle efficace de FlagScale : débit de formation et utilisation des GPU à la pointe de l’industrie ;

Sous-ensemble d’attention haute performance FlagAttention : prise en charge innovante de la formation textuelle longue et du langage Triton.

Ensuite, examinons de plus près le « plus fort open source » cette fois-ci.

Les capacités « Open Source les plus fortes » en un coup d’œil

Comme nous venons de le mentionner, l’Aquila2-34B, l’un des modèles de piédestal qui s’est ouvert dans la pose « open source la plus forte », comprend également un Aquila2-7B plus petit.

Et l’arrivée de ces deux-là rend également le modèle aval très rentable.

Modèle de dialogue open source le plus fort

Après avoir affiné les instructions, l’excellente série de modèles de dialogue AquilaChat2 a été obtenue:

AquilaChat2-34B: C’est le modèle de dialogue bilingue chinois-anglais open source le plus fort, menant à l’évaluation complète subjective + objective;

AquilaChat2-7B : a également réalisé la meilleure performance globale dans le modèle de dialogue chinois-anglais de même ampleur.

△ Résultats de l’évaluation du modèle SFT (voir le référentiel open source officiel pour les résultats détaillés de l’évaluation des ensembles de données)

Description de la revue :

Pour le modèle de dialogue génératif, l’équipe KLCII estime qu’il est nécessaire de juger strictement en fonction des « réponses librement générées du modèle en question saisie », qui est proche du cas d’utilisation réel de l’utilisateur, alors référez-vous à Stanford University HELM[1] Le travail est évalué, ce qui a des exigences plus strictes pour l’apprentissage contextuel et la capacité de suivi de l’instruction du modèle. Au cours du processus d’évaluation proprement dit, certaines réponses du modèle de dialogue ne répondent pas aux exigences de commande et un score « 0 » peut se produire.

Par exemple, si la bonne réponse est « A » selon l’instruction, si le modèle est généré comme « B » ou « La réponse est A », il recevra un score de « 0 ».

Dans le même temps, il existe d’autres méthodes d’évaluation dans l’industrie, telles que laisser le modèle de dialogue d’abord assembler « question + réponse », le modèle calcule la probabilité de chaque texte épissé, vérifie si la réponse avec la probabilité la plus élevée est cohérente avec la bonne réponse, et le modèle de dialogue ne générera aucun contenu pendant le processus d’évaluation mais calculera la probabilité d’option. Cette méthode d’évaluation s’écarte grandement du scénario de dialogue réel, de sorte qu’elle n’est pas adoptée dans l’évaluation du modèle de dialogue génératif.

[1]

Non seulement cela, en termes de capacité de raisonnement, ce qui est très critique pour les grands modèles de langage, les performances d’AquilaChat2-34B sont également très étonnantes——

Il se classe au premier rang du protocole d’évaluation de l’IRD, dépassant des modèles tels que Llama2-70B et GPT3.5, et au deuxième rang après GPT4.

△Figure : Résultats de l’évaluation du modèle SFT sur le jeu de données de l’IRD

Du point de vue de diverses réalisations, qu’il s’agisse d’un modèle de piédestal ou d’un modèle de dialogue, la série Aquila2 peut être qualifiée de plus forte de l’industrie open source.

Longueur de la fenêtre contextuelle jusqu’à 16K

Pour les grands modèles linguistiques, la capacité de gérer une longue saisie de texte et de maintenir la fluidité contextuelle pendant plusieurs cycles de dialogue est la clé pour déterminer si l’expérience est bonne ou mauvaise.

Afin de résoudre ce problème de « souffrir de grands modèles pendant longtemps », l’Institut de recherche sur l’intelligence artificielle KLCII de Beijing a réalisé SFT sur 200 000 ensembles de données de dialogue textuel de haute qualité, étendant la longueur effective de la fenêtre contextuelle du modèle à 16K d’un seul coup.

Et ce n’est pas seulement l’amélioration de la longueur, l’effet a été optimisé.

Par exemple, dans l’effet d’évaluation des quatre questions et réponses à texte long en chinois et en anglais de LongBench, des tâches de résumé de texte long, il est très évident...

AquilaChat2-34B-16K est au niveau de pointe des modèles de texte long open source, proche du modèle de texte long GPT-3.5.

△Figure : Évaluation des tâches de compréhension de texte long

En outre, l’équipe de KLCII a effectué une analyse visuelle de la distribution de l’attention des modèles multilingues traitant du texte ultra-long et a constaté que tous les modèles linguistiques avaient un goulot d’étranglement de position relative fixe, qui était significativement plus petit que la longueur de la fenêtre contextuelle.

À cette fin, l’équipe de KLCII a proposé de manière innovante la méthode NLPE (Non-Linearized Position Embedding), qui améliore la capacité d’épitaxie du modèle en ajustant le codage de la position relative et en contraignant la longueur relative maximale sur la base de la méthode RoPE.

Les expériences de continuation de texte dans le code, le chinois et l’anglais Few-Shot Leaning, les livres électroniques et d’autres domaines montrent que le NLPE peut étendre le modèle 4K Aquila2-34B à une longueur de 32K, et la cohérence du texte continu est bien meilleure que celle de Dynamic-NTK, de l’interpolation de position et d’autres méthodes.

△Figure : Comparaison du NLPE et des principales méthodes d’épitaxie Dynamic-NTK sur le modèle de base (plus la valeur ppl est basse, mieux c’est)

Non seulement cela, le test d’aptitude suivant l’instruction sur le HotpotQA, 2WikiMultihopQA et d’autres ensembles de données d’une longueur de 5K ~ 15K montre que la précision d’AquilaChat2-7B (2K) après épitaxie NLPE est de 17,2%, tandis que la précision d’AquilaChat2-7B de l’extension Dynamic-NTK n’est que de 0,4%.

△Figure : Comparaison du NLPE et des principales méthodes épitaxiales Dynamic-NTK sur les modèles SFT

Toutes sortes de scénarios d’application réels peuvent être organisés

Les bons « résultats » ne sont qu’un des critères pour tester les grands modèles, et plus important encore, « la bonne utilisation est le dernier mot ».

C’est aussi la capacité de généralisation des grands modèles, même si vous rencontrez des problèmes que vous n’avez pas vus, vous pouvez facilement les traiter.

À cette fin, l’équipe Wudao Skyhawk a vérifié la capacité de généralisation du modèle Aquila2 à travers trois scénarios d’application réels.

Créez des agents puissants dans Minecraft

Minecraft est un jeu qui est un bon terrain d’essai pour la technologie de test de l’IA.

Il a généré à l’infini des mondes complexes et un grand nombre de tâches ouvertes, fournissant de riches interfaces d’interaction pour les agents.

Sur cette base, KLCII et l’équipe de l’Université de Pékin ont mis au point Plan4MC, une méthode permettant de résoudre efficacement le multitâche de Minecraft sans données d’experts.

Plan4MC peut entraîner les compétences de base de l’agent en utilisant l’apprentissage par renforcement avec des récompenses intrinsèques, de sorte que l’agent peut utiliser la capacité de raisonnement du grand modèle de langage AquilaChat2 pour la planification des tâches.

Par exemple, dans la vidéo ci-dessous, l’effet de l’agent utilisant AquilaChat2 pour effectuer automatiquement plusieurs cycles d’interaction de dialogue est montré.

Entrez « l’état actuel de l’environnement » et les « tâches à accomplir » du jeu dans le modèle AquilaChat2, et AquilaChat2 renvoie au personnage « quelles compétences utiliser ensuite » et à d’autres informations de prise de décision, et termine enfin la tâche définie dans Minecraft « Couper du bois et faire un établi à mettre à proximité ».

Base de données vectorielles de liens via Aquila2+BGE2

Les bases de données vectorielles sont devenues une faveur dans le grand cercle de modèles ces dernières années, mais elles sont encore légèrement sollicitées en termes de capacité face à des problèmes complexes qui nécessitent une compréhension approfondie.

À cette fin, KLCII a combiné Aqiula2 avec son modèle vectoriel sémantique open source BGE2 développé par ses soins pour débloquer complètement certaines tâches de récupération complexes qui ne peuvent pas être résolues par des méthodes de récupération basées uniquement sur des bibliothèques vectorielles traditionnelles.

Par exemple, dans l’exemple ci-dessous, nous pouvons clairement voir que des tâches telles que « récupérer des articles d’un auteur sur un certain sujet » et « générer un texte de synthèse pour plusieurs articles sur un sujet » peuvent devenir très soyeuses.

Modèle optimal de génération « langage texte-SQL »

De nombreux utilisateurs ont mal à la tête pour SQL lorsqu’ils traitent des tâches telles que les requêtes de base de données.

Ne serait-ce pas beau s’il pouvait être opéré dans la langue vernaculaire que nous utilisons souvent?

Maintenant, ce moyen pratique est possible - AquilaSQL.

Dans les scénarios d’application pratiques, les utilisateurs peuvent également effectuer un développement secondaire basé sur AquilaSQL, le greffer dans la base de connaissances locale, générer du SQL de requête local ou améliorer davantage les performances d’analyse de données du modèle, de sorte que le modèle puisse non seulement renvoyer les résultats de la requête, mais également générer des conclusions d’analyse et des graphiques.

Par exemple, lorsque vous traitez la tâche de requête complexe suivante, il vous suffit de parler le langage naturel maintenant :

Filtrez les voitures dont les ventes sont supérieures à 100 et la couleur rouge à partir de deux tableaux de données contenant les ventes de voitures (voiture_sales) et la couleur de voiture (voiture_color).

Et les « réalisations » d’AquilaSQL sont également très impressionnantes.

Après une pré-formation continue et une formation SFT en deux étapes avec corpus SQL, le modèle SOTA sur Cspider a finalement dépassé le classement « modèle de génération de langage texte-SQL » avec une précision de 67,3%.

La précision du modèle GPT4 sans réglage fin du corpus SQL n’est que de 30,8%.

Il existe également un open source familial au niveau du compartiment

Comme nous l’avons mentionné précédemment, KLCII s’est toujours concentré sur l’open source.

Cette fois, à l’occasion de la grande mise à niveau du modèle, KLCII a également ouvert sans réserve une série de projets vedettes, notamment des algorithmes, des données, des outils et des évaluations.

Il est entendu que le modèle de la série Aquila2 non seulement adopte pleinement les accords de licence commerciale, mais permet également au public de les utiliser largement dans la recherche universitaire et les applications commerciales.

Ensuite, jetons un coup d’œil à ces compartiments familiaux open source.

FlagScale, un cadre de formation parallèle efficace

FlagScale est un cadre de formation parallèle efficace utilisé par Aquila2-34B, qui peut fournir des fonctions de formation à guichet unique pour les grands modèles linguistiques.

L’équipe de KLCII a partagé la configuration de formation, le schéma d’optimisation et les hyperparamètres du modèle Aquila2 avec les développeurs de grands modèles via le projet FlagScale, et a été la première en Chine à ouvrir entièrement le code d’apprentissage et les hyperparamètres.

Basé sur l’extension Megatron-LM, FlagScale offre une gamme d’améliorations de fonctionnalités, notamment le découpage de l’état de l’optimiseur distribué, le positionnement précis des données des problèmes d’apprentissage et la conversion paramètre en Huggingface.

Aquila2 a été mesuré pour atteindre un débit de formation et une utilisation du GPU de pointe.

△Figure : Débit de formation FlagScale et utilisation du GPU (voir la fin de l’article pour la source des données et la formule d’estimation)

Il est entendu qu’à l’avenir, FlagScale continuera à se synchroniser avec le dernier code du projet en amont Megatron-LM, introduira des fonctions plus personnalisées, intégrera la dernière technologie de formation et d’inférence distribuée et intégrera les grands modèles, prendra en charge le matériel d’IA hétérogène et s’efforcera de construire un cadre d’inférence de formation de grands modèles distribués général, pratique et efficace pour répondre aux tâches de formation de modèles de différentes échelles et besoins.

FlagAttentionHigh Performance Attention Open Source Subset

FlagAttention est le premier sous-ensemble de calcul open source haute performance Attention développé à l’aide du langage Triton pour prendre en charge l’apprentissage de grands modèles à texte long, et étend l’opérateur Memory Efficient Attention de la série Flash Attention pour répondre aux besoins de la formation sur grands modèles.

À l’heure actuelle, l’opérateur d’attention segmenté - PiecewiseAttention a été mis en œuvre.

PiecewiseAttention résout principalement le problème d’extrapolation du modèle Transformer avec codage de position de rotation (Roformer), et ses caractéristiques peuvent être résumées comme suit:

Polyvalence: Les points communs avec les modèles qui utilisent l’attention informatique segmentée peuvent être facilement migrés vers de grands modèles de langage en dehors d’Aquila.

Facilité d’utilisation: FlagAttention est basé sur l’implémentation du langage Triton et fournit l’interface PyTorch, ce qui rend le processus de construction et d’installation plus facile que Flash Attention développé par CUDA C.

Extensibilité: Également grâce au langage Triton, l’algorithme FlagAttention lui-même a un seuil bas pour la modification et l’extension, et les développeurs peuvent facilement étendre plus de nouvelles fonctionnalités en plus de cela.

À l’avenir, le projet FlagAttention continuera à soutenir les opérateurs d’attention avec d’autres extensions de fonctions pour les besoins de recherche de grands modèles, à optimiser davantage les performances des opérateurs et à s’adapter à un matériel d’IA plus hétérogène.

Modèle vectoriel sémantique de nouvelle génération BGE2**

La nouvelle génération de modèle vectoriel sémantique BGE sera également open source avec Aquila2.

Le modèle BGE-LLM Embedder de BGE2 intègre les quatre fonctionnalités suivantes : « récupération de connaissances », « récupération de mémoire », « recherche d’échantillons » et « récupération d’outils ».

Pour la première fois, il réalise la couverture complète des principales exigences de récupération d’un grand modèle de langage par un seul modèle vectoriel sémantique.

Combiné à des cas d’utilisation spécifiques, BGE-LLM Embedder améliorera considérablement les performances des grands modèles de langage dans des domaines importants tels que la gestion des tâches à forte intensité de connaissances, la mémoire à long terme, le suivi des instructions et l’utilisation d’outils.

......

Alors, êtes-vous enthousiasmé par un tel « open source le plus fort »?

Encore une chose

KLCII organisera un nouvel atelier sur les technologies de pointe pour les grands modèles les 28 et 29 octobre, où neuf chercheurs clés présenteront les progrès récents et la mise en œuvre de FlagOpen.

Les partenaires intéressés peuvent également vivre dans le code.

Adresse open source complète du modèle Aquila2:

Adresse du référentiel open source AquilaSQL :

Référentiel open source FlagAttention :

Adresse open source BGE2

papier:

Modèle: /LLM-Embedder

Repo:

Formule d’estimation du débit LLAMA2: total des jetons / (nombre total d’heures GPU * 3600), selon Llama 2: Open Foundation et Fine-Tuned Chat Models papier: 1) 7B a un jeton total de 2,0 T, le nombre total d’heures GPU est de 184320 et substitué dans la formule donne 3014 jetons / sec / GPU; 2) Le total des jetons de 34B est de 2,0 T, le nombre total d’heures GPU est de 1038336 et la formule est substituée pour obtenir 535 jetons / sec / GPU.

— Fin —

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

2 J'aime

Récompense
2
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1CandyDrop Airdrop Event 6.0
16k Popularité
2White House Crypto Report
33k Popularité
3Join Alpha RION Airdrop to Earn $40
8k Popularité
4Fed Holds Rates Decision
8k Popularité
5July Spark Program TOP 10 Creators Announced
2k Popularité

Épingler