Vaincre GPT-4 pour la première fois ? 70 milliards de paramètres Xwin-LM atteint le sommet de Stanford Alpaca_, le modèle 13B bat ChatGPT

Source : Xinzhiyuan

Introduction : La première place de GPT-4 chez Stanford Alpaca a en fait été arrachée par un cheval noir.

Le premier modèle à surpasser GPT-4 sur Alpaga apparaît !

En juin de cette année, dès l'annonce de la liste Alpaca, GPT-4 a pris la première place avec une avance absolue, avec un taux de victoire de plus de 95 %.

Trois mois plus tard, un cheval noir nommé Xwin-LM a effectivement retiré GPT-4, qui figurait fermement en tête de liste, du TOP 1 ?

adresse du projet :

De plus, Xwin-LM a également remporté trois premières sans exception dans la compétition avec les mêmes modèles de paramètres :

Xwin-LM-70B-V0.1 : Le taux de victoire contre Davinci-003 dans le benchmark Alpaca a atteint 95,57 %, se classant premier en Alpaga. C'est également le premier modèle à surpasser le GPT-4 sur Alpaca. De plus, son taux de victoire contre GPT-4 est de 60,61. Xwin-LM-13B-V0.1 : obtention d'un taux de victoire de 91,76 % sur Alpaca, se classant premier parmi tous les modèles 13B. Xwin-LM-7B-V0.1 : A obtenu un taux de victoire de 87,82 % sur Alpaca, se classant premier parmi tous les modèles 7B.

Xwin-LM : 70 milliards de paramètres battent GPT-4

Xwin-LM est affiné sur la base de Llama 2. Ce modèle est conçu pour développer et ouvrir des technologies d'alignement open source pour les grands modèles de langage, y compris le réglage fin supervisé (SFT), le modèle de récompense (RM), l'échantillonnage de rejet et le renforcement du feedback humain. apprentissage (RLHF).Attendez.

1. Évaluation des performances

Les chercheurs ont évalué le taux de victoire de Xwin-LM par rapport à Text-Davinci-003, ChatGPT et GPT-4 sur 805 problèmes.

On peut voir que le modèle 70B de Xwin-LM a complètement dominé la liste, devenant le premier dans l'évaluation des performances des indicateurs Alpaca, et a vaincu GPT-4 pour la première fois, avec un taux de victoire de 60,61 % contre GPT-4.

Les modèles d'autres tailles de Xwin-LM, tels que Xwin-LM-13B-V0.1 et Xwin-LM-7B-V0.1, dépassent également de loin les autres modèles de même taille en termes de performances.

Le Xwin-LM-7B-V0.1 surpasse même le plus grand Llama 2-13B-Chat.

2. Comparaison de cas

Dans le premier cas, les chercheurs ont demandé à GPT-4 et Xwin-LM :

"J'ai posé une assiette sur les pommes et j'ai emmené l'assiette de la cuisine à la salle à manger. Où sont les pommes maintenant ?"

La réponse de GPT-4 est :

"La pomme est au restaurant maintenant, et quand vous transportez l'assiette de la cuisine au restaurant, elle est sous l'assiette."

Ici, GPT-4 a donné une réponse qui manquait de bon sens. Dans la vraie vie, il y a la gravité. La pomme sous l'assiette reste dans son état d'origine et n'ira pas au restaurant avec l'assiette.

En revanche, la réponse de Xwin-LM est plus conforme à la réalité, et donne également un moyen d'amener Apple en cuisine :

"La pomme est toujours dans la cuisine parce que tu viens de déplacer l'assiette.

Les pommes sont sous l'assiette, donc si vous souhaitez emporter les pommes au restaurant, vous devez déplacer les pommes directement ou mettre les pommes dans l'assiette puis déplacer l'assiette vers le restaurant. "

Dans le deuxième cas, les chercheurs ont demandé à GPT-4 et Xwin-LM :

"Comment dit-on 'bonsoir' en français ?"

La réponse de GPT-4 est :

"En français, 'bonsoir' s'exprime par 'bonsoir'."

Et la réponse de Xwin-LM est :

"En français, 'bonsoir' se traduit par 'bonsoir'. Cette salutation est utilisée le soir et la nuit, généralement après 18 heures.

C'est une combinaison de « bon » (qui signifie bon) et « soir » (qui signifie soirée). Pour le prononcer, dites « bone-swahr ».

Bien que la réponse de GPT-4 ait été correcte, Xwin-LM a non seulement répondu correctement à la question, mais a également expliqué l'origine et la prononciation de « bonsoir » dans l'expression française, fournissant ainsi des informations plus riches à l'utilisateur.

3. Tâches PNL

Le tableau suivant compare Xwin-LM avec d'autres LLM sur les tâches NLP de base.

On peut voir que les performances du modèle Xwin-LM-70B-V0.1 sont relativement élevées dans toutes les tâches, et il fonctionne particulièrement bien dans les tâches MMLU 5-shot et HellaSwag 10-shot.

Et, d’un point de vue global, Xwin-LM-70B-V0.1 est le plus performant.

4. Capacité de raisonnement

Les chercheurs ont proposé que pour obtenir les résultats souhaités lors de l'utilisation de Xwin-LM pour l'inférence, le modèle de dialogue pour l'inférence doit être strictement respecté.

Xwin-LM adopte le format d'invite établi par Vicuna et prend en charge le dialogue multi-tours.

Une conversation entre un utilisateur curieux et un assistant d'intelligence artificielle. L'assistant donne des réponses utiles, détaillées et polies aux questions de l'utilisateur. UTILISATEUR : Salut ! ASSISTANT : Bonjour.UTILISATEUR : Qui êtes-vous ? ASSISTANT : Je suis Xwin-LM.s>......

Exemple de câlin

à partir des transformateurs, importez AutoTokenizer, AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1"))( := "Une discussion entre un utilisateur curieux et un assistant d'intelligence artificielle. " "L'assistant donne des réponses utiles, détaillées et polies aux questions de l'utilisateur. " "UTILISATEUR : Bonjour, pouvez-vous m'aider ?" "ASSISTANT :")inputs = tokenizer(, return_tensors ="pt")samples = model.generate(**inputs, max_new_tokens=4096, température=0,7)output = tokenizer.decode(samples [0] [entrées["input_ids"].forme [1] :], skip_special_tokens=True)print(output) # Bien sûr ! Je suis là pour vous aider. N'hésitez pas à poser votre question ou à décrire le problème que vous rencontrez, et je ferai de mon mieux pour vous aider. Exemple VLLM

Étant donné que Xwin-LM est optimisé sur la base de Llama 2, il prend également en charge l'utilisation de VLLM pour une inférence rapide.

from vllm import LLM, SamplingParams( := "Une conversation entre un utilisateur curieux et un assistant d'intelligence artificielle. " "L'assistant donne des réponses utiles, détaillées et polies aux questions de l'utilisateur. " "UTILISATEUR : Bonjour, pouvez-vous m'aider ? " "ASSISTANT :")sampling_params = SamplingParams(temperature=0.7, max_tokens=4096)llm = LLM(model="Xwin-LM/Xwin-LM-7B-V0.1")outputs = llm.generate([,], échantillonnage_params) pour la sortie dans les sorties : = sortie. texte_généré = sortie.sorties [0] .text imprimer (texte_généré)

Alpaga : facile à utiliser, rapide, peu coûteux, vérifié par annotation humaine

En tant qu'outil d'évaluation automatique LLM, Alpaca combine AlpacaFarm et Aviary.

D'une part, il utilise le même code qu'AlpacaFarm (mise en cache/permutations aléatoires/hyperparamètres), d'autre part, il utilise un indice de tri similaire à Aviary.

Dans le même temps, les invites d'Aviary ont également été modifiées pour réduire le biais en faveur d'une production plus longue.

L'équipe a déclaré que l'alpaga a des effets remarquables :

  • Cohérence avec le vote de la majorité humaine, supérieure à celle d'un seul annotateur humain

  • Le taux de victoire est fortement corrélé à l'annotation humaine (0,94)

- Taux de gain

La sortie du modèle surpasse text-davinci-003 (c'est-à-dire le texte de référence) par instruction.

Plus précisément, nous avons d'abord collecté les paires de sorties du modèle souhaité sur chaque instruction de l'ensemble de données Alpaca, et avons associé chaque sortie à la sortie du modèle de référence (text-davinci-003) sur la même instruction.

Ensuite, ces résultats sont transmis simultanément à l'évaluateur automatique, lui permettant de juger lequel est le meilleur (c'est-à-dire la préférence de l'évaluateur).

Enfin, les préférences de toutes les instructions de l'ensemble de données sont moyennées pour obtenir le taux de victoire du modèle par rapport à text-davinci-003. Si les deux modèles sont à égalité, cela compte comme une demi-préférence.

Adresse papier :

- LIMITES

Bien qu'Alpaga constitue un moyen efficace de comparer la capacité d'un modèle à suivre des instructions, il ne constitue pas la référence en matière d'évaluation complète de la capacité d'un modèle.

Comme détaillé dans l'article d'AlpacaFarm, le taux de réussite des annotateurs automatiques dépend de la longueur. Bien que l’annotation humaine souffre également de ce biais, il n’est pas clair si des réponses plus longues augmenteraient l’utilité des tâches en aval.

De plus, l'ensemble d'évaluation d'AlpacaFarm, bien que diversifié, se compose principalement d'instructions simples.

Enfin, Alpaca n’évalue la sécurité d’aucun modèle.

Les références:

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)