Plus de six mois se sont écoulés et le classement de ChatGPT est presque au bas du classement.

2023-09-08 06:02:49

Source : Médias Titane

Auteur : Technologie Sanyan

Hier, l'auteur a accidentellement glissé une photo.

Selon l'image, le GPT-4 d'OpenAI a été classé dernier parmi les 11 grands modèles (le numéro un est 0). Certains internautes ont ajouté les mots « GPT4 : comment puis-je poursuivre mes griefs ? »

Cela ne peut que rendre les gens curieux : au début de cette année, après que ChatGPT soit devenu populaire, d'autres sociétés ont commencé à proposer le concept de grands modèles.

Cela ne fait que plus de six mois, et GPT est déjà « au fond » ?

Par conséquent, l’auteur voulait voir à quoi ressemblait le classement GPT.

La durée du test est différente, l'équipe de test est différente, GPT-4 se classe onzième

À en juger par les informations présentées sur l’image de l’article précédent, ce classement est issu de la liste C.

C-List, le nom complet de C-Global Large Model Comprehensive Examination Test List, est une suite d'évaluation d'examen complet de modèle en langue chinoise construite conjointement par l'Université Tsinghua, l'Université Jiao Tong de Shanghai et l'Université d'Édimbourg.

Il est rapporté que la suite couvre les quatre principales directions des sciences humaines, des sciences sociales, des sciences et de l'ingénierie, ainsi que d'autres disciplines, comprenant 52 disciplines, couvrant plusieurs domaines de connaissances tels que le calcul et l'algèbre linéaire. Il y a un total de 13 948 questions de connaissances et de raisonnement en chinois, et la difficulté est divisée en quatre niveaux : collège, premier cycle, cycles supérieurs et professionnel.

J'ai donc vérifié la dernière liste C.

Le dernier classement de la liste C est cohérent avec le classement présenté dans l'image de l'article précédent : parmi les onze meilleurs grands modèles, le GPT-4 se classe dernier.

Selon la liste C, ces résultats représentent des tests à tir nul (apprentissage à échantillon nul) ou à quelques tirs (apprentissage à quelques tirs), mais quelques tirs ne sont pas nécessairement meilleurs que un tir nul.

C- a déclaré que lors de ses tests, il avait constaté que de nombreux modèles, après un réglage précis des instructions, étaient meilleurs sous le tir zéro. De nombreux modèles testés ont des résultats à la fois sans tir et avec quelques tirs, et le classement montre le paramètre avec un meilleur score moyen global.

La liste C indique également que les noms des grands modèles avec « * » indiquent que les résultats du modèle ont été testés par l'équipe C, tandis que d'autres résultats ont été obtenus grâce aux soumissions des utilisateurs.

De plus, l’auteur a également remarqué que les délais de soumission des résultats des tests pour ces grands modèles varient considérablement.

L'heure de soumission des résultats du test pour GPT-4 est le 15 mai, tandis que Yuntianshu, qui se classe premier, soumet ses résultats le 31 août ; Galaxy, qui se classe deuxième, les soumet le 23 août ; et YaYi, qui se classe troisième, soumet ses résultats le 31 août. pour le 4 septembre.

De plus, parmi les 16 meilleurs grands modèles, seul le GPT-4 a "*" ajouté à son nom et a été testé par l'équipe C.

L’auteur a donc vérifié à nouveau la liste C complète.

La dernière liste C comprend un total de 66 classements de grands modèles.

Parmi eux, le nom avec "*", c'est-à-dire testés par l'équipe C, il n'y en a que 11, et l'heure de soumission du test est le 15 mai.

Parmi ces grands modèles testés par l'équipe C, le GPT-4 d'OpenAI s'est classé onzième, ChatGPT s'est classé trente-sixième, tandis que le ChatGLM-6B de Tsinghua Zhipu AI s'est classé soixante et MOSS de Fudan s'est classé sixième quatorze.

Bien que ces classements puissent montrer la dynamique de développement rapide des grands modèles nationaux, l'auteur estime qu'après tout, ils ne sont pas testés par la même équipe en même temps, ce qui n'est pas suffisant pour prouver pleinement qui est le plus fort et qui est le plus faible parmi ces grands modèles.

C'est comme une classe d'élèves qui ont chacun des horaires de test différents et répondent à des épreuves différentes. Comment pouvons-nous nous fier aux résultats de chaque élève pour comparer ?

Que disent les grands développeurs de modèles ? Beaucoup ont déclaré qu'il surpassait ChatGPT en chinois et dans d'autres capacités

Récemment, le grand cercle des mannequins est assez animé.

En outre, les produits grands modèles de huit sociétés, dont Baidu et Byte, ont passé avec succès l'enregistrement des « Mesures provisoires pour la gestion des services d'intelligence artificielle générative » et peuvent être officiellement lancés en ligne pour fournir des services au public. D'autres sociétés ont successivement lancé leurs propres produits grand modèle.

Alors, comment les développeurs de ces grands modèles présentent-ils leurs produits ?

Le 7 juillet, lors de la Conférence mondiale sur l'intelligence artificielle 2023 « Opportunités et risques généraux de développement de l'industrie de l'intelligence artificielle à l'ère des modèles à grande échelle », Qiu Xipeng, professeur à l'École d'informatique et de technologie de l'Université de Fudan et personne en responsable du système MOSS, a déclaré que le modèle de langage conversationnel à grande échelle de Fudan MOSS Après avoir été publié en février de cette année, il n'a cessé de répéter : "Le dernier MOSS a été capable de surpasser ChatGPT en termes de capacités chinoises."

Fin juillet, NetEase Youdao a lancé un vaste modèle de traduction. Le PDG de NetEase Youdao, Zhou Feng, a déclaré publiquement que lors de tests internes, dans le sens de la traduction chinois-anglais, il avait dépassé les capacités de traduction de ChatGPT et dépassé le niveau de Google Translate. **

Fin août, lors du sommet d'été du forum Yabuli 2023, Liu Qingfeng, fondateur et président d'iFLYTEK, a déclaré dans un discours : « **Les grandes capacités de génération et de complétion de code de modèle de Xunfei Xunhuo ont dépassé ChatGPT, et d'autres cette capacité rattrape son retard. "La logique, l'algorithme, le système de méthodes et la préparation des données de la capacité de code actuelle sont prêts, et tout ce qui est nécessaire est du temps et de la puissance de calcul."

SenseTime a déclaré dans un récent communiqué de presse qu'en août de cette année, le nouveau modèle internlm-123b avait terminé sa formation et que le nombre de paramètres était passé à 123 milliards. **Sur les 51 ensembles d'évaluation bien connus dans le monde avec un total de 300 000 questions, le score global du test se classe au deuxième rang mondial, dépassant le gpt-3.5-turbo et le nouveau lama2-70b de Meta et d'autres modèles. **

Selon Shangtang, **internlm-123 s'est classé premier dans 12 évaluations majeures. Parmi eux, le score agi dans le test complet de l'ensemble d'évaluation est de 57,8, dépassant gpt-4 et se classant premier ; le score d'évaluation de **knowledge commonsenseqa est de 88,5, se classant premier ; les scores internlm-123b dans les cinq évaluations de compréhension écrite. Tous en tête de liste.

De plus, il s'est classé premier dans les cinq évaluations du raisonnement.

Plus tôt ce mois-ci, Zuoyebang a officiellement publié le modèle Galaxy auto-développé.

Homework Gang a déclaré que le grand modèle Galaxy a obtenu les résultats des deux références d'évaluation des grands modèles de langage faisant autorité, C- et CMMLU. Les données montrent que Zuoyebang Galaxy Big Model se classe premier en C- avec un score moyen de 73,7 points ; en même temps, il se classe dans la liste CMMLU des évaluations Five-shot et Zero-shot avec des scores moyens de 74,03 points et 73,85 points respectivement. Premièrement, il devient le premier modèle éducatif à se classer simultanément au premier rang dans la note moyenne des deux listes faisant autorité ci-dessus.

Hier, Baichuan Intelligent a annoncé les versions open source officielles optimisées Baichuan 2-7B, Baichuan 2-13B, Baichuan 2-13B-Chat et leur version quantifiée 4 bits.

Wang Xiaochuan, fondateur et PDG de Baichuan Intelligence, a déclaré que dans le domaine chinois, les performances réelles du modèle Chat affiné dans l'environnement de questions-réponses ou dans l'environnement de résumé ont dépassé celles des modèles fermés tels que ChatGPT-3.5. **

Aujourd'hui, lors de la conférence Tencent Global Digital Ecology 2023, Tencent a officiellement lancé le grand modèle Hunyuan. Jiang Jie, vice-président du groupe Tencent, a déclaré que la capacité en langue chinoise du grand modèle ** Tencent Hunyuan a dépassé GPT-3.5. **

En plus des auto-présentations de ces développeurs, certains médias et équipes ont également évalué un grand modèle.

Début août, l'équipe de Shen Yang, professeur et directeur de doctorat à l'École de journalisme et de communication de l'Université Tsinghua, a publié le « Rapport complet d'évaluation des performances des grands modèles linguistiques ». Le rapport montre que **le score global de Baidu Wenxinyiyan dans 20 indicateurs dans trois dimensions principales est en tête du pays et est meilleur que ChatGPT. Parmi eux, la compréhension sémantique chinoise occupe une place élevée et certaines capacités chinoises sont meilleures que GPT-4. **

À la mi-août, certains médias ont rapporté que le 11 août, le grand modèle MiLM-6B de Xiaomi figurait sur les listes d'évaluation des grands modèles C et CMMLU. À l'heure actuelle, le MiLM-6B se classe 10e dans la liste C-globale, 1er pour la même magnitude de paramètres et 1er dans les grands modèles chinois CMMLU.

Le 12 août, l'Université de Tianjin a publié le « Rapport d'évaluation des grands modèles ». Le rapport montre que les performances globales de **GPT-4 et Baidu Wenxinyiyan sont nettement en avance sur les autres modèles, et que leurs scores ne sont pas très différents et sont au même niveau. Wen Xinyiyan a surpassé ChatGPT dans la plupart des tâches chinoises et a progressivement réduit l'écart avec GPT-4. **

Fin août, certains médias ont rapporté que le grand modèle de langage « KwaiYii » développé par Kuaishou avait commencé ses tests internes. Dans le dernier classement CMMLU axé sur le chinois, KwaiYii-13B, la version 13B de KwaiYi, s'est classé premier dans les catégories à cinq et à zéro. Il est fort en sciences humaines, dans les sujets spécifiques au chinois, etc., avec un score moyen de plus de 61 points.

Il ressort du contenu ci-dessus que, bien que ces grands modèles prétendent être en tête dans un certain classement, ou surpassent ChatGPT dans un certain aspect, la plupart d'entre eux fonctionnent bien dans certains domaines spécifiques.

De plus, certains scores globaux dépassent GPT-3.5 ou GPT-4, mais le test GPT a été arrêté en mai. Qui peut garantir que le GPT ne s'est pas amélioré au cours des trois derniers mois ?

La situation d'OpenAI

Selon un rapport du groupe UBS publié en février, deux mois seulement après le lancement de ChatGPT, ses utilisateurs actifs mensuels dépassaient les 100 millions fin janvier 2023, ce qui en fait l'application grand public connaissant la croissance la plus rapide de l'histoire.

Mais le développement de ChatGPT n’est pas si fluide.

En juillet de cette année, de nombreux utilisateurs de GPT-4 se sont plaints du fait que les performances de GPT-4 avaient diminué par rapport aux capacités de raisonnement précédentes.

Certains utilisateurs ont signalé des problèmes sur Twitter et sur le forum des développeurs en ligne OpenAI, se concentrant sur une logique plus faible, des réponses plus incorrectes, une incapacité à suivre les informations fournies, des difficultés à suivre les instructions, l'oubli d'ajouter des parenthèses dans le code logiciel de base et la mémorisation uniquement du conseils les plus récents et ainsi de suite.

En août, un autre rapport indiquait qu'OpenAi pourrait être en difficulté financière potentielle et pourrait faire faillite d'ici la fin de 2024.

Selon le rapport, OpenAI coûte environ 700 000 dollars par jour rien que pour faire fonctionner son service d'intelligence artificielle ChatGPT. Actuellement, l'entreprise tente de devenir rentable avec GPT-3.5 et GPT-4, mais n'a pas encore généré suffisamment de revenus pour atteindre le seuil de rentabilité.

Cependant, OpenAI peut également offrir de nouvelles opportunités.

Il y a quelques jours, OpenAI a annoncé qu'elle tiendrait sa première conférence des développeurs en novembre.

Bien qu'OpenAI ait annoncé qu'il ne publierait pas GPT-5, OpenAI a déclaré que des centaines de développeurs du monde entier rejoindraient l'équipe OpenAI pour prévisualiser les « nouveaux outils » et échanger des idées.

Cela peut signifier que ChatGPT a fait de nouveaux progrès.

Selon The Paper, le 30 août, une personne proche du dossier a révélé qu'OpenAI devrait générer plus d'un milliard de dollars de revenus au cours des 12 prochains mois en vendant des logiciels d'IA et la puissance de calcul nécessaire à son fonctionnement.

Aujourd'hui, un autre média a déclaré que Morgan Stanley lancerait un chatbot d'intelligence artificielle générative développé conjointement avec OpenAI plus tard ce mois-ci.

Les gens qui traitent avec les banquiers de Morgan Stanley sont soit riches, soit chers. Si ce prochain chatbot d’intelligence artificielle générative peut apporter une expérience différente aux clients de Morgan Stanley, cela pourrait constituer un énorme gain pour OpenAI.

L’arrivée de l’ère de l’intelligence artificielle est imparable. Quant à savoir qui est le meilleur au final, vous ne pouvez pas compter uniquement sur vous-même, vous devez laisser les utilisateurs marquer. Nous pensons également que les modèles nationaux à grande échelle rattraperont certainement et pourront rattraper ChatGPT en termes de capacités spécifiques et de capacités globales.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1Altcoin Season Coming?
24k Popularité
2Stablecoin Regulation Crackdown
9k Popularité
3Gate June Transparency Report
22k Popularité
4ETH Breaks Through $3,800
28k Popularité
5Institutions Buying Bitcoin
17k Popularité

Épingler