Dachang dépasse ChatGPT

2023-07-21 06:38:44

Original : Magnolia de Luozhi

Source : Nouvel extrait d'examen d'entreprise

Source de l'image : générée par l'outil d'IA illimitée

Au cours des deux cents jours qui ont suivi le lancement de ChatGPT, le développement de modèles domestiques à grande échelle a commencé un mode "ouragan".

On dit que 79 modèles à grande échelle avec une échelle de plus d'un milliard de paramètres en Chine ont été publiés.

Le domaine de l'évolution des modèles à grande échelle se concentre sur une mêlée d'une centaine de modèles : le modèle à grande échelle de Baidu Wenxin a évolué à 3,5 ; Ali Tongyi Qianwen a construit un modèle familial ; le modèle à grande échelle de JD Yanxi est un modèle à grande échelle industriel "sur mesure" pour lui-même ;

La théorie de l'évolution des modèles à grande échelle de grandes usines est cruelle et réaliste, et ils doivent soit rattraper leur retard, soit être éliminés.

Baidu Wenxin Big Model 3.5, qui avance et s'entraîne dur, a récemment annoncé que la dernière version de la capacité Yiyan de Wenxin a dépassé ChatGPT 3.5.

La sélection naturelle, la survie du plus fort, les grands fabricants et les grands modèles ont dépassé ChatGPT.

Grand modèle d'usine, plus que ChatGPT3.5

Vêtu d'une veste de costume blanche intérieure et extérieure noire avec des cheveux courts et soignés, il est apparu à la conférence sur le rapport d'évaluation des capacités techniques des grands modèles d'IA.

Le sujet était encore en cours de révision la veille. Wu Tian, vice-président du groupe Baidu, qui vient de rentrer d'un voyage d'affaires, a déclaré lors de la réunion : "La nouvelle version de Wenxin Yiyan a dépassé ChatGPT 3.5. C'est également une étape importante pour nous pour effectuer des travaux techniques connexes en Chine."

Il s'agit d'un autre grand fabricant confirmant officiellement que le grand modèle surpasse ChatGPT après que Liu Qingfeng de HKUST Xunfei ait mentionné que le grand modèle de Spark est sur le point de surpasser ChatGPT.

En mars de cette année, le modèle de langage à grande échelle de nouvelle génération "Wenxin Yiyan" de Baidu a été publiquement invité à être testé. Ce modèle est basé sur la version 3.0 du modèle à grande échelle Wenxin. Après plus de 3 mois, le modèle Wenxin a été mis à niveau vers la version 3.5, et ses effets, fonctions et performances ont été complètement améliorés.

Wenxin Yiyan 3.5 a dépassé ChatGPT3.5, probablement en raison du nouveau mécanisme de plug-in en termes de fonctions. Wenxin Large Model 3.5 a élargi la limite de capacité du grand modèle grâce à des plug-ins.

Le grand modèle met l'accent sur la force technique et la capacité de base du grand modèle. En mai de cette année, le nouveau grand modèle de base lancé par Baidu est Wenxin Large Model 3.5.Ce modèle est le modèle de base du système Wenxin Yiyan.

Il convient de mentionner que dans la formation de base du modèle, la version 3.5 adopte également la technologie de formation parallèle hybride adaptative la plus avancée et la stratégie de calcul de précision mixte de FlyPaddle, ce qui accélère considérablement la vitesse d'itération du modèle.

Comme nous le savons tous, Baidu a profondément cultivé la recherche et le développement de la technologie d'intelligence artificielle complète, avec un total de quatre couches : couche de puce, couche de cadre, couche de modèle et couche d'application.

La couche puce a Kunlun Core ; la couche cadre a la plate-forme d'apprentissage en profondeur Paddle, qui soutient fortement la formation et le raisonnement efficaces des grands modèles ; la couche modèle a le grand modèle Wenxin ; au niveau de la couche application, 150 000 entreprises demandent actuellement l'accès au test Wenxin Yiyan.

Parmi eux, la plateforme Flying Paddle compte 7,5 millions de développeurs, contre 8 à 10 millions de praticiens du logiciel en Chine.Bien que les praticiens du logiciel et les développeurs d'apprentissage profond ne soient pas exactement les mêmes, l'avantage du nombre de talents fournit également un groupe de réflexion de grande capacité pour Wenxin 3.5 pour rattraper ChatGPT, similaire à l'existence d'Ultrain.

Par rapport aux entreprises étrangères, les entreprises chinoises ont des avantages naturels pour obtenir un corpus chinois et comprendre la culture chinoise.L'industrie manufacturière chinoise possède les catégories les plus complètes et offre des conditions favorables à la formation AIGC pour les industries réelles.

De nombreux facteurs ont contribué à la promotion. Wenxin Big Model 3.0 basé sur Wenxinyiyan est sorti il y a plus de 100 jours. Sous l'optimisation collaborative de FlyPaddle et Wenxin, Wenxin Big Model 3.5 a connu une croissance rapide. Le dernier effet de modèle a augmenté de 50 %, la vitesse d'entraînement a augmenté de 2 fois et la vitesse de raisonnement a augmenté de 30 fois. Il a dépassé avec succès ChatGPT.

En plus de la technologie de base, Baidu a développé trois technologies d'amélioration supplémentaires : l'amélioration des connaissances, l'amélioration de la récupération et l'amélioration du dialogue.

En comparant le grand modèle aux êtres humains, si les gens apprennent dans le sens de la structure des connaissances et du système de connaissances, l'efficacité de l'apprentissage est plus élevée. Ensuite, apprenez à utiliser des outils de recherche, réalisez une récupération extrêmement simplifiée de bout en bout et améliorez la rapidité.

Une fois que le grand modèle a fini d'apprendre par lui-même, il doit apprendre une formation intensive de rétroaction.L'amélioration du dialogue revient à laisser le grand modèle poser les questions en continu, dire au grand modèle ce qui est bien et ce qui ne va pas dans le dialogue, et par le biais de l'incitation, laisser le grand modèle renforcer le mécanisme de la mémoire, le laisser répondre efficacement aux questions de la manière que nous voulons et apprendre à l'enfant comment mieux répondre.

En plus de la résistance technique, les grands modèles doivent être mis à la terre.

En termes d'applications industrielles, le modèle à grande échelle de Baidu Wenxin est né et sert la pratique industrielle. Il a déjà exploré la voie clé pour la mise en œuvre de l'industrie du modèle à grande échelle et a également publié des modèles à grande échelle couvrant de nombreux secteurs et domaines pour accélérer la transformation intelligente des industries.

À l'heure actuelle, des entreprises telles que State Grid, Pudong Development, Taikang, Geely, Harbin, Shenzhen Gas, TCL et Baidu Wenxin ont coopéré entre elles.

En outre, Baidu a investi plus de 100 milliards de yuans dans la recherche et le développement au cours des dix dernières années, et son investissement de base dans la recherche et le développement représentera plus de 23 % en 2021. Le nombre de demandes et d'autorisations pour les majors de l'intelligence artificielle s'est classé premier en Chine pendant cinq années consécutives, et le nombre de demandes de brevet d'apprentissage en profondeur s'est classé premier au monde. La percée de Baidu dans le domaine des modèles d'IA à grande échelle est également étroitement liée au fort investissement de Baidu dans les ressources élémentaires.

On le voit, le moment est venu pour les grandes usines et les grands modèles de se battre pour la recherche et le développement.

Laquelle des grandes usines et des grands modèles est la meilleure ?

Au cours du premier semestre de cette année, près d'une centaine d'entreprises ont officiellement annoncé la fabrication de modèles à grande échelle, et chaque modèle à grande échelle s'est livré à une bataille acharnée. Parmi eux, il y a des acteurs majeurs de l'Internet tels qu'Ali, Baidu, Tencent, JD.com et ByteDance, ainsi que des sociétés d'IA telles que HKUST Xunfei et SenseTime, et d'autres "troupes sans nom" sont également mélangées.

En six mois, la piste modèle à grande échelle a achevé le processus du concept à l'atterrissage, ce qui est très explosif sur n'importe quelle piste.

Cependant, jusqu'à présent, il n'y a pas d'indicateurs ou de directives clairs pour vérifier quel modèle à grande échelle est le meilleur.L'un après l'autre, l'auto-évaluation de "Wang Po vend des melons, vend des melons et se vante" est éblouissante, et il n'y a pas beaucoup d'objectivité.

Alors, dans la bataille des cent modèles, qui est le meilleur ?

Dans le dernier "Rapport d'évaluation des capacités techniques des modèles à grande échelle d'IA, 2023" publié par IDC, le cadre d'évaluation des capacités techniques des modèles à grande échelle d'IA est proposé pour la première fois.

Il y a trois dimensions dans le modèle d'évaluation : la technologie du produit, l'écologie du service et l'application industrielle.

Il existe jusqu'à 12 indicateurs de subdivision spécifiques : modèle d'algorithme, capacité de service, capacité générale, capacité d'innovation, capacité de plate-forme, sécurité et explicabilité, coopération écologique, couverture de l'industrie, finance, industrie, soins médicaux et énergie.

Parmi eux, le modèle d'algorithme et la couverture de l'industrie sont les deux indicateurs les plus importants pour mesurer la capacité des grands modèles.En particulier, les deux peuvent former un volant pour une amélioration itérative continue.

Parmi les capacités techniques des produits, la dimension "modèle d'algorithme" est l'élément central de la capacité du grand modèle, et c'est aussi la racine qui détermine l'effet d'application du grand modèle.

La raison en est que ce n'est que grâce à la percée de la technologie des modèles d'algorithmes et à la réalisation d'une large base de modèles avec des avantages d'effet général qu'elle peut prendre en charge une couverture plus large de l'industrie, permettre à tous les horizons de profiter pleinement des dividendes apportés par les percées technologiques et résoudre le dilemme du seuil élevé pour la mise en œuvre de l'IA.

En termes de capacités d'application de l'industrie, l'étendue de la couverture des applications est l'indicateur le plus préoccupant pour les fabricants de modèles à grande échelle, et c'est un reflet complet du leadership universel des effets de modèle à grande échelle et des capacités de combinaison de l'industrie.

Par conséquent, la "couverture de l'industrie" reflète la force du grand modèle dans la mise en œuvre industrielle à travers le nombre de clients au niveau de l'entreprise et le nombre d'industries d'atterrissage.

Des modèles nationaux grand public à grande échelle, dont 14 fabricants, dont Baidu, Ali, Tencent, Huawei, iFlytek, 360, SenseTime et 4Paradigm, ont participé à cette évaluation.

Les grands fabricants et les grands modèles ont un degré élevé de concurrence. Baidu a l'avantage unique d'une disposition complète de la pile technologique à quatre couches de "puce-cadre-modèle-application": couche de puce-noyau Kunlun, couche de cadre-pagaie volante, couche modèle-Wenxin grand modèle et diverses applications d'IA. Parmi eux, la plate-forme d'apprentissage en profondeur développée par Baidu, Flying Paddle, fournit un support solide pour une formation et un raisonnement efficaces des grands modèles.

Aliyun est également très accrocheur, avec 6 indicateurs sur 12 obtenant la note maximale, et c'est le seul fournisseur à avoir obtenu la note maximale pour la "capacité de service". En tant que fournisseur de modèles de base, la capacité de la plate-forme, la capacité de service et le niveau de coopération écologique des grands fabricants de modèles sont très importants pour le développement de l'industrie. Alibaba Cloud a obtenu des notes complètes dans les trois indicateurs.

À l'heure actuelle, la grande famille de modèles à usage général d'Alibaba Cloud a la capacité de traiter ou de générer du texte, de la voix et des images et d'autres modalités. Au cours des trois derniers mois, Alibaba Cloud a successivement lancé le modèle de base "Tongyi Thousand Questions", le produit de modèle audio et vidéo à grande échelle "Tongyi Tingwu" et le modèle à grande échelle de création de peinture AI "Tongyi Wanxiang". La famille de modèles à grande échelle Tongyi est toujours en constante itération et évolution.

Tencent Cloud et JD Cloud, deux grandes sociétés Internet, ont choisi de se concentrer sur le côté industriel et de publier des modèles à grande échelle de l'industrie en fonction de leurs propres caractéristiques.

Sur la base de la construction d'un grand modèle industriel, Tencent Cloud utilise ses propres données pour un réglage fin afin de créer un modèle exclusif avec une plus grande précision des données et une confidentialité et une sécurité renforcées.

Pour JD.com, qui cultive la chaîne d'approvisionnement depuis plusieurs années, c'est un meilleur choix de se concentrer sur la chaîne d'approvisionnement en se concentrant longtemps sur les activités de commerce électronique et de logistique. Comme l'a déclaré JD.com lors de la conférence de presse du modèle à grande échelle de Yanxi, "Ce n'est qu'en rendant la chaîne d'approvisionnement réelle que le grand modèle peut devenir réel."

Les fabricants d'IA tels que HKUST iFLYTEK ont également marqué des points dans la voie verticale.Ces acteurs ont la possibilité de pénétrer l'industrie verticale.Dans la concurrence entre fabricants, les entreprises ayant des avantages évidents dans le domaine vertical seront en tête.

Prenons l'exemple d'IFLYTEK. IFLYTEK se concentre sur le domaine de l'intelligence artificielle depuis plus de 20 ans, et de nombreuses technologies de base sont au premier plan international. Le Spark Big Model combine la capacité de compréhension du langage et la capacité d'expression générale du grand modèle avec un plug-in de recherche, qui résout efficacement les problèmes de l'industrie tels que la difficulté de mettre à jour les nouvelles connaissances et le fait que les questions et les réponses des faits sont faciles à "faire la différence".

En raison du coût extrêmement élevé de la formation de grands modèles, les développeurs ordinaires et les petites et moyennes entreprises n'ont aucun moyen de démarrer. Cela ressort également des résultats du rapport : d'autres usines travaillent également dur, mais l'avenir est long. Pour le dire cruellement, il peut y avoir peu d'occasions de même manger à table.

Où va le grand modèle dans le futur ?

Lors de la conférence WAIC il n'y a pas si longtemps, les acteurs qui entraient dans le grand modèle avaient déjà tiré les points clés : d'abord résoudre les problèmes techniques, puis implémenter la scène, et enfin réaliser le business et l'échelle.

À l'heure actuelle, nous avons vu que les grands modèles ont commencé à être profondément intégrés aux scénarios et aux industries.Par exemple, les grands modèles dans des domaines tels que la génération de code et la prédiction de la structure des protéines ont vérifié que les grands modèles ont non seulement été appliqués dans les entreprises technologiques, mais ont également franchi des étapes vers tous les horizons de la vie.

Le modèle national à grande échelle a rapidement franchi le stade des stocks de concepts à grande échelle, et le modèle à grande échelle de l'IA est passé d'une compétition de paramètres à une compétition d'applications.

Par exemple, le grand modèle Pangu de Huawei a été mis en œuvre dans des domaines tels que la météorologie, la recherche et le développement médicaux, l'énergie électrique et les langues, et a fourni plusieurs grands modèles avec des centaines de milliards de paramètres. Les capacités du modèle industriel à grande échelle de Tencent Cloud seront appliquées à des scénarios tels que le contrôle des risques financiers, la traduction interactive et le service client numérique intelligent, ce qui améliore l'efficacité des applications intelligentes, et le service MaaS à guichet unique réduit la charge des entreprises.

Spécifique au scénario d'application, en prenant le domaine financier comme exemple, le modèle industriel à grande échelle peut prendre en charge des solutions de contrôle des risques financiers, dont l'efficacité est multipliée par 10 par rapport à avant.

Le modèle à grande échelle combine des années d'expérience anti-fraude accumulée et des milliers de scénarios commerciaux réels.Par rapport au modèle traditionnel, l'effet anti-fraude global a augmenté d'environ 20%. Les entreprises peuvent itérer les capacités de contrôle des risques basées sur des modèles, de la collecte d'échantillons, de la formation des modèles au déploiement et au lancement, pour atteindre une participation manuelle nulle dans l'ensemble du processus, et le temps de modélisation est réduit de 2 semaines à seulement 2 jours.

Même avec une accumulation limitée d'échantillons, une construction rapide peut être achevée et le processus de "démarrage à froid" peut être ignoré.

Comment atterrir et commercialiser devient l'objectif des fabricants.

Cela signifie que l'IA est entrée dans la phase de mise en œuvre industrielle reproductible à grande échelle, et de bons résultats ne peuvent être obtenus qu'en utilisant un apprentissage en aval sur petit échantillon ou sans échantillon, réduisant ainsi le coût du développement de l'IA. Après la mise à niveau du grand modèle Baidu Wenxin, le coût a été réduit avec succès à 10% du passé.

Toute industrie finira par former un oligopole, et les grands modèles ne font pas exception.

Ces derniers mois, un grand nombre de nouveaux modèles à grande échelle ont vu le jour, qu'il s'agisse d'une folle envie de saisir l'opportunité et de la peur de prendre du retard, ou d'un tracé de piste à long terme et de recherches dédiées, chaque joueur ne le sait que bien.

La mêlée d'une centaine de modèles ne sera qu'un phénomène par étapes, et le résultat final est encore concentré sur un petit nombre de grands modèles. Les raisons ne sont rien de plus que les suivantes :

Tout d'abord, dans le processus d'évolution, diverses entreprises et institutions ont progressivement trouvé leur propre positionnement, évoluant progressivement vers la subdivision, pour finalement être incluses dans le modèle à grande échelle plus complet.

Deuxièmement, il faut des années d'accumulation. Le modèle à grande échelle qui est vraiment construit à partir du bas est très coûteux, nécessite des capacités très complètes et doit avoir une mentalité à long terme absolue, ce qui signifie que les joueurs sans force économique absolue seront laissés à mi-chemin ou "mourront" sur le chemin de la lumière.

Le troisième est qu'il y a beaucoup de place pour l'imagination dans l'avenir des grands modèles au niveau de l'application. En supposant que chaque industrie dispose d'une énorme marge de développement, la nouvelle technologie d'IA peut être utilisée pour améliorer l'efficacité, et la valeur au niveau de l'application sera certainement détournée. S'appuyer sur plusieurs grands modèles de tête aura une écologie d'application très large.

Il est indéniable qu'à l'avenir toutes les entreprises s'appuieront fortement sur de grands modèles, et tous les produits seront développés sur la base de grands modèles.

Le taux de pénétration de l'industrie et la part de marché sont devenus les éléments les plus importants pour qu'un modèle de grande entreprise devienne un oligopole.

Voir l'original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
BTC Hits New High
64k Popularité
ETH Breaks $3,000
21k Popularité
VIP Exclusive Airdrop Carnival
6k Popularité
4Pump.Fun Debuts on Gate
4k Popularité
5Fed June Meeting Minutes
4k Popularité
6Join Gate VIP to Win MacBook
29k Popularité
7Trump Tariff Hikes
16k Popularité
8Gate xStocks Trading Share
22k Popularité
9HK Stablecoin Rules
12k Popularité
10Truth Social Crypto ETF
2k Popularité

Épingler