La grande bataille de modèles bat son plein ? Le « petit modèle » peut être la solution

Question

Texte : Qingcheng Finance, Auteur : Qing Mu Editeur : Liu Zi

Source de l'image : générée par l'IA illimitée

Le 26 juillet, OpenAI a lancé la version Android de ChatGPT. Bien qu'elle ne soit actuellement disponible qu'aux États-Unis, en Inde, au Bangladesh et au Brésil, OpenAI a également annoncé qu'elle ferait la promotion de la version Android de ChatGPT dans d'autres pays la semaine prochaine. Cela a ramené ChatGPT, qui a été légèrement moins populaire récemment, aux yeux du public.

Au début du lancement de ChatGPT, il n'avait fallu que deux mois pour devenir l'application la plus rapide de l'histoire et franchir le cap des 100 millions d'utilisateurs. Le marché mondial de la technologie, longtemps silencieux, est à nouveau en ébullition. Les investisseurs et entrepreneurs nationaux s'envolent vers Silicon a demandé Vallée.

Face à cette vague turbulente d'IA, les entrepreneurs et investisseurs chinois ont agi rapidement. Quelques mois plus tard, l'industrie technologique chinoise a montré une posture spectaculaire de "guerre des cent modèles". Au cours du premier semestre 2023, plus de 80 modèles de produits à grande échelle sont apparus en Chine et, selon les dernières données, 130 entreprises fabriquent déjà des modèles à grande échelle sur le marché intérieur. À l'échelle mondiale, plus de 400 grands modèles ont été lancés au cours du premier semestre de cette année.

Alors que les acteurs chinois de la modélisation à grande échelle poursuivent des intérêts commerciaux et l'avenir de la technologie, ils sont également surnommés des sentiments nationaux : être la version chinoise d'OpenAI.

Selon les informations du 24 juillet, avant le lancement de la version Android de ChatGPT, IDC a publié un rapport d'évaluation des capacités techniques du modèle à grande échelle montrant que le modèle à grande échelle 3.5 de Baidu Wenxin a obtenu 7 indicateurs sur 12, se classant premier dans le score global. Wu Tian, vice-président de Baidu, a déclaré que la capacité de la nouvelle version de Wenxin Yiyan 3.5 a dépassé celle de ChatGPT 3.5, ce qui constitue une étape importante dans le développement des travaux techniques connexes dans notre pays.

HKUST Xunfei a précédemment annoncé qu'il effectuera la troisième itération du grand modèle Xinghuo le 24 octobre, en comparant entièrement ChatGPT, la capacité chinoise a dépassé GPT3.5 et la capacité anglaise est équivalente à GPT3.5.

01 scène, scène

En fait, comme l'a dit Li Zhifei, l'ancien scientifique de Google et fondateur et PDG de Mobvoy, il n'y a peut-être pas d'organisation comme OpenAI en Chine.

Par rapport aux modèles à grande échelle à usage général tels que ChatGPT, les produits de modèles à grande échelle nationaux accordent plus d'attention aux applications et aux scénarios, c'est-à-dire les modèles verticaux à grande échelle, les modèles industriels à grande échelle et les modèles industriels à grande échelle. À cet égard, les opinions des gros bonnets du cercle du capital-risque technologique exprimaient presque le même sens.

Robin Li, le fondateur de Baidu, a longtemps déclaré publiquement : "Cela n'a pas beaucoup de sens pour une start-up de recréer ChatGPT. Je pense qu'il existe une excellente opportunité de développer des applications basées sur ce grand modèle de langage. Il y a pas besoin de réinventer la roue. Après avoir eu la roue, il est possible de faire une voiture.", Avion, la valeur peut être bien supérieure à la roue."

Zhu Xiaohu, directeur général de GSR Venture Capital, a écrit dans Moments : "Ne soyez pas superstitieux à propos du modèle général, car l'année prochaine, GPT-3.5 deviendra une marchandise (infrastructure générale), et trois ans plus tard, GPT-4 sera également . Pour la plupart des Entrepreneurs, les scénarios d'abord, les données sont reines !"

Fu Sheng, président-directeur général de Cheetah Mobile, estime qu'il y aura deux routes pour les grands modèles. Un grand modèle appelé Getting Better est "Building an Einstein". Mais de nombreux emplois ne nécessitent pas "Einstein", les diplômés universitaires peuvent le faire. C'est une autre façon. Je crois qu'il doit y avoir un grand nombre de personnes faisant des "grands modèles civils".

Zhang Pingan, PDG de Huawei Cloud, a déclaré lors de la conférence de presse Pangu Large Model 3.0 : "Le Pangu Large Model n'a pas le temps d'écrire des poèmes et de discuter. Peu importe le nombre de paramètres et la qualité de la capacité de dialogue, s'il peut ne résoudra pas de problèmes pratiques, cela ne sera pas d'une grande utilité."

La plupart des modèles à grande échelle publiés récemment en Chine sont destinés aux industries verticales, comme le modèle à grande échelle Yanxi publié par JD et le modèle à grande échelle vertical "Ziyue" dans le domaine de l'éducation publié par Dao.

Le grand modèle JD Yanxi a accumulé pendant de nombreuses années les connaissances accumulées par JD dans les secteurs de la vente au détail, de la logistique, de la santé, de la finance et d'autres secteurs. Il intègre 70 % des données générales et 30 % des données originales de la chaîne d'approvisionnement de JD pour la formation, apportant des recommandations de produits, des politiques financières. , Capacités dans des domaines tels que les règles de gestion financière et l'expérience en logistique. Cao Peng, président de la division JD Cloud, estime qu'une seule technologie de modèle à grande échelle ne peut elle-même générer directement de la valeur, et que la technologie ne peut générer de valeur réelle que lorsqu'elle est mise en scène.

Le modèle de voyage de Ctrip demande de filtrer 20 milliards de données touristiques non structurées, de combiner les données structurelles en temps réel existantes de Ctrip et les robots et algorithmes de recherche historiquement formés de Ctrip pour effectuer une formation de modèle vertical auto-développée et investir beaucoup de main-d'œuvre Générer et vérifier la réponse générale contenu du voyage. Liang Jianzhang, fondateur et président du conseil d'administration de Ctrip, a déclaré que Ctrip n'épargnera aucun effort pour investir dans de grands modèles et qu'il n'y a pas de limite au montant de l'investissement.

En termes d'applications, Baidu a récemment conclu une coopération avec Lenovo dans le domaine de l'AIGC.L'entreprise de personnalisation privée de Lenovo a entièrement introduit Baidu Wenxin Yige.Les consommateurs peuvent personnaliser l'apparence des ordinateurs portables grâce à des activités de peinture sur le thème de l'AIGC sur le site officiel. Huawei Cloud Pangu Large Model et Meitu Visual Large Model MiracleVision ont lancé conjointement la fonction d'ajustement du modèle AI, qui peut améliorer efficacement l'efficacité du commerce électronique des produits vestimentaires.

Bien que le grand modèle vertical n'ait pas d'exigences élevées en matière de paramètres et de puissance de calcul comme le grand modèle général, il a des exigences plus élevées en matière de scénarios et de données, obligeant les développeurs à avoir des connaissances professionnelles, une riche accumulation de pratiques d'application de l'industrie et une tolérance aux erreurs Le diplôme est également plus faible, nécessitant une IA super stable et fiable. Par conséquent, plus l'industrie verticale est proche, plus les avantages du modèle vertical sont importants.

"Le modèle général à grande échelle peut résoudre 70 % à 80 % des problèmes dans 100 scénarios, mais il peut ne pas être en mesure de répondre à 100 % aux besoins d'un certain scénario de l'entreprise. Si l'entreprise s'ajuste en fonction de la modèle industriel à grande échelle et ses propres données, il peut construire un modèle dédié pour créer un service intelligent hautement disponible, et les paramètres du modèle sont inférieurs au grand modèle général, le coût de la formation et du raisonnement est inférieur, et l'optimisation du modèle est plus facile.", a déclaré Tang Daosheng, vice-président exécutif principal du groupe Tencent, PDG de Cloud and Smart Industry Business Group.

De ce point de vue, les "petits modèles" peuvent être plus sexy et mieux à même de résoudre des problèmes spécifiques.

SenseTime a lancé un grand modèle avec 100 milliards de paramètres, et lance également un petit modèle avec 10 milliards de paramètres pour différents champs verticaux. L'avantage d'un grand modèle est qu'il peut trouver de nouvelles solutions et aider à résoudre de nouveaux problèmes.Une fois résolu, il peut générer une grande quantité de données dans un champ étroit et recycler un petit modèle. Certains petits modèles peuvent même tourner sur borne à moindre coût. Mais le petit modèle n'existerait pas sans le grand modèle.

02 Les grands constructeurs remportent tous les suffrages, où sont les opportunités pour les start-up ?

L'industrie pense que la version chinoise de ChatGPT ne sera produite que dans cinq sociétés : Baidu, Ali, Tencent, Byte et Huawei.

À l'ère d'Internet, c'est un "721" typique.La première place est délicieuse et épicée, la deuxième place survit à peine et la troisième place est en danger.

En ce moment, une centaine de modèles se battent, et tout le monde veut avoir sa part du grand modèle. Mais il y a un problème très réel : les grandes usines ont des avantages que les start-up ne peuvent égaler lorsqu'elles fabriquent des modèles à grande échelle. Pour une petite et belle start-up, c'est probablement juste une illusion qu'elle veut renverser une grande usine avec seulement trois ou cinq personnes.

Les grands modèles ne peuvent pas être séparés de la plate-forme cloud. L'atterrissage de grands modèles nécessite un ajustement et une formation continus, qui doivent tous être exécutés sur la plate-forme cloud. Baidu, Alibaba, Tencent, Byte et Huawei ont tous leurs propres activités cloud. Baidu et Huawei ont également terminé la mise en page des puces aux applications. Baidu est "Kunlun Core + Flying Paddle Platform + Wenxin Large Model", Huawei est "Shengteng chip + framework MindSpore + grand modèle Pangu", qui sont des avantages que les start-up ne peuvent égaler.

De plus, les grandes entreprises disposent d'avantages naturels en termes de réserves de capital, de ressources humaines, de scénarios d'utilisation et d'accumulation de données. Sans un scénario d'atterrissage pour les startups, la technologie ne peut pas être itérée, optimisée en continu et les effets de réseau de données ne peuvent pas être formés.

Les petites entreprises n'ont donc aucune chance ?

Reprenons la métaphore de l'ère de la ruée vers l'or : "Cette époque est très similaire à l'ère de la ruée vers l'or. Si vous alliez en Californie chercher de l'or à cette époque, beaucoup de gens mourraient. Mais les gens qui vendent des cuillères et des pelles peuvent gagnez toujours de l'argent." C'est également vrai. Lu Qi, le fondateur et PDG de Qiji Chuangtan, a récemment partagé avec des entrepreneurs. Lu Qi espère aider les entrepreneurs chinois à reconnaître ce tournant historique, à localiser les coordonnées de l'ère actuelle et à trouver leur propre position.

Début juillet, Stuart Russell, professeur d'informatique à l'Université de Californie à Berkeley et auteur de "Artificial Intelligence—A Modern Approach", a averti que des bots alimentés par l'IA tels que ChatGPT pourraient bientôt "manquer de texte dans l'univers". ." ", et la technique de formation des bots en collectant de grandes quantités de texte "commence à rencontrer des difficultés".

La semaine dernière, plus de 8 500 écrivains ont signé une lettre demandant aux dirigeants d'entreprises telles que OpenAI, Microsoft, Meta et Alphabet de ne pas utiliser leur travail pour former des systèmes d'IA sans autorisation ni paiement, et demandant à ces sociétés d'intelligence artificielle de compenser leurs pertes de droits d'auteur.

Le stock de données Internet est sur le point d'être épuisé et les données de qualité se font de plus en plus rares. Un modèle est bon ou mauvais, 20 % est déterminé par l'algorithme et 80 % est déterminé par la qualité des données. Dans la « troïka » des données, de la puissance de calcul et des algorithmes, les données sont l'élément central, à plus long terme et le plus fondamental. Les grands modèles doivent être alimentés avec des quantités massives de données afin d'être continuellement optimisés et itérés.

Ensuite, la valeur réelle deviendra des données durables de haute qualité. Comment obtenir en permanence des sources de données légales, conformes et conformes à la logique métier deviendra un facteur clé pour améliorer les performances des grands modèles. Par conséquent, les opérateurs de données peuvent devenir un rôle important limitant le développement de grands modèles.

Idéalement, le modèle fournit en permanence des services aux utilisateurs, et les utilisateurs génèrent en permanence de nouvelles données pour le modèle. Quant à la prochaine étape, les données privées seront précisées. Des services plus personnalisés signifient plus de données privées, et il est peu probable que les humains montrent des données privées au grand modèle sans réserve.

A toute époque, "vendeur d'eau" est toujours une bonne affaire. Fait intéressant, peu importe que vous soyez un pionnier, un explorateur ou un chercheur d'or, vous ne pouvez pas vous passer d'eau. Bien sûr, vous pouvez également vendre des cuillères et des pelles.

## 03 Conclusion

Au cours des derniers mois, un post a été largement diffusé sur les plateformes sociales :

Pensez à l'IA comme à un enfant. L'IA en Europe et aux États-Unis appartient à la voie de l'éducation d'élite. Après sa naissance, sa famille a dépensé de l'argent pour qu'il étudie jusqu'à ce qu'il obtienne un doctorat.

L'IA de Chine appartient à la lignée de l'éducation utilitaire. Il est élevé pour survivre à la naissance, et quand il a 15 ans, il est obligé de trouver des moyens de gagner de l'argent pour la famille et d'apprendre à commercialiser ses compétences.

Quelques mots, dégustés avec soin, pleins de saveurs.

Bien que ce ne soit pas nécessairement vrai, cela peut également expliquer dans une certaine mesure pourquoi OpenAI et ChatGPT ne sont pas apparus en Chine. En fait, certains investisseurs et entrepreneurs nationaux étaient pleins de confiance au début et voulaient être la version chinoise d'OpenAI. Après quelques mois de brassage, j'ai découvert qu'il me fallait encore trouver un modèle de profit, explorer des scénarios d'application métier et des capacités de commercialisation.

Il convient de mentionner que certains utilisateurs finaux C ont récemment perçu que les performances de ChatGPT-4 sur certaines tâches étaient trop faibles, ce qui est considéré comme l'utilisation d'un modèle expert mixte (MOE) par OpenAI pour réduire les coûts et augmenter l'efficacité. , et de se concentrer sur les services au niveau de l'entreprise.

En regardant autour de vous, Apple développe également son propre grand modèle de langage Apple GPT, et Qualcomm étudie déjà comment le réaliser d'ici la fin de cette année, afin que le modèle avec un niveau de paramètre de 10 milliards à 15 milliards puisse fonctionner hors ligne sur le téléphone mobile sans traitement cloud.

Les grands modèles sont une refonte de la productivité, un changement de paradigme. Il y a 200 ans, les humains utilisaient pour la première fois des moteurs à vapeur pour convertir l'énergie thermique en énergie cinétique, et l'ère de l'industrialisation commençait. Aujourd'hui, les humains utilisent de grands modèles pour convertir l'énergie électrique en puissance cérébrale et en intelligence générale, et une nouvelle ère s'ouvre.

Bien sûr, nous n'avons pas besoin de trop de roues, mais nous avons toujours besoin de bonnes roues.

Il y a un long chemin à parcourir.

Voir l'original