Lan Zhenzhong, professeur à l'Université de West Lake : Plusieurs connaissances sur les grands modèles

2023-09-19 07:47:02

Le 19 septembre 2023, la « Semaine internationale de la blockchain de Shanghai 2023 · Le neuvième sommet mondial de la blockchain » s'est ouverte à Shanghai. Lan Zhenzhong, fondateur de West Lake Xinchen et professeur à l'Université de West Lake, a donné une conférence en direct intitulée « Plusieurs cognitions sur les grands modèles ».

Pour plus d'informations, veuillez cliquer sur : Points forts de la « Semaine internationale de la blockchain de Shanghai 2023 » (mis à jour en permanence) »

Golden Finance a effectué un suivi et un rapport sur place de l'ensemble de la réunion. Ce qui suit est un résumé du contenu du discours.

bonjour tout le monde!

Aujourd'hui, je parlerai principalement des grands modèles et de l'intelligence artificielle, et plus tard je parlerai d'une certaine intégration avec Web3 et du travail en cours.

J'ai commencé à travailler sur l'intelligence artificielle en 2007, et cela fait plus de dix ans depuis. De l'ère CPU à l'ère GPU, des petits modèles aux grands modèles, je le fais depuis longtemps, et j'ai aussi fait du contenu relativement représentatif. En 2019, le grand modèle que j'ai réalisé lorsque j'étais chez Google était le meilleur grand modèle au monde, bien meilleur que le GPT2, donc on méprisait la série GPT à l'époque, mais maintenant ils se portent très bien.

À mon retour en Chine en 2020, j'ai effectué la première évaluation de grands modèles chinois. Je peux être considéré comme un participant approfondi aux grands modèles. Il existe désormais un laboratoire et une entreprise qui effectuent des recherches sur les grands modèles.

Dans le passé, je revenais rarement sur l’histoire du développement des grands modèles et j’y réfléchissais rarement en profondeur. Jusqu'à ce que ChatGPT devienne populaire, les gens venaient me poser diverses questions. Permettez-moi de résumer les questions suivantes :

Tout d’abord, souhaitez-vous que le modèle devienne plus grand ou plus petit ?

Deuxièmement, on parle beaucoup aujourd'hui des grands modèles généraux. Alors, les grands modèles généraux ont-ils des opportunités, ou les grands modèles industriels ont-ils des opportunités ?

Troisièmement, dois-je investir dans NVIDIA ou dans de grandes sociétés modèles et sociétés d’applications ?

Quatrièmement, pour le grand public, comment les grands modèles peuvent-ils changer mon travail ? Comment dois-je choisir une carrière.

Ces questions nous permettent de revoir l'histoire passée. Je présente principalement quelques données passées pour votre référence.

Tout d’abord, première question : les grands modèles deviendront-ils de plus en plus grands ? En regardant l'histoire, lorsque les ordinateurs ont commencé à se développer en 1950, les modèles sont devenus de plus en plus grands. On peut dire que l'agrandissement du modèle est fondamentalement le premier facteur pour que le modèle devienne intelligent, de sorte que le modèle deviendra de plus en plus grand.

Jusqu'en 2018, nous avons découvert une méthode qui permet au modèle de se développer rapidement. Aujourd'hui, il se développe très rapidement. De 2018 au début de 2021, il a augmenté des centaines de fois tous les 18 mois. Maintenant, la vitesse a ralenti, mais c'est également une expansion rapide.

(Comme le montre la figure) Cette image est une image de GPT4. L'axe vertical parle du niveau d'intelligence. Plus le niveau d'intelligence est élevé, plus le niveau est élevé. L'axe horizontal parle de la taille du modèle et de la quantité de formation. . À mesure que le modèle devient plus grand et plus entraîné, le niveau d'intelligence devient de plus en plus élevé. Le point vert est GPT4. À ce stade, il y a encore une pente et elle va encore descendre. On peut donc s’attendre à ce que lorsque vous agrandissez le modèle, il puisse encore devenir plus intelligent. Les êtres humains recherchent toujours la limite, et nous allons certainement l’amplifier.

Mais ce qui inquiète tout le monde maintenant, c'est que GPT4 est déjà un modèle de niveau billion. Les coûts d'inférence sont très coûteux, et la formation est également très coûteuse. L'amplification est-elle utile ?

En regardant d’autres données, nous savons que cette inquiétude n’est pas nécessaire, car le coût de la formation et de l’inférence est en forte baisse. Lorsque GPT3 a été formé en 2020, le coût d’une seule session de formation s’élevait à 4 millions de dollars. Il a été réduit à 400 000 $ US en 2022, et la réduction des coûts est très rapide.

Principalement sous plusieurs aspects :

Premièrement, les performances des GPU ont fortement augmenté et les coûts ont baissé, dépassant largement la loi de Moore. De 2016 à 2022, selon la loi de Moore, les performances du CPU ont été multipliées par 8 et celles du GPU par 26. L'amélioration est très évidente.

Le deuxième est l'amélioration des logiciels. Avec l'amélioration de l'efficacité de la formation apportée par les logiciels, le coût annuel de la formation est réduit d'environ 47 %. La combinaison des deux est une baisse très terrible, l'une est matérielle et l'autre est logicielle.

Troisièmement, nous diffusons la puissance de calcul à grande échelle. Avant la sortie de ChatGPT, la puissance de calcul mondiale augmentait d'environ 20 à 40 % chaque année. Après la sortie de ChatGPT, l'augmentation de la puissance de calcul pourrait doubler. Lorsque votre puissance de calcul augmente à grande échelle et que les GPU sont produits en masse, les coûts d’exploitation diminuent également. Pris ensemble, le coût de la formation et de l’inférence diminue fortement, on peut donc constater qu’il a été divisé par 10 en deux ans.

Dans les prochaines années, les modèles de plusieurs milliards de dollars comme GPT4 deviendront relativement bon marché et tout le monde pourra les utiliser.

Pour résumer, je prédis que les modèles continueront de devenir plus grands et plus puissants, que les coûts de formation et d'inférence continueront de baisser et que les itérations seront rapides.

(Comme le montre l'image) Cette image concerne GPT1. Je n'avais pas une haute opinion de GPT1 à l'époque. Avec le recul, j'ai commis une grosse erreur. GPT1 a apporté une très grande contribution et a transformé l'intelligence artificielle d'une intelligence artificielle spécialisée. Transformation en intelligence artificielle générale.

Il y avait autrefois des centaines de tâches de traitement du langage naturel, et divers modèles étaient conçus pour chaque tâche, il y avait donc beaucoup d'articles. Mais après la sortie de GPT1, je vous ai dit de ne pas utiliser différents modèles. J'ai utilisé un seul modèle pour gérer la plupart de vos (tâches).

Ce dernier article a été écrit par mon collègue de Google de l'époque, qui intégrait diverses tâches dans un même modèle. Par conséquent, la principale contribution de cette vague est l'universalité. L'universalité ne se reflète pas seulement dans le texte, mais aussi dans les images, les sons et protéines.Pour diverses données telles que les séquences, tant que vous pouvez convertir les données en séquence, elles peuvent essentiellement être traitées.

Découper l'image en plusieurs morceaux et l'allonger est une tâche que le modèle Transformer peut désormais gérer. Il peut essentiellement couvrir une variété de tâches et est très polyvalent.

Bien que les grands modèles ne puissent pas gérer de nombreuses tâches complexes à l'heure actuelle, vous pouvez le faire à condition de l'aider un peu à le faire et de décomposer un peu les tâches. Bien que tout le monde pense que GPT4 est très fort, la précision de l'exécution directe de 24 points est de 7,3%, mais si vous la décomposez un peu, elle peut être améliorée à 74%.De nombreuses tâches apparemment compliquées, si des professionnels l'aident à les décomposer, Maintenant, les modèles de la série GPT ou les grands modèles généraux peuvent vous aider à résoudre de nombreuses tâches et à réaliser l'automatisation.

L'une est que le modèle deviendra plus grand, et l'autre est qu'il est polyvalent et peut résoudre de nombreux personnages complexes avec un peu de démontage, il est donc très pratique. Il y en a beaucoup qui ont été implantés avec succès à l'étranger. Par exemple, Duolingo est une entreprise de Pittsburgh. Son chiffre d'affaires a augmenté de 42 % au premier trimestre 2023 grâce à l'ajout de l'application ChatGPT.

De nombreux programmeurs utilisent désormais Copilot. Les revenus d'OpenAI cette année sont estimés à 1,2 milliard de dollars américains, ce qui représente une échelle de revenus très difficile pour une start-up.

La différence entre cette vague d'intelligence artificielle et la précédente est qu'elle remplace les travailleurs mentaux. L'image de droite montre le niveau d'intelligence (automatisation) dans diverses industries avant cette vague d'intelligence artificielle générale. En bas, ceux qui ne sont pas diplômés. , suivis de ceux du Master au Doctorat, le degré de substituabilité devient de plus en plus faible à mesure que l'on monte. Les choses sont différentes aujourd’hui : après l’émergence de l’intelligence artificielle générale, les travailleurs mentaux peuvent être facilement remplacés.

En résumé, la mise en œuvre de grands modèles sera plus rapide que nous l'imaginions, et bien sûr plus lente que ne l'imaginaient de nombreux acteurs de la finance, car la réaction du marché boursier est toujours plus rapide que la technologie, du moins plus rapide que nous l'imaginions, et elle peut donner du pouvoir aux investisseurs. Tous les horizons de la vie. Il est difficile pour vous de démanteler chaque tâche. Si une grande entreprise modèle s'implante profondément dans l'industrie, il y aura de grandes opportunités.

De nos jours, la plupart des gens prêtent attention à l'intelligence du modèle, et moins à « l'intelligence émotionnelle » du modèle et au degré d'interaction avec les gens. Par exemple, j'ai posé une question que mon amoureux poserait, et ChatGPT m'a donné cette réponse. Il existe une méthode pour cette réponse, mais il n'y en a pas. Les émotions semblent indiquer que notre interaction avec le modèle est froide et manque d'attention aux utilisateurs. Ceci est le reflet du développement précoce de l'industrie.

Vous pouvez comparer les moteurs de recherche. Lors de leur lancement, la personnalisation était rare. Mais maintenant, tout le monde utilise Baidu et Google différemment, car de nombreuses informations seront personnalisées pour rendre les recherches plus précises, mais la plupart d'entre eux ne peuvent pas encore le faire.

Certaines personnes ont également commencé à le faire, comme une société appelée Character.ai, également fondée par mon collègue de Google, qui a ajouté une personnalisation au modèle, ce qui peut améliorer considérablement le temps d'interaction entre le modèle et les personnes. Données de mai : le temps d'interaction moyen d'OpenAI est de 4 minutes et le temps d'interaction moyen de cette entreprise est de 28 minutes, soit plusieurs fois le temps d'interaction. La page ressemble à ceci, ce qui équivaut à diviser le grand modèle en plusieurs capitales et agents (agents) pour obtenir une direction personnalisée, plus émotionnelle et les gens sont prêts à interagir avec elle. Avec le développement actuel de grands modèles, il y aura une grande avancée dans l’interaction homme-machine.

Notre société et notre laboratoire recherchent principalement de grands modèles généraux avec un QI et un EQ élevés, principalement de grands modèles multimodaux. Dans le passé, afin d’améliorer l’intelligence émotionnelle des modèles, une série de capacités ont été développées pour améliorer la mémoire, la personnalisation et la perception émotionnelle.

Le modèle a été lancé relativement tôt, car je travaille depuis longtemps sur un grand modèle général chez Google. Avant la sortie de ChatGPT mi-2020, nous avions notre propre grand modèle général. À cette époque, la capacité d'écriture du le modèle était à égalité avec 3,5, et c’était une profession importante.

Il est en ligne depuis plus d'un an et compte plus de 200 utilisateurs côté C et plus de 100 utilisateurs côté B, dont Starbucks et Alipay.

L'une des applications les plus typiques est la coopération avec Tom Cat. Tom Cat est un produit compagnon avec 400 millions d'utilisateurs actifs mensuels dans le monde. Dans le passé, il copiait principalement la parole des gens et copiait les mots par changement de voix. Nous y ajoutons des capacités d’interaction multimodale et des capacités de dialogue.

Revenons au Web3 lié à la conférence. C'est ma compréhension approximative. Je pense que le grand modèle et Web3 correspondent respectivement aux relations de productivité et de production. Le grand modèle améliore considérablement le niveau de productivité, mais s'il veut bien fonctionner, il doit avoir une production correspondante.relation pour correspondre. J'ai résumé qu'il y a plusieurs problèmes dans la mise en œuvre de grands modèles :

Premièrement, le coût de la formation est très élevé. Rien n’incite les start-up à ouvrir leurs modèles en open source. Les modèles qui coûtent des millions de dollars à former sont open source, mais ils n’ont rien à voir avec moi. C’est difficile pour qu'ils les open source. "Mais l'open source est très important pour les modèles. Beaucoup de modèles actuels sont des boîtes noires. De nombreux instituts de recherche ne peuvent pas se permettre de former leurs propres modèles. Si tout le monde se forme, alors tout le monde réinvente la roue. Par conséquent, l'open source est très important, mais elle nécessite des mesures correspondantes.

Deuxièmement, le coût du raisonnement est élevé. Le coût actuel du raisonnement pour une seule conversation dans GPT4 est de 60 cents, ce qui est beaucoup plus cher que mon discours. Le coût du raisonnement est très élevé et il est très difficile à mettre en œuvre. GPT4 peut être utilisé dans de nombreux endroits, mais son coût est inabordable.

Le troisième est la sensibilité des données. Les données de Samsung ont déjà été divulguées par OpenAI et ont provoqué beaucoup de tollé. Les données que nous téléchargeons désormais sur le grand modèle sont des données sensibles. De nombreuses entreprises ne souhaitent pas télécharger leurs propres données. Comment résoudre ces problèmes ? J'espère que Web3 pourra nous aider à résoudre ces problèmes.

Je viens d'entendre le professeur Cao dire qu'il y a encore de nombreuses difficultés, mais nous espérons que grâce à la recherche, nous pourrons aider à résoudre ces problèmes. Par exemple, nous avons une chaîne publique et tout le monde peut télécharger des modèles open source. Même si vous ouvrez le modèle et les télécharger sur la chaîne publique, il y aura un mécanisme d'incitation correspondant. Par exemple, si les utilisateurs téléchargent des données, si nous sommes autorisés à nous entraîner, il y aura des incitations correspondantes.

Il y a aussi des problèmes informatiques. Désormais, tout le monde dispose d’une carte graphique très puissante sur son téléphone portable. Si le téléphone portable de chacun peut contribuer à l’inférence, alors nous pouvons réduire considérablement le coût de l’inférence. Nous espérons que nos idéaux pourront véritablement se réaliser grâce à la puissance du Web 3. Nous espérons que les grands modèles pourront responsabiliser tous les horizons, accompagner tout le monde et devenir véritablement l'assistant ou le compagnon de chacun.

Merci à tous!

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1Simple Earn Annual Rate 24.4%
22k Popularité
2Gate Launchpad List IKA
30k Popularité
3ETH Trading Volume Surges
23k Popularité
4Gate ETH 10th Anniversary Celebration
21k Popularité
5Trump’s AI Strategy
18k Popularité

Épingler