Après que ChatGPT ait balayé le monde, l'intelligence artificielle a été poussée vers un nouveau débouché. En tant qu'outil de productivité intelligent subversif, c'est déjà devenu un sujet brûlant. À l'heure actuelle, les pays et régions développés du monde entier ont élevé le développement de l'industrie de l'intelligence artificielle au rang de stratégie nationale, et les technologies et applications émergentes connexes ont été continuellement mises en œuvre. Avec le développement en profondeur de la nouvelle vague d'IA, une révolution industrielle portée par la technologie de l'intelligence numérique est sur le point d'émerger, et elle a également ouvert le prélude à "l'ère des grands modèles" dans tous les domaines.
Pourquoi les grands modèles de langage peuvent-ils mener la tendance de l'IA ? Quelles sont les opportunités d'investissement pour l'IA nationale ? Récemment, Titanium Capital a invité Lin Junchao, le directeur des investissements de Rongyi Capital, à partager le thème : Examiner les opportunités d'investissement de l'IA du point de vue du marché primaire. M. Lin est titulaire d'un baccalauréat en génie électrique et électronique et d'une maîtrise de premier ordre de l'University College London (UCL). Il possède trois ans d'expérience entrepreneuriale et six ans d'expérience en investissement en actions. Ses investissements portent sur les outils de développement de logiciels de base, Metaverse et AIGC, y compris Jingye Intelligence, Smart Open Source China et d'autres projets. L'hôte de ce partage est Wu Kai, directeur général de Titanium Capital.Voici le dossier de partage :
Pourquoi le grand modèle de langage peut mener la tendance de l'IA
Un bref historique du développement de l'IA
Depuis que Shannon a proposé des jeux informatiques en 1950, l'IA a connu plus de 70 ans de développement. Nous pouvons grosso modo la diviser en quatre étapes : ère des Lumières précoces + système expert (années 50-70), ère de l'apprentissage automatique + vision par ordinateur (années 80-90), ère de l'apprentissage en profondeur (2006-2017), ère du modèle multimodal + grand langage (2018-présent).
L'événement marquant du début de l'illumination s'est produit lors du symposium d'été du Dartmouth College en 1956. Le concept d'intelligence artificielle a été proposé pour la première fois lors de la réunion, qui a officiellement lancé le prélude à l'intelligence artificielle.Au cours de cette période, le premier robot de discussion ELIZA développé par le MIT en 1966, le premier système expert DENDRAL et David Marr ont proposé les concepts de vision par ordinateur et de neurologie computationnelle en 1976.
À l'ère de l'apprentissage automatique, il y a une figure marquante, c'est-à-dire le parrain de l'IA qui a quitté Google il y a quelque temps, Jeffrey Hinton. En 1986, il a proposé l'algorithme de rétropropagation, qui a rendu possible la formation de réseaux de neurones à grande échelle et a ouvert la voie aux réseaux de neurones ultérieurs et à l'apprentissage en profondeur. Dans le même temps, de nombreux événements et personnages marquants sont également apparus à cette étape, comme le jeu de backgammon en 1979 et la victoire de Deep Blue sur le champion du monde d'échecs Kastrov en 1997. En 2006, Jeffrey Hinton et d'autres ont formellement proposé le concept d'apprentissage en profondeur, introduisant ainsi l'IA dans la troisième étape, l'ère de l'apprentissage en profondeur.
À l'ère de l'apprentissage en profondeur, Jeffrey Hinton a proposé le réseau de neurones convolutifs AlexNet en 2012 et a remporté le concours de classification d'images ImageNet.Le taux d'erreur global était inférieur de 10,8 % à la deuxième place, ouvrant officiellement la première année d'apprentissage en profondeur en vision par ordinateur. En mars 2013, Google a acquis la start-up DNNResearch de Jeffrey Hinton pour 44 millions de dollars. Depuis lors, Google a commencé à diriger le développement de l'IA mondiale ; en 2015, TensorFlow, le cadre d'apprentissage en profondeur le plus influent au monde, était open-source ; en 2016, AlphaGo a vaincu le maître Go neuf dan Li Sedol 4:1 ; en 2017, le modèle Transformer a été lancé, qui a depuis ouvert l'ère de le grand modèle de langage actuel. Dans le même temps, parallèlement à la vague d'IA menée par Google, des licornes d'IA telles que Scale AI, HuggingFace et OpenAI ont également été créées en 2016. Le géant de l'Internet Meta a également ouvert un framework d'apprentissage en profondeur plus utile Pytorch en 2017.
OpenAI, le leader de l'ère des grands modèles de langage, est apparu pour la première fois début avril 2019. L'OpenAI Five qu'il a développé a battu l'équipe OG championne du monde Dota2 avec un avantage absolu de 2:0, puis a publié GPT-3 avec 175 milliards de paramètres en mai 2020, ChatGPT (GPT-3.5) en novembre 2022 et GPT-4 en mars 2023. Depuis lors, il a officiellement pris le relais de Google et a commencé à dominer le monde. Développement de modèles. Les géants de l'Internet/du logiciel tels que Google, Meta et Microsoft ont également ajusté leurs stratégies et participé activement à la compétition de modèles à grande échelle. Depuis ChatGPT fin 2022, nous avons vu que les principaux fabricants du monde entier sont entrés dans le modèle à grande échelle, et les universités nationales, les géants de la technologie, les start-up, etc. ont également lancé en continu divers produits et applications de modèles à grande échelle.
L'histoire du développement de l'IA en Chine remonte à la création de Microsoft Asia Research Institute en 1998. Aujourd'hui, les fondateurs et les équipes de base des sociétés nationales bien connues telles que Innovation Works, Baidu, Kingsoft, Alibaba, SenseTime et Questyle viennent tous de Microsoft Asia Research Institute. Le premier lot de sociétés nationales d'IA iFlytek, Dahua et Hikvision a été coté sur le marché des actions A vers 2008-2010. De 2011 à 2015, de nombreuses startups de vision par ordinateur ont émergé en Chine, telles que Megvii (fondée en 2011), YITU (fondée en 2012), SenseTime (fondée en 2014) et Yuncong (fondée en 2015). En 2018, l'équipe nationale - Beijing Zhiyuan Artificial Intelligence Research Institute a été créée. Le développement des grands modèles cette fois a également profité de cette vague. Depuis 2002, des entreprises liées à l'IA telles que Cambrian, SenseTime, Haitian Ruisheng et Yuncong sont cotées au Conseil de l'innovation scientifique et technologique et à la Bourse de Hong Kong.
Le charme de ChatGPT et GPT-4
Pourquoi ChatGPT et GPT-4 nous permettent-ils de ressentir intuitivement la différence et la puissance de cette vague d'IA du passé ? Elle peut être vue principalement sous les aspects suivants :
** Premièrement, du point de vue de l'utilisateur, cette fois-ci, c'est une méthode d'interaction très humaine. ** Lorsque vous parlez avec ChatGPT, le contenu est généré mot par mot et la réponse est générée en pensant. Dans le même temps, il a également la capacité de plusieurs cycles de dialogue. En outre, il peut également jouer certains rôles, tels que traducteurs, conseillers psychologiques, etc.
** Deuxièmement, la capacité de généralisation, qui se reflète principalement dans la capacité à comprendre rapidement les exigences et à donner des réponses relativement précises sans contexte. ** Cela repose sur le support d'un corpus massif de pré-formation et d'une ingénierie d'indices.
** Troisièmement, la chaîne de la pensée. ** Capacité à comprendre le contexte et le contexte, même de longs textes. Par exemple, le nouveau Claude2 a une capacité de traitement de contexte de 100 000 jetons, ce qui peut essentiellement y alimenter un livre entier pour le traitement. Dans le même temps, il existe également une forte capacité de raisonnement logique, qui peut progressivement désassembler et déduire le problème selon le mode de pensée humain.
En fait, ces capacités émergent avec l'augmentation des paramètres du modèle et l'allongement du temps de formation. De plus, nous pouvons voir que GPT-4 a d'excellents résultats dans divers examens humains, atteignant essentiellement le niveau des futurs étudiants.
La composition du grand modèle de langage
Pour en revenir au grand modèle de langage lui-même, je recommande à tous de regarder le discours d'ouverture sur l'état du GPT partagé par le co-fondateur d'OpenAI, Andrej Karpathy, lors de la Microsoft Developers Conference. Il a décomposé le processus de formation du grand modèle en quatre étapes :
** Lors de la phase de pré-formation, une grande quantité de données de formation de qualité relativement médiocre (y compris des livres, l'exploration d'Internet, des documents, etc.) et 99 % de la puissance de calcul et du temps de l'ensemble du processus de formation de grands modèles sont nécessaires pour former un modèle de base. **Par exemple, la formation d'un modèle de base LLaMA de 650 milliards de paramètres nécessite 2048 GPU Nvidia A100, ce qui prend 21 jours, et le coût total de la formation est d'environ 5 millions de dollars américains. Par conséquent, la formation d'un modèle de base n'est pas conviviale pour les start-ups, et ces ressources et ces coûts ne sont généralement disponibles que pour les grands fabricants.
La deuxième étape est supervisée et affinée sur le modèle de base, afin de former le modèle SFT, tel que Vicuna-13B et d'autres modèles open source courants, sont des modèles supervisés et affinés. À ce stade, seule une petite quantité de données de haute qualité doit être fournie et la demande de puissance de calcul est relativement faible.
** Les troisième et quatrième étapes sont les étapes de modélisation de la récompense et d'apprentissage par renforcement, c'est-à-dire l'apprentissage par rétroaction par renforcement humain RLHF. ** À travers ces deux étapes, la sortie du modèle sera bien meilleure que le modèle de réglage fin supervisé et le modèle de base, mais l'entropie du modèle de base sera sacrifiée.
Du point de vue de l'industrie du marché primaire pour voir les opportunités de l'IA
En examinant systématiquement les opportunités d'investissement dans l'IA du point de vue de l'investissement sur le marché primaire, il peut être divisé en couche de base, couche de déploiement et couche d'application.La communauté des modèles d'IA traverse ces trois couches.
**La couche de base peut être divisée en couche d'infrastructure, couche de données et couche d'algorithme. **
La couche inférieure de la couche d'infrastructure est la puissance de calcul, et c'est aussi l'endroit qui fait actuellement face au goulot d'étranglement le plus direct.Maintenant, les GPU Nvidia et AMD sont sous embargo en Chine. Huawei Kunpeng, le leader de la puissance de calcul domestique, est également confronté au problème du tape out.À l'avenir, la Chine pourrait faire face à une pression croissante en termes de puissance de calcul haut de gamme. Dans le même temps, il y a toujours le problème de l'utilisation du GPU.Même pour OpenAI, un grand nombre d'ingénieurs Nvidia résident sur place pour un réglage manuel, mais son utilisation du GPU n'est que de 50% à 60%. Au-dessus de la puissance de calcul se trouve la couche logicielle de base autour du grand modèle, comme le stockage de données natif de l'IA, la transmission de données, la sécurité des données et d'autres outils et plates-formes de développement et de maintenance autour des données, y compris les bases de données vectorielles, LLMOps, MLOps, etc.
Il peut y avoir plus d'opportunités dans la couche de données, car le modèle de base peut être développé par des entreprises leaders à l'avenir, et il y aura un grand nombre de modèles de base open source, il n'est donc pas nécessaire de dépenser beaucoup d'argent pour développer votre propre modèle de base. Nous devrions nous concentrer sur l'accumulation de données des industries verticales et des entreprises elles-mêmes, et sur la manière de créer des applications à grande échelle pour lesquelles les clients sont prêts à payer. À l'heure actuelle, le plus gros problème des grands modèles est de savoir comment obtenir des ensembles de données de haute qualité et des ensembles de données verticales sur l'industrie.Tout le monde a vu le potentiel des grands modèles dans les domaines de l'industrie, de la science, de la médecine, du droit, de la finance et de l'éducation. Les opportunités futures peuvent résider dans la façon d'obtenir efficacement des données de haute qualité, comment traiter les données multimodales, comment identifier, comment capitaliser les données, comment confirmer les droits, comment commercer, comment protéger la sécurité, etc.
Le cœur de la couche d'algorithme réside dans le cadre d'apprentissage en profondeur et le modèle de base
Le cadre d'apprentissage en profondeur peut être décrit comme le système d'exploitation de l'IA. Il coordonne le déploiement des ressources informatiques vers le bas, entreprend les capacités de construction des modèles d'algorithmes d'IA vers le haut et fournit un grand nombre de bibliothèques d'opérateurs, de bibliothèques de modèles et de didacticiels de documents. Il est également de nature écologique et abaisse le seuil de développement. À l'heure actuelle, les principaux frameworks d'apprentissage en profondeur dans le monde sont principalement TensorFlow de Google et Pytorch de Meta.En Chine, il y a principalement Baidu Fei Paddle, Huawei Shengsi et Oneflow, qui a été précédemment acquis par Light Years Beyond.
Le modèle de base lui-même présente également une diversité.Par exemple, en termes de voies techniques, il existe CNN, RNN, GAN, Transformer, etc. Cette direction est la plus susceptible de donner naissance à des entreprises d'une valeur marchande de plusieurs centaines de milliards, voire de billions, mais c'est aussi le principal champ de bataille avec la concurrence la plus intense.
À l'ère de la guerre des 100 modèles, l'évaluation des modèles est devenue un outil essentiel pour mesurer les capacités de divers modèles. A l'heure actuelle, divers outils d'évaluation de petits modèles traditionnels (GLUE, SuperGLUE, etc.), de grands modèles de langage (HELM, BIG-Bench, etc.) et de grands modèles de langage chinois (SuperCLUE, C-, etc.) sont apparus sur le marché. Comme SuperCLUE et C-, un grand nombre de questions aux caractéristiques chinoises (pensée Mao Zedong, les principes de base du muscisme, etc.) et aux caractéristiques chinoises (idiomes, poèmes, chinois classique, etc.) et d'autres dimensions ont été ajoutées à leurs ensembles d'évaluation. À en juger par les résultats de l'évaluation, à l'exception de GPT-4, GPT-3.5 et Claude, les produits modèles nationaux à grande échelle sont meilleurs que les autres modèles étrangers dans la performance globale de l'évaluation, de sorte que la nécessité de former des modèles chinois à grande échelle est très élevée.
La couche d'application peut être divisée en grands modèles généraux et grands modèles industriels verticaux. Nous nous concentrons principalement sur la nouvelle génération d'outils de productivité basés sur l'IA dans le domaine des grands modèles généraux et sur les opportunités d'application des grands modèles dans divers domaines industriels verticaux.
à l'outil de productivité optimisé par C—AI
À l'ère de l'épidémie, les outils de productivité sur le thème de la collaboration tels que Notion, Figma et Canva ont subi des changements. De même, sous cette vague d'IA, les outils de productivité inaugureront également une nouvelle révolution.
Maintenant, nous voyons que les grands modèles ont pénétré à des degrés divers dans le texte, le code, l'image, la musique, la vidéo, la 3D, etc. Divers nouveaux produits et nouvelles applications émergent les uns après les autres, tels que les chatbots dans le champ texte et le copilote de produit bureautique, le copilote GitHub dans le champ code, Midjourney et Stable Diffusion dans le champ image, AI Stefanie Sun, qui était populaire dans le domaine musical auparavant, et piste dans le domaine vidéo, etc. Des entreprises nationales telles que Baidu, Kingsoft Office, Evernote, Zhipu Hu azhang, etc. ont également lancé des produits d'IA similaires. , modifient la forme des outils de productivité traditionnels à des degrés divers, mais ils se limitent actuellement à des outils d'efficacité dans le processus de production industrielle dans divers domaines et ne peuvent pas réaliser l'AGI au sens propre.
Dans le même temps, on peut voir que des fabricants tels que Microsoft Office, Adobe Photoshop, Unity et Notion adoptent également activement cette vague d'IA, intégrant des capacités AGI dans leurs propres produits et chaînes d'outils. On pensait à l'origine que l'émergence de Midjourney et Stable Diffusion remplacerait complètement Photoshop, mais plus tard, on a découvert qu'AGI, en raison de problèmes de contrôlabilité et d'autres aspects, rendait Photoshop combiné avec des capacités de génération d'IA plus puissantes et faciles à utiliser.
Le domaine 3D est actuellement l'un des domaines les plus difficiles à mettre en œuvre en IA, le principal facteur étant qu'il existe trop peu de données 3D de haute qualité. À l'heure actuelle, AGI pour le contenu 3D est principalement exploré et dirigé par NVIDIA, Unity, Stability.ai et des instituts de recherche scientifique, mais à ce stade, il s'agit encore principalement d'outils de démonstration et de dispersion, et il reste encore un long chemin à parcourir avant qu'il puisse être appliqué à des domaines industriels tels que les effets spéciaux cinématographiques et télévisuels, les jeux et le métaverse.
à B—modèle métier vertical
À l'heure actuelle, la plupart des produits de modèles à grande échelle lancés par les principaux fabricants sont des modèles à grande échelle à usage général.Cependant, face aux industries verticales, les clients finaux B ont besoin de grands modèles de haute précision, de haute cohérence et faciles à déployer qui peuvent résoudre efficacement des problèmes de scénario spécifiques avec moins de données et une puissance de calcul inférieure. Le dernier grand modèle Pangu 3.0 publié par Huawei est basé sur le grand modèle de base, ajoutant les grands modèles de l'industrie N L1 et les capacités du modèle de scène X L2.
Les principaux points clés des grands modèles industriels verticaux sont des ensembles de données industrielles de haute qualité et des capacités d'ingénierie pour le réglage, la compression et le déploiement des modèles. Il s'agit également d'une opportunité d'investissement, tout comme l'opportunité des conteneurs à l'ère du cloud natif, un grand nombre de petites et moyennes entreprises B des industries traditionnelles doivent s'appuyer sur des fabricants de conteneurs spécialisés pour les aider à s'engager sur la voie du cloud natif.
À l'heure actuelle, il y a eu beaucoup d'exploration et de pratique à l'étranger dans le domaine des grands modèles de l'industrie verticale, tels que BloombergGPT dans le domaine FinGPT. Bloomberg a converti les données financières accumulées au cours des 40 dernières années en un ensemble de données financières de 365 milliards de jetons, et combiné avec des ensembles de données générales pour former ses propres 50 milliards de paramètres. ed-PaLM 2, Nuance de Microsoft (intégré à GPT-4 et a publié une application de génération de dossiers médicaux assistée par la voix - DAX Express), etc.
Enfin, parlons de l'orientation en capital de la piste AGI à l'étranger : ** Du point de vue du montant des investissements, les cinq premiers sont les applications textuelles marketing, l'audio, les robots de support client/service client, les images et les plates-formes MLOps ; du point de vue du montant du financement, davantage de fonds circulent vers les plates-formes MLOps, dont la valeur fondamentale réside dans l'abaissement du seuil de développement de grands modèles, suivis des robots de service client, de l'audio, des humains numériques, du doublage et des images. **
Q&R
**Q1 : Les sociétés de services d'externalisation qui annotent les données et assistent le développement de l'IA semblent très bien se porter ces derniers temps. Quelle est votre tendance d'investissement ? **
R : Nous prêtons actuellement attention à ces deux directions. Le domaine de l'étiquetage des données se concentre principalement sur la manière dont ces entreprises utilisent les capacités des grands modèles pour améliorer l'efficacité de l'étiquetage, comme l'utilisation de GPT-4 pour étiqueter le texte et SAM pour étiqueter les images. Parce que la principale concurrence actuelle dans le domaine de l'étiquetage des données est l'efficacité et le bénéfice brut, qui peut obtenir un étiquetage plus efficace à l'aide de grandes capacités de modèle. En termes de services de modèles à grande échelle, cela ressemblera aux opportunités de conteneurs à l'ère du cloud natif.Des fournisseurs professionnels sont nécessaires pour abaisser le seuil de formation, de développement et de déploiement de modèles à grande échelle, et aider chaque entreprise à réaliser une liberté de modèle à grande échelle.
**Q2 : AI a désormais deux catégories : TO C et TO B. Pensez-vous que l'opportunité est plus grande pour TO C ou TO B ? **
A: Nous accordons plus d'attention à TO B. Parce qu'il y a trop de géants de l'Internet dans le domaine TOC, en particulier dans les endroits où l'écologie des applications APP nationales est si forte, il est plus facile pour les grands fabricants d'intégrer des capacités d'IA dans leurs propres APP. Par conséquent, nous accordons plus d'attention à leurs capacités d'intégration de données, à leur compréhension commerciale et à leurs capacités d'ingénierie.
**Q3 : Même pour les grands modèles avec plus d'un milliard de paramètres, plus de 80 ont été rapportés en Chine. Que diriez-vous de la tendance d'investissement dans le grand modèle? Comment choisir entre open source et open source ? **
R : En ce qui concerne l'open source et la source fermée, il est nécessaire de réfléchir à la manière de faire bon usage de l'open source et d'utiliser le modèle open source pour la commercialisation. Par exemple, LLaMA a des restrictions commerciales dans le cadre de l'accord open source. La source fermée nécessite sa propre écologie et son propre soutien, qui ne peuvent être entretenus que par de grands fabricants ayant la capacité et les ressources financières.
**Q4 : Du point de vue des entrepreneurs en intelligence artificielle, ils peuvent être divisés en trois catégories. Une catégorie vient des grandes usines et des fondeurs déjà célèbres. L'autre catégorie est composée d'académiciens, d'académiciens et d'experts de l'Université Tsinghua ou d'autres domaines. Il existe également une catégorie d'entrepreneurs qui ont tendance à être de base. Laquelle de ces trois catégories préférez-vous ? **
R : Une grande partie de la vague de grands modèles en Chine est apparue après la publication par Open AI de grands modèles tels que ChatGPT, LLaMA et Bloom en tant que sources ouvertes. Nous adoptons actuellement une attitude attentiste. Bien sûr, il existe également de nombreux grands fabricants et start-up universitaires tournés vers l'avenir en Chine qui ont exploré avant cette vague de boom des modèles à grande échelle.
Pour les équipes académiques, comment parvenir à la commercialisation est le plus difficile. Je ne pense donc pas qu'il soit nécessaire de le faire par vous-même à l'avenir.Par exemple, la coopération entre OpenAI et Microsoft peut donner des capacités de modélisation à grande échelle aux grands fabricants. Nous recherchons maintenant des cibles autour de la Chine Open Source, car elle a une gamme de produits IDE et a besoin d'un copilote de code, nous recherchons donc la possibilité d'une coopération avec des équipes académiques.Je pense que cette approche est plus réalisable.
**Q5 : Quelles industries verticales du côté B sont les plus susceptibles de réaliser des percées commerciales ? **
R : En raison de la généralisation et de la multimodalité de la capacité du grand modèle, le domaine juridique est un scénario très courant et la demande de contenu textuel est très importante. Les modèles plus grands ont exactement cette capacité, bien qu'il reste encore quelques problèmes à résoudre en termes de précision. De plus, les produits d'assistants personnels sont également un scénario envisageable, même si le cycle de développement peut être plus long.
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Lin Junchao : Examiner les opportunités d'investissement de l'IA du point de vue du marché primaire
Source : Institut de recherche Titanium Capital
Pourquoi les grands modèles de langage peuvent-ils mener la tendance de l'IA ? Quelles sont les opportunités d'investissement pour l'IA nationale ? Récemment, Titanium Capital a invité Lin Junchao, le directeur des investissements de Rongyi Capital, à partager le thème : Examiner les opportunités d'investissement de l'IA du point de vue du marché primaire. M. Lin est titulaire d'un baccalauréat en génie électrique et électronique et d'une maîtrise de premier ordre de l'University College London (UCL). Il possède trois ans d'expérience entrepreneuriale et six ans d'expérience en investissement en actions. Ses investissements portent sur les outils de développement de logiciels de base, Metaverse et AIGC, y compris Jingye Intelligence, Smart Open Source China et d'autres projets. L'hôte de ce partage est Wu Kai, directeur général de Titanium Capital.Voici le dossier de partage :
Pourquoi le grand modèle de langage peut mener la tendance de l'IA
Un bref historique du développement de l'IA
Depuis que Shannon a proposé des jeux informatiques en 1950, l'IA a connu plus de 70 ans de développement. Nous pouvons grosso modo la diviser en quatre étapes : ère des Lumières précoces + système expert (années 50-70), ère de l'apprentissage automatique + vision par ordinateur (années 80-90), ère de l'apprentissage en profondeur (2006-2017), ère du modèle multimodal + grand langage (2018-présent).
L'événement marquant du début de l'illumination s'est produit lors du symposium d'été du Dartmouth College en 1956. Le concept d'intelligence artificielle a été proposé pour la première fois lors de la réunion, qui a officiellement lancé le prélude à l'intelligence artificielle.Au cours de cette période, le premier robot de discussion ELIZA développé par le MIT en 1966, le premier système expert DENDRAL et David Marr ont proposé les concepts de vision par ordinateur et de neurologie computationnelle en 1976.
À l'ère de l'apprentissage automatique, il y a une figure marquante, c'est-à-dire le parrain de l'IA qui a quitté Google il y a quelque temps, Jeffrey Hinton. En 1986, il a proposé l'algorithme de rétropropagation, qui a rendu possible la formation de réseaux de neurones à grande échelle et a ouvert la voie aux réseaux de neurones ultérieurs et à l'apprentissage en profondeur. Dans le même temps, de nombreux événements et personnages marquants sont également apparus à cette étape, comme le jeu de backgammon en 1979 et la victoire de Deep Blue sur le champion du monde d'échecs Kastrov en 1997. En 2006, Jeffrey Hinton et d'autres ont formellement proposé le concept d'apprentissage en profondeur, introduisant ainsi l'IA dans la troisième étape, l'ère de l'apprentissage en profondeur.
À l'ère de l'apprentissage en profondeur, Jeffrey Hinton a proposé le réseau de neurones convolutifs AlexNet en 2012 et a remporté le concours de classification d'images ImageNet.Le taux d'erreur global était inférieur de 10,8 % à la deuxième place, ouvrant officiellement la première année d'apprentissage en profondeur en vision par ordinateur. En mars 2013, Google a acquis la start-up DNNResearch de Jeffrey Hinton pour 44 millions de dollars. Depuis lors, Google a commencé à diriger le développement de l'IA mondiale ; en 2015, TensorFlow, le cadre d'apprentissage en profondeur le plus influent au monde, était open-source ; en 2016, AlphaGo a vaincu le maître Go neuf dan Li Sedol 4:1 ; en 2017, le modèle Transformer a été lancé, qui a depuis ouvert l'ère de le grand modèle de langage actuel. Dans le même temps, parallèlement à la vague d'IA menée par Google, des licornes d'IA telles que Scale AI, HuggingFace et OpenAI ont également été créées en 2016. Le géant de l'Internet Meta a également ouvert un framework d'apprentissage en profondeur plus utile Pytorch en 2017.
OpenAI, le leader de l'ère des grands modèles de langage, est apparu pour la première fois début avril 2019. L'OpenAI Five qu'il a développé a battu l'équipe OG championne du monde Dota2 avec un avantage absolu de 2:0, puis a publié GPT-3 avec 175 milliards de paramètres en mai 2020, ChatGPT (GPT-3.5) en novembre 2022 et GPT-4 en mars 2023. Depuis lors, il a officiellement pris le relais de Google et a commencé à dominer le monde. Développement de modèles. Les géants de l'Internet/du logiciel tels que Google, Meta et Microsoft ont également ajusté leurs stratégies et participé activement à la compétition de modèles à grande échelle. Depuis ChatGPT fin 2022, nous avons vu que les principaux fabricants du monde entier sont entrés dans le modèle à grande échelle, et les universités nationales, les géants de la technologie, les start-up, etc. ont également lancé en continu divers produits et applications de modèles à grande échelle.
L'histoire du développement de l'IA en Chine remonte à la création de Microsoft Asia Research Institute en 1998. Aujourd'hui, les fondateurs et les équipes de base des sociétés nationales bien connues telles que Innovation Works, Baidu, Kingsoft, Alibaba, SenseTime et Questyle viennent tous de Microsoft Asia Research Institute. Le premier lot de sociétés nationales d'IA iFlytek, Dahua et Hikvision a été coté sur le marché des actions A vers 2008-2010. De 2011 à 2015, de nombreuses startups de vision par ordinateur ont émergé en Chine, telles que Megvii (fondée en 2011), YITU (fondée en 2012), SenseTime (fondée en 2014) et Yuncong (fondée en 2015). En 2018, l'équipe nationale - Beijing Zhiyuan Artificial Intelligence Research Institute a été créée. Le développement des grands modèles cette fois a également profité de cette vague. Depuis 2002, des entreprises liées à l'IA telles que Cambrian, SenseTime, Haitian Ruisheng et Yuncong sont cotées au Conseil de l'innovation scientifique et technologique et à la Bourse de Hong Kong.
Le charme de ChatGPT et GPT-4
Pourquoi ChatGPT et GPT-4 nous permettent-ils de ressentir intuitivement la différence et la puissance de cette vague d'IA du passé ? Elle peut être vue principalement sous les aspects suivants :
** Premièrement, du point de vue de l'utilisateur, cette fois-ci, c'est une méthode d'interaction très humaine. ** Lorsque vous parlez avec ChatGPT, le contenu est généré mot par mot et la réponse est générée en pensant. Dans le même temps, il a également la capacité de plusieurs cycles de dialogue. En outre, il peut également jouer certains rôles, tels que traducteurs, conseillers psychologiques, etc.
** Deuxièmement, la capacité de généralisation, qui se reflète principalement dans la capacité à comprendre rapidement les exigences et à donner des réponses relativement précises sans contexte. ** Cela repose sur le support d'un corpus massif de pré-formation et d'une ingénierie d'indices.
** Troisièmement, la chaîne de la pensée. ** Capacité à comprendre le contexte et le contexte, même de longs textes. Par exemple, le nouveau Claude2 a une capacité de traitement de contexte de 100 000 jetons, ce qui peut essentiellement y alimenter un livre entier pour le traitement. Dans le même temps, il existe également une forte capacité de raisonnement logique, qui peut progressivement désassembler et déduire le problème selon le mode de pensée humain.
En fait, ces capacités émergent avec l'augmentation des paramètres du modèle et l'allongement du temps de formation. De plus, nous pouvons voir que GPT-4 a d'excellents résultats dans divers examens humains, atteignant essentiellement le niveau des futurs étudiants.
La composition du grand modèle de langage
Pour en revenir au grand modèle de langage lui-même, je recommande à tous de regarder le discours d'ouverture sur l'état du GPT partagé par le co-fondateur d'OpenAI, Andrej Karpathy, lors de la Microsoft Developers Conference. Il a décomposé le processus de formation du grand modèle en quatre étapes :
** Lors de la phase de pré-formation, une grande quantité de données de formation de qualité relativement médiocre (y compris des livres, l'exploration d'Internet, des documents, etc.) et 99 % de la puissance de calcul et du temps de l'ensemble du processus de formation de grands modèles sont nécessaires pour former un modèle de base. **Par exemple, la formation d'un modèle de base LLaMA de 650 milliards de paramètres nécessite 2048 GPU Nvidia A100, ce qui prend 21 jours, et le coût total de la formation est d'environ 5 millions de dollars américains. Par conséquent, la formation d'un modèle de base n'est pas conviviale pour les start-ups, et ces ressources et ces coûts ne sont généralement disponibles que pour les grands fabricants.
La deuxième étape est supervisée et affinée sur le modèle de base, afin de former le modèle SFT, tel que Vicuna-13B et d'autres modèles open source courants, sont des modèles supervisés et affinés. À ce stade, seule une petite quantité de données de haute qualité doit être fournie et la demande de puissance de calcul est relativement faible.
** Les troisième et quatrième étapes sont les étapes de modélisation de la récompense et d'apprentissage par renforcement, c'est-à-dire l'apprentissage par rétroaction par renforcement humain RLHF. ** À travers ces deux étapes, la sortie du modèle sera bien meilleure que le modèle de réglage fin supervisé et le modèle de base, mais l'entropie du modèle de base sera sacrifiée.
Du point de vue de l'industrie du marché primaire pour voir les opportunités de l'IA
En examinant systématiquement les opportunités d'investissement dans l'IA du point de vue de l'investissement sur le marché primaire, il peut être divisé en couche de base, couche de déploiement et couche d'application.La communauté des modèles d'IA traverse ces trois couches.
La couche inférieure de la couche d'infrastructure est la puissance de calcul, et c'est aussi l'endroit qui fait actuellement face au goulot d'étranglement le plus direct.Maintenant, les GPU Nvidia et AMD sont sous embargo en Chine. Huawei Kunpeng, le leader de la puissance de calcul domestique, est également confronté au problème du tape out.À l'avenir, la Chine pourrait faire face à une pression croissante en termes de puissance de calcul haut de gamme. Dans le même temps, il y a toujours le problème de l'utilisation du GPU.Même pour OpenAI, un grand nombre d'ingénieurs Nvidia résident sur place pour un réglage manuel, mais son utilisation du GPU n'est que de 50% à 60%. Au-dessus de la puissance de calcul se trouve la couche logicielle de base autour du grand modèle, comme le stockage de données natif de l'IA, la transmission de données, la sécurité des données et d'autres outils et plates-formes de développement et de maintenance autour des données, y compris les bases de données vectorielles, LLMOps, MLOps, etc.
Il peut y avoir plus d'opportunités dans la couche de données, car le modèle de base peut être développé par des entreprises leaders à l'avenir, et il y aura un grand nombre de modèles de base open source, il n'est donc pas nécessaire de dépenser beaucoup d'argent pour développer votre propre modèle de base. Nous devrions nous concentrer sur l'accumulation de données des industries verticales et des entreprises elles-mêmes, et sur la manière de créer des applications à grande échelle pour lesquelles les clients sont prêts à payer. À l'heure actuelle, le plus gros problème des grands modèles est de savoir comment obtenir des ensembles de données de haute qualité et des ensembles de données verticales sur l'industrie.Tout le monde a vu le potentiel des grands modèles dans les domaines de l'industrie, de la science, de la médecine, du droit, de la finance et de l'éducation. Les opportunités futures peuvent résider dans la façon d'obtenir efficacement des données de haute qualité, comment traiter les données multimodales, comment identifier, comment capitaliser les données, comment confirmer les droits, comment commercer, comment protéger la sécurité, etc.
Le cœur de la couche d'algorithme réside dans le cadre d'apprentissage en profondeur et le modèle de base
Le cadre d'apprentissage en profondeur peut être décrit comme le système d'exploitation de l'IA. Il coordonne le déploiement des ressources informatiques vers le bas, entreprend les capacités de construction des modèles d'algorithmes d'IA vers le haut et fournit un grand nombre de bibliothèques d'opérateurs, de bibliothèques de modèles et de didacticiels de documents. Il est également de nature écologique et abaisse le seuil de développement. À l'heure actuelle, les principaux frameworks d'apprentissage en profondeur dans le monde sont principalement TensorFlow de Google et Pytorch de Meta.En Chine, il y a principalement Baidu Fei Paddle, Huawei Shengsi et Oneflow, qui a été précédemment acquis par Light Years Beyond.
Le modèle de base lui-même présente également une diversité.Par exemple, en termes de voies techniques, il existe CNN, RNN, GAN, Transformer, etc. Cette direction est la plus susceptible de donner naissance à des entreprises d'une valeur marchande de plusieurs centaines de milliards, voire de billions, mais c'est aussi le principal champ de bataille avec la concurrence la plus intense.
À l'ère de la guerre des 100 modèles, l'évaluation des modèles est devenue un outil essentiel pour mesurer les capacités de divers modèles. A l'heure actuelle, divers outils d'évaluation de petits modèles traditionnels (GLUE, SuperGLUE, etc.), de grands modèles de langage (HELM, BIG-Bench, etc.) et de grands modèles de langage chinois (SuperCLUE, C-, etc.) sont apparus sur le marché. Comme SuperCLUE et C-, un grand nombre de questions aux caractéristiques chinoises (pensée Mao Zedong, les principes de base du muscisme, etc.) et aux caractéristiques chinoises (idiomes, poèmes, chinois classique, etc.) et d'autres dimensions ont été ajoutées à leurs ensembles d'évaluation. À en juger par les résultats de l'évaluation, à l'exception de GPT-4, GPT-3.5 et Claude, les produits modèles nationaux à grande échelle sont meilleurs que les autres modèles étrangers dans la performance globale de l'évaluation, de sorte que la nécessité de former des modèles chinois à grande échelle est très élevée.
La couche d'application peut être divisée en grands modèles généraux et grands modèles industriels verticaux. Nous nous concentrons principalement sur la nouvelle génération d'outils de productivité basés sur l'IA dans le domaine des grands modèles généraux et sur les opportunités d'application des grands modèles dans divers domaines industriels verticaux.
à l'outil de productivité optimisé par C—AI
À l'ère de l'épidémie, les outils de productivité sur le thème de la collaboration tels que Notion, Figma et Canva ont subi des changements. De même, sous cette vague d'IA, les outils de productivité inaugureront également une nouvelle révolution.
Maintenant, nous voyons que les grands modèles ont pénétré à des degrés divers dans le texte, le code, l'image, la musique, la vidéo, la 3D, etc. Divers nouveaux produits et nouvelles applications émergent les uns après les autres, tels que les chatbots dans le champ texte et le copilote de produit bureautique, le copilote GitHub dans le champ code, Midjourney et Stable Diffusion dans le champ image, AI Stefanie Sun, qui était populaire dans le domaine musical auparavant, et piste dans le domaine vidéo, etc. Des entreprises nationales telles que Baidu, Kingsoft Office, Evernote, Zhipu Hu azhang, etc. ont également lancé des produits d'IA similaires. , modifient la forme des outils de productivité traditionnels à des degrés divers, mais ils se limitent actuellement à des outils d'efficacité dans le processus de production industrielle dans divers domaines et ne peuvent pas réaliser l'AGI au sens propre.
Dans le même temps, on peut voir que des fabricants tels que Microsoft Office, Adobe Photoshop, Unity et Notion adoptent également activement cette vague d'IA, intégrant des capacités AGI dans leurs propres produits et chaînes d'outils. On pensait à l'origine que l'émergence de Midjourney et Stable Diffusion remplacerait complètement Photoshop, mais plus tard, on a découvert qu'AGI, en raison de problèmes de contrôlabilité et d'autres aspects, rendait Photoshop combiné avec des capacités de génération d'IA plus puissantes et faciles à utiliser.
à B—modèle métier vertical
À l'heure actuelle, la plupart des produits de modèles à grande échelle lancés par les principaux fabricants sont des modèles à grande échelle à usage général.Cependant, face aux industries verticales, les clients finaux B ont besoin de grands modèles de haute précision, de haute cohérence et faciles à déployer qui peuvent résoudre efficacement des problèmes de scénario spécifiques avec moins de données et une puissance de calcul inférieure. Le dernier grand modèle Pangu 3.0 publié par Huawei est basé sur le grand modèle de base, ajoutant les grands modèles de l'industrie N L1 et les capacités du modèle de scène X L2.
Les principaux points clés des grands modèles industriels verticaux sont des ensembles de données industrielles de haute qualité et des capacités d'ingénierie pour le réglage, la compression et le déploiement des modèles. Il s'agit également d'une opportunité d'investissement, tout comme l'opportunité des conteneurs à l'ère du cloud natif, un grand nombre de petites et moyennes entreprises B des industries traditionnelles doivent s'appuyer sur des fabricants de conteneurs spécialisés pour les aider à s'engager sur la voie du cloud natif.
À l'heure actuelle, il y a eu beaucoup d'exploration et de pratique à l'étranger dans le domaine des grands modèles de l'industrie verticale, tels que BloombergGPT dans le domaine FinGPT. Bloomberg a converti les données financières accumulées au cours des 40 dernières années en un ensemble de données financières de 365 milliards de jetons, et combiné avec des ensembles de données générales pour former ses propres 50 milliards de paramètres. ed-PaLM 2, Nuance de Microsoft (intégré à GPT-4 et a publié une application de génération de dossiers médicaux assistée par la voix - DAX Express), etc.
Enfin, parlons de l'orientation en capital de la piste AGI à l'étranger : ** Du point de vue du montant des investissements, les cinq premiers sont les applications textuelles marketing, l'audio, les robots de support client/service client, les images et les plates-formes MLOps ; du point de vue du montant du financement, davantage de fonds circulent vers les plates-formes MLOps, dont la valeur fondamentale réside dans l'abaissement du seuil de développement de grands modèles, suivis des robots de service client, de l'audio, des humains numériques, du doublage et des images. **
Q&R
**Q1 : Les sociétés de services d'externalisation qui annotent les données et assistent le développement de l'IA semblent très bien se porter ces derniers temps. Quelle est votre tendance d'investissement ? **
R : Nous prêtons actuellement attention à ces deux directions. Le domaine de l'étiquetage des données se concentre principalement sur la manière dont ces entreprises utilisent les capacités des grands modèles pour améliorer l'efficacité de l'étiquetage, comme l'utilisation de GPT-4 pour étiqueter le texte et SAM pour étiqueter les images. Parce que la principale concurrence actuelle dans le domaine de l'étiquetage des données est l'efficacité et le bénéfice brut, qui peut obtenir un étiquetage plus efficace à l'aide de grandes capacités de modèle. En termes de services de modèles à grande échelle, cela ressemblera aux opportunités de conteneurs à l'ère du cloud natif.Des fournisseurs professionnels sont nécessaires pour abaisser le seuil de formation, de développement et de déploiement de modèles à grande échelle, et aider chaque entreprise à réaliser une liberté de modèle à grande échelle.
**Q2 : AI a désormais deux catégories : TO C et TO B. Pensez-vous que l'opportunité est plus grande pour TO C ou TO B ? **
A: Nous accordons plus d'attention à TO B. Parce qu'il y a trop de géants de l'Internet dans le domaine TOC, en particulier dans les endroits où l'écologie des applications APP nationales est si forte, il est plus facile pour les grands fabricants d'intégrer des capacités d'IA dans leurs propres APP. Par conséquent, nous accordons plus d'attention à leurs capacités d'intégration de données, à leur compréhension commerciale et à leurs capacités d'ingénierie.
**Q3 : Même pour les grands modèles avec plus d'un milliard de paramètres, plus de 80 ont été rapportés en Chine. Que diriez-vous de la tendance d'investissement dans le grand modèle? Comment choisir entre open source et open source ? **
R : En ce qui concerne l'open source et la source fermée, il est nécessaire de réfléchir à la manière de faire bon usage de l'open source et d'utiliser le modèle open source pour la commercialisation. Par exemple, LLaMA a des restrictions commerciales dans le cadre de l'accord open source. La source fermée nécessite sa propre écologie et son propre soutien, qui ne peuvent être entretenus que par de grands fabricants ayant la capacité et les ressources financières.
**Q4 : Du point de vue des entrepreneurs en intelligence artificielle, ils peuvent être divisés en trois catégories. Une catégorie vient des grandes usines et des fondeurs déjà célèbres. L'autre catégorie est composée d'académiciens, d'académiciens et d'experts de l'Université Tsinghua ou d'autres domaines. Il existe également une catégorie d'entrepreneurs qui ont tendance à être de base. Laquelle de ces trois catégories préférez-vous ? **
R : Une grande partie de la vague de grands modèles en Chine est apparue après la publication par Open AI de grands modèles tels que ChatGPT, LLaMA et Bloom en tant que sources ouvertes. Nous adoptons actuellement une attitude attentiste. Bien sûr, il existe également de nombreux grands fabricants et start-up universitaires tournés vers l'avenir en Chine qui ont exploré avant cette vague de boom des modèles à grande échelle.
Pour les équipes académiques, comment parvenir à la commercialisation est le plus difficile. Je ne pense donc pas qu'il soit nécessaire de le faire par vous-même à l'avenir.Par exemple, la coopération entre OpenAI et Microsoft peut donner des capacités de modélisation à grande échelle aux grands fabricants. Nous recherchons maintenant des cibles autour de la Chine Open Source, car elle a une gamme de produits IDE et a besoin d'un copilote de code, nous recherchons donc la possibilité d'une coopération avec des équipes académiques.Je pense que cette approche est plus réalisable.
**Q5 : Quelles industries verticales du côté B sont les plus susceptibles de réaliser des percées commerciales ? **
R : En raison de la généralisation et de la multimodalité de la capacité du grand modèle, le domaine juridique est un scénario très courant et la demande de contenu textuel est très importante. Les modèles plus grands ont exactement cette capacité, bien qu'il reste encore quelques problèmes à résoudre en termes de précision. De plus, les produits d'assistants personnels sont également un scénario envisageable, même si le cycle de développement peut être plus long.