La première version de cet article a été finalisée pendant mon temps libre fin août. Après l'avoir publié à la hâte, j'ai reçu de nombreux conseils, j'ai donc ajouté, modifié et supprimé certains contenus pour éviter de faire rire.
Le contenu de cet article évalue principalement la situation actuelle de l'industrie de l'IA du point de vue de l'investissement, réfléchit et conjecture sur les itinéraires technologiques/produits de différentes entreprises et résume de manière abstraite les stratégies des entreprises de l'industrie de l'IA. Par conséquent, il y a inévitablement quelques omissions lorsqu’il s’agit de technologies spécifiques, alors soyez indulgents avec moi.
Mais en dernière analyse, les grandes entreprises capables de publier des articles sont toujours en désaccord les unes avec les autres, et personne ne semble être en mesure d'évaluer l'exactitude du contenu de cet article. Tout comme utiliser GPT-4 pour évaluer GPT-3.5, cela semble raisonnable, mais c'est un peu abstrait quand on y pense.
L'auteur suggère donc que cet article soit considéré comme un « jugement » formé après une collecte d'informations sur des industries incertaines. Puisqu'il s'agit d'un jugement, la position doit être claire et il doit y avoir quelque chose à dire. Quant à juger si c’est juste ou non, nous la laisserons à l’épreuve du temps.
L'auteur a toujours pensé que les nouvelles industries sont bruyantes, il est donc toujours juste d'utiliser davantage son cerveau et d'oser porter des jugements. Pour les questions vrai-faux, le taux de réponse correcte à l'aveugle est de 50 % et la probabilité de se tromper trois fois de suite est de 12,5 %. Même s'il s'agit d'un niveau de jugement à pile ou face, cela a du sens. Ce n'est pas terrible de porter un jugement, le plus terrible, c'est que la précision du jugement est inférieure à celle de lancer une pièce de monnaie.
Avant d'ouvrir officiellement cet article, je voudrais remercier le travail suivant, qui a fourni une inspiration et des sources de données précieuses pour cet article. Bien entendu, étant donné que de nombreuses déductions de cet article sont basées sur ces travaux, si elles contiennent des erreurs ou si l'auteur a une mauvaise compréhension, les déductions de cet article ne seront plus robustes. Les lecteurs sont invités à formuler leur propre jugement. Cet article ne constitue pas un conseil en investissement, et il est difficile de constituer un conseil en investissement.
Chain-of-Thought Hub : un effort continu pour mesurer les performances de raisonnement des grands modèles linguistiques(
LIMA : Moins, c'est plus pour l'alignement (
Juin 2023, une revue d'étape du réglage des instructions(
Architecture GPT-4, infrastructure, ensemble de données de formation, coûts, vision, MoE(
Ok, commençons officiellement cet article.
Grand modèle : lancez la Cyber Rocket
La première étape du débat sur l’IA en 2023 consiste à déterminer si l’entrepreneuriat à grande échelle est encore possible.
Le grand modèle (pré-entraînement) s'est désormais transformé en problème du lancement d'une fusée : tant qu'elle peut être brûlée et que la direction est bonne, tout le monde peut le faire. On peut dire que former un grand modèle, c'est lancer une cyber-fusée.
Il est contre-intuitif que les investisseurs sous-estiment la difficulté de former de grands modèles, mais surestiment la difficulté de lancer de vraies fusées. Avec le même coût de 60 millions de dollars, les investisseurs penseront qu'il existe une seconde chance pour un échec de lancement de fusée, tandis que l'échec de la formation d'un grand modèle est considéré comme un gaspillage d'argent.
GPT-4 consomme encore 60 millions de dollars en efficacité d'utilisation du GPU d'OpenAI (environ 30 %). C'est une question de {performance=efficiency×cost}, et la performance est un mur. Si d'autres start-up ne peuvent pas obtenir un effet de performance supérieur à 30 % × 60 millions = 18 millions de dollars américains, les utilisateurs pourraient tout aussi bien utiliser GPT-4. directement.
Actuellement, de nombreuses entreprises prétendant former de grands modèles disposent de cycles de financement compris entre 1 et 5 millions de dollars. En d’autres termes, même les entreprises disposant du financement le plus important ne disposent que de suffisamment de munitions pour soutenir un seul lancement. Même si l'utilisation du GPU de ce lancement atteint 100 %, il sera difficile de dépasser GPT-4.
De ce point de vue, il est préférable de lancer des fusées, car la plupart des fusées sont des lanceurs, transportant des satellites vers le ciel, et la charge unique est limitée, de sorte que les petites entreprises de fusées peuvent prendre des commandes de satellites que d'autres n'ont pas le temps de lancer.
Le grand modèle est différent: le coût marginal de l'expansion horizontale du grand modèle n'est que le coût de la puissance de calcul, et le coût de la puissance de calcul peut être augmenté de manière élastique, ce qui signifie que pour la grande entreprise modèle, le bénéfice de chaque commande est un profit gratuit. , il n'y a presque aucun coût supplémentaire et la capacité d'entreprise est très grande. Pour les grandes entreprises modèles nouvellement créées et de mauvaise qualité, il est difficile de recevoir des demandes excédentaires.
À moins que le coût de la formation ne soit considérablement réduit, même si l'architecture complète de GPT-4 est connue, il sera difficile pour de nombreuses entreprises de créer un modèle à grande échelle pouvant être mis sur le marché à court terme.
Personnalisation : faire face au problème du « le gagnant remporte tout »
Dans l'industrie du matériel informatique, un phénomène courant consiste à réaliser des bénéfices précoces grâce à des exigences personnalisées, puis à réaliser des percées technologiques (ou des rapprochements) grâce à des bénéfices précoces. Cependant, la personnalisation dans la grande industrie du modélisme n’est guère un débouché pour les nouveaux entrants.
Concernant ce jugement, l'explication est très simple : la grande majorité des modèles affinés ne peuvent pas rattraper GPT-4. Même s'ils rattrapent leur retard, utiliser directement GPT-4 pour la généralisation est moins cher, nécessite moins de personnel et demande moins de chance. Les besoins en données sont moindres. Tant que l’écart de performances entre GPT-4 et les autres modèles persiste, la personnalisation ne peut pas être la solution pour les grandes entreprises modèles.
Un exemple très typique est Jasper, qui utilise GPT-3 affiné pour servir les entreprises clientes. Cependant, après qu'OpenAI a publié ChatGPT (GPT-3.5), ses utilisateurs ont rapidement perdu. Parce que la sortie de Jasper peut être obtenue en saisissant simplement GPT-3.5 sans utiliser une « version rétrospective » qui généralise mal et est limitée à un usage interne.
Par rapport aux nouvelles entreprises, Jasper dispose d’au moins une période fenêtre de développement allant de GPT-3 à GPT-3.5. Cependant, les nouvelles entreprises doivent désormais faire face simultanément à la pression du GPT-3.5 à faible coût et à grande vitesse et du GPT-4 hautes performances.
Par conséquent, la probabilité de survie d’espérer accumuler des bénéfices grâce à la personnalisation pour réaliser des percées technologiques est très faible.
Mise au point : Nécessaire, ne soyez pas superstitieux
L’industrie actuelle de l’IA a des attentes irréalistes en matière de réglage fin, qui sont surestimées en termes de mise en œuvre technique spécifique et de rythme technique au niveau macro.
Les réglages fins actuellement discutés dans l'industrie se réfèrent principalement à "la base sur un modèle pré-entraîné, ce qui lui permet de générer des réponses qui répondent aux intentions humaines". Ce type d'ajustement peut être appelé « alignement », c'est-à-dire aligner la réponse sur les intentions humaines, plutôt que d'ajouter de la sagesse au grand modèle.
Selon les résultats de plusieurs articles de recherche, la connaissance des grands modèles devrait principalement provenir de la pré-formation, tandis que le réglage fin est davantage utilisé pour l'alignement.
L’explication simple est que la pré-formation détermine la capacité cérébrale et que le réglage fin détermine la langue maternelle. Affiner le modèle pré-entraîné est un processus d’« élimination de l’analphabétisme ».
Cependant, à l'heure actuelle, le réglage fin est souvent considéré dans l'industrie comme une méthode « d'amélioration de l'intelligence » du modèle, c'est-à-dire que grâce au réglage fin pour améliorer les performances du modèle et accroître la connaissance du modèle, on pense que cela peut atteindre le "Saint Graal de l'intelligence artificielle". Cette ligne de pensée est quelque peu biaisée.
Tout d'abord, les performances du modèle lui-même ne se sont pas améliorées, mais il peut mieux aligner les intentions humaines. Si la complexité de la tâche dépasse les performances du modèle, un réglage fin ne donnera pas les résultats escomptés. C'est comme si on demandait au cerveau humain d'effectuer des calculs quantiques. Ce n'est pas une question d'éducation si cela n'est pas possible.
Deuxièmement, le « supplément de connaissances » est effectué dans la partie « alignement des intentions », et l'effet est plus similaire au « perroquet ». Autrement dit : le modèle imite simplement ce que disent les experts sans en comprendre le sens. Même si de nombreuses industries peuvent obtenir de bonnes solutions en « perroquet » (après tout, la plupart des industries ne sont pas compliquées...), ce n'est évidemment pas le résultat que nous devrions rechercher à long terme.
Enfin, la formation visant à « compléter des ensembles de données supplémentaires, à améliorer les performances du modèle et à accroître les connaissances du modèle » doit être considérée comme un modèle ayant la capacité « d'apprentissage incrémentiel/apprentissage continu », c'est-à-dire que tous les paramètres du modèle peuvent être traités via Optimisation incrémentielle des ensembles de données. Il ne s'agit pas du même concept que ce que l'on appelle le « réglage fin des instructions ».
En général, la mise au point est très importante, mais il est erroné d'avoir une attitude « superstitieuse » à l'égard de la mise au point actuelle, en particulier la précipitation pour sceller la mise au point actuelle comme le Saint Graal, qui est tout à fait « sur l'édifice ». de la physique aujourd'hui "Il n'y a que deux nuages sombres qui flottent".
En prenant du recul, si le besoin « d'augmentation de l'intelligence » peut réellement être résolu en affinant les instructions, en effectuant une simple recherche vectorielle, en connectant directement les connaissances au contexte et en écrivant simplement quelques modèles, il y a une forte probabilité que des résultats identiques, voire meilleurs, peuvent être obtenus.
Tout le monde aime peaufiner, c'est peut-être une sorte de renouveau des compétences en alchimie dans les temps modernes...
Perspectives pour les grands modèles : quatre opérations arithmétiques
(Notez que cette partie du contenu est entièrement basée sur les données divulguées par Dylan Patel, et la fiabilité ne peut être vérifiée pour le moment)
La formation de GPT-4 est basée sur la série A de cartes N. L'efficacité de la formation est de 30 %. La durée de la formation est d'environ 2 mois. Le coût est d'environ 60 millions. Le montant total des paramètres est de {1,7 billion = 110 milliards × 16 modèles experts}. Il peut traiter un seul problème. Les paramètres sont d'environ 280 milliards.
En d’autres termes, plusieurs paramètres clés entraîneront des changements dans le modèle de formation des grands modèles.
Efficacité de la formation : une augmentation de 30 % à 60 % peut directement réduire le temps de doublement
Augmentation de l'intensité de la puissance de calcul : après le passage de la série A à la série H puis à la carte dédiée AI, la densité de puissance de calcul est améliorée et de nombreux problèmes affectant l'efficacité de l'architecture peuvent être résolus
Le coût de la puissance de calcul a baissé : Lao Huang (fondateur de Nvidia) réduit les cartes graphiques, ce qui entraîne des réductions de coûts significatives
Amélioration de l'efficacité des paramètres : il est possible d'améliorer l'efficacité des paramètres du modèle. En ce qui concerne le modèle précédent, l'efficacité des paramètres de l'ancien modèle peut généralement être augmentée plusieurs fois. Il est possible d'utiliser 30 % des paramètres de GPT-4 pour obtenir un effet similaire
En résumé, le coût de formation d'un modèle avec des performances de niveau GPT-4 à partir de zéro peut avoir une marge d'optimisation 10 à 20 fois supérieure, qui est réduite de 3 à 6 millions de dollars. Ce coût est très rentable pour les startups. et les grandes entreprises sont plus acceptables.
Et ce changement peut prendre environ 2 ans.
À l'heure actuelle, la technologie du grand modèle grand public est toujours basée sur le transformateur, la structure de base n'a pas changé et l'idée de faire des miracles avec l'alchimie et les paramètres n'a pas été épuisée. La formation de GPT-4 est effectuée sur la base d'une limite de puissance de calcul importante et le temps de formation n'est pas assez long.
Si les paramètres croissent linéairement avec le temps d'entraînement, la limite supérieure des paramètres pour un modèle avec une architecture similaire à GPT-4 peut être d'environ 10 000 milliards, soit : deux fois plus de temps d'entraînement (× 2) et deux fois plus de cartes graphiques parallèles ( × 2) , l'efficacité de l'entraînement est deux fois moins rapide (× 1,5), l'efficacité des paramètres est deux fois moins élevée (× 1,5) et le résultat final est dix fois meilleur. Selon le style d'appétit pour le risque de la Silicon Valley, ce paramètre sera très probablement atteint d'ici un an, que les performances se soient améliorées ou non.
Cependant, après avoir atteint 10 000 milliards de paramètres, on ne sait absolument pas si LLM peut encore utiliser l'idée d'augmenter les paramètres pour accomplir des miracles.
Si le nombre de paramètres améliore les performances du modèle dans une mesure décroissante, alors 10 000 milliards de paramètres constitueront probablement un obstacle. Cependant, il existe également une hypothèse selon laquelle le nombre de paramètres améliore les performances du modèle avec une augmentation marginale, similaire à « si une personne est suffisamment intelligente, elle peut tout apprendre rapidement ». La première solution est acceptable, mais si la seconde se réalise, les performances du modèle pourraient s’améliorer de façon exponentielle et ce qui se passerait alors serait complètement imprévisible.
Il est difficile de prédire l’élixir, mais il est facile de prédire le rythme stratégique d’une entreprise. Pour la plupart des entreprises, qu'il s'agisse d'un géant comme Google/MS/APPL ou du plus petit OpenAI, un modèle avec un paramètre total de 10 000 milliards est un point final important, qui peut être utilisé pour s'arrêter et faire une exploration technique de sa position.
La préférence des entreprises/du capital pour le risque peut être convertie en un « temps d'endurance », si l'ensemble du temps d'endurance brûle intensément les dépenses, il sera difficile de dépasser 6 mois. L’artisanat humain ne se développe pas assez vite, généralement sur un cycle de 5 ans ou plus. Par conséquent, d’ici 5 ans, la quantité de paramètres limites du modèle pourra être estimée, qui devrait être comprise entre 20 000 et 50 000 milliards. À moins qu’une énorme avancée dans le processus/l’architecture ne se produise à nouveau, la probabilité de dépasser cet ordre de grandeur est très faible.
Multimodalité : L'éléphant dans la pièce
La multimodalité est l’éléphant dans la pièce et peut avoir un impact profond sur le paysage des hippodromes.
La définition simple de la multimodalité est la suivante : prendre en charge l’entrée et la sortie d’informations modales multiples. Cette définition est très vague : par exemple, certains produits sur le marché qui prétendent pouvoir effectuer une saisie multimodale sont en réalité une couche d'OCR en dehors de ChatBot. Il existe également des modèles qui répondent pleinement à la définition de la multimodalité, mais leurs performances sont décevantes. Même la capacité de saisie d'images multimodales du GPT-4 n'a pas encore été largement ouverte.On voit que cette fonction n'est pas très stable.
L’avènement de la multimodalité n’est cependant pas loin. Il existe une forte probabilité que GPT-5 prenne en charge la multimodalité de manière native, c'est-à-dire qu'il doit repenser la structure et se recycler. Selon le raisonnement ci-dessus, les paramètres du grand modèle peuvent encore être multipliés par 10 à 50, et cela devrait suffire à y intégrer des capacités multimodales. Par conséquent, on peut s'attendre à ce que des modèles multimodaux à haute disponibilité et haute performance apparaissent d'ici 2 ans, et avec optimisme, ce sera dans près d'un an.
La multimodalité est l'éléphant dans la pièce, tout le monde sait qu'une telle chose finira par arriver, mais tant de produits/recherches/stratégies ignorent son existence qu'il y a une erreur de calcul dans des éléments clés.
Par exemple, les modèles à image unique peuvent théoriquement être sévèrement opprimés par les modèles multimodaux, mais la plupart des recherches et investissements ignorent actuellement ce problème, conduisant à une surévaluation de certaines entreprises axées sur l’image. Ces entreprises sont susceptibles de perdre les barrières techniques et de se transformer à l’avenir en prestataires de services. Leur système de valorisation devrait faire référence aux prestataires de services plutôt qu’aux entreprises technologiques.
Si vous voulez raconter l'histoire de « l'investissement dépend des personnes, la même équipe peut transformer l'entreprise », faites comme si je ne l'avais pas dit. Les légendes sont toujours là, mais on ne peut pas croire aux légendes quand on fait des recherches.
Qui peut entraîner GPT-4 : vous pouvez, mais ce n'est pas nécessaire
Il ne faut pas si longtemps pour faire de l'alchimie, et les grandes entreprises achètent des cartes graphiques. Une chose très évidente est que dans un an, les grandes entreprises pourront former des modèles de niveau GPT-4. Mais s’entraîner ou non est une autre question.
Dans le domaine des jeux, il existe une proposition classique appelée « Yuanshin jouant à Yuanshen », c'est-à-dire : lorsque les joueurs peuvent choisir de jouer à Yuanshen ou à un produit concurrent de Yuanshen, si le produit concurrent n'est pas aussi bon que Yuanshen, alors jouez à Original God. .
Cette approche du « gagnant remporte tout » s'applique également à l'industrie du modélisme à grande échelle. Si une entreprise suit OpenAI, après six mois de recherche et développement, elle lance son propre modèle à grande échelle avec des performances comparables à 90 % du GPT-4 et espère le présenter sur le marché. À l’heure actuelle, l’entreprise sera confrontée aux problèmes suivants :
OpenAI bénéficie de l'avantage d'échelle des ressources cloud et de coûts réduits
L'API d'OpenAI a été largement utilisée dans les codes de produits et il est difficile de la remplacer.
Les performances des produits de l'entreprise ne dépassent toujours pas GPT-4
Le produit de nouvelle génération d'OpenAI (éventuellement GPT-5) sera bientôt publié
On voit que l’entreprise est soumise à une pression considérable. Plutôt que de former GPT-4, mieux vaut miser directement sur le modèle nouvelle génération (par rapport au GPT-5). Le problème passera alors du « problème des produits concurrents similaires » au « problème de l'innovation technologique ». C’est un fardeau que les petites entreprises ne peuvent supporter.
Par conséquent, discuter de « qui peut entraîner GPT-4 » est une question stratégiquement morte. Plutôt que de réfléchir à ce problème, il est préférable de trouver une direction avec plus de certitude et d'opportunités.
Conseils aux startups d'IA : donnez la priorité à la performance, évitez la stagnation
L'auteur a écrit de nombreux articles se plaignant de Langchain, la raison fondamentale étant que Langchain ne laisse pas aux développeurs la possibilité d'améliorer les performances. On l'appelle par euphémisme « cadre universel ». Afin d'assurer l'universalité, de nombreuses possibilités d'amélioration des performances des grands modèles sont abandonnées, telles que le dialogue multi-tours et le contrôle du format mis en œuvre par réglage fin. Des exemples similaires incluent guidance/Auto-GPT/BabyAGI, etc., qui souhaitent tous construire un « cadre qui peut durer toute une vie ».
Un fait objectif est qu'OpenAI a publié Function Calling en mai. De nombreux endroits problématiques du code ont de meilleures solutions de mise en œuvre, et le coût de la mise en œuvre de meilleures solutions est de reconstruire les parties clés du code du produit. En août, OpenAI a publié des autorisations pour affiner GPT-3.5, et de nombreux liens nécessitant un contrôle précis de la sortie ont de nouvelles solutions potentielles.
Par conséquent, les startups doivent faire face à un choix clé : doivent-elles choisir ① d'améliorer les performances et de constamment refactoriser les produits, ou ② de réduire l'utilisation de nouvelles fonctionnalités et de toujours utiliser les anciennes fonctionnalités pour le développement ?
Pour l’entrepreneuriat en matière d’applications de nouvelles technologies, le « développement » représente non seulement le processus d’écriture de code, mais représente également la « limite supérieure » de la fonctionnalité/stratégie du produit. Plus les performances contrôlables sont élevées, plus le produit possède de fonctions théoriques et plus sa flexibilité stratégique est élevée.
Le développement de la technologie est imprévisible et des innovations technologiques mineures peuvent entraîner des changements très sensibles dans le paysage concurrentiel. Les start-up doivent disposer de capacités anti-fragile pour le développement technologique.
——En termes humains, c'est : la performance d'abord, éviter de rester. Au niveau du développement, utilisez les nouvelles fonctionnalités ; en termes de produits, réfléchissez aux fonctions que les nouvelles fonctionnalités peuvent remplir ; en termes de stratégie, considérez l'impact des nouvelles fonctionnalités sur la stratégie.
Dans "Guo Qin Lun", il a été mentionné qu'après l'établissement de la dynastie Qin, les armes métalliques du monde ont été confisquées et coulées en douze figures de bronze pour éliminer la possibilité d'un soulèvement civil. Mais la dynastie Qin fut notoirement de courte durée. Il est plus bénéfique de prêter attention aux changements que de les ignorer.
Conseils aux startups de l'IA : créez des applications en toute confiance
Il existe un danger caché très courant lorsque les startups développent des applications : l’entrée de grandes entreprises. Les grandes entreprises comprennent ici non seulement des géants des applications, tels que Meta/Byte/Tencent, etc., mais aussi des acteurs en amont de l'industrie de l'IA, comme OpenAI.
Il y a généralement deux raisons pour lesquelles les grandes entreprises entrent sur le marché : déployer des opportunités de produits et réduire en amont et en aval.
"Développer des opportunités de produits" est un sens littéral.Les grandes entreprises estiment que cette direction en vaut la peine, alors elles le font.
"Couper en amont et en aval" est pour la plupart un geste impuissant. C'est peut-être parce que j'ai développé un grand modèle comparable à OpenAI. Cependant, en raison du problème du gagnant-gagnant des grands modèles, il n'y a pas d'utilisateurs, ce qui entraîne des coûts brûlants, pas de revenus et pas de données, ce qui conduit à un retard progressif des performances. À l’heure actuelle, la seule option est de s’attaquer à l’aval, de développer des applications spécifiques et d’utiliser sa propre technologie.
Selon l'expérience historique, en raison du problème de la structure organisationnelle, plus l'entreprise est proche de l'aval, plus il est facile d'être à la traîne en matière de technologie, et plus la technologie est en retard, plus elle doit être en aval. Ces entreprises dites technologiques finiront par rivaliser pour le même créneau écologique que les entreprises de la couche application.
Cependant, sur le champ de bataille de la couche application, en raison du peu de temps de la technologie de l'IA, il n'y a pas d'avantage d'échelle efficace et réutilisable, et le point de départ des grandes entreprises et des start-ups est similaire. Par rapport aux grandes entreprises, les startups sont plus efficaces et disposent de connaissances plus approfondies, ce qui facilite leur exploitation.
Une chose à noter est que presque tous les supports promotionnels pour MS Azure tournent désormais autour d'OpenAI, mais une entreprise aussi grande que Microsoft s'appuie entièrement sur OpenAI comme plate-forme, ce qui prouve que les startups ont des avantages naturels dans le domaine de l'IA.
Bien entendu, certains fournisseurs de cloud n’acceptent peut-être pas d’être dirigés par des startups et souhaitent eux-mêmes s’emparer de tout le marché. C'est cher, lent et ne constitue pas une menace immédiate.
Le fait est qu’il existe effectivement des pistes éphémères pour les applications d’IA, mais il existe encore de nombreuses pistes de longue durée qui n’ont pas été découvertes, et les applications d’IA ne sont pas toutes gagnantes. L'extension des applications aux plates-formes ou technologies est également une voie plus réalisable.
Par conséquent, nous devons être rationnels quant à la capacité des grandes entreprises à pénétrer dans la couche applicative. Notre suggestion est que les start-ups d’IA puissent créer des applications en toute confiance.
Conseils aux startups d'IA : faites attention à la bouée de sauvetage du produit
Comme mentionné précédemment, les startups d'IA peuvent développer des applications en toute confiance, mais elles doivent prendre en compte les problèmes de performances du modèle d'IA et éviter de stagner. Cette situation se reflète directement dans le fait que les produits d'IA peuvent perdre leur base de demande et dépérir progressivement en quelques mois, et cette situation peut se produire fréquemment.
Les applications d'IA doivent utiliser les services de grands modèles, et les performances des grands modèles continuent de s'améliorer. Cette amélioration n'est pas une amélioration dans une seule dimension telle que la « vitesse », mais un changement dans tous les aspects tels que la qualité de sortie, la longueur de sortie et la contrôlabilité de la sortie. Chaque mise à niveau technologique significative entraînera un retard technologique des produits de couche d'application existants et créera de nouvelles opportunités et de nouveaux concurrents.
**Nous appelons le moment où l'application de l'IA conserve les avantages et la nécessité en matière de stratégie/produit/technologie une « bouée de sauvetage ». **
Voici quelques exemples de bouées de sauvetage plus courtes :
Lorsque ChatGPT/Claude prend en charge le téléchargement de fichiers, ChatPDF devient inutile
Lorsque Office 365 prend en charge Copilot, les produits qui utilisent l'IA pour dessiner des PPT perdent leur avantage
Lorsque GPT-3.5 apparaîtra, Jasper ne sera plus nécessaire
**Compte tenu du développement rapide de l'industrie de l'IA, des bouées de sauvetage limitées sont la norme. Par conséquent, accepter le fait que la bouée de sauvetage est limitée et essayer de choisir une direction avec une bouée de sauvetage plus longue pour le développement est propice au maintien des avantages à long terme et de la nécessité du produit. **
Généralement, la bouée de sauvetage peut être simplement divisée en niveaux de 3/6/12 mois.
3 mois : Fonctions que les grandes entreprises n'ont pas eu le temps de faire (comme les fonctions que office/ChatGPT n'a pas eu le temps de faire)
6 mois : Il est difficile à mettre en œuvre et ne peut pas être intégré aux solutions existantes, mais les avantages/nécessités disparaîtront à mesure que les performances de l'IA s'améliorent (comme le cadre général de l'IA)
12 mois : les avantages/nécessités peuvent exister pendant une longue période et ne sont pas facilement affectés par les grandes entreprises/développements technologiques (comme Hugging Face)
*Le cycle de vie des produits de plateforme n'est pas nécessairement long, après tout, les magasins sont aussi des plateformes.
Les startups n’ont besoin que d’une bouée de sauvetage de 6 mois pour déterminer leur direction, et une bouée de sauvetage de 12 mois est difficile à trouver.
Lorsque la bouée de sauvetage du produit arrive à son terme, il existe généralement deux situations. La première situation est que les avantages disparaissent et la technologie de mise à niveau du produit doit être reconstruite, veuillez vous référer aux « performances d'abord » ci-dessus ; la deuxième situation est que la nécessité disparaît et le produit sera progressivement remplacé. À ce stade, le produit a encore plusieurs mois de « durée de vie opérationnelle », ce qui suffit aux startups pour choisir la prochaine direction.
Conseils aux startups d'IA : Web3+AI peut le faire
À l'heure actuelle, il existe de nombreux projets entrepreneuriaux autour du thème Web3+AI, mais compte tenu de l'incertitude du développement technologique et du stade précoce du marché, le thème du Web3+AI comportera encore de nombreuses variables à l'avenir.
Cet article vise à trouver parmi les incertitudes des certitudes ayant une forte probabilité d'être correctes. Par conséquent, l'auteur espère toujours s'inspirer et proposer des sujets et des orientations qui pourraient avoir des opportunités de référence pour les start-ups et les chercheurs intéressés.
Dé-souveraineté/décentralisation
Actuellement, les leaders du secteur de l'IA ne proposent que des modèles à code source fermé, et la stabilité, la transparence et la neutralité de leur fourniture continue de services sont incontrôlables. La dé-souveraineté/décentralisation peut devenir un thème important dans l'industrie de l'IA, à savoir : sur la base de la structure de base de la dé-souveraineté/décentralisation, pour fournir des services d'IA stables, transparents et neutres.
La désovereignisation/décentralisation est une « solution alternative » et une « dissuasion », qui peut augmenter considérablement le coût contraire à l'éthique des entreprises d'IA centralisées/souveraines et les empêcher d'utiliser des modèles d'IA dans les domaines militaire, sectaire, politique, etc.
Dans des cas extrêmes, une fois que le service d'IA centralisé/souverain n'est plus disponible/crédible pour une raison quelconque, l'IA décentralisée/décentralisée peut continuer à fournir des services hautement disponibles pour empêcher les pays/régions individuels et même les humains de perdre les services d'IA.
Praticité de la puissance de calcul
Derrière le passage de l'ETH du PoW au PoS se cache le dilemme critiqué selon lequel « l'exploitation minière ne produit pas de valeur ». La combinaison du Web3 avec l'IA peut fournir des scénarios de puissance de calcul pratique, réalisant ainsi la digestion de la puissance de calcul existante et favorisant la croissance de la puissance de calcul totale. .
Assetisation virtuelle
L'IA est un actif natif de la puissance de calcul et du stockage.La combinaison du Web3 et de l'IA peut fournir un canal pour transformer l'IA en actifs virtuels et créer de véritables actifs virtuels natifs pour le Web3 tout en réalisant l'instanciation de valeur de l'industrie de l'IA.
Variables pour les applications Web3
La combinaison du Web3 et de l'IA peut apporter de nouvelles fonctions et opportunités de croissance aux applications Web3, et les applications Web3 existantes peuvent être entièrement refaites.
Écrit à la fin : septembre, l'IA actuelle vaut-elle encore la peine de démarrer une entreprise ?
Permettez-moi de commencer par la conclusion : cela en vaut la peine, et cette conclusion pourra très probablement être utilisée jusqu'au Nouvel An chinois.
Les gens ont souvent une perception biaisée de la situation, et je ne fais pas exception. Certains sont trop optimistes, d’autres trop pessimistes. L'auteur a un jour communiqué avec deux équipes. L'une pense qu'elle sera capable de produire AI Agent au premier trimestre de l'année prochaine, et l'autre équipe pense que l'IA ne convient qu'à la gestion des bases de connaissances. Évidemment, la première est trop optimiste, tandis que ce dernier est trop pessimiste.
Lorsqu'on élabore des plans à long terme, être trop optimiste ou trop pessimiste peut conduire à des pièges, et les remarques largement diffusées sont souvent des remarques très biaisées, ce qui rend la pensée indépendante extrêmement précieuse. Par conséquent, que le lecteur puisse ou non accepter les opinions de cet article, tant qu'il fait preuve d'indépendance de pensée et de jugement pendant le processus de lecture, l'auteur sera extrêmement satisfait.
Enfin, placez une annonce. Si vous avez une bonne idée entrepreneuriale en IA ou si vous avez déjà formé un projet, n'hésitez pas à communiquer avec des amis du NGC (comme moi) à tout moment.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
NGC Ventures : Nous sommes en septembre, l’IA vaut-elle encore la peine de démarrer une entreprise maintenant ?
Auteur original : Cherry, NGC Ventures
Préface
La première version de cet article a été finalisée pendant mon temps libre fin août. Après l'avoir publié à la hâte, j'ai reçu de nombreux conseils, j'ai donc ajouté, modifié et supprimé certains contenus pour éviter de faire rire.
Le contenu de cet article évalue principalement la situation actuelle de l'industrie de l'IA du point de vue de l'investissement, réfléchit et conjecture sur les itinéraires technologiques/produits de différentes entreprises et résume de manière abstraite les stratégies des entreprises de l'industrie de l'IA. Par conséquent, il y a inévitablement quelques omissions lorsqu’il s’agit de technologies spécifiques, alors soyez indulgents avec moi.
Mais en dernière analyse, les grandes entreprises capables de publier des articles sont toujours en désaccord les unes avec les autres, et personne ne semble être en mesure d'évaluer l'exactitude du contenu de cet article. Tout comme utiliser GPT-4 pour évaluer GPT-3.5, cela semble raisonnable, mais c'est un peu abstrait quand on y pense.
L'auteur suggère donc que cet article soit considéré comme un « jugement » formé après une collecte d'informations sur des industries incertaines. Puisqu'il s'agit d'un jugement, la position doit être claire et il doit y avoir quelque chose à dire. Quant à juger si c’est juste ou non, nous la laisserons à l’épreuve du temps.
L'auteur a toujours pensé que les nouvelles industries sont bruyantes, il est donc toujours juste d'utiliser davantage son cerveau et d'oser porter des jugements. Pour les questions vrai-faux, le taux de réponse correcte à l'aveugle est de 50 % et la probabilité de se tromper trois fois de suite est de 12,5 %. Même s'il s'agit d'un niveau de jugement à pile ou face, cela a du sens. Ce n'est pas terrible de porter un jugement, le plus terrible, c'est que la précision du jugement est inférieure à celle de lancer une pièce de monnaie.
Avant d'ouvrir officiellement cet article, je voudrais remercier le travail suivant, qui a fourni une inspiration et des sources de données précieuses pour cet article. Bien entendu, étant donné que de nombreuses déductions de cet article sont basées sur ces travaux, si elles contiennent des erreurs ou si l'auteur a une mauvaise compréhension, les déductions de cet article ne seront plus robustes. Les lecteurs sont invités à formuler leur propre jugement. Cet article ne constitue pas un conseil en investissement, et il est difficile de constituer un conseil en investissement.
Ok, commençons officiellement cet article.
Grand modèle : lancez la Cyber Rocket
La première étape du débat sur l’IA en 2023 consiste à déterminer si l’entrepreneuriat à grande échelle est encore possible.
Le grand modèle (pré-entraînement) s'est désormais transformé en problème du lancement d'une fusée : tant qu'elle peut être brûlée et que la direction est bonne, tout le monde peut le faire. On peut dire que former un grand modèle, c'est lancer une cyber-fusée.
Il est contre-intuitif que les investisseurs sous-estiment la difficulté de former de grands modèles, mais surestiment la difficulté de lancer de vraies fusées. Avec le même coût de 60 millions de dollars, les investisseurs penseront qu'il existe une seconde chance pour un échec de lancement de fusée, tandis que l'échec de la formation d'un grand modèle est considéré comme un gaspillage d'argent.
GPT-4 consomme encore 60 millions de dollars en efficacité d'utilisation du GPU d'OpenAI (environ 30 %). C'est une question de {performance=efficiency×cost}, et la performance est un mur. Si d'autres start-up ne peuvent pas obtenir un effet de performance supérieur à 30 % × 60 millions = 18 millions de dollars américains, les utilisateurs pourraient tout aussi bien utiliser GPT-4. directement.
Actuellement, de nombreuses entreprises prétendant former de grands modèles disposent de cycles de financement compris entre 1 et 5 millions de dollars. En d’autres termes, même les entreprises disposant du financement le plus important ne disposent que de suffisamment de munitions pour soutenir un seul lancement. Même si l'utilisation du GPU de ce lancement atteint 100 %, il sera difficile de dépasser GPT-4.
De ce point de vue, il est préférable de lancer des fusées, car la plupart des fusées sont des lanceurs, transportant des satellites vers le ciel, et la charge unique est limitée, de sorte que les petites entreprises de fusées peuvent prendre des commandes de satellites que d'autres n'ont pas le temps de lancer.
Le grand modèle est différent: le coût marginal de l'expansion horizontale du grand modèle n'est que le coût de la puissance de calcul, et le coût de la puissance de calcul peut être augmenté de manière élastique, ce qui signifie que pour la grande entreprise modèle, le bénéfice de chaque commande est un profit gratuit. , il n'y a presque aucun coût supplémentaire et la capacité d'entreprise est très grande. Pour les grandes entreprises modèles nouvellement créées et de mauvaise qualité, il est difficile de recevoir des demandes excédentaires.
À moins que le coût de la formation ne soit considérablement réduit, même si l'architecture complète de GPT-4 est connue, il sera difficile pour de nombreuses entreprises de créer un modèle à grande échelle pouvant être mis sur le marché à court terme.
Personnalisation : faire face au problème du « le gagnant remporte tout »
Dans l'industrie du matériel informatique, un phénomène courant consiste à réaliser des bénéfices précoces grâce à des exigences personnalisées, puis à réaliser des percées technologiques (ou des rapprochements) grâce à des bénéfices précoces. Cependant, la personnalisation dans la grande industrie du modélisme n’est guère un débouché pour les nouveaux entrants.
Concernant ce jugement, l'explication est très simple : la grande majorité des modèles affinés ne peuvent pas rattraper GPT-4. Même s'ils rattrapent leur retard, utiliser directement GPT-4 pour la généralisation est moins cher, nécessite moins de personnel et demande moins de chance. Les besoins en données sont moindres. Tant que l’écart de performances entre GPT-4 et les autres modèles persiste, la personnalisation ne peut pas être la solution pour les grandes entreprises modèles.
Un exemple très typique est Jasper, qui utilise GPT-3 affiné pour servir les entreprises clientes. Cependant, après qu'OpenAI a publié ChatGPT (GPT-3.5), ses utilisateurs ont rapidement perdu. Parce que la sortie de Jasper peut être obtenue en saisissant simplement GPT-3.5 sans utiliser une « version rétrospective » qui généralise mal et est limitée à un usage interne.
Par rapport aux nouvelles entreprises, Jasper dispose d’au moins une période fenêtre de développement allant de GPT-3 à GPT-3.5. Cependant, les nouvelles entreprises doivent désormais faire face simultanément à la pression du GPT-3.5 à faible coût et à grande vitesse et du GPT-4 hautes performances.
Par conséquent, la probabilité de survie d’espérer accumuler des bénéfices grâce à la personnalisation pour réaliser des percées technologiques est très faible.
Mise au point : Nécessaire, ne soyez pas superstitieux
L’industrie actuelle de l’IA a des attentes irréalistes en matière de réglage fin, qui sont surestimées en termes de mise en œuvre technique spécifique et de rythme technique au niveau macro.
Les réglages fins actuellement discutés dans l'industrie se réfèrent principalement à "la base sur un modèle pré-entraîné, ce qui lui permet de générer des réponses qui répondent aux intentions humaines". Ce type d'ajustement peut être appelé « alignement », c'est-à-dire aligner la réponse sur les intentions humaines, plutôt que d'ajouter de la sagesse au grand modèle.
Selon les résultats de plusieurs articles de recherche, la connaissance des grands modèles devrait principalement provenir de la pré-formation, tandis que le réglage fin est davantage utilisé pour l'alignement.
L’explication simple est que la pré-formation détermine la capacité cérébrale et que le réglage fin détermine la langue maternelle. Affiner le modèle pré-entraîné est un processus d’« élimination de l’analphabétisme ».
Cependant, à l'heure actuelle, le réglage fin est souvent considéré dans l'industrie comme une méthode « d'amélioration de l'intelligence » du modèle, c'est-à-dire que grâce au réglage fin pour améliorer les performances du modèle et accroître la connaissance du modèle, on pense que cela peut atteindre le "Saint Graal de l'intelligence artificielle". Cette ligne de pensée est quelque peu biaisée.
Tout d'abord, les performances du modèle lui-même ne se sont pas améliorées, mais il peut mieux aligner les intentions humaines. Si la complexité de la tâche dépasse les performances du modèle, un réglage fin ne donnera pas les résultats escomptés. C'est comme si on demandait au cerveau humain d'effectuer des calculs quantiques. Ce n'est pas une question d'éducation si cela n'est pas possible.
Deuxièmement, le « supplément de connaissances » est effectué dans la partie « alignement des intentions », et l'effet est plus similaire au « perroquet ». Autrement dit : le modèle imite simplement ce que disent les experts sans en comprendre le sens. Même si de nombreuses industries peuvent obtenir de bonnes solutions en « perroquet » (après tout, la plupart des industries ne sont pas compliquées...), ce n'est évidemment pas le résultat que nous devrions rechercher à long terme.
Enfin, la formation visant à « compléter des ensembles de données supplémentaires, à améliorer les performances du modèle et à accroître les connaissances du modèle » doit être considérée comme un modèle ayant la capacité « d'apprentissage incrémentiel/apprentissage continu », c'est-à-dire que tous les paramètres du modèle peuvent être traités via Optimisation incrémentielle des ensembles de données. Il ne s'agit pas du même concept que ce que l'on appelle le « réglage fin des instructions ».
En général, la mise au point est très importante, mais il est erroné d'avoir une attitude « superstitieuse » à l'égard de la mise au point actuelle, en particulier la précipitation pour sceller la mise au point actuelle comme le Saint Graal, qui est tout à fait « sur l'édifice ». de la physique aujourd'hui "Il n'y a que deux nuages sombres qui flottent".
En prenant du recul, si le besoin « d'augmentation de l'intelligence » peut réellement être résolu en affinant les instructions, en effectuant une simple recherche vectorielle, en connectant directement les connaissances au contexte et en écrivant simplement quelques modèles, il y a une forte probabilité que des résultats identiques, voire meilleurs, peuvent être obtenus.
Tout le monde aime peaufiner, c'est peut-être une sorte de renouveau des compétences en alchimie dans les temps modernes...
Perspectives pour les grands modèles : quatre opérations arithmétiques
(Notez que cette partie du contenu est entièrement basée sur les données divulguées par Dylan Patel, et la fiabilité ne peut être vérifiée pour le moment)
La formation de GPT-4 est basée sur la série A de cartes N. L'efficacité de la formation est de 30 %. La durée de la formation est d'environ 2 mois. Le coût est d'environ 60 millions. Le montant total des paramètres est de {1,7 billion = 110 milliards × 16 modèles experts}. Il peut traiter un seul problème. Les paramètres sont d'environ 280 milliards.
En d’autres termes, plusieurs paramètres clés entraîneront des changements dans le modèle de formation des grands modèles.
En résumé, le coût de formation d'un modèle avec des performances de niveau GPT-4 à partir de zéro peut avoir une marge d'optimisation 10 à 20 fois supérieure, qui est réduite de 3 à 6 millions de dollars. Ce coût est très rentable pour les startups. et les grandes entreprises sont plus acceptables.
Et ce changement peut prendre environ 2 ans.
À l'heure actuelle, la technologie du grand modèle grand public est toujours basée sur le transformateur, la structure de base n'a pas changé et l'idée de faire des miracles avec l'alchimie et les paramètres n'a pas été épuisée. La formation de GPT-4 est effectuée sur la base d'une limite de puissance de calcul importante et le temps de formation n'est pas assez long.
Si les paramètres croissent linéairement avec le temps d'entraînement, la limite supérieure des paramètres pour un modèle avec une architecture similaire à GPT-4 peut être d'environ 10 000 milliards, soit : deux fois plus de temps d'entraînement (× 2) et deux fois plus de cartes graphiques parallèles ( × 2) , l'efficacité de l'entraînement est deux fois moins rapide (× 1,5), l'efficacité des paramètres est deux fois moins élevée (× 1,5) et le résultat final est dix fois meilleur. Selon le style d'appétit pour le risque de la Silicon Valley, ce paramètre sera très probablement atteint d'ici un an, que les performances se soient améliorées ou non.
Cependant, après avoir atteint 10 000 milliards de paramètres, on ne sait absolument pas si LLM peut encore utiliser l'idée d'augmenter les paramètres pour accomplir des miracles.
Si le nombre de paramètres améliore les performances du modèle dans une mesure décroissante, alors 10 000 milliards de paramètres constitueront probablement un obstacle. Cependant, il existe également une hypothèse selon laquelle le nombre de paramètres améliore les performances du modèle avec une augmentation marginale, similaire à « si une personne est suffisamment intelligente, elle peut tout apprendre rapidement ». La première solution est acceptable, mais si la seconde se réalise, les performances du modèle pourraient s’améliorer de façon exponentielle et ce qui se passerait alors serait complètement imprévisible.
Il est difficile de prédire l’élixir, mais il est facile de prédire le rythme stratégique d’une entreprise. Pour la plupart des entreprises, qu'il s'agisse d'un géant comme Google/MS/APPL ou du plus petit OpenAI, un modèle avec un paramètre total de 10 000 milliards est un point final important, qui peut être utilisé pour s'arrêter et faire une exploration technique de sa position.
La préférence des entreprises/du capital pour le risque peut être convertie en un « temps d'endurance », si l'ensemble du temps d'endurance brûle intensément les dépenses, il sera difficile de dépasser 6 mois. L’artisanat humain ne se développe pas assez vite, généralement sur un cycle de 5 ans ou plus. Par conséquent, d’ici 5 ans, la quantité de paramètres limites du modèle pourra être estimée, qui devrait être comprise entre 20 000 et 50 000 milliards. À moins qu’une énorme avancée dans le processus/l’architecture ne se produise à nouveau, la probabilité de dépasser cet ordre de grandeur est très faible.
Multimodalité : L'éléphant dans la pièce
La multimodalité est l’éléphant dans la pièce et peut avoir un impact profond sur le paysage des hippodromes.
La définition simple de la multimodalité est la suivante : prendre en charge l’entrée et la sortie d’informations modales multiples. Cette définition est très vague : par exemple, certains produits sur le marché qui prétendent pouvoir effectuer une saisie multimodale sont en réalité une couche d'OCR en dehors de ChatBot. Il existe également des modèles qui répondent pleinement à la définition de la multimodalité, mais leurs performances sont décevantes. Même la capacité de saisie d'images multimodales du GPT-4 n'a pas encore été largement ouverte.On voit que cette fonction n'est pas très stable.
L’avènement de la multimodalité n’est cependant pas loin. Il existe une forte probabilité que GPT-5 prenne en charge la multimodalité de manière native, c'est-à-dire qu'il doit repenser la structure et se recycler. Selon le raisonnement ci-dessus, les paramètres du grand modèle peuvent encore être multipliés par 10 à 50, et cela devrait suffire à y intégrer des capacités multimodales. Par conséquent, on peut s'attendre à ce que des modèles multimodaux à haute disponibilité et haute performance apparaissent d'ici 2 ans, et avec optimisme, ce sera dans près d'un an.
La multimodalité est l'éléphant dans la pièce, tout le monde sait qu'une telle chose finira par arriver, mais tant de produits/recherches/stratégies ignorent son existence qu'il y a une erreur de calcul dans des éléments clés.
Par exemple, les modèles à image unique peuvent théoriquement être sévèrement opprimés par les modèles multimodaux, mais la plupart des recherches et investissements ignorent actuellement ce problème, conduisant à une surévaluation de certaines entreprises axées sur l’image. Ces entreprises sont susceptibles de perdre les barrières techniques et de se transformer à l’avenir en prestataires de services. Leur système de valorisation devrait faire référence aux prestataires de services plutôt qu’aux entreprises technologiques.
Si vous voulez raconter l'histoire de « l'investissement dépend des personnes, la même équipe peut transformer l'entreprise », faites comme si je ne l'avais pas dit. Les légendes sont toujours là, mais on ne peut pas croire aux légendes quand on fait des recherches.
Qui peut entraîner GPT-4 : vous pouvez, mais ce n'est pas nécessaire
Il ne faut pas si longtemps pour faire de l'alchimie, et les grandes entreprises achètent des cartes graphiques. Une chose très évidente est que dans un an, les grandes entreprises pourront former des modèles de niveau GPT-4. Mais s’entraîner ou non est une autre question.
Dans le domaine des jeux, il existe une proposition classique appelée « Yuanshin jouant à Yuanshen », c'est-à-dire : lorsque les joueurs peuvent choisir de jouer à Yuanshen ou à un produit concurrent de Yuanshen, si le produit concurrent n'est pas aussi bon que Yuanshen, alors jouez à Original God. .
Cette approche du « gagnant remporte tout » s'applique également à l'industrie du modélisme à grande échelle. Si une entreprise suit OpenAI, après six mois de recherche et développement, elle lance son propre modèle à grande échelle avec des performances comparables à 90 % du GPT-4 et espère le présenter sur le marché. À l’heure actuelle, l’entreprise sera confrontée aux problèmes suivants :
On voit que l’entreprise est soumise à une pression considérable. Plutôt que de former GPT-4, mieux vaut miser directement sur le modèle nouvelle génération (par rapport au GPT-5). Le problème passera alors du « problème des produits concurrents similaires » au « problème de l'innovation technologique ». C’est un fardeau que les petites entreprises ne peuvent supporter.
Par conséquent, discuter de « qui peut entraîner GPT-4 » est une question stratégiquement morte. Plutôt que de réfléchir à ce problème, il est préférable de trouver une direction avec plus de certitude et d'opportunités.
Conseils aux startups d'IA : donnez la priorité à la performance, évitez la stagnation
L'auteur a écrit de nombreux articles se plaignant de Langchain, la raison fondamentale étant que Langchain ne laisse pas aux développeurs la possibilité d'améliorer les performances. On l'appelle par euphémisme « cadre universel ». Afin d'assurer l'universalité, de nombreuses possibilités d'amélioration des performances des grands modèles sont abandonnées, telles que le dialogue multi-tours et le contrôle du format mis en œuvre par réglage fin. Des exemples similaires incluent guidance/Auto-GPT/BabyAGI, etc., qui souhaitent tous construire un « cadre qui peut durer toute une vie ».
Un fait objectif est qu'OpenAI a publié Function Calling en mai. De nombreux endroits problématiques du code ont de meilleures solutions de mise en œuvre, et le coût de la mise en œuvre de meilleures solutions est de reconstruire les parties clés du code du produit. En août, OpenAI a publié des autorisations pour affiner GPT-3.5, et de nombreux liens nécessitant un contrôle précis de la sortie ont de nouvelles solutions potentielles.
Par conséquent, les startups doivent faire face à un choix clé : doivent-elles choisir ① d'améliorer les performances et de constamment refactoriser les produits, ou ② de réduire l'utilisation de nouvelles fonctionnalités et de toujours utiliser les anciennes fonctionnalités pour le développement ?
Pour l’entrepreneuriat en matière d’applications de nouvelles technologies, le « développement » représente non seulement le processus d’écriture de code, mais représente également la « limite supérieure » de la fonctionnalité/stratégie du produit. Plus les performances contrôlables sont élevées, plus le produit possède de fonctions théoriques et plus sa flexibilité stratégique est élevée.
Le développement de la technologie est imprévisible et des innovations technologiques mineures peuvent entraîner des changements très sensibles dans le paysage concurrentiel. Les start-up doivent disposer de capacités anti-fragile pour le développement technologique.
——En termes humains, c'est : la performance d'abord, éviter de rester. Au niveau du développement, utilisez les nouvelles fonctionnalités ; en termes de produits, réfléchissez aux fonctions que les nouvelles fonctionnalités peuvent remplir ; en termes de stratégie, considérez l'impact des nouvelles fonctionnalités sur la stratégie.
Dans "Guo Qin Lun", il a été mentionné qu'après l'établissement de la dynastie Qin, les armes métalliques du monde ont été confisquées et coulées en douze figures de bronze pour éliminer la possibilité d'un soulèvement civil. Mais la dynastie Qin fut notoirement de courte durée. Il est plus bénéfique de prêter attention aux changements que de les ignorer.
Conseils aux startups de l'IA : créez des applications en toute confiance
Il existe un danger caché très courant lorsque les startups développent des applications : l’entrée de grandes entreprises. Les grandes entreprises comprennent ici non seulement des géants des applications, tels que Meta/Byte/Tencent, etc., mais aussi des acteurs en amont de l'industrie de l'IA, comme OpenAI.
Il y a généralement deux raisons pour lesquelles les grandes entreprises entrent sur le marché : déployer des opportunités de produits et réduire en amont et en aval.
"Développer des opportunités de produits" est un sens littéral.Les grandes entreprises estiment que cette direction en vaut la peine, alors elles le font.
"Couper en amont et en aval" est pour la plupart un geste impuissant. C'est peut-être parce que j'ai développé un grand modèle comparable à OpenAI. Cependant, en raison du problème du gagnant-gagnant des grands modèles, il n'y a pas d'utilisateurs, ce qui entraîne des coûts brûlants, pas de revenus et pas de données, ce qui conduit à un retard progressif des performances. À l’heure actuelle, la seule option est de s’attaquer à l’aval, de développer des applications spécifiques et d’utiliser sa propre technologie.
Selon l'expérience historique, en raison du problème de la structure organisationnelle, plus l'entreprise est proche de l'aval, plus il est facile d'être à la traîne en matière de technologie, et plus la technologie est en retard, plus elle doit être en aval. Ces entreprises dites technologiques finiront par rivaliser pour le même créneau écologique que les entreprises de la couche application.
Cependant, sur le champ de bataille de la couche application, en raison du peu de temps de la technologie de l'IA, il n'y a pas d'avantage d'échelle efficace et réutilisable, et le point de départ des grandes entreprises et des start-ups est similaire. Par rapport aux grandes entreprises, les startups sont plus efficaces et disposent de connaissances plus approfondies, ce qui facilite leur exploitation.
Une chose à noter est que presque tous les supports promotionnels pour MS Azure tournent désormais autour d'OpenAI, mais une entreprise aussi grande que Microsoft s'appuie entièrement sur OpenAI comme plate-forme, ce qui prouve que les startups ont des avantages naturels dans le domaine de l'IA.
Bien entendu, certains fournisseurs de cloud n’acceptent peut-être pas d’être dirigés par des startups et souhaitent eux-mêmes s’emparer de tout le marché. C'est cher, lent et ne constitue pas une menace immédiate.
Le fait est qu’il existe effectivement des pistes éphémères pour les applications d’IA, mais il existe encore de nombreuses pistes de longue durée qui n’ont pas été découvertes, et les applications d’IA ne sont pas toutes gagnantes. L'extension des applications aux plates-formes ou technologies est également une voie plus réalisable.
Par conséquent, nous devons être rationnels quant à la capacité des grandes entreprises à pénétrer dans la couche applicative. Notre suggestion est que les start-ups d’IA puissent créer des applications en toute confiance.
Conseils aux startups d'IA : faites attention à la bouée de sauvetage du produit
Comme mentionné précédemment, les startups d'IA peuvent développer des applications en toute confiance, mais elles doivent prendre en compte les problèmes de performances du modèle d'IA et éviter de stagner. Cette situation se reflète directement dans le fait que les produits d'IA peuvent perdre leur base de demande et dépérir progressivement en quelques mois, et cette situation peut se produire fréquemment.
Les applications d'IA doivent utiliser les services de grands modèles, et les performances des grands modèles continuent de s'améliorer. Cette amélioration n'est pas une amélioration dans une seule dimension telle que la « vitesse », mais un changement dans tous les aspects tels que la qualité de sortie, la longueur de sortie et la contrôlabilité de la sortie. Chaque mise à niveau technologique significative entraînera un retard technologique des produits de couche d'application existants et créera de nouvelles opportunités et de nouveaux concurrents.
**Nous appelons le moment où l'application de l'IA conserve les avantages et la nécessité en matière de stratégie/produit/technologie une « bouée de sauvetage ». **
Voici quelques exemples de bouées de sauvetage plus courtes :
**Compte tenu du développement rapide de l'industrie de l'IA, des bouées de sauvetage limitées sont la norme. Par conséquent, accepter le fait que la bouée de sauvetage est limitée et essayer de choisir une direction avec une bouée de sauvetage plus longue pour le développement est propice au maintien des avantages à long terme et de la nécessité du produit. **
Généralement, la bouée de sauvetage peut être simplement divisée en niveaux de 3/6/12 mois.
*Le cycle de vie des produits de plateforme n'est pas nécessairement long, après tout, les magasins sont aussi des plateformes.
Les startups n’ont besoin que d’une bouée de sauvetage de 6 mois pour déterminer leur direction, et une bouée de sauvetage de 12 mois est difficile à trouver.
Lorsque la bouée de sauvetage du produit arrive à son terme, il existe généralement deux situations. La première situation est que les avantages disparaissent et la technologie de mise à niveau du produit doit être reconstruite, veuillez vous référer aux « performances d'abord » ci-dessus ; la deuxième situation est que la nécessité disparaît et le produit sera progressivement remplacé. À ce stade, le produit a encore plusieurs mois de « durée de vie opérationnelle », ce qui suffit aux startups pour choisir la prochaine direction.
Conseils aux startups d'IA : Web3+AI peut le faire
À l'heure actuelle, il existe de nombreux projets entrepreneuriaux autour du thème Web3+AI, mais compte tenu de l'incertitude du développement technologique et du stade précoce du marché, le thème du Web3+AI comportera encore de nombreuses variables à l'avenir.
Cet article vise à trouver parmi les incertitudes des certitudes ayant une forte probabilité d'être correctes. Par conséquent, l'auteur espère toujours s'inspirer et proposer des sujets et des orientations qui pourraient avoir des opportunités de référence pour les start-ups et les chercheurs intéressés.
Actuellement, les leaders du secteur de l'IA ne proposent que des modèles à code source fermé, et la stabilité, la transparence et la neutralité de leur fourniture continue de services sont incontrôlables. La dé-souveraineté/décentralisation peut devenir un thème important dans l'industrie de l'IA, à savoir : sur la base de la structure de base de la dé-souveraineté/décentralisation, pour fournir des services d'IA stables, transparents et neutres.
La désovereignisation/décentralisation est une « solution alternative » et une « dissuasion », qui peut augmenter considérablement le coût contraire à l'éthique des entreprises d'IA centralisées/souveraines et les empêcher d'utiliser des modèles d'IA dans les domaines militaire, sectaire, politique, etc.
Dans des cas extrêmes, une fois que le service d'IA centralisé/souverain n'est plus disponible/crédible pour une raison quelconque, l'IA décentralisée/décentralisée peut continuer à fournir des services hautement disponibles pour empêcher les pays/régions individuels et même les humains de perdre les services d'IA.
Derrière le passage de l'ETH du PoW au PoS se cache le dilemme critiqué selon lequel « l'exploitation minière ne produit pas de valeur ». La combinaison du Web3 avec l'IA peut fournir des scénarios de puissance de calcul pratique, réalisant ainsi la digestion de la puissance de calcul existante et favorisant la croissance de la puissance de calcul totale. .
L'IA est un actif natif de la puissance de calcul et du stockage.La combinaison du Web3 et de l'IA peut fournir un canal pour transformer l'IA en actifs virtuels et créer de véritables actifs virtuels natifs pour le Web3 tout en réalisant l'instanciation de valeur de l'industrie de l'IA.
La combinaison du Web3 et de l'IA peut apporter de nouvelles fonctions et opportunités de croissance aux applications Web3, et les applications Web3 existantes peuvent être entièrement refaites.
Écrit à la fin : septembre, l'IA actuelle vaut-elle encore la peine de démarrer une entreprise ?
Permettez-moi de commencer par la conclusion : cela en vaut la peine, et cette conclusion pourra très probablement être utilisée jusqu'au Nouvel An chinois.
Les gens ont souvent une perception biaisée de la situation, et je ne fais pas exception. Certains sont trop optimistes, d’autres trop pessimistes. L'auteur a un jour communiqué avec deux équipes. L'une pense qu'elle sera capable de produire AI Agent au premier trimestre de l'année prochaine, et l'autre équipe pense que l'IA ne convient qu'à la gestion des bases de connaissances. Évidemment, la première est trop optimiste, tandis que ce dernier est trop pessimiste.
Lorsqu'on élabore des plans à long terme, être trop optimiste ou trop pessimiste peut conduire à des pièges, et les remarques largement diffusées sont souvent des remarques très biaisées, ce qui rend la pensée indépendante extrêmement précieuse. Par conséquent, que le lecteur puisse ou non accepter les opinions de cet article, tant qu'il fait preuve d'indépendance de pensée et de jugement pendant le processus de lecture, l'auteur sera extrêmement satisfait.
Enfin, placez une annonce. Si vous avez une bonne idée entrepreneuriale en IA ou si vous avez déjà formé un projet, n'hésitez pas à communiquer avec des amis du NGC (comme moi) à tout moment.