Auteur : Cherry, gestionnaire d'investissement, NGC Ventures
Préface
La première ébauche de cet article a été réalisée lors d'une pêche un jour de repos fin août. Après une publication hâtive, j'ai reçu de nombreux conseils. L'auteur a ajouté, modifié et supprimé certains contenus pour éviter de faire rire.
Le contenu de cet article évalue principalement la situation actuelle de l'industrie de l'IA du point de vue de l'investissement, réfléchit et conjecture sur les itinéraires technologiques/produits de différentes entreprises et résume de manière abstraite les stratégies des entreprises de l'industrie de l'IA. Par conséquent, il y a inévitablement des omissions dans les parties liées à des technologies spécifiques, soyez indulgents avec moi.
Mais en dernière analyse, les grandes entreprises capables de publier des articles sont toujours en désaccord les unes avec les autres, et personne ne semble être en mesure d'évaluer l'exactitude du contenu de cet article. Tout comme utiliser GPT-4 pour évaluer GPT-3.5, cela semble raisonnable, mais c'est un peu abstrait quand on y pense.
Par conséquent, l'auteur recommande que cet article soit considéré comme un « jugement » formé après la collecte d'informations sur des industries incertaines. Puisqu’il s’agit d’un jugement, la position doit être claire et la déclaration doit avoir du sens. Quant à savoir si c’est correct ou non, laissez le temps le tester.
L'auteur a toujours pensé que les nouvelles industries sont bruyantes, il est donc toujours juste d'utiliser davantage son cerveau et d'oser porter des jugements. Pour les questions vrai-faux, le taux de devinettes correctes à l'aveugle est de 50 % et la probabilité de deviner incorrectement trois fois de suite est de 12,5 %. Même le fait de porter un jugement au niveau du lancer d'une pièce de monnaie a du sens. Ce n'est pas terrible de porter un jugement, le plus terrible, c'est que la précision du jugement est inférieure à celle de lancer une pièce de monnaie.
Avant d'ouvrir officiellement cet article, je voudrais remercier le travail suivant, qui a fourni une inspiration et des sources de données précieuses pour cet article. Bien entendu, étant donné que de nombreuses déductions de cet article sont basées sur ces travaux, si elles contiennent des erreurs ou si l'auteur a une mauvaise compréhension, les déductions de cet article ne seront plus robustes. Les lecteurs sont invités à formuler leur propre jugement. Cet article ne constitue pas un conseil en investissement, et il est difficile de constituer un conseil en investissement.
• Pôle de chaîne de pensée : un effort continu pour mesurer les performances de raisonnement des grands modèles linguistiques (
• LIMA : Moins c'est plus pour l'alignement (
• Juin 2023 : examen par étapes du réglage des instructions (
• Architecture GPT-4, infrastructure, ensemble de données de formation, coûts, vision, MoE (
Ok, commençons officiellement cet article.
Grand modèle : lancement d'une cyber-fusée
La première étape du débat sur l’IA en 2023 consiste à déterminer si l’entrepreneuriat modèle à grande échelle est encore possible.
Le grand modèle (pré-entraînement) s'est désormais transformé en problème de lancement de fusée : tant que le feu est allumé et que la direction est bonne, tout le monde peut le faire. On peut dire que former de grands modèles, c'est comme lancer des cyber-fusées.
Une chose qui va à l'encontre du bon sens est que les investisseurs sous-estiment la difficulté de former de grands modèles, mais surestiment la difficulté de lancer de vraies fusées. Au même coût de 60 millions de dollars américains, les investisseurs auront le sentiment qu'il existe une seconde chance en cas d'échec du lancement d'une fusée, et ne pas former un grand modèle est considéré comme un gaspillage d'argent.
GPT-4 consomme encore 60 millions de dollars en efficacité d'utilisation du GPU d'OpenAI (environ 30 %). C'est une question de {performance = efficacité × coût}, et la performance est un obstacle. Si d'autres startups ne peuvent pas obtenir des effets de performance supérieurs à 30 % × 60 millions = 18 millions de dollars américains, les utilisateurs peuvent tout aussi bien utiliser GPT-4 directement.
Actuellement, de nombreuses entreprises prétendant former de grands modèles disposent de cycles de financement allant de 1 à 5 millions de dollars. En d’autres termes, même les entreprises disposant du financement le plus important ne disposent que de suffisamment de munitions pour soutenir un seul lancement. Même si l'utilisation du GPU de ce lancement atteint 100 %, il sera difficile de dépasser GPT-4.
De ce point de vue, il est préférable de lancer des fusées, car la plupart des fusées sont des lanceurs, transportant des satellites vers le ciel, et la charge unique est limitée, de sorte que les petites entreprises de fusées peuvent prendre des commandes de satellites que d'autres n'ont pas le temps de lancer.
Le grand modèle est différent: le coût marginal de l'expansion horizontale du grand modèle n'est que le coût de la puissance de calcul, et le coût de la puissance de calcul peut être augmenté de manière élastique, ce qui signifie que pour la grande entreprise modèle, le bénéfice de chaque commande est un profit gratuit. , il n'y a presque aucun coût supplémentaire et la capacité d'entreprise est très grande. Il est difficile pour une nouvelle entreprise modèle à grande échelle de mauvaise qualité de recevoir une demande excédentaire.
À moins que le coût de la formation ne soit considérablement réduit, de nombreuses entreprises auront du mal à créer un grand modèle pouvant être mis sur le marché à court terme, même si elles connaissent la structure complète de GPT-4.
Personnalisation : faire face au problème du « le gagnant remporte tout »
Dans l'industrie du matériel informatique, un phénomène courant consiste à réaliser des bénéfices précoces grâce à des exigences personnalisées, puis à réaliser des percées technologiques (ou des rapprochements) grâce à des bénéfices précoces. Cependant, la personnalisation dans la grande industrie du modélisme n’est guère un débouché pour les nouveaux entrants.
Concernant ce jugement, l'explication est très simple : la grande majorité des modèles affinés ne peuvent pas rattraper GPT-4, même s'ils rattrapent leur retard, le coût de généralisation directement en utilisant GPT-4 est moindre, le besoin en personnel est moindre , et le besoin de chance est moindre. Moins d'exigences en matière de données. Tant que l’écart de performances entre le GPT-4 et les autres modèles persiste, la personnalisation ne peut pas être la solution pour les grandes entreprises de modèles.
Un exemple très typique est Jasper, qui utilise GPT-3 affiné pour servir les entreprises clientes.Cependant, après qu'OpenAI a rendu public ChatGPT (GPT-3.5), ses utilisateurs ont rapidement perdu. Parce que le résultat de Jasper peut être obtenu simplement en saisissant GPT-3.5, sans avoir à utiliser une « version rétrospective » qui a de faibles capacités de généralisation et est limitée à une utilisation interne au sein de l'entreprise.
Par rapport aux nouvelles entreprises, Jasper dispose d’au moins une période fenêtre de développement allant de GPT-3 à GPT-3.5. Cependant, les nouvelles entreprises doivent désormais faire face simultanément à la pression du GPT-3.5 à faible coût et à grande vitesse et du GPT-4 hautes performances.
Par conséquent, la probabilité de survie est très faible pour la voie qui consiste à accumuler des bénéfices grâce à la personnalisation afin de réaliser des percées technologiques.
Peaufinage : nécessaire, ne soyez pas superstitieux
L'industrie actuelle de l'IA a des attentes irréalistes en matière de réglage fin, et ces attentes sont surestimées en termes de mise en œuvre technique spécifique et de rythme macrotechnique.
Les réglages fins actuellement discutés dans l'industrie se réfèrent principalement à "la base sur un modèle pré-entraîné, ce qui lui permet de générer des réponses qui répondent aux intentions humaines". Ce type d'ajustement peut être appelé « alignement », c'est-à-dire aligner la réponse sur les intentions humaines, plutôt que d'ajouter de la sagesse au grand modèle.
Selon les résultats de recherche de nombreux articles, la connaissance des grands modèles devrait principalement provenir de la pré-formation, tandis que le réglage fin est davantage utilisé pour l'alignement.
L’explication simple est que la pré-formation détermine la capacité cérébrale et que le réglage fin détermine la langue maternelle. Affiner le modèle de pré-formation est un processus d’« élimination de l’analphabétisme ».
Cependant, à l'heure actuelle, le réglage fin est souvent considéré dans l'industrie comme une méthode « d'amélioration de l'intelligence » du modèle, c'est-à-dire que grâce au réglage fin pour améliorer les performances du modèle et accroître la connaissance du modèle, on pense que cela peut atteindre le "Saint Graal de l'intelligence artificielle". Cette ligne de pensée est quelque peu biaisée.
Tout d'abord, les performances du modèle lui-même ne se sont pas améliorées, mais il peut mieux s'aligner sur les intentions humaines. Si la complexité de la tâche dépasse les performances du modèle, un réglage fin ne donnera pas les résultats escomptés. Tout comme laisser le cerveau humain effectuer des opérations quantiques, ne pas y parvenir n’est pas une question d’éducation.
Deuxièmement, l'effet de la « supplémentation des connaissances » dans la partie « alignement des intentions » est plus similaire à celui de « l'apprentissage du perroquet ». Autrement dit : le modèle imite simplement le discours de l'expert, mais n'en comprend pas le sens. Même si de nombreuses industries peuvent obtenir de bonnes solutions en « perroquet » (après tout, la plupart des industries ne sont pas compliquées...), ce n'est évidemment pas le résultat que nous devrions rechercher à long terme.
Enfin, la formation visant à « compléter des ensembles de données supplémentaires, à améliorer les performances du modèle et à accroître les connaissances du modèle » doit être considérée comme un modèle ayant la capacité « d'apprentissage incrémentiel/apprentissage continu », c'est-à-dire que tous les paramètres du modèle peuvent être traités via Optimisation incrémentielle des ensembles de données. Il ne s'agit pas d'un concept de la même catégorie que ce que l'on appelle la « mise au point fine des instructions ».
En général, la mise au point est très importante, mais il est erroné d'avoir une attitude « superstitieuse » à l'égard de la mise au point actuelle, en particulier la précipitation pour sceller la mise au point actuelle comme le Saint Graal, qui est tout à fait « sur l'édifice ». de la physique aujourd'hui "Il n'y a que deux nuages sombres qui flottent."
Pour prendre du recul, si le besoin de « sagesse croissante » peut réellement être résolu par un réglage fin des instructions, en effectuant une simple recherche vectorielle, en connectant directement les connaissances au contexte et en écrivant simplement quelques modèles, il y a un grand probabilité que nous puissions obtenir des résultats identiques, voire meilleurs.
Tout le monde aime peaufiner, c'est peut-être aussi une sorte de renouveau des compétences en alchimie dans les temps modernes...
Large Model Outlook : quatre opérations arithmétiques
(Notez que cette partie du contenu est entièrement basée sur les données divulguées par Dylan Patel, et la fiabilité ne peut être vérifiée pour le moment)
La formation de GPT-4 est basée sur la série A de N cartes, l'efficacité de la formation est de 30 %, la durée de la formation est d'environ 2 mois, le coût est d'environ 60 millions et le nombre total de paramètres est de {1,7 billion = 110 milliards × 16 modèles experts}. Les paramètres sont d'environ 280 milliards.
En d’autres termes, plusieurs paramètres clés entraîneront des changements dans le modèle de formation des grands modèles.
•Efficacité de la formation : passer de 30 % à 60 % peut directement doubler le temps
•Augmentation de l'intensité de la puissance de calcul : après le passage de la série A à la série H puis à la carte dédiée AI, l'intensité de la puissance de calcul a augmenté et de nombreux problèmes architecturaux qui affectent l'efficacité peuvent être résolus.
• Les coûts de puissance de calcul baissent : Lao Huang (le fondateur de Nvidia) a réduit la carte graphique et le coût a considérablement baissé.
•Amélioration de l'efficacité des paramètres : Il est possible d'améliorer l'efficacité des paramètres du modèle. En se référant au passé, les nouveaux modèles peuvent généralement améliorer l'efficacité des paramètres des anciens modèles à plusieurs reprises. Il est possible d'utiliser 30 % de l'efficacité des paramètres. paramètres de GPT-4 pour obtenir des effets similaires.
En résumé, le coût de formation d'un modèle avec des performances de niveau GPT-4 à partir de zéro peut avoir une marge d'optimisation 10 à 20 fois supérieure, qui est réduite de 3 à 6 millions de dollars. Ce coût est très rentable pour les startups. et les grandes entreprises sont plus acceptables.
Ce changement peut prendre environ 2 ans.
À l'heure actuelle, la technologie traditionnelle des grands modèles est toujours basée sur un transformateur, l'infrastructure n'a pas changé et l'idée d'affiner l'alchimie et d'ajouter des paramètres pour créer des miracles n'a pas été épuisée. La formation de GPT-4 est effectuée sur la base de limitations élevées en termes de puissance de calcul et le temps de formation n'est pas assez long.
Si les paramètres augmentent de manière linéaire avec le temps de formation, la limite supérieure des paramètres pour un modèle avec une architecture similaire à GPT-4 peut être d'environ 10 000 milliards, soit deux fois plus longue que le temps de formation (×2) et deux fois plus longue que la carte graphique parallèle (×2), l'efficacité de l'entraînement est moitié plus rapide (×1,5), l'efficacité des paramètres est moitié plus élevée (×1,5), et finalement dix fois le résultat est obtenu. Selon le style d'appétit pour le risque de la Silicon Valley, la forte probabilité que ce paramètre soit atteint d'ici un an, que les performances se soient améliorées ou non.
Cependant, après avoir atteint 10 000 milliards de paramètres, on ne sait absolument pas si LLM peut encore utiliser l'idée d'augmenter les paramètres pour réaliser des miracles.
Si l’amélioration des performances du modèle par le nombre de paramètres diminue légèrement, alors 10 000 milliards constitueront probablement un obstacle. Cependant, il existe également une hypothèse selon laquelle l'amélioration des performances du modèle par le nombre de paramètres augmente légèrement, semblable à "si une personne est assez intelligente, elle peut tout apprendre rapidement". La première est très bien, mais si la seconde est vraie, les performances du modèle peuvent augmenter de façon exponentielle et ce qui se passera à ce moment-là sera complètement imprévisible.
Il est difficile de prédire l’alchimie, mais il est facile de prédire le rythme de la stratégie d’entreprise. Un modèle avec un paramètre total de 10 000 milliards est un point final pour la plupart des entreprises, qu'il s'agisse d'un géant comme Google/MS/APPL ou d'un OpenAI plus petit, et il est possible de s'arrêter et de faire quelques recherches techniques.
La préférence des entreprises/du capital pour le risque peut être convertie en un « temps d'endurance », si l'ensemble du temps d'endurance brûle intensément les dépenses, il sera difficile de dépasser 6 mois. L’artisanat humain ne se développe pas assez vite, généralement sur un cycle de 5 ans ou plus. Par conséquent, d’ici 5 ans, la quantité de paramètres limites du modèle pourra être estimée, qui devrait être comprise entre 20 000 et 50 000 milliards. À moins qu’une énorme avancée dans le processus/l’architecture ne se produise à nouveau, la probabilité de dépasser cet ordre de grandeur est très faible.
Multimodalité : L'éléphant dans la pièce
La multimodalité est l’éléphant dans la pièce et peut avoir un impact profond sur le paysage des hippodromes.
La définition simple du multimodal est la suivante : prise en charge de l’entrée et de la sortie d’informations modales multiples. Cette définition est très vague : par exemple, certains produits sur le marché qui prétendent pouvoir effectuer des saisies multimodales sont en réalité une couche d'OCR à l'extérieur du ChatBot. Il existe également des modèles qui répondent pleinement à la définition de la multimodalité, mais leurs performances ne sont pas flatteuses. Même la capacité d'entrée multimodale d'images de GPT-4 n'a pas été largement ouverte, et on peut voir que cette fonction n'est pas très stable.
L’avènement de la multimodalité n’est cependant pas loin. Il y a une forte probabilité que GPT-5 prenne en charge la multimodalité de manière native, c'est-à-dire qu'il doit repenser la structure et se recycler. Selon le raisonnement ci-dessus, les paramètres du grand modèle peuvent encore être multipliés par 10 à 50, et cela devrait suffire à y intégrer des capacités multimodales. Par conséquent, on peut s’attendre à ce qu’un modèle multimodal à haute disponibilité et haute performance apparaisse d’ici 2 ans, et avec optimisme, ce sera dans près d’un an.
La multimodalité est l'éléphant dans la pièce, tout le monde sait qu'une telle chose finira par arriver, mais tant de produits/recherches/stratégies ignorent son existence qu'il y a une erreur de calcul dans des éléments clés.
Par exemple, les modèles à image unique peuvent théoriquement être sévèrement opprimés par les modèles multimodaux, mais la plupart des recherches et investissements ignorent actuellement ce problème, conduisant à une surévaluation de certaines entreprises axées sur l’image. Ces entreprises sont susceptibles de perdre les barrières techniques et de se transformer à l’avenir en prestataires de services. Leur système de valorisation devrait faire référence aux prestataires de services plutôt qu’aux entreprises technologiques.
Si vous voulez raconter l'histoire de « l'investissement dépend des personnes, la même équipe peut transformer l'entreprise », alors je ne l'ai pas dit. Les légendes sont toujours là, mais on ne peut pas croire aux légendes quand on fait des recherches.
Qui peut entraîner GPT-4 : c'est possible, mais pas nécessaire
Le raffinage des élixirs ne prend pas si longtemps et les grandes entreprises achètent des cartes graphiques. Une chose très évidente est que dans un an, les grandes entreprises pourront former des modèles de niveau GPT-4. Mais s’entraîner ou non est une autre question.
Dans le domaine des jeux, il existe une proposition classique appelée « Jouer à Genshin Impact avec Genshin Impact », c'est-à-dire : lorsque les joueurs peuvent choisir de jouer à Genshin Impact ou à un produit concurrent de Genshin Impact, si le produit concurrent n'est pas aussi bon que Genshin Impact, alors ils pourront jouer à Genshin Impact, le dieu original.
Cette approche du « gagnant remporte tout » s'applique également à l'industrie du modélisme à grande échelle. Si une entreprise suit OpenAI et après six mois de recherche et développement, elle lance son propre grand modèle avec des performances à 90 % comparables à GPT-4, dans l'espoir de le mettre sur le marché. À l’heure actuelle, l’entreprise sera confrontée aux problèmes suivants :
• OpenAI présente l'avantage d'évolutivité des ressources cloud et un coût inférieur.
•L'API d'OpenAI a été largement utilisée dans les codes produits et il est difficile de la remplacer.
• Le produit de l'entreprise ne surpasse toujours pas GPT-4
•Le produit de nouvelle génération d'OpenAI (éventuellement GPT-5) est sur le point d'être publié
On voit que la pression sur l’entreprise est considérable. Plutôt que de former GPT-4, mieux vaut miser directement sur le modèle nouvelle génération (contre GPT-5). Le problème passera alors du « problème des produits concurrents similaires » au « problème de l'innovation technologique ». C’est un fardeau que les petites entreprises ne peuvent supporter.
Par conséquent, discuter de « qui peut former le GPT-4 » est une question stratégique morte. Plutôt que d'y réfléchir, il vaut mieux trouver une direction avec plus de certitude et plus d'opportunités.
Conseils aux startups d'IA : donnez la priorité à la performance, évitez de rester
L'auteur a écrit de nombreux articles se plaignant de Langchain. La cause profonde est que Langchain ne laisse pas aux développeurs la possibilité d'améliorer les performances. On l'appelle par euphémisme « cadre universel ». Afin d'assurer l'universalité, de nombreuses possibilités d'amélioration des performances des grands modèles sont abandonnées, telles que le dialogue multi-tours et le contrôle du format mis en œuvre par réglage fin. De même, il existe guidance/Auto-GPT/BabyAGI, etc., qui veulent tous être un « framework qui peut être utilisé toute une vie ».
Un fait objectif est qu'OpenAI a publié Function Calling en mai. De nombreuses zones problématiques du code ont de meilleures solutions de mise en œuvre, et le coût de la mise en œuvre de meilleures solutions est de reconstruire les parties clés du code du produit. En août, OpenAI a publié l'autorisation d'affiner GPT-3.5, et de nombreux liens nécessitant un contrôle précis de la sortie ont de nouvelles solutions potentielles.
Par conséquent, les startups doivent faire face à un choix clé : doivent-elles choisir ① d'améliorer les performances et de constamment refactoriser les produits, ou ② de réduire l'utilisation de nouvelles fonctionnalités et de toujours utiliser les anciennes fonctionnalités pour le développement ?
Pour l'entrepreneuriat d'applications de nouvelles technologies, le « développement » représente non seulement le processus d'écriture de code, mais représente également la « limite supérieure » des fonctions/stratégies du produit. Plus les performances contrôlables sont élevées, plus les fonctions du produit sont théoriques et plus la flexibilité stratégique est élevée.
Le développement de la technologie est imprévisible et des innovations technologiques mineures peuvent entraîner des changements très sensibles dans le paysage concurrentiel. Les start-up doivent disposer de capacités anti-fragile pour le développement technologique.
——En termes humains : La performance est la priorité, évitez de rester. Au niveau du développement, utilisez les nouvelles fonctionnalités ; en termes de produits, réfléchissez aux fonctions que les nouvelles fonctionnalités peuvent remplir ; en termes de stratégie, considérez l'impact des nouvelles fonctionnalités sur la stratégie.
Dans « Sur le passage de Qin », il est mentionné qu'après l'établissement de la dynastie Qin, les armes métalliques du monde entier ont été confisquées et coulées dans douze figures de bronze pour éliminer la possibilité de soulèvements civils. Mais la dynastie Qin fut notoirement de courte durée. Il est plus bénéfique de prêter attention au changement que de l’ignorer.
Conseils aux start-up en IA : créez des applications en toute confiance
Il existe un danger caché très courant lorsque les startups développent des applications : l’entrée de grandes entreprises. Les grandes entreprises comprennent ici non seulement des géants des applications, tels que Meta/Byte/Tencent, etc., mais aussi des acteurs en amont de l'industrie de l'IA, comme OpenAI.
Il y a généralement deux raisons pour lesquelles les grandes entreprises entrent sur le marché : développer des opportunités de produits et se déplacer en amont et en aval.
"Développer des opportunités de produits" est un sens littéral.Les grandes entreprises estiment que cette direction en vaut la peine, alors elles le font.
"Couper en amont et en aval" est pour la plupart un geste impuissant. C'est peut-être parce que j'ai développé un grand modèle comparable à OpenAI. Cependant, en raison du problème du gagnant-gagnant des grands modèles, il n'y a pas d'utilisateurs, ce qui entraîne en termes de coûts de combustion, pas de revenus et pas de données, ce qui conduit à un retard progressif des performances. À l’heure actuelle, la seule option est de s’attaquer à l’aval, de développer des applications spécifiques et d’utiliser sa propre technologie.
Selon l'expérience historique, en raison de problèmes de structure organisationnelle, plus une entreprise est proche de l'aval, plus sa technologie risque de prendre du retard, et plus sa technologie prend du retard, plus elle devra travailler en aval. Ces entreprises dites technologiques finiront par rivaliser pour le même créneau écologique que les entreprises de la couche application.
Cependant, sur le champ de bataille de la couche application, en raison de la courte période de la technologie de l'IA, il n'y a pas d'avantage d'échelle efficace et réutilisable, et le point de départ des grandes entreprises et des startups est similaire. Par rapport aux grandes entreprises, les startups sont plus efficaces et disposent de connaissances plus approfondies, ce qui facilite leur exploitation.
Il convient de noter que presque tous les supports promotionnels de MS Azure tournent désormais autour d'OpenAI, mais qu'une entreprise aussi grande que Microsoft s'appuie entièrement sur OpenAI comme plate-forme, ce qui prouve que les startups ont des avantages naturels dans le domaine de l'IA.
Bien entendu, certains fournisseurs de cloud n’accepteront peut-être pas d’être dirigés par des start-ups et voudront conquérir tout le marché à eux seuls. C'est cher, lent et ce n'est pas une menace immédiate.
Le fait est qu'il existe effectivement certaines pistes d'applications d'IA qui sont de très courte durée, mais il existe encore de nombreuses pistes de longue durée qui n'ont pas été découvertes, et les applications d'IA ne sont pas gagnantes. L'extension des applications aux plates-formes ou technologies est également une voie plus réalisable.
Nous devrions donc adopter une vision rationnelle de la capacité des grandes entreprises à envahir la couche applicative. Notre suggestion est que les startups d'IA peuvent créer des applications en toute confiance.
Conseils aux startups d'IA : faites attention à la bouée de sauvetage du produit
Comme mentionné précédemment, les startups d'IA peuvent se sentir libres de créer des applications, mais elles doivent prendre en compte les problèmes de performances du modèle d'IA pour éviter de stagner. Cette situation se reflète directement dans le fait que les produits d'IA peuvent perdre leur base de demande et dépérir progressivement en quelques mois, et cette situation peut se produire fréquemment.
Les applications d'IA doivent utiliser des services de modèles à grande échelle, et les performances des modèles à grande échelle continuent de s'améliorer. Cette amélioration n'est pas une amélioration unidimensionnelle telle que la « vitesse », mais un changement global dans la qualité de sortie, la longueur de sortie et la contrôlabilité de la sortie. Chaque mise à niveau technologique significative entraînera un retard technologique des produits de couche d'application existants et créera de nouvelles opportunités et de nouveaux concurrents.
Nous appelons le moment où les applications d'IA conservent leurs avantages et leur nécessité en matière de stratégie/produit/technologie la « bouée de sauvetage ».
Voici quelques exemples de bouées de sauvetage plus courtes :
•Lorsque ChatGPT/Claude prend en charge le téléchargement de fichiers, ChatPDF perd sa nécessité
•Lorsque Office365 prend en charge Copilot, les produits qui utilisent l'IA pour dessiner des PPT perdront leurs avantages.
• Lorsque GPT-3.5 est apparu, Jasper a perdu sa nécessité
**Étant donné que l'industrie de l'IA se développe rapidement, des bouées de sauvetage limitées sont la norme. Par conséquent, accepter le fait que la bouée de sauvetage est limitée et essayer de choisir une direction avec une bouée de sauvetage plus longue aidera à maintenir les avantages à long terme et la nécessité du produit. **
Généralement, la bouée de sauvetage peut être simplement divisée en niveaux de 3/6/12 mois.
•3 mois : Fonctions que les grandes entreprises n'ont pas eu le temps de faire (comme les fonctions que office/ChatGPT n'a pas eu le temps de faire)
•6 mois : il est difficile à mettre en œuvre et ne peut pas être intégré aux solutions existantes, mais les avantages/nécessités disparaîtront à mesure que les performances de l'IA s'améliorent (comme le cadre général de l'IA)
•12 mois : les avantages/nécessités peuvent exister pendant une longue période et ne sont pas facilement affectés par les grandes entreprises/développements technologiques (comme Hugging Face)
*Le cycle de vie des produits de plateforme n'est pas nécessairement long, après tout, les magasins sont aussi des plateformes.
Les startups n’ont besoin que d’une bouée de sauvetage de 6 mois pour déterminer leur direction, et une bouée de sauvetage de 12 mois est difficile à trouver.
Lorsque la bouée de sauvetage du produit arrive à son terme, il existe généralement deux situations. La première situation est que les avantages disparaissent et la technologie de mise à niveau du produit doit être reconstruite. Veuillez vous référer à la "Performance d'abord" ci-dessus ; la deuxième situation est que la nécessité disparaît et le produit sera progressivement remplacé. À ce stade, le produit a encore plusieurs mois de "fonctionnement" La durée de vie” suffit aux startups pour choisir la prochaine direction.
Conseils aux startups d'IA : Web3+AI peut le faire
Il existe actuellement de nombreux projets entrepreneuriaux autour du thème Web3+AI, mais compte tenu de l'incertitude du développement technologique et du stade précoce du marché, le thème du Web3+AI comportera encore de nombreuses variables à l'avenir.
Cet article vise à trouver des certitudes ayant une forte probabilité d'être correctes parmi les incertitudes. Par conséquent, l'auteur espère toujours s'inspirer et proposer des sujets et des orientations qui pourraient avoir des opportunités de référence pour les start-ups et les chercheurs intéressés.
•Dé-souveraineté/décentralisation
À l'heure actuelle, les leaders de l'industrie de l'IA ne proposent que des modèles à source fermée, et la stabilité, la transparence et la neutralité de leur fourniture de services continus sont incontrôlables. La dé-souveraineté/décentralisation pourrait devenir un thème important dans l’industrie de l’IA, c’est-à-dire fournir des services d’IA stables, transparents et neutres basés sur l’architecture de base de la dé-souveraineté/décentralisation.
La désovereignisation/décentralisation est une « solution alternative » et une « dissuasion », qui peut augmenter considérablement le coût contraire à l'éthique des entreprises d'IA centralisées/souveraines et les empêcher d'utiliser des modèles d'IA dans les domaines militaire, sectaire, politique, etc.
Dans des cas extrêmes, une fois que le service d'IA centralisé/souverain n'est plus disponible/crédible pour une raison quelconque, l'IA décentralisée/décentralisée peut continuer à fournir des services hautement disponibles pour empêcher les pays/régions individuels et même les humains de perdre les services d'IA.
•Utilisation pratique de la puissance de calcul
Derrière le passage de l'ETH du PoW au PoS se cache le dilemme critiqué selon lequel « l'exploitation minière ne génère pas de valeur ».La combinaison du Web3 et de l'IA peut fournir un scénario pratique pour la puissance de calcul, afin de réaliser la digestion de la puissance de calcul des stocks et de promouvoir la croissance de puissance de calcul totale, etc. Effet.
•Actifisation virtuelle
L'IA est un actif natif de la puissance de calcul et du stockage. La combinaison du Web3 et de l'IA peut fournir un canal pour convertir l'IA en actifs virtuels. Tout en instanciant la valeur de l'industrie de l'IA, elle peut créer des actifs virtuels véritablement natifs pour le Web3.
•Variables pour les applications Web3
La combinaison du Web3 et de l'IA peut apporter de nouveaux points fonctionnels et opportunités de croissance aux applications Web3, et les applications Web3 existantes peuvent être entièrement refaites.
Écrit à la fin : Nous sommes en septembre, l'IA vaut-elle toujours la peine de démarrer une entreprise maintenant
Permettez-moi de commencer par la conclusion : cela en vaut la peine, et cette conclusion pourra très probablement être utilisée jusqu'au Nouvel An chinois.
Les gens ont souvent une perception biaisée de la situation, et je ne fais pas exception. Certains sont trop optimistes, d’autres trop pessimistes. L'auteur a un jour communiqué avec deux équipes. L'une pense qu'elle sera capable de construire un agent IA au premier trimestre de l'année prochaine, tandis que l'autre estime que l'IA ne convient qu'à la gestion de la base de connaissances. De toute évidence, la première est trop optimiste, tandis que ce dernier est trop pessimiste.
Lors de la planification à long terme, les propos trop optimistes et trop pessimistes tomberont dans le gouffre, et les remarques largement diffusées sont souvent celles qui comportent de grands écarts, une réflexion indépendante est donc très précieuse. Par conséquent, que les lecteurs puissent ou non accepter les points de vue de cet article, tant qu'ils ont une réflexion et un jugement indépendants dans le processus de lecture, l'auteur sera très heureux.
Enfin, faites de la publicité. Si vous avez de bonnes idées entrepreneuriales en IA ou si vous avez déjà formé des projets, n'hésitez pas à communiquer avec des amis du MBAC (comme moi) à tout moment.
Nous identifions les projets innovants de rupture, visant à résoudre les problèmes avec des solutions caractérisées par la simplicité, le coût abordable, la rapidité, l'unicité et une adéquation convaincante avec le marché des produits.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
NGC Ventures : La filière actuelle de l'IA vaut-elle la peine de démarrer une entreprise ?
Auteur : Cherry, gestionnaire d'investissement, NGC Ventures
Préface
La première ébauche de cet article a été réalisée lors d'une pêche un jour de repos fin août. Après une publication hâtive, j'ai reçu de nombreux conseils. L'auteur a ajouté, modifié et supprimé certains contenus pour éviter de faire rire.
Le contenu de cet article évalue principalement la situation actuelle de l'industrie de l'IA du point de vue de l'investissement, réfléchit et conjecture sur les itinéraires technologiques/produits de différentes entreprises et résume de manière abstraite les stratégies des entreprises de l'industrie de l'IA. Par conséquent, il y a inévitablement des omissions dans les parties liées à des technologies spécifiques, soyez indulgents avec moi.
Mais en dernière analyse, les grandes entreprises capables de publier des articles sont toujours en désaccord les unes avec les autres, et personne ne semble être en mesure d'évaluer l'exactitude du contenu de cet article. Tout comme utiliser GPT-4 pour évaluer GPT-3.5, cela semble raisonnable, mais c'est un peu abstrait quand on y pense.
Par conséquent, l'auteur recommande que cet article soit considéré comme un « jugement » formé après la collecte d'informations sur des industries incertaines. Puisqu’il s’agit d’un jugement, la position doit être claire et la déclaration doit avoir du sens. Quant à savoir si c’est correct ou non, laissez le temps le tester.
L'auteur a toujours pensé que les nouvelles industries sont bruyantes, il est donc toujours juste d'utiliser davantage son cerveau et d'oser porter des jugements. Pour les questions vrai-faux, le taux de devinettes correctes à l'aveugle est de 50 % et la probabilité de deviner incorrectement trois fois de suite est de 12,5 %. Même le fait de porter un jugement au niveau du lancer d'une pièce de monnaie a du sens. Ce n'est pas terrible de porter un jugement, le plus terrible, c'est que la précision du jugement est inférieure à celle de lancer une pièce de monnaie.
Avant d'ouvrir officiellement cet article, je voudrais remercier le travail suivant, qui a fourni une inspiration et des sources de données précieuses pour cet article. Bien entendu, étant donné que de nombreuses déductions de cet article sont basées sur ces travaux, si elles contiennent des erreurs ou si l'auteur a une mauvaise compréhension, les déductions de cet article ne seront plus robustes. Les lecteurs sont invités à formuler leur propre jugement. Cet article ne constitue pas un conseil en investissement, et il est difficile de constituer un conseil en investissement.
• Pôle de chaîne de pensée : un effort continu pour mesurer les performances de raisonnement des grands modèles linguistiques (
• LIMA : Moins c'est plus pour l'alignement (
• Juin 2023 : examen par étapes du réglage des instructions (
• Architecture GPT-4, infrastructure, ensemble de données de formation, coûts, vision, MoE (
Ok, commençons officiellement cet article.
Grand modèle : lancement d'une cyber-fusée
La première étape du débat sur l’IA en 2023 consiste à déterminer si l’entrepreneuriat modèle à grande échelle est encore possible.
Le grand modèle (pré-entraînement) s'est désormais transformé en problème de lancement de fusée : tant que le feu est allumé et que la direction est bonne, tout le monde peut le faire. On peut dire que former de grands modèles, c'est comme lancer des cyber-fusées.
Une chose qui va à l'encontre du bon sens est que les investisseurs sous-estiment la difficulté de former de grands modèles, mais surestiment la difficulté de lancer de vraies fusées. Au même coût de 60 millions de dollars américains, les investisseurs auront le sentiment qu'il existe une seconde chance en cas d'échec du lancement d'une fusée, et ne pas former un grand modèle est considéré comme un gaspillage d'argent.
GPT-4 consomme encore 60 millions de dollars en efficacité d'utilisation du GPU d'OpenAI (environ 30 %). C'est une question de {performance = efficacité × coût}, et la performance est un obstacle. Si d'autres startups ne peuvent pas obtenir des effets de performance supérieurs à 30 % × 60 millions = 18 millions de dollars américains, les utilisateurs peuvent tout aussi bien utiliser GPT-4 directement.
Actuellement, de nombreuses entreprises prétendant former de grands modèles disposent de cycles de financement allant de 1 à 5 millions de dollars. En d’autres termes, même les entreprises disposant du financement le plus important ne disposent que de suffisamment de munitions pour soutenir un seul lancement. Même si l'utilisation du GPU de ce lancement atteint 100 %, il sera difficile de dépasser GPT-4.
De ce point de vue, il est préférable de lancer des fusées, car la plupart des fusées sont des lanceurs, transportant des satellites vers le ciel, et la charge unique est limitée, de sorte que les petites entreprises de fusées peuvent prendre des commandes de satellites que d'autres n'ont pas le temps de lancer.
Le grand modèle est différent: le coût marginal de l'expansion horizontale du grand modèle n'est que le coût de la puissance de calcul, et le coût de la puissance de calcul peut être augmenté de manière élastique, ce qui signifie que pour la grande entreprise modèle, le bénéfice de chaque commande est un profit gratuit. , il n'y a presque aucun coût supplémentaire et la capacité d'entreprise est très grande. Il est difficile pour une nouvelle entreprise modèle à grande échelle de mauvaise qualité de recevoir une demande excédentaire.
À moins que le coût de la formation ne soit considérablement réduit, de nombreuses entreprises auront du mal à créer un grand modèle pouvant être mis sur le marché à court terme, même si elles connaissent la structure complète de GPT-4.
Personnalisation : faire face au problème du « le gagnant remporte tout »
Dans l'industrie du matériel informatique, un phénomène courant consiste à réaliser des bénéfices précoces grâce à des exigences personnalisées, puis à réaliser des percées technologiques (ou des rapprochements) grâce à des bénéfices précoces. Cependant, la personnalisation dans la grande industrie du modélisme n’est guère un débouché pour les nouveaux entrants.
Concernant ce jugement, l'explication est très simple : la grande majorité des modèles affinés ne peuvent pas rattraper GPT-4, même s'ils rattrapent leur retard, le coût de généralisation directement en utilisant GPT-4 est moindre, le besoin en personnel est moindre , et le besoin de chance est moindre. Moins d'exigences en matière de données. Tant que l’écart de performances entre le GPT-4 et les autres modèles persiste, la personnalisation ne peut pas être la solution pour les grandes entreprises de modèles.
Un exemple très typique est Jasper, qui utilise GPT-3 affiné pour servir les entreprises clientes.Cependant, après qu'OpenAI a rendu public ChatGPT (GPT-3.5), ses utilisateurs ont rapidement perdu. Parce que le résultat de Jasper peut être obtenu simplement en saisissant GPT-3.5, sans avoir à utiliser une « version rétrospective » qui a de faibles capacités de généralisation et est limitée à une utilisation interne au sein de l'entreprise.
Par rapport aux nouvelles entreprises, Jasper dispose d’au moins une période fenêtre de développement allant de GPT-3 à GPT-3.5. Cependant, les nouvelles entreprises doivent désormais faire face simultanément à la pression du GPT-3.5 à faible coût et à grande vitesse et du GPT-4 hautes performances.
Par conséquent, la probabilité de survie est très faible pour la voie qui consiste à accumuler des bénéfices grâce à la personnalisation afin de réaliser des percées technologiques.
Peaufinage : nécessaire, ne soyez pas superstitieux
L'industrie actuelle de l'IA a des attentes irréalistes en matière de réglage fin, et ces attentes sont surestimées en termes de mise en œuvre technique spécifique et de rythme macrotechnique.
Les réglages fins actuellement discutés dans l'industrie se réfèrent principalement à "la base sur un modèle pré-entraîné, ce qui lui permet de générer des réponses qui répondent aux intentions humaines". Ce type d'ajustement peut être appelé « alignement », c'est-à-dire aligner la réponse sur les intentions humaines, plutôt que d'ajouter de la sagesse au grand modèle.
Selon les résultats de recherche de nombreux articles, la connaissance des grands modèles devrait principalement provenir de la pré-formation, tandis que le réglage fin est davantage utilisé pour l'alignement.
L’explication simple est que la pré-formation détermine la capacité cérébrale et que le réglage fin détermine la langue maternelle. Affiner le modèle de pré-formation est un processus d’« élimination de l’analphabétisme ».
Cependant, à l'heure actuelle, le réglage fin est souvent considéré dans l'industrie comme une méthode « d'amélioration de l'intelligence » du modèle, c'est-à-dire que grâce au réglage fin pour améliorer les performances du modèle et accroître la connaissance du modèle, on pense que cela peut atteindre le "Saint Graal de l'intelligence artificielle". Cette ligne de pensée est quelque peu biaisée.
Tout d'abord, les performances du modèle lui-même ne se sont pas améliorées, mais il peut mieux s'aligner sur les intentions humaines. Si la complexité de la tâche dépasse les performances du modèle, un réglage fin ne donnera pas les résultats escomptés. Tout comme laisser le cerveau humain effectuer des opérations quantiques, ne pas y parvenir n’est pas une question d’éducation.
Deuxièmement, l'effet de la « supplémentation des connaissances » dans la partie « alignement des intentions » est plus similaire à celui de « l'apprentissage du perroquet ». Autrement dit : le modèle imite simplement le discours de l'expert, mais n'en comprend pas le sens. Même si de nombreuses industries peuvent obtenir de bonnes solutions en « perroquet » (après tout, la plupart des industries ne sont pas compliquées...), ce n'est évidemment pas le résultat que nous devrions rechercher à long terme.
Enfin, la formation visant à « compléter des ensembles de données supplémentaires, à améliorer les performances du modèle et à accroître les connaissances du modèle » doit être considérée comme un modèle ayant la capacité « d'apprentissage incrémentiel/apprentissage continu », c'est-à-dire que tous les paramètres du modèle peuvent être traités via Optimisation incrémentielle des ensembles de données. Il ne s'agit pas d'un concept de la même catégorie que ce que l'on appelle la « mise au point fine des instructions ».
En général, la mise au point est très importante, mais il est erroné d'avoir une attitude « superstitieuse » à l'égard de la mise au point actuelle, en particulier la précipitation pour sceller la mise au point actuelle comme le Saint Graal, qui est tout à fait « sur l'édifice ». de la physique aujourd'hui "Il n'y a que deux nuages sombres qui flottent."
Pour prendre du recul, si le besoin de « sagesse croissante » peut réellement être résolu par un réglage fin des instructions, en effectuant une simple recherche vectorielle, en connectant directement les connaissances au contexte et en écrivant simplement quelques modèles, il y a un grand probabilité que nous puissions obtenir des résultats identiques, voire meilleurs.
Tout le monde aime peaufiner, c'est peut-être aussi une sorte de renouveau des compétences en alchimie dans les temps modernes...
Large Model Outlook : quatre opérations arithmétiques
(Notez que cette partie du contenu est entièrement basée sur les données divulguées par Dylan Patel, et la fiabilité ne peut être vérifiée pour le moment)
La formation de GPT-4 est basée sur la série A de N cartes, l'efficacité de la formation est de 30 %, la durée de la formation est d'environ 2 mois, le coût est d'environ 60 millions et le nombre total de paramètres est de {1,7 billion = 110 milliards × 16 modèles experts}. Les paramètres sont d'environ 280 milliards.
En d’autres termes, plusieurs paramètres clés entraîneront des changements dans le modèle de formation des grands modèles.
•Efficacité de la formation : passer de 30 % à 60 % peut directement doubler le temps
•Augmentation de l'intensité de la puissance de calcul : après le passage de la série A à la série H puis à la carte dédiée AI, l'intensité de la puissance de calcul a augmenté et de nombreux problèmes architecturaux qui affectent l'efficacité peuvent être résolus.
• Les coûts de puissance de calcul baissent : Lao Huang (le fondateur de Nvidia) a réduit la carte graphique et le coût a considérablement baissé.
•Amélioration de l'efficacité des paramètres : Il est possible d'améliorer l'efficacité des paramètres du modèle. En se référant au passé, les nouveaux modèles peuvent généralement améliorer l'efficacité des paramètres des anciens modèles à plusieurs reprises. Il est possible d'utiliser 30 % de l'efficacité des paramètres. paramètres de GPT-4 pour obtenir des effets similaires.
En résumé, le coût de formation d'un modèle avec des performances de niveau GPT-4 à partir de zéro peut avoir une marge d'optimisation 10 à 20 fois supérieure, qui est réduite de 3 à 6 millions de dollars. Ce coût est très rentable pour les startups. et les grandes entreprises sont plus acceptables.
Ce changement peut prendre environ 2 ans.
À l'heure actuelle, la technologie traditionnelle des grands modèles est toujours basée sur un transformateur, l'infrastructure n'a pas changé et l'idée d'affiner l'alchimie et d'ajouter des paramètres pour créer des miracles n'a pas été épuisée. La formation de GPT-4 est effectuée sur la base de limitations élevées en termes de puissance de calcul et le temps de formation n'est pas assez long.
Si les paramètres augmentent de manière linéaire avec le temps de formation, la limite supérieure des paramètres pour un modèle avec une architecture similaire à GPT-4 peut être d'environ 10 000 milliards, soit deux fois plus longue que le temps de formation (×2) et deux fois plus longue que la carte graphique parallèle (×2), l'efficacité de l'entraînement est moitié plus rapide (×1,5), l'efficacité des paramètres est moitié plus élevée (×1,5), et finalement dix fois le résultat est obtenu. Selon le style d'appétit pour le risque de la Silicon Valley, la forte probabilité que ce paramètre soit atteint d'ici un an, que les performances se soient améliorées ou non.
Cependant, après avoir atteint 10 000 milliards de paramètres, on ne sait absolument pas si LLM peut encore utiliser l'idée d'augmenter les paramètres pour réaliser des miracles.
Si l’amélioration des performances du modèle par le nombre de paramètres diminue légèrement, alors 10 000 milliards constitueront probablement un obstacle. Cependant, il existe également une hypothèse selon laquelle l'amélioration des performances du modèle par le nombre de paramètres augmente légèrement, semblable à "si une personne est assez intelligente, elle peut tout apprendre rapidement". La première est très bien, mais si la seconde est vraie, les performances du modèle peuvent augmenter de façon exponentielle et ce qui se passera à ce moment-là sera complètement imprévisible.
Il est difficile de prédire l’alchimie, mais il est facile de prédire le rythme de la stratégie d’entreprise. Un modèle avec un paramètre total de 10 000 milliards est un point final pour la plupart des entreprises, qu'il s'agisse d'un géant comme Google/MS/APPL ou d'un OpenAI plus petit, et il est possible de s'arrêter et de faire quelques recherches techniques.
La préférence des entreprises/du capital pour le risque peut être convertie en un « temps d'endurance », si l'ensemble du temps d'endurance brûle intensément les dépenses, il sera difficile de dépasser 6 mois. L’artisanat humain ne se développe pas assez vite, généralement sur un cycle de 5 ans ou plus. Par conséquent, d’ici 5 ans, la quantité de paramètres limites du modèle pourra être estimée, qui devrait être comprise entre 20 000 et 50 000 milliards. À moins qu’une énorme avancée dans le processus/l’architecture ne se produise à nouveau, la probabilité de dépasser cet ordre de grandeur est très faible.
Multimodalité : L'éléphant dans la pièce
La multimodalité est l’éléphant dans la pièce et peut avoir un impact profond sur le paysage des hippodromes.
La définition simple du multimodal est la suivante : prise en charge de l’entrée et de la sortie d’informations modales multiples. Cette définition est très vague : par exemple, certains produits sur le marché qui prétendent pouvoir effectuer des saisies multimodales sont en réalité une couche d'OCR à l'extérieur du ChatBot. Il existe également des modèles qui répondent pleinement à la définition de la multimodalité, mais leurs performances ne sont pas flatteuses. Même la capacité d'entrée multimodale d'images de GPT-4 n'a pas été largement ouverte, et on peut voir que cette fonction n'est pas très stable.
L’avènement de la multimodalité n’est cependant pas loin. Il y a une forte probabilité que GPT-5 prenne en charge la multimodalité de manière native, c'est-à-dire qu'il doit repenser la structure et se recycler. Selon le raisonnement ci-dessus, les paramètres du grand modèle peuvent encore être multipliés par 10 à 50, et cela devrait suffire à y intégrer des capacités multimodales. Par conséquent, on peut s’attendre à ce qu’un modèle multimodal à haute disponibilité et haute performance apparaisse d’ici 2 ans, et avec optimisme, ce sera dans près d’un an.
La multimodalité est l'éléphant dans la pièce, tout le monde sait qu'une telle chose finira par arriver, mais tant de produits/recherches/stratégies ignorent son existence qu'il y a une erreur de calcul dans des éléments clés.
Par exemple, les modèles à image unique peuvent théoriquement être sévèrement opprimés par les modèles multimodaux, mais la plupart des recherches et investissements ignorent actuellement ce problème, conduisant à une surévaluation de certaines entreprises axées sur l’image. Ces entreprises sont susceptibles de perdre les barrières techniques et de se transformer à l’avenir en prestataires de services. Leur système de valorisation devrait faire référence aux prestataires de services plutôt qu’aux entreprises technologiques.
Si vous voulez raconter l'histoire de « l'investissement dépend des personnes, la même équipe peut transformer l'entreprise », alors je ne l'ai pas dit. Les légendes sont toujours là, mais on ne peut pas croire aux légendes quand on fait des recherches.
Qui peut entraîner GPT-4 : c'est possible, mais pas nécessaire
Le raffinage des élixirs ne prend pas si longtemps et les grandes entreprises achètent des cartes graphiques. Une chose très évidente est que dans un an, les grandes entreprises pourront former des modèles de niveau GPT-4. Mais s’entraîner ou non est une autre question.
Dans le domaine des jeux, il existe une proposition classique appelée « Jouer à Genshin Impact avec Genshin Impact », c'est-à-dire : lorsque les joueurs peuvent choisir de jouer à Genshin Impact ou à un produit concurrent de Genshin Impact, si le produit concurrent n'est pas aussi bon que Genshin Impact, alors ils pourront jouer à Genshin Impact, le dieu original.
Cette approche du « gagnant remporte tout » s'applique également à l'industrie du modélisme à grande échelle. Si une entreprise suit OpenAI et après six mois de recherche et développement, elle lance son propre grand modèle avec des performances à 90 % comparables à GPT-4, dans l'espoir de le mettre sur le marché. À l’heure actuelle, l’entreprise sera confrontée aux problèmes suivants :
• OpenAI présente l'avantage d'évolutivité des ressources cloud et un coût inférieur.
•L'API d'OpenAI a été largement utilisée dans les codes produits et il est difficile de la remplacer.
• Le produit de l'entreprise ne surpasse toujours pas GPT-4
•Le produit de nouvelle génération d'OpenAI (éventuellement GPT-5) est sur le point d'être publié
On voit que la pression sur l’entreprise est considérable. Plutôt que de former GPT-4, mieux vaut miser directement sur le modèle nouvelle génération (contre GPT-5). Le problème passera alors du « problème des produits concurrents similaires » au « problème de l'innovation technologique ». C’est un fardeau que les petites entreprises ne peuvent supporter.
Par conséquent, discuter de « qui peut former le GPT-4 » est une question stratégique morte. Plutôt que d'y réfléchir, il vaut mieux trouver une direction avec plus de certitude et plus d'opportunités.
Conseils aux startups d'IA : donnez la priorité à la performance, évitez de rester
L'auteur a écrit de nombreux articles se plaignant de Langchain. La cause profonde est que Langchain ne laisse pas aux développeurs la possibilité d'améliorer les performances. On l'appelle par euphémisme « cadre universel ». Afin d'assurer l'universalité, de nombreuses possibilités d'amélioration des performances des grands modèles sont abandonnées, telles que le dialogue multi-tours et le contrôle du format mis en œuvre par réglage fin. De même, il existe guidance/Auto-GPT/BabyAGI, etc., qui veulent tous être un « framework qui peut être utilisé toute une vie ».
Un fait objectif est qu'OpenAI a publié Function Calling en mai. De nombreuses zones problématiques du code ont de meilleures solutions de mise en œuvre, et le coût de la mise en œuvre de meilleures solutions est de reconstruire les parties clés du code du produit. En août, OpenAI a publié l'autorisation d'affiner GPT-3.5, et de nombreux liens nécessitant un contrôle précis de la sortie ont de nouvelles solutions potentielles.
Par conséquent, les startups doivent faire face à un choix clé : doivent-elles choisir ① d'améliorer les performances et de constamment refactoriser les produits, ou ② de réduire l'utilisation de nouvelles fonctionnalités et de toujours utiliser les anciennes fonctionnalités pour le développement ?
Pour l'entrepreneuriat d'applications de nouvelles technologies, le « développement » représente non seulement le processus d'écriture de code, mais représente également la « limite supérieure » des fonctions/stratégies du produit. Plus les performances contrôlables sont élevées, plus les fonctions du produit sont théoriques et plus la flexibilité stratégique est élevée.
Le développement de la technologie est imprévisible et des innovations technologiques mineures peuvent entraîner des changements très sensibles dans le paysage concurrentiel. Les start-up doivent disposer de capacités anti-fragile pour le développement technologique.
——En termes humains : La performance est la priorité, évitez de rester. Au niveau du développement, utilisez les nouvelles fonctionnalités ; en termes de produits, réfléchissez aux fonctions que les nouvelles fonctionnalités peuvent remplir ; en termes de stratégie, considérez l'impact des nouvelles fonctionnalités sur la stratégie.
Dans « Sur le passage de Qin », il est mentionné qu'après l'établissement de la dynastie Qin, les armes métalliques du monde entier ont été confisquées et coulées dans douze figures de bronze pour éliminer la possibilité de soulèvements civils. Mais la dynastie Qin fut notoirement de courte durée. Il est plus bénéfique de prêter attention au changement que de l’ignorer.
Conseils aux start-up en IA : créez des applications en toute confiance
Il existe un danger caché très courant lorsque les startups développent des applications : l’entrée de grandes entreprises. Les grandes entreprises comprennent ici non seulement des géants des applications, tels que Meta/Byte/Tencent, etc., mais aussi des acteurs en amont de l'industrie de l'IA, comme OpenAI.
Il y a généralement deux raisons pour lesquelles les grandes entreprises entrent sur le marché : développer des opportunités de produits et se déplacer en amont et en aval.
"Développer des opportunités de produits" est un sens littéral.Les grandes entreprises estiment que cette direction en vaut la peine, alors elles le font.
"Couper en amont et en aval" est pour la plupart un geste impuissant. C'est peut-être parce que j'ai développé un grand modèle comparable à OpenAI. Cependant, en raison du problème du gagnant-gagnant des grands modèles, il n'y a pas d'utilisateurs, ce qui entraîne en termes de coûts de combustion, pas de revenus et pas de données, ce qui conduit à un retard progressif des performances. À l’heure actuelle, la seule option est de s’attaquer à l’aval, de développer des applications spécifiques et d’utiliser sa propre technologie.
Selon l'expérience historique, en raison de problèmes de structure organisationnelle, plus une entreprise est proche de l'aval, plus sa technologie risque de prendre du retard, et plus sa technologie prend du retard, plus elle devra travailler en aval. Ces entreprises dites technologiques finiront par rivaliser pour le même créneau écologique que les entreprises de la couche application.
Cependant, sur le champ de bataille de la couche application, en raison de la courte période de la technologie de l'IA, il n'y a pas d'avantage d'échelle efficace et réutilisable, et le point de départ des grandes entreprises et des startups est similaire. Par rapport aux grandes entreprises, les startups sont plus efficaces et disposent de connaissances plus approfondies, ce qui facilite leur exploitation.
Il convient de noter que presque tous les supports promotionnels de MS Azure tournent désormais autour d'OpenAI, mais qu'une entreprise aussi grande que Microsoft s'appuie entièrement sur OpenAI comme plate-forme, ce qui prouve que les startups ont des avantages naturels dans le domaine de l'IA.
Bien entendu, certains fournisseurs de cloud n’accepteront peut-être pas d’être dirigés par des start-ups et voudront conquérir tout le marché à eux seuls. C'est cher, lent et ce n'est pas une menace immédiate.
Le fait est qu'il existe effectivement certaines pistes d'applications d'IA qui sont de très courte durée, mais il existe encore de nombreuses pistes de longue durée qui n'ont pas été découvertes, et les applications d'IA ne sont pas gagnantes. L'extension des applications aux plates-formes ou technologies est également une voie plus réalisable.
Nous devrions donc adopter une vision rationnelle de la capacité des grandes entreprises à envahir la couche applicative. Notre suggestion est que les startups d'IA peuvent créer des applications en toute confiance.
Conseils aux startups d'IA : faites attention à la bouée de sauvetage du produit
Comme mentionné précédemment, les startups d'IA peuvent se sentir libres de créer des applications, mais elles doivent prendre en compte les problèmes de performances du modèle d'IA pour éviter de stagner. Cette situation se reflète directement dans le fait que les produits d'IA peuvent perdre leur base de demande et dépérir progressivement en quelques mois, et cette situation peut se produire fréquemment.
Les applications d'IA doivent utiliser des services de modèles à grande échelle, et les performances des modèles à grande échelle continuent de s'améliorer. Cette amélioration n'est pas une amélioration unidimensionnelle telle que la « vitesse », mais un changement global dans la qualité de sortie, la longueur de sortie et la contrôlabilité de la sortie. Chaque mise à niveau technologique significative entraînera un retard technologique des produits de couche d'application existants et créera de nouvelles opportunités et de nouveaux concurrents.
Nous appelons le moment où les applications d'IA conservent leurs avantages et leur nécessité en matière de stratégie/produit/technologie la « bouée de sauvetage ».
Voici quelques exemples de bouées de sauvetage plus courtes :
•Lorsque ChatGPT/Claude prend en charge le téléchargement de fichiers, ChatPDF perd sa nécessité
•Lorsque Office365 prend en charge Copilot, les produits qui utilisent l'IA pour dessiner des PPT perdront leurs avantages.
• Lorsque GPT-3.5 est apparu, Jasper a perdu sa nécessité
**Étant donné que l'industrie de l'IA se développe rapidement, des bouées de sauvetage limitées sont la norme. Par conséquent, accepter le fait que la bouée de sauvetage est limitée et essayer de choisir une direction avec une bouée de sauvetage plus longue aidera à maintenir les avantages à long terme et la nécessité du produit. **
Généralement, la bouée de sauvetage peut être simplement divisée en niveaux de 3/6/12 mois.
•3 mois : Fonctions que les grandes entreprises n'ont pas eu le temps de faire (comme les fonctions que office/ChatGPT n'a pas eu le temps de faire)
•6 mois : il est difficile à mettre en œuvre et ne peut pas être intégré aux solutions existantes, mais les avantages/nécessités disparaîtront à mesure que les performances de l'IA s'améliorent (comme le cadre général de l'IA)
•12 mois : les avantages/nécessités peuvent exister pendant une longue période et ne sont pas facilement affectés par les grandes entreprises/développements technologiques (comme Hugging Face)
*Le cycle de vie des produits de plateforme n'est pas nécessairement long, après tout, les magasins sont aussi des plateformes.
Les startups n’ont besoin que d’une bouée de sauvetage de 6 mois pour déterminer leur direction, et une bouée de sauvetage de 12 mois est difficile à trouver.
Lorsque la bouée de sauvetage du produit arrive à son terme, il existe généralement deux situations. La première situation est que les avantages disparaissent et la technologie de mise à niveau du produit doit être reconstruite. Veuillez vous référer à la "Performance d'abord" ci-dessus ; la deuxième situation est que la nécessité disparaît et le produit sera progressivement remplacé. À ce stade, le produit a encore plusieurs mois de "fonctionnement" La durée de vie” suffit aux startups pour choisir la prochaine direction.
Conseils aux startups d'IA : Web3+AI peut le faire
Il existe actuellement de nombreux projets entrepreneuriaux autour du thème Web3+AI, mais compte tenu de l'incertitude du développement technologique et du stade précoce du marché, le thème du Web3+AI comportera encore de nombreuses variables à l'avenir.
Cet article vise à trouver des certitudes ayant une forte probabilité d'être correctes parmi les incertitudes. Par conséquent, l'auteur espère toujours s'inspirer et proposer des sujets et des orientations qui pourraient avoir des opportunités de référence pour les start-ups et les chercheurs intéressés.
•Dé-souveraineté/décentralisation
À l'heure actuelle, les leaders de l'industrie de l'IA ne proposent que des modèles à source fermée, et la stabilité, la transparence et la neutralité de leur fourniture de services continus sont incontrôlables. La dé-souveraineté/décentralisation pourrait devenir un thème important dans l’industrie de l’IA, c’est-à-dire fournir des services d’IA stables, transparents et neutres basés sur l’architecture de base de la dé-souveraineté/décentralisation.
La désovereignisation/décentralisation est une « solution alternative » et une « dissuasion », qui peut augmenter considérablement le coût contraire à l'éthique des entreprises d'IA centralisées/souveraines et les empêcher d'utiliser des modèles d'IA dans les domaines militaire, sectaire, politique, etc.
Dans des cas extrêmes, une fois que le service d'IA centralisé/souverain n'est plus disponible/crédible pour une raison quelconque, l'IA décentralisée/décentralisée peut continuer à fournir des services hautement disponibles pour empêcher les pays/régions individuels et même les humains de perdre les services d'IA.
•Utilisation pratique de la puissance de calcul
Derrière le passage de l'ETH du PoW au PoS se cache le dilemme critiqué selon lequel « l'exploitation minière ne génère pas de valeur ».La combinaison du Web3 et de l'IA peut fournir un scénario pratique pour la puissance de calcul, afin de réaliser la digestion de la puissance de calcul des stocks et de promouvoir la croissance de puissance de calcul totale, etc. Effet.
•Actifisation virtuelle
L'IA est un actif natif de la puissance de calcul et du stockage. La combinaison du Web3 et de l'IA peut fournir un canal pour convertir l'IA en actifs virtuels. Tout en instanciant la valeur de l'industrie de l'IA, elle peut créer des actifs virtuels véritablement natifs pour le Web3.
•Variables pour les applications Web3
La combinaison du Web3 et de l'IA peut apporter de nouveaux points fonctionnels et opportunités de croissance aux applications Web3, et les applications Web3 existantes peuvent être entièrement refaites.
Écrit à la fin : Nous sommes en septembre, l'IA vaut-elle toujours la peine de démarrer une entreprise maintenant
Permettez-moi de commencer par la conclusion : cela en vaut la peine, et cette conclusion pourra très probablement être utilisée jusqu'au Nouvel An chinois.
Les gens ont souvent une perception biaisée de la situation, et je ne fais pas exception. Certains sont trop optimistes, d’autres trop pessimistes. L'auteur a un jour communiqué avec deux équipes. L'une pense qu'elle sera capable de construire un agent IA au premier trimestre de l'année prochaine, tandis que l'autre estime que l'IA ne convient qu'à la gestion de la base de connaissances. De toute évidence, la première est trop optimiste, tandis que ce dernier est trop pessimiste.
Lors de la planification à long terme, les propos trop optimistes et trop pessimistes tomberont dans le gouffre, et les remarques largement diffusées sont souvent celles qui comportent de grands écarts, une réflexion indépendante est donc très précieuse. Par conséquent, que les lecteurs puissent ou non accepter les points de vue de cet article, tant qu'ils ont une réflexion et un jugement indépendants dans le processus de lecture, l'auteur sera très heureux.
Enfin, faites de la publicité. Si vous avez de bonnes idées entrepreneuriales en IA ou si vous avez déjà formé des projets, n'hésitez pas à communiquer avec des amis du MBAC (comme moi) à tout moment.
Nous identifions les projets innovants de rupture, visant à résoudre les problèmes avec des solutions caractérisées par la simplicité, le coût abordable, la rapidité, l'unicité et une adéquation convaincante avec le marché des produits.