"Bigger than big" (Plus gros que plus gros) est une publicité d'Apple cette année-là, qui est utilisée pour décrire le modèle de langage le plus en vogue dans le domaine de l'IA. Il semble qu'il n'y ait rien de mal à cela.
De milliards à des dizaines de milliards à des centaines de milliards, les paramètres du grand modèle sont progressivement devenus fous. En conséquence, la quantité de données utilisées pour former l'IA a également augmenté de façon exponentielle.
En prenant le GPT d'OpenAI comme exemple, de GPT-1 à GPT-3, son ensemble de données de formation a augmenté de façon exponentielle de 4,5 Go à 570 Go.
Lors de la conférence Data+AI organisée par Databricks il n'y a pas longtemps, Marc Andreessen, fondateur d'a16z, a estimé que les données massives accumulées par Internet au cours des deux dernières décennies sont une raison importante de l'essor de cette nouvelle vague d'IA, car le Le premier fournit au second des données d'entraînement utilisables.
Cependant, même si les internautes laissent beaucoup de données utiles ou inutiles sur Internet, pour la formation à l'IA, ces données peuvent toucher le fond.
Un article publié par Epoch, une organisation de recherche et de prévision en intelligence artificielle, prédit que les données textuelles de haute qualité seront épuisées entre 2023 et 2027.
Bien que l'équipe de recherche reconnaisse qu'il existe de sérieuses limitations dans les méthodes d'analyse et que les inexactitudes du modèle sont élevées, il est difficile de nier que la vitesse à laquelle l'IA consomme des ensembles de données est terrifiante.
Tendances de consommation de données d'apprentissage automatique et de production de données de texte de faible qualité, de texte et d'images de haute qualité|EpochAI
Lorsque les données "humaines" seront épuisées, la formation à l'IA utilisera inévitablement le contenu produit par l'IA elle-même. Cependant, une telle "boucle interne" posera de grands défis.
Il n'y a pas si longtemps, des chercheurs de l'Université de Cambridge, de l'Université d'Oxford, de l'Université de Toronto et d'autres universités ont publié des articles soulignant que l'utilisation de contenu généré par l'IA comme IA de formation conduirait à l'effondrement du nouveau modèle. **
Alors, quelle est la raison du crash causé par les "données générées" pour la formation à l'IA ? Y a-t-il de l'aide?
01 Conséquences de la "consanguinité" de l'IA
Dans l'article intitulé "The Curse of Recursion: Training with Generated Data Makes Models Forget", les chercheurs soulignent que "l'effondrement des modèles" est un processus dégénéré des modèles sur plusieurs générations**.
Les données générées par la précédente génération de modèles vont polluer la prochaine génération de modèles Après plusieurs générations d'"héritage" de modèles, ils percevront le monde de manière erronée.
Diagramme schématique de l'itération du modèle|arxiv
L'effondrement du modèle se produit en deux étapes :
Au début de l'effondrement du modèle, le modèle commencera à perdre les informations de distribution des données d'origine, c'est-à-dire des "données humaines propres" ;
À un stade ultérieur, le modèle enchevêtrera la "perception erronée" des informations de distribution d'origine des générations précédentes de modèles, déformant ainsi la réalité.
Les chercheurs ont d'abord formé les modèles GMM (Gaussian Mixture Model) et VAE (Variable Autoencoder) à partir de zéro. En prenant GMM comme exemple, l'extrême gauche de la figure ci-dessous est la distribution normale des données d'origine.
Comme vous pouvez le constater, le modèle correspond très bien aux données au départ. À la 50e itération, la distribution sous-jacente des données a commencé à être mal perçue. ** Lorsque l'itération arrive à 2000 fois, le modèle a convergé vers un très petit point, ce qui signifie que le modèle commence à produire régulièrement de mauvaises réponses **.
Exemples de données d'ajustement GMM aux itérations 0, 50, 100, 150, 200, 350, 2000|arxiv
Afin de vérifier l'impact de la pré-formation sur les résultats expérimentaux, les chercheurs ont mené des expériences sur le LLM (Large Language Model) OPT-125m de 125 millions de paramètres développé par Meta.L'ensemble de données provient du wikitext2 de Wikipedia.
Contrairement aux petits modèles tels que GMM et VAE, le coût de la formation LLM à partir de zéro est très élevé, ils sont donc tous pré-formés. Les résultats expérimentaux sont les suivants :
Entrée : Selon Poyntz Wright, certaines activités avant 1360 étaient généralement exécutées par un maître tailleur de pierre et une petite équipe de tailleurs de pierre itinérants, complétés par du travail paroissial local. Mais d'autres auteurs nient ce modèle, suggérant plutôt que le maître architecte a conçu le clocher de l'église paroissiale dans le style vertical anglais.
Sortie : Génération 0 : Bâtiments de renaissance tels que la cathédrale Saint-Jean à Londres. Le plus ancien bâtiment de renaissance verticale qui subsiste date de l'église Notre-Dame de Guernesey du XVIIIe siècle, qui a été construite à la fin du XIXe siècle. Il existe deux types d'églises verticales : Celles de la 1ère génération : bâtisses, comme la Basilique Saint-Pierre de Rome ou la Basilique Saint-Pierre de Buenos Aires. Il n'y a aucune preuve que ces bâtiments aient été construits sous le règne du pape Innocent III, mais il est possible qu'ils aient été construits sous le règne de son successeur, le pape Innocent. Génération 7 : architecture britannique. Dans une interview avec le New York Times, Wright a déclaré: "Je ne pense pas qu'il y ait quoi que ce soit de mal à ce que je puisse faire ce que je veux. Cela ne fonctionne tout simplement pas pour moi. " Il a ajouté: "Je ne sais pas si vous pouvez prétendre que c'est amusant, 9e génération : architecture. En plus d'être le plus grand noir@-@tailhare, blanc@-@tailhare, bleu@-@tailhare, rouge@-@tailhare, jaune@- l'un des habitats
On peut voir qu'au moment du modèle de 9e génération, le contenu de la sortie était complètement incompréhensible.
Ilia Shumailov, l'un des auteurs de l'article, a déclaré qu'au fil du temps, les erreurs dans les données générées par l'IA s'accumulent, et les principaux modèles entraînés sur ces données développent une vision encore plus déformée de la réalité.
02 Pourquoi le modèle plante-t-il ?
La principale raison de "l'effondrement du modèle" est que l'IA n'est pas une véritable intelligence. Derrière sa capacité à approximer "l'intelligence" se cache en fait une méthode statistique basée sur une grande quantité de données.
Fondamentalement, tous les algorithmes d'apprentissage automatique non supervisés suivent un schéma simple : ** À partir d'une série de données, entraînez un modèle capable de décrire les lois de ces données **.
Dans ce processus, les données avec une probabilité plus élevée dans l'ensemble d'apprentissage sont plus susceptibles d'être valorisées par le modèle, et les données avec une probabilité plus faible seront sous-estimées par le modèle.
Par exemple, supposons que nous devions enregistrer les résultats de 100 lancers de dés pour calculer la probabilité de chaque face. En théorie, la probabilité d'apparition de chaque visage est la même. Dans la vraie vie, en raison de la petite taille de l'échantillon, il peut y avoir plus de cas de 3 et 4. Mais pour le modèle, les données qu'il apprend sont que 3 et 4 ont une probabilité plus élevée d'apparaître, il a donc tendance à générer plus de résultats 3 et 4.
Diagramme schématique de "l'effondrement du modèle"|arxiv
Une autre cause secondaire est l'erreur d'approximation de la fonction. Il est également facile à comprendre, car les fonctions réelles sont souvent très complexes.Dans les applications pratiques, les fonctions simplifiées sont souvent utilisées pour approximer les fonctions réelles, ce qui conduit à des erreurs.
03 Vous n'avez vraiment pas de chance ?
Inquiétude!
Alors, avec de moins en moins de données humaines, n'y a-t-il vraiment aucune chance pour une formation en IA ?
Non, il existe encore des moyens de résoudre le problème de l'épuisement des données pour l'IA d'entraînement :
"Isolement" des données
Alors que l'IA devient de plus en plus puissante, de plus en plus de personnes ont commencé à utiliser l'IA pour s'aider dans leur travail, et l'AIGC sur Internet a explosé, et les "ensembles de données humaines propres" peuvent devenir de plus en plus difficiles à trouver.
Daphne Ippolito, chercheur principal chez Google Brain, le département de recherche sur l'apprentissage profond de Google, a déclaré qu'à l'avenir, il deviendra de plus en plus difficile de trouver des données d'entraînement garanties de haute qualité sans intelligence artificielle.
C'est comme un ancêtre humain souffrant d'une maladie génétique à haut risque, mais avec une capacité de reproduction extrêmement forte. En peu de temps, il multiplia sa descendance aux quatre coins de la terre. Puis à un moment donné, une maladie génétique éclate et toute l'humanité disparaît.
Pour faire face à «l'effondrement du modèle», une approche proposée par l'équipe de recherche est «l'avantage du premier arrivé», c'est-à-dire conserver l'accès à des sources de données propres générées artificiellement, en séparant l'AIGC de celui-ci.
Dans le même temps, cela nécessite que de nombreuses communautés et entreprises unissent leurs forces pour protéger les données humaines de la pollution AIGC.
Pourtant, la rareté des données humaines signifie qu'il existe des opportunités lucratives pour le faire, et certaines entreprises le font déjà. Reddit a déclaré que cela augmenterait considérablement le coût d'accès à son API. Les dirigeants de la société ont déclaré que les changements étaient (en partie) une réponse aux sociétés d'intelligence artificielle qui volaient ses données. "La base de données de Reddit est vraiment précieuse", a déclaré le fondateur et PDG de Reddit, Steve Huffman, au New York Times. "Mais nous n'avons pas besoin de donner toute cette valeur gratuitement à certaines des plus grandes entreprises du monde."
Données synthétiques
Dans le même temps, professionnellement basé sur des données générées par l'IA, il a déjà été utilisé efficacement dans la formation à l'IA. Aux yeux de certains praticiens, s'inquiéter désormais que les données générées par l'IA fassent s'effondrer le modèle est en quelque sorte une "fête des gros titres".
Xie Chenguang, le fondateur de Light Wheel Intelligence, a déclaré à Geek Park que, comme mentionné dans des articles étrangers, l'utilisation de données générées par l'IA pour former des modèles d'IA entraîne des plantages et que les méthodes expérimentales sont biaisées. Même les données humaines peuvent être divisées en utilisables et inutilisables, et les expériences mentionnées dans l'article sont directement utilisées pour la formation sans discrimination, plutôt que ciblées comme données de formation après inspection de la qualité et jugement d'efficacité.
Xie Chen a révélé qu'en fait, le GPT-4 d'OpenAI utilise une grande quantité de données produites par le modèle de génération précédente GPT-3.5 pour la formation. Sam Altman a également déclaré dans une récente interview que les données synthétiques sont un moyen efficace de résoudre la pénurie de données de modèles volumineux. Le point clé est qu'il existe un système complet pour distinguer quelles données générées par l'IA sont utilisables et lesquelles ne le sont pas, et pour donner en permanence des commentaires basés sur l'effet du modèle formé - c'est l'une des astuces uniques d'OpenAI pour être fier du AI Arena **, cette entreprise n'est pas aussi simple que de lever plus d'argent et d'acheter plus de puissance de calcul.
Dans l'industrie de l'IA, l'utilisation de données synthétiques pour la formation de modèles est déjà devenue un consensus qui n'est pas encore connu des étrangers.
Xie Chen, qui était auparavant responsable des simulations de conduite autonome dans des entreprises telles que Nvidia, Cruise et Weilai, estime qu'à en juger par la quantité actuelle de données pour diverses formations de modèles à grande échelle, dans les 2-3 prochaines années, l'humain les données peuvent en effet être "épuisées", mais, basées sur des systèmes et des méthodes spécialisés, les données synthétiques générées par l'IA deviendront une source inépuisable de données efficaces**. Et les scénarios d'utilisation ne se limitent pas au texte et aux images. La quantité de données synthétiques requises par des industries telles que la conduite autonome et la robotique sera bien supérieure à la quantité de données textuelles.
Les trois éléments de l'IA sont les données, la puissance de calcul et les algorithmes. La source des données a été réglée et le grand modèle de l'algorithme évolue constamment. La seule pression de puissance de calcul restante, je pense que le fondateur de Nvidia, Huang Renxun, peut la résoudre doucement.
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Les données humaines seront utilisées par OpenAI, alors quoi ?
"Bigger than big" (Plus gros que plus gros) est une publicité d'Apple cette année-là, qui est utilisée pour décrire le modèle de langage le plus en vogue dans le domaine de l'IA. Il semble qu'il n'y ait rien de mal à cela.
De milliards à des dizaines de milliards à des centaines de milliards, les paramètres du grand modèle sont progressivement devenus fous. En conséquence, la quantité de données utilisées pour former l'IA a également augmenté de façon exponentielle.
En prenant le GPT d'OpenAI comme exemple, de GPT-1 à GPT-3, son ensemble de données de formation a augmenté de façon exponentielle de 4,5 Go à 570 Go.
Lors de la conférence Data+AI organisée par Databricks il n'y a pas longtemps, Marc Andreessen, fondateur d'a16z, a estimé que les données massives accumulées par Internet au cours des deux dernières décennies sont une raison importante de l'essor de cette nouvelle vague d'IA, car le Le premier fournit au second des données d'entraînement utilisables.
Cependant, même si les internautes laissent beaucoup de données utiles ou inutiles sur Internet, pour la formation à l'IA, ces données peuvent toucher le fond.
Un article publié par Epoch, une organisation de recherche et de prévision en intelligence artificielle, prédit que les données textuelles de haute qualité seront épuisées entre 2023 et 2027.
Bien que l'équipe de recherche reconnaisse qu'il existe de sérieuses limitations dans les méthodes d'analyse et que les inexactitudes du modèle sont élevées, il est difficile de nier que la vitesse à laquelle l'IA consomme des ensembles de données est terrifiante.
Lorsque les données "humaines" seront épuisées, la formation à l'IA utilisera inévitablement le contenu produit par l'IA elle-même. Cependant, une telle "boucle interne" posera de grands défis.
Il n'y a pas si longtemps, des chercheurs de l'Université de Cambridge, de l'Université d'Oxford, de l'Université de Toronto et d'autres universités ont publié des articles soulignant que l'utilisation de contenu généré par l'IA comme IA de formation conduirait à l'effondrement du nouveau modèle. **
Alors, quelle est la raison du crash causé par les "données générées" pour la formation à l'IA ? Y a-t-il de l'aide?
01 Conséquences de la "consanguinité" de l'IA
Dans l'article intitulé "The Curse of Recursion: Training with Generated Data Makes Models Forget", les chercheurs soulignent que "l'effondrement des modèles" est un processus dégénéré des modèles sur plusieurs générations**.
Les données générées par la précédente génération de modèles vont polluer la prochaine génération de modèles Après plusieurs générations d'"héritage" de modèles, ils percevront le monde de manière erronée.
L'effondrement du modèle se produit en deux étapes :
Les chercheurs ont d'abord formé les modèles GMM (Gaussian Mixture Model) et VAE (Variable Autoencoder) à partir de zéro. En prenant GMM comme exemple, l'extrême gauche de la figure ci-dessous est la distribution normale des données d'origine.
Comme vous pouvez le constater, le modèle correspond très bien aux données au départ. À la 50e itération, la distribution sous-jacente des données a commencé à être mal perçue. ** Lorsque l'itération arrive à 2000 fois, le modèle a convergé vers un très petit point, ce qui signifie que le modèle commence à produire régulièrement de mauvaises réponses **.
Afin de vérifier l'impact de la pré-formation sur les résultats expérimentaux, les chercheurs ont mené des expériences sur le LLM (Large Language Model) OPT-125m de 125 millions de paramètres développé par Meta.L'ensemble de données provient du wikitext2 de Wikipedia.
Contrairement aux petits modèles tels que GMM et VAE, le coût de la formation LLM à partir de zéro est très élevé, ils sont donc tous pré-formés. Les résultats expérimentaux sont les suivants :
On peut voir qu'au moment du modèle de 9e génération, le contenu de la sortie était complètement incompréhensible.
Ilia Shumailov, l'un des auteurs de l'article, a déclaré qu'au fil du temps, les erreurs dans les données générées par l'IA s'accumulent, et les principaux modèles entraînés sur ces données développent une vision encore plus déformée de la réalité.
02 Pourquoi le modèle plante-t-il ?
La principale raison de "l'effondrement du modèle" est que l'IA n'est pas une véritable intelligence. Derrière sa capacité à approximer "l'intelligence" se cache en fait une méthode statistique basée sur une grande quantité de données.
Fondamentalement, tous les algorithmes d'apprentissage automatique non supervisés suivent un schéma simple : ** À partir d'une série de données, entraînez un modèle capable de décrire les lois de ces données **.
Dans ce processus, les données avec une probabilité plus élevée dans l'ensemble d'apprentissage sont plus susceptibles d'être valorisées par le modèle, et les données avec une probabilité plus faible seront sous-estimées par le modèle.
Par exemple, supposons que nous devions enregistrer les résultats de 100 lancers de dés pour calculer la probabilité de chaque face. En théorie, la probabilité d'apparition de chaque visage est la même. Dans la vraie vie, en raison de la petite taille de l'échantillon, il peut y avoir plus de cas de 3 et 4. Mais pour le modèle, les données qu'il apprend sont que 3 et 4 ont une probabilité plus élevée d'apparaître, il a donc tendance à générer plus de résultats 3 et 4.
Une autre cause secondaire est l'erreur d'approximation de la fonction. Il est également facile à comprendre, car les fonctions réelles sont souvent très complexes.Dans les applications pratiques, les fonctions simplifiées sont souvent utilisées pour approximer les fonctions réelles, ce qui conduit à des erreurs.
03 Vous n'avez vraiment pas de chance ?
Inquiétude!
Alors, avec de moins en moins de données humaines, n'y a-t-il vraiment aucune chance pour une formation en IA ?
Non, il existe encore des moyens de résoudre le problème de l'épuisement des données pour l'IA d'entraînement :
"Isolement" des données
Alors que l'IA devient de plus en plus puissante, de plus en plus de personnes ont commencé à utiliser l'IA pour s'aider dans leur travail, et l'AIGC sur Internet a explosé, et les "ensembles de données humaines propres" peuvent devenir de plus en plus difficiles à trouver.
Daphne Ippolito, chercheur principal chez Google Brain, le département de recherche sur l'apprentissage profond de Google, a déclaré qu'à l'avenir, il deviendra de plus en plus difficile de trouver des données d'entraînement garanties de haute qualité sans intelligence artificielle.
C'est comme un ancêtre humain souffrant d'une maladie génétique à haut risque, mais avec une capacité de reproduction extrêmement forte. En peu de temps, il multiplia sa descendance aux quatre coins de la terre. Puis à un moment donné, une maladie génétique éclate et toute l'humanité disparaît.
Pour faire face à «l'effondrement du modèle», une approche proposée par l'équipe de recherche est «l'avantage du premier arrivé», c'est-à-dire conserver l'accès à des sources de données propres générées artificiellement, en séparant l'AIGC de celui-ci.
Dans le même temps, cela nécessite que de nombreuses communautés et entreprises unissent leurs forces pour protéger les données humaines de la pollution AIGC.
Pourtant, la rareté des données humaines signifie qu'il existe des opportunités lucratives pour le faire, et certaines entreprises le font déjà. Reddit a déclaré que cela augmenterait considérablement le coût d'accès à son API. Les dirigeants de la société ont déclaré que les changements étaient (en partie) une réponse aux sociétés d'intelligence artificielle qui volaient ses données. "La base de données de Reddit est vraiment précieuse", a déclaré le fondateur et PDG de Reddit, Steve Huffman, au New York Times. "Mais nous n'avons pas besoin de donner toute cette valeur gratuitement à certaines des plus grandes entreprises du monde."
Données synthétiques
Dans le même temps, professionnellement basé sur des données générées par l'IA, il a déjà été utilisé efficacement dans la formation à l'IA. Aux yeux de certains praticiens, s'inquiéter désormais que les données générées par l'IA fassent s'effondrer le modèle est en quelque sorte une "fête des gros titres".
Xie Chenguang, le fondateur de Light Wheel Intelligence, a déclaré à Geek Park que, comme mentionné dans des articles étrangers, l'utilisation de données générées par l'IA pour former des modèles d'IA entraîne des plantages et que les méthodes expérimentales sont biaisées. Même les données humaines peuvent être divisées en utilisables et inutilisables, et les expériences mentionnées dans l'article sont directement utilisées pour la formation sans discrimination, plutôt que ciblées comme données de formation après inspection de la qualité et jugement d'efficacité.
Xie Chen a révélé qu'en fait, le GPT-4 d'OpenAI utilise une grande quantité de données produites par le modèle de génération précédente GPT-3.5 pour la formation. Sam Altman a également déclaré dans une récente interview que les données synthétiques sont un moyen efficace de résoudre la pénurie de données de modèles volumineux. Le point clé est qu'il existe un système complet pour distinguer quelles données générées par l'IA sont utilisables et lesquelles ne le sont pas, et pour donner en permanence des commentaires basés sur l'effet du modèle formé - c'est l'une des astuces uniques d'OpenAI pour être fier du AI Arena **, cette entreprise n'est pas aussi simple que de lever plus d'argent et d'acheter plus de puissance de calcul.
Dans l'industrie de l'IA, l'utilisation de données synthétiques pour la formation de modèles est déjà devenue un consensus qui n'est pas encore connu des étrangers.
Xie Chen, qui était auparavant responsable des simulations de conduite autonome dans des entreprises telles que Nvidia, Cruise et Weilai, estime qu'à en juger par la quantité actuelle de données pour diverses formations de modèles à grande échelle, dans les 2-3 prochaines années, l'humain les données peuvent en effet être "épuisées", mais, basées sur des systèmes et des méthodes spécialisés, les données synthétiques générées par l'IA deviendront une source inépuisable de données efficaces**. Et les scénarios d'utilisation ne se limitent pas au texte et aux images. La quantité de données synthétiques requises par des industries telles que la conduite autonome et la robotique sera bien supérieure à la quantité de données textuelles.
Les trois éléments de l'IA sont les données, la puissance de calcul et les algorithmes. La source des données a été réglée et le grand modèle de l'algorithme évolue constamment. La seule pression de puissance de calcul restante, je pense que le fondateur de Nvidia, Huang Renxun, peut la résoudre doucement.