Les données humaines sont pressées, Microsoft OpenAI a commencé à alimenter l'IA avec l'IA, a déclaré Altman : toutes les données du futur deviendront des données synthétiques

Source originale : Qubit

Source de l'image : générée par l'IA illimitée‌

Il y a une pénurie de données humaines, et l'IA est obligée de commencer à manger les données produites par l'IA !

C'est le statu quo auquel sont confrontées les entreprises de pointe en IA telles que Microsoft et OpenAI.

Ils ont parcouru d'énormes quantités de données sur des plateformes et des forums comme Wikipedia, des livres électroniques, des sites d'actualités, des blogs, Twitter et Reddit, et maintenant... ils manquent de données.

MAIS, pour former un meilleur grand modèle, aucune quantité de données ne suffit.

Selon le "Financial Times", de nombreuses entreprises alimentent les résultats générés par de grands modèles, les soi-disant données synthétiques (données synthétiques), vers de grands modèles avec des paramètres plus petits, et ont constaté que les résultats ne sont pas mauvais.

Pour l'utilisation de données synthétiques, le PDG d'OpenAI, Sam Altman, non seulement ne s'en soucie pas, mais a également déclaré que "toutes les données du futur deviendront des données synthétiques".

Cohere, une startup de gros modèles évaluée à 2 milliards de dollars, utilise également des données synthétiques. Aidan Gomez, PDG de l'entreprise et l'un des auteurs du papier classique Transformer grand modèle, estime même que :

Les données synthétiques pourraient accélérer la voie vers des systèmes d'IA "superintelligents".

Alors, quels grands modèles utilisent déjà des données synthétiques, et d'où viennent ces données synthétiques ?

La grande IA synthétise les données, la petite IA les mange

Ces soi-disant données synthétiques sont essentiellement les données générées par le grand modèle actuel avec de meilleures performances, après un ajustement manuel, puis transmises à un grand modèle légèrement plus petit.

Par exemple, Cohere a essayé d'utiliser deux grands modèles pour mener des dialogues de "jeu de rôle" et transformer les résultats générés par ceux-ci en données synthétiques.

Ces deux grands modèles jouent respectivement le rôle de "professeur de mathématiques" et "d'élève" et animent une classe virtuelle d'enseignement des mathématiques. Pendant ce temps, Cohere a placé un employé humain sur la touche pour superviser la génération du dialogue.

Les humains interviennent pour réparer le texte chaque fois qu'une conversation tourne mal.

Bien que cela nécessite de la main-d'œuvre, c'est beaucoup moins cher que d'engager des experts en sciences, en médecine et en affaires pour écrire le texte.

Alors, quel type de grands modèles utilisera ces données synthétiques ?

Des recherches récentes de Microsoft Research ont montré que des données synthétiques peuvent être utilisées pour entraîner des modèles de langage légèrement plus petits que GPT-4 ou PaLM-2**.

Prenons l'exemple d'un ensemble de données TinyStories de "romans pour enfants de 4 ans" généré par GPT-4. Il a été prouvé que cet ensemble de données ne contient que des mots que les enfants de 4 ans peuvent comprendre, mais après entraînement un grand modèle, le même Une histoire grammaticalement correcte et fluide :

Quant aux raisons d'utiliser des données synthétiques, le PDG de Cohere, Aidan Gomez, estime :

Il est bien sûr préférable de pouvoir obtenir des données sur Internet, mais les données du réseau sont trop brouillonnes pour répondre aux besoins. En revanche, les données synthétiques sont déjà abondantes, même si elles ne sont pas largement diffusées.

La chaîne industrielle derrière est apparue

À l'heure actuelle, des entreprises telles que Scale AI et Gretel.ai ont commencé à fournir des services de données synthétiques au monde extérieur.

Tout d'abord, Scale AI, qui a lancé un produit de données synthétiques, Scale Synthetic, pour fournir aux entreprises des services de données synthétiques.

Dans les nouvelles précédentes, SemiAnalysis a annoncé la "grande dentelle" de GPT-4, il a également mentionné que dans l'ensemble de données GPT-4, il y a des millions de lignes de Scale AI et des données de réglage fin des instructions internes.

Quant à la plate-forme de données synthétiques ** Gretel.ai **, du site officiel, elle a coopéré avec différentes sociétés telles que Google, Riot Games et HSBC pour générer davantage de données synthétiques à utiliser par d'autres développeurs.

Ali Golshan, PDG de Gretel.ai, estime que l'avantage des données synthétiques est qu'elles préservent la confidentialité de tous les individus dans l'ensemble de données tout en maintenant leur intégrité statistique.

Mais tout le monde n'accepte pas « l'opération magique » des données de synthèse : à l'heure actuelle, les opinions de tous les partis se divisent principalement en deux vagues.

Certains approuvent l'utilisation de données synthétiques. Y compris les entreprises d'IA telles que Cohere, de nombreuses entreprises engagées dans des modèles à grande échelle insistent toujours sur cette approche et pensent qu'elle peut générer une meilleure IA, et même donner naissance à la "superintelligence".

Une autre partie pense que les données synthétiques permettront à terme à l'IA de "se nourrir".

Par exemple, une étude de l'Université d'Oxford, de l'Université de Cambridge, de l'Imperial College, de l'Université de Toronto, de l'Université d'Édimbourg et du Vector Institute montre que :

L'entraînement avec des données synthétiques entraînera des défauts irréversibles dans le modèle : Oubliez ces "événements impossibles" qui finissent par être empoisonnés par des données auto-générées.

Certains internautes pensent que ces données synthétiques finiront par devenir un réservoir de "boues inutilisables" et que les gens devront alors être obligés d'embaucher des data scientists pour les nettoyer*.

Certains internautes ont ridiculisé le fait que cela ressemblait à " ** Consanguinité IA ** ".

Pensez-vous que l'IA doit utiliser des données synthétiques ?

Lien de référence : [1] [2] [3] [4]

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)