L'IA va rester bloquée ? Les données pour la formation de grands modèles pourraient être épuisées d'ici 2026

Source : « Tencent Technology », Auteur : Jinlu

Se concentrer sur:

  1. Le dernier essor de l'intelligence artificielle générative nécessite la prise en charge de très grands modèles, et les grands modèles doivent être entraînés avec des données massives, de sorte que les données deviennent de plus en plus précieuses.
  2. Les chercheurs estiment que la demande de données augmentera considérablement et que les données textuelles de haute qualité pouvant être utilisées pour former de grands modèles pourraient être épuisées en 2026. Une ruée sur les données commence.
  3. Aux États-Unis, de nombreuses affaires de violation du droit d'auteur ont été intentées contre des constructeurs de modèles, et OpenAI, Stability AI, Midjourney et Meta sont tous devenus défendeurs.
  4. Les entreprises d'intelligence artificielle explorent de nouvelles sources de données, notamment en signant des accords de droits d'auteur sur les données avec d'autres entreprises, en collectant des données via les interactions des utilisateurs avec leurs outils et en essayant d'utiliser les données internes des entreprises clientes.

Source de l'image : générée par Unbounded AI

Il n’y a pas si longtemps, les analystes se demandaient ouvertement si l’intelligence artificielle (IA) entraînerait la chute d’Adobe, un développeur de logiciels destinés aux créatifs. De nouveaux outils comme Dall-E 2 et MidTrik, qui génèrent des images basées sur du texte d'invite, semblent rendre les capacités d'édition d'images d'Adobe superflues. En avril de cette année, le site d'information financière Seeking Alpha a également publié un article intitulé « L'intelligence artificielle sera-t-elle un tueur d'Adobe ?

Mais en réalité, les faits sont loin de correspondre aux hypothèses des analystes. Adobe a utilisé sa base de données de centaines de millions de photos pour créer sa propre suite d'outils d'intelligence artificielle appelée Firefly. Firefly a été utilisé pour créer plus d'un milliard d'images depuis son lancement en mars, a déclaré Dana Rao, dirigeant de l'entreprise. En évitant d'exploiter Internet à la recherche d'images comme ses concurrents, Adobe évite les conflits croissants en matière de droits d'auteur qui tourmentent actuellement le secteur. Le stock Adobe a augmenté de 36 % depuis le lancement de Firefly.

Un brouillage de données démarre

La victoire d'Adobe sur le soi-disant « Doomslayer » souligne les implications plus larges de la course à la domination sur le marché en croissance rapide des outils d'intelligence artificielle. Les très grands modèles qui alimentent la dernière vague de ce que l’on appelle « l’intelligence artificielle générative » s’appuient sur de grandes quantités de données. Auparavant, les créateurs de modèles récupéraient principalement des données (souvent sans autorisation) sur Internet. Aujourd’hui, ils trouvent de nouvelles sources de données pour soutenir ce régime d’entraînement frénétique. Dans le même temps, les entreprises disposant de grandes quantités de nouvelles données réfléchissent à la meilleure façon d’en tirer profit. Une ruée sur les données commence.

Les deux éléments de base d'un modèle d'intelligence artificielle sont les ensembles de données et la puissance de traitement. Le système est formé sur des ensembles de données et le modèle détecte la relation entre l'intérieur et l'extérieur de ces ensembles de données grâce à la puissance de traitement. D'une certaine manière, ces deux fondamentaux sont interchangeables : un modèle peut être amélioré en intégrant plus de données ou en ajoutant plus de puissance de traitement. Ce dernier point, cependant, devient de plus en plus difficile en raison d’une pénurie de puces d’IA spécialisées, ce qui conduit les constructeurs de modèles à redoubler d’efforts pour trouver des données.

Le cabinet de recherche Epoch AI estime que la demande de données augmentera de façon si spectaculaire que les textes de haute qualité disponibles pour la formation pourraient être épuisés d’ici 2026. On rapporte que les derniers modèles d'intelligence artificielle des deux géants de la technologie, Google et Meta, ont été formés sur plus de 1 000 milliards de mots. À titre de comparaison, le nombre total de mots anglais présents sur l’encyclopédie en ligne Wikipédia est d’environ 4 milliards.

Ce n’est pas seulement la taille de l’ensemble de données qui compte. Plus les données sont de qualité, plus les modèles formés sur celles-ci seront performants. Russell Kaplan de la startup de données Scale AI souligne que les modèles basés sur du texte sont idéalement formés sur des travaux longs, bien écrits et factuellement précis. Les modèles alimentés par ces informations sont plus susceptibles de produire des résultats de qualité similaire.

De même, les chatbots IA donnent de meilleures réponses lorsqu’on leur demande d’expliquer leur travail étape par étape, augmentant ainsi le besoin de ressources telles que des manuels. Les ensembles d’informations dédiés deviennent également plus précieux, car ils permettent d’« affiner » les modèles pour des applications plus spécialisées. Microsoft, qui a acquis le référentiel de codes logiciels GitHub en 2018 pour 7,5 milliards de dollars, l'a utilisé pour développer un outil d'intelligence artificielle permettant d'écrire du code.

Les poursuites en matière de droits d'auteur sur les données se multiplient, les sociétés d'IA sont en train de signer des accords de licence

À mesure que la demande de données augmente, l’accès aux données manquantes devient de plus en plus délicat et les créateurs de contenu exigent désormais une compensation pour le matériel absorbé par les modèles d’IA. De nombreuses affaires de violation du droit d'auteur ont été intentées contre des modélistes aux États-Unis. Un groupe d'écrivains, dont la comédienne Sarah Silverman, poursuit OpenAI, développeur du chatbot d'intelligence artificielle ChatGPT, et la société mère de Facebook, Meta. De plus, un groupe d’artistes a également poursuivi Stability AI et Midjourney, deux sociétés travaillant sur des outils de conversion texte-image.

Le résultat de tout cela est une vague d’accords alors que les sociétés d’IA se précipitent pour acquérir des sources de données. En juillet, OpenAI a signé un accord avec Associated Press pour accéder aux archives d'actualités de l'agence. Plus récemment, la société a également élargi son accord avec le fournisseur de bibliothèque d'images Shutterstock, avec lequel Meta a également un accord.

Plus tôt en août, des informations ont révélé que Google était en pourparlers avec le label Universal Music pour obtenir une licence pour les voix d'artistes afin de contribuer au développement d'outils d'intelligence artificielle pour l'écriture de chansons. Le gestionnaire d'actifs Fidelity a déclaré que la société avait été approchée par un certain nombre d'entreprises technologiques demandant l'accès à ses données financières. La rumeur veut que l'AI Lab se rapproche de la BBC pour ses archives d'images et de films. Une autre cible intéressante est JSTOR, une bibliothèque numérique de revues scientifiques.

Ces détenteurs d’informations tirent parti de leur plus grand pouvoir de négociation. Reddit, un forum, et Stack Overflow, un site de questions-réponses populaire auprès des programmeurs, ont tous deux augmenté le coût d'accès à leurs données. Les deux sites sont particulièrement précieux car les utilisateurs « aiment » les réponses, aidant ainsi le modèle à savoir lesquelles sont les plus pertinentes. Le site de médias sociaux X (anciennement Twitter) a pris des mesures pour limiter la capacité des robots à récupérer des informations sur le site, et désormais toute personne souhaitant accéder à ses données devra payer. Le patron de X, Elon Musk, envisage d'utiliser les données pour créer sa propre entreprise d'intelligence artificielle.

Par conséquent, les créateurs de modèles s’efforcent d’améliorer la qualité des données dont ils disposent déjà. De nombreux laboratoires d’IA emploient des armées d’annotateurs de données pour effectuer des tâches telles que l’étiquetage des images et l’évaluation des réponses. Certains de ces emplois sont si complexes qu'ils nécessitent même un candidat à la maîtrise ou au doctorat avec une spécialisation en sciences de la vie. Mais la plupart de ces emplois sont banals et sont sous-traités à une main-d’œuvre bon marché dans des pays comme le Kenya.

Les sociétés d’IA collectent également des données via les interactions des utilisateurs avec leurs outils. Beaucoup de ces outils disposent d’une forme de mécanisme de retour d’information, par lequel l’utilisateur indique quels résultats ont été utiles. Le générateur de texte en image de Firefly permet aux utilisateurs de choisir parmi quatre options. Le chatbot de Google, Bard, propose également trois réponses.

Les utilisateurs peuvent donner un coup de pouce à ChatGPT lorsqu'il répond à une requête. Ces informations peuvent être réinjectées dans les modèles sous-jacents, formant ce que Douwe Kiela, co-fondateur de la startup Contextual AI, appelle un « volant de données ». Un signe plus fort de la qualité des réponses d'un chatbot est de savoir si les utilisateurs copient le texte et le collent ailleurs, a-t-il ajouté. L'analyse de ces informations aide Google à améliorer rapidement ses outils de traduction.

Explorez de nouveaux domaines et les données internes des entreprises clientes deviennent des pâtisseries

Cependant, il existe une source de données qui reste largement inexploitée : les informations qui existent chez les entreprises clientes des entreprises technologiques. De nombreuses entreprises possèdent sans le savoir une multitude de données utiles, depuis les enregistrements des centres d’appels jusqu’aux enregistrements des dépenses des clients. Ces informations sont particulièrement précieuses car elles peuvent aider à affiner les modèles pour des objectifs commerciaux spécifiques, par exemple en aidant les employés des centres d'appels à répondre aux questions des clients ou en aidant les analystes commerciaux à trouver des moyens d'augmenter les ventes.

Cependant, tirer profit de cette ressource abondante n’est pas chose aisée. Roy Singh, analyste chez Bain & Company, note qu'historiquement, la plupart des entreprises accordent peu d'attention aux ensembles de données énormes mais non structurés qui s'avéreront les plus utiles pour former les outils d'IA. Ces données sont souvent réparties sur plusieurs systèmes et cachées sur les serveurs de l'entreprise plutôt que dans le cloud.

L’accès à ces informations aidera les entreprises à adapter leurs outils d’IA pour mieux répondre à leurs besoins spécifiques. Les deux géants de la technologie, Amazon et Microsoft, proposent désormais des outils pour aider d'autres entreprises à mieux gérer les ensembles de données non structurées, tout comme Google. Christian Kleinerman de la société de bases de données Snowflake a déclaré que le domaine est en plein essor alors que les clients cherchent à « briser les silos de données ».

Les startups se ruent également sur ce nouveau domaine. En avril de cette année, Weaviate, une société de bases de données axée sur l'intelligence artificielle, a levé 50 millions de dollars pour une valorisation de 200 millions de dollars. À peine une semaine plus tard, son rival PineCone a levé 100 millions de dollars pour une valorisation de 750 millions de dollars. Plus tôt ce mois-ci, une autre startup de bases de données, Neon, a également levé 46 millions de dollars. De toute évidence, la ruée vers les données ne fait que commencer.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)