Constat｜La vague des grands modèles est sur le point d'épuiser tout l'univers des textes, d'où viennent les données de qualité ?

Question

Source: Le papierAuteur : Shao WenLes bots alimentés par l'IA comme ChatGPT pourraient bientôt "manquer de texte dans l'univers", préviennent les experts. Dans le même temps, utiliser les données générées par l'IA pour "réalimenter" l'IA ou provoquer l'effondrement du modèle. Les données de haute qualité utilisées pour la formation future des modèles pourraient devenir de plus en plus coûteuses, et le réseau deviendra fragmenté et fermé."Lorsque le développement de modèles à grande échelle va plus loin, comme les modèles industriels à grande échelle, les données requises ne sont pas des données gratuites et ouvertes sur Internet. Pour former un modèle avec une grande précision, ce qu'il faut, c'est une expertise industrielle ou même commerciale. Pour que chacun contribue à un tel corpus, il faut qu'il y ait un mécanisme de répartition des droits et des intérêts.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c63d3da287-dd1a6f-7649e1) Source de l'image : générée par l'IA illimitéeEn tant que l'une des "troïkas" de l'infrastructure d'intelligence artificielle, l'importance des données a toujours été évidente. Alors que le boom des grands modèles linguistiques entre dans sa période de pointe, l'industrie accorde plus d'attention que jamais aux données.Début juillet, Stuart Russell, professeur d'informatique à l'Université de Californie à Berkeley et auteur de "Artificial Intelligence—A Modern Approach", a averti que des bots alimentés par l'IA tels que ChatGPT pourraient bientôt "manquer de texte dans l'univers". ." ", et la technique de formation des bots en collectant de grandes quantités de texte "commence à rencontrer des difficultés". La société de recherche Epoch estime que les ensembles de données d'apprentissage automatique pourraient épuiser toutes les "données linguistiques de haute qualité" d'ici 2026."La qualité et le volume des données seront la clé de l'émergence de capacités de modélisation à grande échelle dans la prochaine étape." Wu Chao, directeur du comité d'experts du CITIC Think Tank et directeur du Securities Research Institute of China Securities, a partagé un discours à la Conférence mondiale sur l'intelligence artificielle (WAIC) 2023 On estime que "20% de la qualité d'un modèle à l'avenir sera déterminée par l'algorithme, et 80% sera déterminée par la qualité des données. Ensuite, haute - des données de qualité seront la clé pour améliorer les performances du modèle."Cependant, d'où viennent les données de haute qualité ? À l'heure actuelle, l'industrie des données est toujours confrontée à de nombreux problèmes urgents, tels que quelle est la norme de qualité des données, comment promouvoir le partage et la circulation des données et comment concevoir un système de tarification et de distribution des revenus.## **Données de haute qualité urgentes**Wei Zhilin, directeur général adjoint de Shanghai Data Exchange, a déclaré dans une interview avec The Paper (y compris les médias) le 8 juillet que dans la "troïka" des données, de la puissance de calcul et des algorithmes, les données sont le noyau, le plus long et le plus les éléments les plus élémentaires.Le modèle de langage à grande échelle (LLM) a aujourd'hui des performances étonnantes, et le mécanisme sous-jacent est résumé comme "l'émergence intelligente".En termes simples, des compétences en IA qui n'ont pas été enseignées auparavant peuvent maintenant être apprises. Et un grand nombre d'ensembles de données est une base importante pour "l'émergence du renseignement".Un grand modèle de langage est un réseau neuronal profond avec des milliards à des billions de paramètres, qui est "pré-formé" sur un énorme corpus de langage naturel de plusieurs téraoctets (téraoctets, 1 To = 1024 Mo), y compris des données structurées, des livres en ligne et d'autres contenus . Shan Haijun, vice-président du China Electronics Jinxin Research Institute, a déclaré à Peng Mei Technology lors de la Conférence mondiale sur l'intelligence artificielle de 2023 que les grands modèles sont essentiellement des modèles de génération probabilistes, et que leurs points forts résident dans la capacité à comprendre (apprentissage rapide du contexte) et à raisonner ( chaîne de pensée) et A des valeurs (Human Feedback Reinforcement Learning). La plus grande percée de ChatGPT a eu lieu lorsque GPT-3 est apparu, avec environ 175 milliards de paramètres et un volume de données de 45 To.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dfb60d6123-dd1a6f-7649e1) Une vue complète de tous les ensembles de données de GPT-1 aux modèles de langage organisés par Gopher de 2018 à début 2022. La taille non pondérée, en Go. Crédit : Alan D. Thompson« OpenAI s'est toujours efforcé de rechercher davantage de données de haute qualité et d'analyser en profondeur les données existantes, afin de rendre ses capacités de plus en plus puissantes. » Le 12 juillet, professeur de l'Université de Fudan, directeur du Laboratoire clé de science des données de Shanghai, Xiao Yanghua a déclaré à The Paper, "L'acquisition de données à grande échelle, de haute qualité et diverses, et une analyse approfondie de ces données peuvent être l'une des idées importantes pour promouvoir le développement de grands modèles."Cependant, les données de haute qualité sont rares.Une étude réalisée en novembre dernier par Epoch, un groupe de chercheurs en intelligence artificielle, a estimé que les ensembles de données d'apprentissage automatique pourraient épuiser toutes les "données linguistiques de haute qualité" d'ici 2026. Et lorsque l'étude a été publiée, le boom mondial des grands modèles n'avait même pas eu lieu. Selon l'étude, les données linguistiques dans les ensembles "de haute qualité" provenaient de "livres, articles de presse, articles scientifiques, Wikipédia et contenu Web filtré".Dans le même temps, les pratiques de collecte de données des organisations de développement de l'IA générative telles que OpenAI pour former de grands modèles de langage deviennent de plus en plus controversées. Fin juin, OpenAI a fait l'objet d'un recours collectif, accusé d'avoir volé "une grande quantité de données personnelles" pour former ChatGPT. Les médias sociaux, dont Reddit et Twitter, ont exprimé leur mécontentement face à l'utilisation aléatoire des données sur leurs plateformes.Le 1er juillet, Musk a imposé une limite temporaire au nombre de tweets lus pour cette raison.Dans une interview avec la technologie et les médias financiers Insider le 12 juillet, Russell a déclaré que de nombreux rapports, bien que non confirmés, détaillent qu'OpenAI a acheté des ensembles de données textuelles auprès de sources privées. Bien qu'il existe diverses explications possibles à cet achat, "la conclusion naturelle est qu'il n'y a pas suffisamment de données publiques de haute qualité".Certains experts ont suggéré que de nouvelles solutions émergeront peut-être avant que les données ne soient épuisées. Par exemple, le grand modèle peut continuellement générer de nouvelles données par lui-même, puis subir un filtrage de qualité, qui à son tour peut être utilisé pour former le modèle.C'est ce qu'on appelle l'auto-apprentissage ou "feedback". Cependant, selon un article publié sur la plateforme de prépublication arXiv par des chercheurs de l'Université d'Oxford, de l'Université de Cambridge et de l'Imperial College de Londres en mai de cette année, la formation à l'IA avec des données générées par l'IA entraînera des défauts irréversibles dans le modèle d'IA. ce modèle s'effondre. Cela signifie que les données de haute qualité utilisées pour la formation de modèles à l'avenir deviendront de plus en plus chères, le réseau deviendra fragmenté et fermé, et les créateurs de contenu feront de leur mieux pour empêcher que leur contenu ne soit exploré gratuitement.Il n'est pas difficile de voir que l'acquisition de données de haute qualité deviendra de plus en plus difficile. "La plupart de nos données proviennent désormais d'Internet. D'où viendront les données au second semestre ? Je pense que c'est très important. Au final, tout le monde partagera des données privées, ou vous avez des données que je n'ai pas". t have." Le jeune scientifique du Laboratoire d'intelligence artificielle de Shanghai, responsable d'OpenDataLab, He Conghui en a parlé lors de la Conférence mondiale sur l'intelligence artificielle 2023.Wu Chao a également déclaré à The Paper que quiconque disposera ensuite de données de meilleure qualité ou pourra générer un flux constant de données de haute qualité deviendra la clé de l'amélioration des performances.## ** Problèmes "axés sur les données" **He Conghui pense que le paradigme de l'ensemble du développement du modèle passera progressivement de "centré sur le modèle" à "centré sur les données". Mais il y a un problème avec la centralité des données - le manque de normes et la criticité de la qualité des données sont souvent mentionnés, mais en fait, il est actuellement difficile pour quiconque de dire clairement ce qu'est une bonne qualité des données et quelle est la norme.Au cours de la pratique, He Conghui a également fait face à un tel problème : "Notre pratique dans ce processus consiste à décomposer les données et à les rendre de plus en plus détaillées. Avec chaque champ de subdivision et sujet de subdivision, la norme de qualité des données progressivement devient de plus en plus petit. Il a été proposé. En même temps, il ne suffit pas de regarder les données seules, mais aussi de regarder derrière les données. Nous combinerons les données et l'amélioration des performances du modèle de l'intention correspondante du données, et formuler ensemble un ensemble de mécanismes d'itération de la qualité des données.L'année dernière, le laboratoire d'intelligence artificielle de Shanghai où travaille He Conghui a lancé la plate-forme de données ouvertes OpenDataLab pour l'intelligence artificielle, fournissant plus de 5 500 ensembles de données de haute qualité, "mais ce n'est qu'au niveau des ensembles de données publics. Nous espérons que les données l'échange sera établi il y a deux jours. L'alliance de données de corpus à grande échelle peut fournir aux institutions de recherche et aux entreprises de meilleures méthodes de circulation des données.Le 6 juillet, lors de la Conférence mondiale sur l'intelligence artificielle 2023, Shanghai Artificial Intelligence Laboratory, China Institute of Scientific and Technological Information, Shanghai Data Group, Shanghai Digital Business Association, National Meteorological Center, China Central Radio and Television, Shanghai Press Industry Group Le grand alliance de données de corpus modèle initiée conjointement par d'autres unités a annoncé l'établissement formel.Le 7 juillet, le site Web officiel du Shanghai Data Exchange a officiellement lancé le corpus, et un total de près de 30 produits de données de corpus ont été répertoriés, y compris du texte, de l'audio, de l'image et d'autres multimodalités, couvrant les domaines de la finance, du transport et de la médecine.Mais une telle construction de corpus ne va pas de soi. "Peut-il y avoir un corpus de haute qualité requis par les grandes entreprises ? Le public cible sera-t-il disposé à ouvrir les données ?", a déclaré Tang Qifeng, directeur général de Shanghai Data Exchange, lors de la Conférence mondiale sur l'intelligence artificielle de 2023. le degré d'ouverture et la qualité des données Deux voies.Wei Zhilin a partagé que la fourniture de données est désormais confrontée à de nombreux défis. Les principaux fabricants ne sont pas disposés à ouvrir les données. Dans le même temps, tout le monde s'inquiète également du mécanisme de sécurité dans le processus de partage des données. Un autre problème important est qu'il existe encore des doutes sur le mécanisme de répartition des revenus pour la libre circulation des données.Plus précisément, le partage de données doit résoudre trois problèmes. Lin Le, fondateur et PDG de Shanghai Lingshu Technology Co., Ltd. a expliqué à Pengpai Technology que, premièrement, les données sont faciles à falsifier et qu'il est nécessaire de s'assurer que les données sont authentiques et crédibles. La seconde est que les données sont faciles à copier, ce qui signifie que la relation de propriété n'est pas claire et que la blockchain est requise pour la confirmation et l'utilisation autorisée. La troisième est qu'il est facile de divulguer la vie privée.La blockchain peut être combinée avec la technologie informatique de confidentialité pour rendre les données disponibles et invisibles.## **Comment résoudre la répartition des revenus**Tang Qifeng a souligné que pour les fournisseurs dont les données sont de haute qualité mais peu ouvertes, le problème de confiance de la circulation des données de corpus peut être efficacement résolu par le biais de la chaîne de transaction des données. participant au modèle à grande échelle.Lin Changle, vice-président exécutif de l'Institut interdisciplinaire de recherche sur les technologies de l'information de l'Université Tsinghua, conçoit un système théorique sur la façon de tarifer les données et de répartir les avantages."Dans une certaine mesure, beaucoup de connaissances humaines comme ChatGPT peuvent être utilisées gratuitement dans quelques mois. Nous voyons que le grand modèle peut apprendre des articles d'écrivains, écrire le même style d'articles ou générer des peintures de Van Gogh, mais il n'a pas besoin d'être Ce paiement, les sujets de ces sources de données n'en ont pas bénéficié." a déclaré Lin Changle lors de la Conférence mondiale sur l'intelligence artificielle de 2023, il peut donc y avoir un point de vue plus radical : les droits de propriété intellectuelle à l'ère de les grands modèles n'existent pas, ou On dit que la protection traditionnelle de la propriété intellectuelle n'existe pas.Cependant, Lin Changle estime qu'après l'ère des modèles à grande échelle, la protection des droits de propriété intellectuelle se développera jusqu'à la confirmation des droits sur les données, la tarification et les transactions. "Lorsque le développement de modèles à grande échelle va plus loin, comme les modèles industriels à grande échelle, les données requises ne sont pas des données gratuites et ouvertes sur Internet. Pour former des modèles avec une précision extrêmement élevée, ce qu'il faut, c'est une expertise industrielle ou même commerciale. Pour que chacun contribue à un tel corpus, il faut qu'il y ait un mécanisme de répartition des droits et des intérêts.La "carte des actifs de données" sur laquelle Lin Changle travaille actuellement consiste à utiliser les mathématiques pour prouver un ensemble de mécanismes de distribution des revenus pour répartir équitablement les droits sur les données.**Comment résoudre la circulation des données**Liu Quan, ingénieur en chef adjoint de l'Institut de recherche CCID du ministère de l'Industrie et des Technologies de l'information et académicien étranger de l'Académie russe des sciences naturelles, a mentionné au WAIC "Intégration des nombres et de la réalité, l'intelligence menant l'avenir" Blockchain industrielle écologique Forum qui a récemment vu le jour dans l'industrie la version Pékin de "Twenty Articles of Data". Très grande réponse, elle résout le problème central du processus de circulation des données. De toute évidence, la question de savoir à qui appartiennent les données gouvernementales est clarifiée : les données publiques appartiennent au gouvernement. Qu'en est-il des données d'entreprise et des données personnelles ? "Le Beijing Municipal Data Exchange peut être chargé de mener des opérations confiées."Le 5 juillet, le Comité municipal de Pékin du Parti communiste chinois et le Gouvernement populaire municipal de Pékin ont publié un avis sur les "Avis de mise en œuvre pour mieux jouer le rôle des éléments de données et accélérer davantage le développement de l'économie numérique". Les "avis de mise en œuvre" sont divisés en neuf parties. Il construit un système de données de base à partir des aspects des droits de propriété des données, des transactions de circulation, de la répartition des revenus et de la gouvernance de la sécurité. Il propose un total de 23 exigences spécifiques, appelées la version de Pékin. des « vingt articles de données » dans l'industrie."D'un point de vue national, selon les statistiques, 80% des ressources de données sont concentrées dans les institutions publiques et gouvernementales. Nous voulons résoudre l'approvisionnement en données, dans une large mesure, nous espérons être basés sur les 20 articles de données ( "Les avis du Comité central du Parti communiste chinois et du Conseil d'État sur la construction d'un système de données de base pour mieux jouer le rôle des éléments de données") Le partage ouvert des données publiques peut former un ensemble de mécanismes et de paradigmes reproductibles pour promouvoir les données formées dans les services publics et ensuite servir le public. » a déclaré Wei Zhilin.Wei Zhilin a déclaré que selon les statistiques actuelles, le stock de ressources de données en Chine dans son ensemble se classe au deuxième rang mondial, mais ces données sont dispersées à divers endroits. Selon Zhan Yubao, directeur adjoint de l'Institut de recherche sur la Chine numérique du Centre d'information d'État, lors de la Conférence mondiale sur l'intelligence artificielle de 2023 le 7 juillet, le système national actuel de circulation des données en Chine comprend : Il existe deux échanges de données, l'un est Shanghai Data Exchange One est le Shenzhen Data Exchange ; il existe 17 centres d'échange de données en Chine, dont le Beijing Data Exchange Center.