"Faire des miracles" et "esthétique violente", ces deux mots sont toujours apparus avec la discussion de ChatGPT. Quant aux "vigoureux" et "violents", en plus de "l'énorme puissance de calcul", il y a aussi des quantités massives de données. Marc Andreessen, le fondateur d'a16z, a également souligné lors de la conférence Data+AI que les données massives accumulées par Internet au cours des deux dernières décennies sont une raison importante de l'essor de cette nouvelle vague d'IA, car la première fournit la seconde. avec des données utilisables pour la formation.
Selon OpenAI, GPT-3.5 a un corpus de texte pouvant atteindre 45 To, ce qui équivaut à 4,72 millions d'ensembles des quatre grands classiques chinois, tandis que GPT-4 ajoute des données multimodales aux ensembles de données de formation GPT-3 et GPT-3.5. . Le 18 juillet, Meta, la société mère de Facebook, a publié Llama2, le premier grand modèle de langage open source et disponible dans le commerce, avec une pré-formation qui devrait atteindre 2 000 milliards de jetons.
La capacité d'obtenir des quantités massives de données de haute qualité est considérée comme l'une des principales compétitivités des futures entreprises de modélisation à grande échelle, et c'est également un must pour la course aux armements en IA des grands géants. Les données sont également considérées comme un facteur clé de production qui détermine le développement futur. Selon les statistiques du "Rapport sur le développement de la Chine numérique (2022)", le potentiel de l'économie numérique libéré par les éléments de données sera extrêmement énorme. La production de données de mon pays atteindra 8,1 ZB en 2022, ce qui représente 10,5 % du monde, au deuxième rang mondial Économie numérique Le développement est au premier plan.
Mais les données, en tant que tout nouveau facteur de production, amènent également une série de problèmes qu'il est urgent de résoudre : comment comprendre les données ? Comment confirmer les droits sur les données ? Comment exploiter la valeur des données ? Peut-il vraiment être échangé et distribué ? Les données peuvent-elles vraiment être incluses dans les états financiers de l'entreprise en tant qu'actifs ? Comment la sécurité est-elle gérée ? À cette fin, nous nous sommes entretenus avec le professeur Zeng Xueyun, vice-doyenne de l'Institut des sciences et technologies de l'Université des postes et télécommunications de Pékin**, et lui avons demandé de répondre en profondeur à des questions pertinentes.
Ce qui suit est la transcription de la conversation :
**Tencent Technology : les gens ordinaires peuvent être concernés, d'où proviennent les données pour la formation des grands modèles ? Y a-t-il une utilisation de mes données personnelles et y aura-t-il un problème avec les droits de ces données ? **
**Professeur Zeng Xueyun : Les données calculées par le **grand modèle sont des données personnelles. Par rapport aux données d'entreprise, les données personnelles présentent un problème de propriété. **En principe, je suis maître de mes données. **Par exemple, les données générées sur les logiciels sociaux, en principe, la société à laquelle appartient le logiciel social ne peut pas utiliser mes données personnelles. Bien que ces sociétés aient effectivement contrôlé les données via une autorisation par défaut, comment utiliser les données spécifiques est Il doit être réglementé par la "Loi sur la protection des informations personnelles".
Donc s'il doit être utilisé pour des calculs de grands modèles, comment l'utiliser ? Sur le plan technologique, il faut réaliser des traitements d'anonymisation, et sur le plan opérationnel, il faut aussi une entité marchande, qui consiste à **donner à une certaine entreprise un droit légal d'exploitation de ces données , en d'autres termes, donner ces données Trouver un sujet de marché. **Lorsque le sujet axé sur le marché obtient les données, il doit investir de la main-d'œuvre, du temps, de l'intelligence et du capital pour produire des données, que nous pouvons tous appeler apport de travail. Après l'apport de main-d'œuvre, les informations de données appartenant à l'individu sont dérivées dans une sorte de données régénératives de l'entreprise, ou données secondaires. Ensuite, les données secondaires génèrent des données procédurales, puis des produits de données et des services de données. À ce stade, les données individuelles d'origine avec des individus comme propriétaires des données sont transformées en produits et services de données pour les entreprises. Il s'agit d'un processus de productisation.
**Technologie Tencent : est-il possible de comprendre que les sociétés Internet obtiennent des données personnelles par le biais d'une autorisation, et qu'après que ces sociétés ont traité le processus, elles peuvent devenir une sorte d'actifs de données de la société ? **
Professeur Zeng Xueyun : On peut également comprendre que nous générons personnellement une grande quantité de données sur Internet, tout comme diverses ressources naturelles dans la nature. Par exemple, de nombreuses fleurs et arbres peuvent pousser sur la terre, et de nombreuses ressources peuvent pousser. Ce type de ressource est une sorte de ressource publique, qui peut être développée et utilisée, mais ne peut être achetée ou vendue directement. Ce qui est généré après utilisation et traitement est le patrimoine de l'entreprise, c'est permis, et il faut aussi encourager le développement des facteurs de production de données dans ce sens.
**Technologie Tencent : D'un point de vue individuel, comment protéger nos données personnelles et les laisser circuler comme nous le souhaitons ? **
**Professeur Zeng Xueyun : **À l'ère de l'intelligence artificielle, la vie privée des gens devient de plus en plus difficile à protéger. Parce que tous les comportements des personnes sont enregistrés, le mouvement de l'emplacement géographique, la vie, le travail, l'alimentation et la vie quotidienne sont tous enregistrés. Une fois enregistrées, les informations qui nous appartenaient à l'origine ne peuvent plus être contrôlées par l'auteur. Par conséquent, à l'heure actuelle, le risque de fuite de la vie privée est très élevé, la tâche de protection des données est également très lourde et la protection des données est également très difficile.
Comment les gens protègent-ils leurs droits sur les données ? En fait, divers pays ont également des méthodes commerciales. Le premier type, comme le Japon, utilise une banque de données, c'est-à-dire que tout le monde peut stocker des données dans une banque de données tout comme les déposer dans une banque. La banque de données est un dépositaire des données, elle peut également servir de développeur original de la valeur des données, et les individus peuvent également obtenir certains avantages. Cela signifie qu'il permet à certaines personnes qui souhaitent divulguer et utiliser leurs propres données dans une certaine mesure d'avoir un modèle commercial pour résoudre les problèmes de protection des données d'une manière qu'elles choisissent elles-mêmes. En d'autres termes, construire des modèles de circulation des données juridiques, de développement et d'utilisation des données juridiques, c'est une pièce.
**L'autre partie est que personnellement, je ne le souhaite pas, donc je n'autoriserai pas le propriétaire des données. **En l'absence d'autorisation, le pays doit renforcer la protection des données. Si quelqu'un veut développer illégalement cette partie des données, il doit être puni et encadré par la loi.La technologie Blockchain peut être utilisée pour suivre de tels comportements. Par exemple, si nos données ont été divulguées et où elles ont été divulguées, pour suivre le flux de données. Il est également possible de suivre et d'analyser la parenté des données, et il existe désormais une technologie de parenté des données. En gros, ** D'où viennent les données et où vont-elles ? L'analyse de lignage des données est en fait une sorte d'analyse de corrélation des données et de traçabilité des données. ** L'utilisation du mot lignage est une description très vivante des tenants et aboutissants des données . Tout est enregistré, donc l'enregistrement des données et de la technologie d'autres personnes peut également être enregistré, rendu public et pénétré.
le "Code civil" de mon pays a prévu des dispositions particulières sur la protection des informations personnelles dans le chapitre sur les droits de la personnalité. L'article 127 du « Code civil » juxtapose les données à la propriété virtuelle du réseau, en mettant en évidence l'attribut de propriété des données. Dans la législation locale, les dispositions de l'article 12 du "Shanghai Municipal Data Regulations" reflètent directement le modèle d'attribution des droits de "deux divisions des ressources humaines et de la richesse". Cet article stipule : "Cette ville protège les droits de la personnalité et les intérêts des personnes physiques en relation avec leurs informations personnelles conformément à la loi." Ainsi que les droits de propriété et les intérêts légaux obtenus dans les activités d'innovation de données pertinentes dans le développement du numérique économie."
Le 20 août 2021, la 30e réunion du Comité permanent de la treizième Assemblée populaire nationale a voté l'adoption de la « loi sur la protection des informations personnelles de la République populaire de Chine », qui entrera en vigueur le 1er novembre 2021. Les détails peuvent être trouvés en ligne. La nature judiciaire des informations personnelles dans la "Loi sur la protection des informations personnelles" est également la protection des droits et intérêts personnels, ce qui n'implique guère les droits de propriété et les intérêts des informations personnelles.
**Technologie Tencent : quel type de données de haute qualité est important pour la formation de grands modèles ? **
**Professeur Zeng Xueyun : **Les données doivent être toutes les archives des activités humaines économiques, sociales, de production, de gestion, commerciales et même militaires. Un tel enregistrement est produit dans divers secteurs, domaines et aspects. En ce qui concerne les données brutes, elles sont de haute et de basse qualité. Par exemple, les états financiers et les données financières des sociétés ** cotées sont des données de haute qualité, et ce sont des données structurées. ** Parce que ce type d'états financiers et d'informations financières ont été audités par la société et audités par des experts-comptables agréés, et que la China Securities Regulatory Commission supervise la divulgation d'informations, il s'agit donc de données de haute qualité. Pour un autre exemple, les données papier dans **CNKI sont également des données de haute qualité. **Cependant, les données générées sur Internet sont des données non structurées et non normalisées. Ces données sont une sorte de données originales, désordonnées et non réglementées, qui nécessitent un nettoyage granulaire avant le calcul, de sorte que les données de haute qualité passent généralement d'un processus de traitement non structuré à structuré. **
**Technologie Tencent : étant donné que des données de haute qualité peuvent être produites en continu, pourquoi dit-on que "les données de haute qualité sont presque épuisées" ? **
Professeur Zeng Xueyun : Je pense que la capacité de produire et de traiter des données ne peut pas répondre à la demande de données des gens, et la productivité de l'ensemble de la chaîne de valeur de la chaîne d'approvisionnement pour la production et le traitement des données est encore relativement faible. Parce que nous savons que les données explosent constamment, mais que les données de haute qualité s'épuisent, cela signifie simplement que dans le processus allant des données aux données de haute qualité, nous manquons d'une sorte de productivité et de capacité d'intégration. À l'heure actuelle, des fournisseurs de données sont nécessaires. Beaucoup de nos fournisseurs de données actuels n'utilisent que directement les données, mais pour la production et le traitement des données, et comment produire des données de haute qualité, la capacité ou la conception du modèle commercial de ce domaine n'est toujours pas suffisant.
En fait, le GPT-4 d'OpenAI utilise une grande quantité de données produites par le modèle de génération précédente GPT-3.5 pour la formation. Le fondateur d'OpenAI a également déclaré dans une récente interview : "Les données synthétiques sont un moyen efficace de résoudre la pénurie de données de modèles volumineux. La clé est qu'il existe tout un système pour distinguer quelles données générées par l'IA sont disponibles et lesquelles ne le sont pas. Et continuez à donner des commentaires basés sur l'effet du modèle formé. Cette entreprise n'est pas seulement capable de lever des fonds, elle peut contrôler beaucoup de puissance de calcul aussi simple que cela, et la capacité technologique des produits de données est également l'une des principales compétitivités de cette entreprise.
**Technologie Tencent : Afin d'améliorer la productivité des données de haute qualité, quels sont les liens nécessaires dans le design industriel ? **
Professeur Zeng Xueyun : À propos de cette question, nous devons d'abord comprendre ce que sont les données ? De quelles données disposons-nous ? Et que faire des données ? C'est-à-dire que produire des données de haute qualité ne signifie pas qu'il y a une capacité de production pour avoir des données de haute qualité, et cela ne signifie pas qu'il y a une volonté de produire des données de haute qualité. Il doit comprendre les données à la source. Quels problèmes de société doivent être résolus avec les données ? Où est la demande de données du marché ? Ensuite, des données originales à la demande, comment devrions-nous produire au milieu ? Cette série de problèmes nécessite un design industriel, et la réflexion globale actuelle ne suffit pas.
**Tencent Technology : L'immaturité de l'industrie est un aspect. Cela signifie-t-il également que l'industrie est toujours un océan bleu ? **
**Professeur Zeng Xueyun : **Un océan bleu très précoce. Au début, il y a eu quelques cas de commerce direct illégal de données, puis la législation nationale n'a plus pu acheter et vendre directement des données elle-même, et n'a plus échangé de données brutes. Les données ne peuvent pas être utilisées pour des transactions originales. Cela devrait être le résultat d'investir dans sa propre production pour faire des transactions, au lieu de dire que j'ai des données et que je vends les données directement. Ce n'est pas autorisé.
En 2022 (décembre), les " Vingt articles de données" ont été promulgués. Les " Vingt articles de données" énoncent les exigences relatives à la séparation de la propriété des données et à la multipropriété de la propriété des données, des droits de gestion et droits bénéficiaires La division, qui a mentionné que les données devaient être gérées dans cette catégorie hiérarchique. Il s'agit de la conception de haut niveau de la gouvernance des données et d'un plan global. On peut aussi dire que c'est le début du développement standardisé de la future industrie des données. À l'heure actuelle, les gens se rendent compte que les données ne forment pas un tout et qu'ils doivent comprendre quels sont les droits et les intérêts des données.C'est également l'avancement de la recherche originale fondée sur le droit vers la recherche fondée sur l'économie. ** Pour établir un marché des données, le marché doit être un comportement économique. Ce type de comportement économique nécessite l'utilisation de nombreux outils économiques et théories économiques, donc maintenant de la recherche sur la science des données, la gouvernance des données par l'État, à la recherche sur les données dans le milieu universitaire et le contrôle des données dans l'industrie L'utilisation est un océan bleu, et c'est un état qui ne fait que commencer. **
**Technologie Tencent : de ce point de vue, les données peuvent exister en tant qu'actif d'une entreprise. À quel type d'actif appartiennent les données ? **
**Professeur Zeng Xueyun :**La classification des données est un sujet très brûlant dans le milieu universitaire. Dans la plupart des cas, les gens pensent que les données sont intangibles, invisibles et intangibles, et on les appelle des actifs intangibles. Mais en fait, à partir de la classification de l'UIT, les données sont plus proches des actifs d'inventaire, car les données impliquent également le processus de production et de traitement. Et les données elles-mêmes sont un actif tangible électronique, pourquoi est-ce un actif tangible électronique ? Les données occuperont de l'espace physique, et beaucoup de données elles-mêmes ont une forme physique, qui est une forme physique côté réseau. Image, vous pouvez voir cette image électronique ; son, vous pouvez entendre ce son, et portrait, vous pouvez voir ce portrait, donc ** les données sont un bien numérique tangible. **
Nous savons que les actifs de données sont une classe d'actifs très spéciale. Certains suggéreront que les données peuvent être comparées à la nature immatérielle pour l'amortissement, ou analogues aux immobilisations pour l'amortissement. En fait, vous devez d'abord classer les données de manière hiérarchique pour voir à quelle catégorie appartiennent les données. **Pour certains types de données, il a également croissance et fusionabilité. Par exemple, si toutes les données d'appel de China Unicom peuvent être intégrées aux données personnelles de dépôt bancaire et d'investissement, un portrait de cette personne peut être généré avec plus d'informations allant de l'investissement et du financement à sa communication et sa carrière. À ce stade, il y aura un effet cumulatif de la valeur des données générée par la fusion des données et des données. À ce stade, les données seront fusionnées et extensibles. Il y a aussi une partie des données qui est effectivement sensible au facteur temps, et sa valeur diminuera avec le temps. Par conséquent, nous devons encore analyser plus spécifiquement les caractéristiques des données elles-mêmes afin de connaître leur valeur comptable, et la comptabilisation de la valeur des données a plus de variabilité et d'incertitude, contrairement aux immobilisations, fixe La valeur de l'actif à l'époque de formation d'actifs est certain, et au fil du temps, la valeur diminue progressivement, mais les données ne diminuent pas nécessairement avec le temps, et les données ont une forme d'actif plus complexe.
**Tencent Technology : les données futures sont-elles l'un des principaux éléments de compétitivité des entreprises d'IA ? Est-il possible que les actifs de données soient quantifiés et reflétés dans l'évaluation de l'entreprise ? **
**Professeur Zeng Xueyun : **Pour une entreprise d'intelligence artificielle, **les données sont sa principale compétitivité. **Pour une entreprise d'IA, l'expérience produit détermine la valeur commerciale de l'entreprise, et les capacités de données déterminent l'expérience produit. **Pour un pays, les données sont la clé de la compétitivité du futur, et c'est aussi l'or du futur, tout comme le pétrole est l'or de l'ère industrielle, et **les données sont l'or de l'ère de l'économie Internet. **
Mais à l'heure actuelle, les pays du monde rencontrent en fait des difficultés en matière de gouvernance des données, et aucun pays n'a pris l'initiative de faire des percées.Comment résoudre l'équilibre entre la sécurité des données, la gouvernance des données et le développement et l'utilisation des données. **
À cet égard, la Chine est parfaitement consciente de l'importance des données. Tous les pays sont également conscients que les données sont une nouvelle productivité, mais comment utiliser les données nécessite des acteurs du marché, une technologie intelligente et une réglementation nationale.Par conséquent, ce n'est pas un problème simple qui peut être résolu, c'est un problème de complexité du système.
La gouvernance nationale de la Chine est un arrangement relativement centralisé du central au local, nous avons donc naturellement un avantage à intégrer les mégadonnées à travers le pays, mais cet avantage ne s'est pas encore reflété, et il réside dans la valorisation des données ** Il y a problèmes d'évaluation et d'évaluation, et le problème de la saisie des données dans les états comptables n'a pas été résolu. ** Il n'y a pas de bonne solution à ce problème dans le monde.
** Si les données peuvent être transférées des actifs hors bilan aux actifs du bilan, alors la comptabilisation de la valeur de la gouvernance des données et la gestion de la valeur des données peuvent être bien résolues, et les transactions de données auront une base objective. ** Désormais, nos données d'entreprise sont essentiellement des actifs hors bilan, sans évaluation, et sans mesure ni rapport sur le bilan, il n'est donc pas clair combien de données l'entreprise possède, de sorte que l'économie des données C'est également difficile faire des statistiques sur la valeur. Si les données ne sont pas saisies dans le tableau, alors sa transaction n'aura pas de base raisonnable, ** donc la saisie de données dans le tableau est un problème clé. **Pour les statistiques du volume de données, la comptabilisation des prix des données et la tarification des transactions de données, Des statistiques de volume à la comptabilité des prix à la base des transactions, il faut saisir le bilan et le compte de résultat avec des données , et entrez La comptabilité des états financiers est une installation sous-jacente. Cette installation sous-jacente n'a pas encore été résolue.
**Tencent Technology : Quels sont les précédents internationaux en matière de législation sur les droits de propriété des données ? **
**Professeur Zeng Xueyun : **Recherche sur la législation relative aux droits de propriété des données. À l'heure actuelle, les principaux pays du monde disposent de lois fondamentales sur la protection des données, et ils sont de plus en plus clairement positionnés pour promouvoir la protection des droits de la personnalité dans les droits de propriété des données. Cependant, les lois et réglementations sur l'utilisation des données font fondamentalement défaut. Le Japon a un certain degré Un accent considérable est mis sur la promotion de la circulation des éléments de données, mais sans le soutien, la réglementation et l'orientation des lois et règlements, il repose principalement sur des documents administratifs, qui présentent encore de nombreuses lacunes législatives. À l'heure actuelle, il est urgent de mener de manière innovante la nouvelle direction de la construction juridique mondiale en termes d'accélération de la réglementation des droits de propriété des données et de la circulation des éléments de données. La situation intérieure et extérieure est la suivante :
Aspects internationaux : Le règlement général sur la protection des données (RGPD) adopté par l'Union européenne en 2016 est actuellement la loi sur la confidentialité des données la plus complète et la plus influente. La « Réglementation » évolue dans deux directions : renforcer les droits des personnes concernées, assurer le contrôle de l'utilisation des données personnelles, et prendre en compte la sécurité des données et la libre circulation des données. Sur la base de la confirmation et de l'amélioration des droits existants des personnes, le RGPD prévoit le droit à la suppression (article 17) et le droit à la portabilité (article 20), etc., afin d'obtenir un contrôle plus efficace des personnes concernées sur leurs données personnelles , mais les dispositions ne le font pas Il n'y a pas de clarification sur le transfert de propriété des données personnelles et la répartition des droits de propriété.
Bien que les États-Unis aient commencé plus tôt le système et l'exploration théorique de la protection juridique de la propriété des données, la plupart des normes pertinentes sont dispersées dans divers projets de loi. La législation de chaque État n'est pas compatible, mais elle couvre un large éventail de domaines et offre une certaine souplesse dans le règlement des différends pour encourager l'utilisation des données. Par exemple, le "California Consumer Privacy Act of 2018" publié en 2018 et le "California Privacy Act of 2020" publié en 2020 ont augmenté la détermination des droits sur les données, couvrant le droit d'accès, le droit de suppression, le droit de savoir, etc. Les droits à la vie privée des consommateurs renforcent la protection des droits et des intérêts des personnes concernées lors du transfert de données, ce qui reflète également du côté de l'autorisation des États-Unis pour l'utilisation de la valeur économique des données. En 2017, le Japon a formulé les « Lignes directrices pour les contrats de droits d'utilisation des données ». Les lignes directrices ont pleinement pris en compte des facteurs tels que la contribution des contrats de données à la création de données, le coût du stockage et de la gestion, et les contrats de transaction de données normalisés pour promouvoir les transactions de données. est un gros progrès, mais il n'y a toujours pas de définition claire des droits de propriété des données.
En Europe, la Charte des droits fondamentaux de l'UE et le Règlement général sur la protection des données considèrent le droit à la protection des données personnelles comme un droit spécial dont jouissent les personnes concernées, qui ne comprend aucun droit de propriété. Bien que les lois de l'UE telles que le règlement général sur la protection des données ne stipulent pas clairement que les contrôleurs de données jouissent de droits de propriété avec les données comme objet, leurs droits de propriété sur les données peuvent être protégés par la protection des bases de données, la protection du droit d'auteur, la protection du secret commercial, la protection du droit des contrats et la protection du droit de la concurrence, etc. sont protégés. En outre, le document « Construire une économie européenne des données » publié par la Commission européenne s'est engagé à introduire des « droits des producteurs de données », qui confèrent aux responsables du traitement des droits de propriété universels sur les données non personnelles et les données personnelles anonymisées, leur permettant une utilisation exclusive de données, y compris le droit d'autoriser d'autres personnes à utiliser ces données. Aux États-Unis, bien que certains juristes estiment que les individus devraient avoir des droits de propriété sur les informations personnelles, les tribunaux ne reconnaissent généralement pas ces droits de propriété. Dans certains cas, les tribunaux américains ont jugé que les entreprises avaient des droits de propriété sur les données qu'elles détenaient. L'expérience juridique nationale et étrangère sur la propriété des données montre que la « séparation des ressources humaines et de la richesse » devrait devenir la proposition théorique de base pour la construction du système de droits de propriété des données de mon pays.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Derrière la formation des grands modèles d'IA, une chaîne de l'industrie des données se forme
Auteur : Guo Xiaojing, Tencent Technology
"Faire des miracles" et "esthétique violente", ces deux mots sont toujours apparus avec la discussion de ChatGPT. Quant aux "vigoureux" et "violents", en plus de "l'énorme puissance de calcul", il y a aussi des quantités massives de données. Marc Andreessen, le fondateur d'a16z, a également souligné lors de la conférence Data+AI que les données massives accumulées par Internet au cours des deux dernières décennies sont une raison importante de l'essor de cette nouvelle vague d'IA, car la première fournit la seconde. avec des données utilisables pour la formation.
Selon OpenAI, GPT-3.5 a un corpus de texte pouvant atteindre 45 To, ce qui équivaut à 4,72 millions d'ensembles des quatre grands classiques chinois, tandis que GPT-4 ajoute des données multimodales aux ensembles de données de formation GPT-3 et GPT-3.5. . Le 18 juillet, Meta, la société mère de Facebook, a publié Llama2, le premier grand modèle de langage open source et disponible dans le commerce, avec une pré-formation qui devrait atteindre 2 000 milliards de jetons.
La capacité d'obtenir des quantités massives de données de haute qualité est considérée comme l'une des principales compétitivités des futures entreprises de modélisation à grande échelle, et c'est également un must pour la course aux armements en IA des grands géants. Les données sont également considérées comme un facteur clé de production qui détermine le développement futur. Selon les statistiques du "Rapport sur le développement de la Chine numérique (2022)", le potentiel de l'économie numérique libéré par les éléments de données sera extrêmement énorme. La production de données de mon pays atteindra 8,1 ZB en 2022, ce qui représente 10,5 % du monde, au deuxième rang mondial Économie numérique Le développement est au premier plan.
Mais les données, en tant que tout nouveau facteur de production, amènent également une série de problèmes qu'il est urgent de résoudre : comment comprendre les données ? Comment confirmer les droits sur les données ? Comment exploiter la valeur des données ? Peut-il vraiment être échangé et distribué ? Les données peuvent-elles vraiment être incluses dans les états financiers de l'entreprise en tant qu'actifs ? Comment la sécurité est-elle gérée ? À cette fin, nous nous sommes entretenus avec le professeur Zeng Xueyun, vice-doyenne de l'Institut des sciences et technologies de l'Université des postes et télécommunications de Pékin**, et lui avons demandé de répondre en profondeur à des questions pertinentes.
Ce qui suit est la transcription de la conversation :
**Tencent Technology : les gens ordinaires peuvent être concernés, d'où proviennent les données pour la formation des grands modèles ? Y a-t-il une utilisation de mes données personnelles et y aura-t-il un problème avec les droits de ces données ? **
**Professeur Zeng Xueyun : Les données calculées par le **grand modèle sont des données personnelles. Par rapport aux données d'entreprise, les données personnelles présentent un problème de propriété. **En principe, je suis maître de mes données. **Par exemple, les données générées sur les logiciels sociaux, en principe, la société à laquelle appartient le logiciel social ne peut pas utiliser mes données personnelles. Bien que ces sociétés aient effectivement contrôlé les données via une autorisation par défaut, comment utiliser les données spécifiques est Il doit être réglementé par la "Loi sur la protection des informations personnelles".
Donc s'il doit être utilisé pour des calculs de grands modèles, comment l'utiliser ? Sur le plan technologique, il faut réaliser des traitements d'anonymisation, et sur le plan opérationnel, il faut aussi une entité marchande, qui consiste à **donner à une certaine entreprise un droit légal d'exploitation de ces données , en d'autres termes, donner ces données Trouver un sujet de marché. **Lorsque le sujet axé sur le marché obtient les données, il doit investir de la main-d'œuvre, du temps, de l'intelligence et du capital pour produire des données, que nous pouvons tous appeler apport de travail. Après l'apport de main-d'œuvre, les informations de données appartenant à l'individu sont dérivées dans une sorte de données régénératives de l'entreprise, ou données secondaires. Ensuite, les données secondaires génèrent des données procédurales, puis des produits de données et des services de données. À ce stade, les données individuelles d'origine avec des individus comme propriétaires des données sont transformées en produits et services de données pour les entreprises. Il s'agit d'un processus de productisation.
**Technologie Tencent : est-il possible de comprendre que les sociétés Internet obtiennent des données personnelles par le biais d'une autorisation, et qu'après que ces sociétés ont traité le processus, elles peuvent devenir une sorte d'actifs de données de la société ? **
Professeur Zeng Xueyun : On peut également comprendre que nous générons personnellement une grande quantité de données sur Internet, tout comme diverses ressources naturelles dans la nature. Par exemple, de nombreuses fleurs et arbres peuvent pousser sur la terre, et de nombreuses ressources peuvent pousser. Ce type de ressource est une sorte de ressource publique, qui peut être développée et utilisée, mais ne peut être achetée ou vendue directement. Ce qui est généré après utilisation et traitement est le patrimoine de l'entreprise, c'est permis, et il faut aussi encourager le développement des facteurs de production de données dans ce sens.
**Technologie Tencent : D'un point de vue individuel, comment protéger nos données personnelles et les laisser circuler comme nous le souhaitons ? **
**Professeur Zeng Xueyun : **À l'ère de l'intelligence artificielle, la vie privée des gens devient de plus en plus difficile à protéger. Parce que tous les comportements des personnes sont enregistrés, le mouvement de l'emplacement géographique, la vie, le travail, l'alimentation et la vie quotidienne sont tous enregistrés. Une fois enregistrées, les informations qui nous appartenaient à l'origine ne peuvent plus être contrôlées par l'auteur. Par conséquent, à l'heure actuelle, le risque de fuite de la vie privée est très élevé, la tâche de protection des données est également très lourde et la protection des données est également très difficile.
Comment les gens protègent-ils leurs droits sur les données ? En fait, divers pays ont également des méthodes commerciales. Le premier type, comme le Japon, utilise une banque de données, c'est-à-dire que tout le monde peut stocker des données dans une banque de données tout comme les déposer dans une banque. La banque de données est un dépositaire des données, elle peut également servir de développeur original de la valeur des données, et les individus peuvent également obtenir certains avantages. Cela signifie qu'il permet à certaines personnes qui souhaitent divulguer et utiliser leurs propres données dans une certaine mesure d'avoir un modèle commercial pour résoudre les problèmes de protection des données d'une manière qu'elles choisissent elles-mêmes. En d'autres termes, construire des modèles de circulation des données juridiques, de développement et d'utilisation des données juridiques, c'est une pièce.
**L'autre partie est que personnellement, je ne le souhaite pas, donc je n'autoriserai pas le propriétaire des données. **En l'absence d'autorisation, le pays doit renforcer la protection des données. Si quelqu'un veut développer illégalement cette partie des données, il doit être puni et encadré par la loi.La technologie Blockchain peut être utilisée pour suivre de tels comportements. Par exemple, si nos données ont été divulguées et où elles ont été divulguées, pour suivre le flux de données. Il est également possible de suivre et d'analyser la parenté des données, et il existe désormais une technologie de parenté des données. En gros, ** D'où viennent les données et où vont-elles ? L'analyse de lignage des données est en fait une sorte d'analyse de corrélation des données et de traçabilité des données. ** L'utilisation du mot lignage est une description très vivante des tenants et aboutissants des données . Tout est enregistré, donc l'enregistrement des données et de la technologie d'autres personnes peut également être enregistré, rendu public et pénétré.
le "Code civil" de mon pays a prévu des dispositions particulières sur la protection des informations personnelles dans le chapitre sur les droits de la personnalité. L'article 127 du « Code civil » juxtapose les données à la propriété virtuelle du réseau, en mettant en évidence l'attribut de propriété des données. Dans la législation locale, les dispositions de l'article 12 du "Shanghai Municipal Data Regulations" reflètent directement le modèle d'attribution des droits de "deux divisions des ressources humaines et de la richesse". Cet article stipule : "Cette ville protège les droits de la personnalité et les intérêts des personnes physiques en relation avec leurs informations personnelles conformément à la loi." Ainsi que les droits de propriété et les intérêts légaux obtenus dans les activités d'innovation de données pertinentes dans le développement du numérique économie."
Le 20 août 2021, la 30e réunion du Comité permanent de la treizième Assemblée populaire nationale a voté l'adoption de la « loi sur la protection des informations personnelles de la République populaire de Chine », qui entrera en vigueur le 1er novembre 2021. Les détails peuvent être trouvés en ligne. La nature judiciaire des informations personnelles dans la "Loi sur la protection des informations personnelles" est également la protection des droits et intérêts personnels, ce qui n'implique guère les droits de propriété et les intérêts des informations personnelles.
**Technologie Tencent : quel type de données de haute qualité est important pour la formation de grands modèles ? **
**Professeur Zeng Xueyun : **Les données doivent être toutes les archives des activités humaines économiques, sociales, de production, de gestion, commerciales et même militaires. Un tel enregistrement est produit dans divers secteurs, domaines et aspects. En ce qui concerne les données brutes, elles sont de haute et de basse qualité. Par exemple, les états financiers et les données financières des sociétés ** cotées sont des données de haute qualité, et ce sont des données structurées. ** Parce que ce type d'états financiers et d'informations financières ont été audités par la société et audités par des experts-comptables agréés, et que la China Securities Regulatory Commission supervise la divulgation d'informations, il s'agit donc de données de haute qualité. Pour un autre exemple, les données papier dans **CNKI sont également des données de haute qualité. **Cependant, les données générées sur Internet sont des données non structurées et non normalisées. Ces données sont une sorte de données originales, désordonnées et non réglementées, qui nécessitent un nettoyage granulaire avant le calcul, de sorte que les données de haute qualité passent généralement d'un processus de traitement non structuré à structuré. **
**Technologie Tencent : étant donné que des données de haute qualité peuvent être produites en continu, pourquoi dit-on que "les données de haute qualité sont presque épuisées" ? **
Professeur Zeng Xueyun : Je pense que la capacité de produire et de traiter des données ne peut pas répondre à la demande de données des gens, et la productivité de l'ensemble de la chaîne de valeur de la chaîne d'approvisionnement pour la production et le traitement des données est encore relativement faible. Parce que nous savons que les données explosent constamment, mais que les données de haute qualité s'épuisent, cela signifie simplement que dans le processus allant des données aux données de haute qualité, nous manquons d'une sorte de productivité et de capacité d'intégration. À l'heure actuelle, des fournisseurs de données sont nécessaires. Beaucoup de nos fournisseurs de données actuels n'utilisent que directement les données, mais pour la production et le traitement des données, et comment produire des données de haute qualité, la capacité ou la conception du modèle commercial de ce domaine n'est toujours pas suffisant.
En fait, le GPT-4 d'OpenAI utilise une grande quantité de données produites par le modèle de génération précédente GPT-3.5 pour la formation. Le fondateur d'OpenAI a également déclaré dans une récente interview : "Les données synthétiques sont un moyen efficace de résoudre la pénurie de données de modèles volumineux. La clé est qu'il existe tout un système pour distinguer quelles données générées par l'IA sont disponibles et lesquelles ne le sont pas. Et continuez à donner des commentaires basés sur l'effet du modèle formé. Cette entreprise n'est pas seulement capable de lever des fonds, elle peut contrôler beaucoup de puissance de calcul aussi simple que cela, et la capacité technologique des produits de données est également l'une des principales compétitivités de cette entreprise.
**Technologie Tencent : Afin d'améliorer la productivité des données de haute qualité, quels sont les liens nécessaires dans le design industriel ? **
Professeur Zeng Xueyun : À propos de cette question, nous devons d'abord comprendre ce que sont les données ? De quelles données disposons-nous ? Et que faire des données ? C'est-à-dire que produire des données de haute qualité ne signifie pas qu'il y a une capacité de production pour avoir des données de haute qualité, et cela ne signifie pas qu'il y a une volonté de produire des données de haute qualité. Il doit comprendre les données à la source. Quels problèmes de société doivent être résolus avec les données ? Où est la demande de données du marché ? Ensuite, des données originales à la demande, comment devrions-nous produire au milieu ? Cette série de problèmes nécessite un design industriel, et la réflexion globale actuelle ne suffit pas.
**Tencent Technology : L'immaturité de l'industrie est un aspect. Cela signifie-t-il également que l'industrie est toujours un océan bleu ? **
**Professeur Zeng Xueyun : **Un océan bleu très précoce. Au début, il y a eu quelques cas de commerce direct illégal de données, puis la législation nationale n'a plus pu acheter et vendre directement des données elle-même, et n'a plus échangé de données brutes. Les données ne peuvent pas être utilisées pour des transactions originales. Cela devrait être le résultat d'investir dans sa propre production pour faire des transactions, au lieu de dire que j'ai des données et que je vends les données directement. Ce n'est pas autorisé.
En 2022 (décembre), les " Vingt articles de données" ont été promulgués. Les " Vingt articles de données" énoncent les exigences relatives à la séparation de la propriété des données et à la multipropriété de la propriété des données, des droits de gestion et droits bénéficiaires La division, qui a mentionné que les données devaient être gérées dans cette catégorie hiérarchique. Il s'agit de la conception de haut niveau de la gouvernance des données et d'un plan global. On peut aussi dire que c'est le début du développement standardisé de la future industrie des données. À l'heure actuelle, les gens se rendent compte que les données ne forment pas un tout et qu'ils doivent comprendre quels sont les droits et les intérêts des données.C'est également l'avancement de la recherche originale fondée sur le droit vers la recherche fondée sur l'économie. ** Pour établir un marché des données, le marché doit être un comportement économique. Ce type de comportement économique nécessite l'utilisation de nombreux outils économiques et théories économiques, donc maintenant de la recherche sur la science des données, la gouvernance des données par l'État, à la recherche sur les données dans le milieu universitaire et le contrôle des données dans l'industrie L'utilisation est un océan bleu, et c'est un état qui ne fait que commencer. **
**Technologie Tencent : de ce point de vue, les données peuvent exister en tant qu'actif d'une entreprise. À quel type d'actif appartiennent les données ? **
**Professeur Zeng Xueyun :**La classification des données est un sujet très brûlant dans le milieu universitaire. Dans la plupart des cas, les gens pensent que les données sont intangibles, invisibles et intangibles, et on les appelle des actifs intangibles. Mais en fait, à partir de la classification de l'UIT, les données sont plus proches des actifs d'inventaire, car les données impliquent également le processus de production et de traitement. Et les données elles-mêmes sont un actif tangible électronique, pourquoi est-ce un actif tangible électronique ? Les données occuperont de l'espace physique, et beaucoup de données elles-mêmes ont une forme physique, qui est une forme physique côté réseau. Image, vous pouvez voir cette image électronique ; son, vous pouvez entendre ce son, et portrait, vous pouvez voir ce portrait, donc ** les données sont un bien numérique tangible. **
Nous savons que les actifs de données sont une classe d'actifs très spéciale. Certains suggéreront que les données peuvent être comparées à la nature immatérielle pour l'amortissement, ou analogues aux immobilisations pour l'amortissement. En fait, vous devez d'abord classer les données de manière hiérarchique pour voir à quelle catégorie appartiennent les données. **Pour certains types de données, il a également croissance et fusionabilité. Par exemple, si toutes les données d'appel de China Unicom peuvent être intégrées aux données personnelles de dépôt bancaire et d'investissement, un portrait de cette personne peut être généré avec plus d'informations allant de l'investissement et du financement à sa communication et sa carrière. À ce stade, il y aura un effet cumulatif de la valeur des données générée par la fusion des données et des données. À ce stade, les données seront fusionnées et extensibles. Il y a aussi une partie des données qui est effectivement sensible au facteur temps, et sa valeur diminuera avec le temps. Par conséquent, nous devons encore analyser plus spécifiquement les caractéristiques des données elles-mêmes afin de connaître leur valeur comptable, et la comptabilisation de la valeur des données a plus de variabilité et d'incertitude, contrairement aux immobilisations, fixe La valeur de l'actif à l'époque de formation d'actifs est certain, et au fil du temps, la valeur diminue progressivement, mais les données ne diminuent pas nécessairement avec le temps, et les données ont une forme d'actif plus complexe.
**Tencent Technology : les données futures sont-elles l'un des principaux éléments de compétitivité des entreprises d'IA ? Est-il possible que les actifs de données soient quantifiés et reflétés dans l'évaluation de l'entreprise ? **
**Professeur Zeng Xueyun : **Pour une entreprise d'intelligence artificielle, **les données sont sa principale compétitivité. **Pour une entreprise d'IA, l'expérience produit détermine la valeur commerciale de l'entreprise, et les capacités de données déterminent l'expérience produit. **Pour un pays, les données sont la clé de la compétitivité du futur, et c'est aussi l'or du futur, tout comme le pétrole est l'or de l'ère industrielle, et **les données sont l'or de l'ère de l'économie Internet. **
Mais à l'heure actuelle, les pays du monde rencontrent en fait des difficultés en matière de gouvernance des données, et aucun pays n'a pris l'initiative de faire des percées.Comment résoudre l'équilibre entre la sécurité des données, la gouvernance des données et le développement et l'utilisation des données. **
À cet égard, la Chine est parfaitement consciente de l'importance des données. Tous les pays sont également conscients que les données sont une nouvelle productivité, mais comment utiliser les données nécessite des acteurs du marché, une technologie intelligente et une réglementation nationale.Par conséquent, ce n'est pas un problème simple qui peut être résolu, c'est un problème de complexité du système.
La gouvernance nationale de la Chine est un arrangement relativement centralisé du central au local, nous avons donc naturellement un avantage à intégrer les mégadonnées à travers le pays, mais cet avantage ne s'est pas encore reflété, et il réside dans la valorisation des données ** Il y a problèmes d'évaluation et d'évaluation, et le problème de la saisie des données dans les états comptables n'a pas été résolu. ** Il n'y a pas de bonne solution à ce problème dans le monde.
** Si les données peuvent être transférées des actifs hors bilan aux actifs du bilan, alors la comptabilisation de la valeur de la gouvernance des données et la gestion de la valeur des données peuvent être bien résolues, et les transactions de données auront une base objective. ** Désormais, nos données d'entreprise sont essentiellement des actifs hors bilan, sans évaluation, et sans mesure ni rapport sur le bilan, il n'est donc pas clair combien de données l'entreprise possède, de sorte que l'économie des données C'est également difficile faire des statistiques sur la valeur. Si les données ne sont pas saisies dans le tableau, alors sa transaction n'aura pas de base raisonnable, ** donc la saisie de données dans le tableau est un problème clé. **Pour les statistiques du volume de données, la comptabilisation des prix des données et la tarification des transactions de données, Des statistiques de volume à la comptabilité des prix à la base des transactions, il faut saisir le bilan et le compte de résultat avec des données , et entrez La comptabilité des états financiers est une installation sous-jacente. Cette installation sous-jacente n'a pas encore été résolue.
**Tencent Technology : Quels sont les précédents internationaux en matière de législation sur les droits de propriété des données ? **
**Professeur Zeng Xueyun : **Recherche sur la législation relative aux droits de propriété des données. À l'heure actuelle, les principaux pays du monde disposent de lois fondamentales sur la protection des données, et ils sont de plus en plus clairement positionnés pour promouvoir la protection des droits de la personnalité dans les droits de propriété des données. Cependant, les lois et réglementations sur l'utilisation des données font fondamentalement défaut. Le Japon a un certain degré Un accent considérable est mis sur la promotion de la circulation des éléments de données, mais sans le soutien, la réglementation et l'orientation des lois et règlements, il repose principalement sur des documents administratifs, qui présentent encore de nombreuses lacunes législatives. À l'heure actuelle, il est urgent de mener de manière innovante la nouvelle direction de la construction juridique mondiale en termes d'accélération de la réglementation des droits de propriété des données et de la circulation des éléments de données. La situation intérieure et extérieure est la suivante :
Aspects internationaux : Le règlement général sur la protection des données (RGPD) adopté par l'Union européenne en 2016 est actuellement la loi sur la confidentialité des données la plus complète et la plus influente. La « Réglementation » évolue dans deux directions : renforcer les droits des personnes concernées, assurer le contrôle de l'utilisation des données personnelles, et prendre en compte la sécurité des données et la libre circulation des données. Sur la base de la confirmation et de l'amélioration des droits existants des personnes, le RGPD prévoit le droit à la suppression (article 17) et le droit à la portabilité (article 20), etc., afin d'obtenir un contrôle plus efficace des personnes concernées sur leurs données personnelles , mais les dispositions ne le font pas Il n'y a pas de clarification sur le transfert de propriété des données personnelles et la répartition des droits de propriété.
Bien que les États-Unis aient commencé plus tôt le système et l'exploration théorique de la protection juridique de la propriété des données, la plupart des normes pertinentes sont dispersées dans divers projets de loi. La législation de chaque État n'est pas compatible, mais elle couvre un large éventail de domaines et offre une certaine souplesse dans le règlement des différends pour encourager l'utilisation des données. Par exemple, le "California Consumer Privacy Act of 2018" publié en 2018 et le "California Privacy Act of 2020" publié en 2020 ont augmenté la détermination des droits sur les données, couvrant le droit d'accès, le droit de suppression, le droit de savoir, etc. Les droits à la vie privée des consommateurs renforcent la protection des droits et des intérêts des personnes concernées lors du transfert de données, ce qui reflète également du côté de l'autorisation des États-Unis pour l'utilisation de la valeur économique des données. En 2017, le Japon a formulé les « Lignes directrices pour les contrats de droits d'utilisation des données ». Les lignes directrices ont pleinement pris en compte des facteurs tels que la contribution des contrats de données à la création de données, le coût du stockage et de la gestion, et les contrats de transaction de données normalisés pour promouvoir les transactions de données. est un gros progrès, mais il n'y a toujours pas de définition claire des droits de propriété des données.
En Europe, la Charte des droits fondamentaux de l'UE et le Règlement général sur la protection des données considèrent le droit à la protection des données personnelles comme un droit spécial dont jouissent les personnes concernées, qui ne comprend aucun droit de propriété. Bien que les lois de l'UE telles que le règlement général sur la protection des données ne stipulent pas clairement que les contrôleurs de données jouissent de droits de propriété avec les données comme objet, leurs droits de propriété sur les données peuvent être protégés par la protection des bases de données, la protection du droit d'auteur, la protection du secret commercial, la protection du droit des contrats et la protection du droit de la concurrence, etc. sont protégés. En outre, le document « Construire une économie européenne des données » publié par la Commission européenne s'est engagé à introduire des « droits des producteurs de données », qui confèrent aux responsables du traitement des droits de propriété universels sur les données non personnelles et les données personnelles anonymisées, leur permettant une utilisation exclusive de données, y compris le droit d'autoriser d'autres personnes à utiliser ces données. Aux États-Unis, bien que certains juristes estiment que les individus devraient avoir des droits de propriété sur les informations personnelles, les tribunaux ne reconnaissent généralement pas ces droits de propriété. Dans certains cas, les tribunaux américains ont jugé que les entreprises avaient des droits de propriété sur les données qu'elles détenaient. L'expérience juridique nationale et étrangère sur la propriété des données montre que la « séparation des ressources humaines et de la richesse » devrait devenir la proposition théorique de base pour la construction du système de droits de propriété des données de mon pays.