Il y a quelques jours, Google a soudainement mis à jour sa politique de confidentialité, indiquant clairement qu'il utilisera toutes les données publiques sur Internet pour former son propre modèle d'IA.
En d'autres termes, selon la nouvelle politique, toute information que vous publiez publiquement sur Internet peut être explorée par Google, y compris, mais sans s'y limiter, vos publications, les mots clés que vous recherchez et les vidéos que vous regardez.
N'est-ce pas une séquence Internet appropriée !
Peu de temps après qu'OpenAI ait été poursuivi pour violation de données, Google était pressé de frapper le pistolet.
À ce stade, il y a une forte probabilité que cela n'ait rien à voir avec les frais de données. Si Google ne collecte pas cette vague de laine gratuite, il est très probable qu'il ne sera pas en mesure de la collecter à l'avenir. **
Cette affaire n'a jamais cessé depuis que ChatGPT est devenu populaire.
Shichao vous donnera d'abord un aperçu de la chronologie.
En mars de cette année, Musk a pris les devants en tirant le premier coup sur les frais de données, déclarant que l'interface API de Twitter n'était plus gratuite.
Immédiatement après, Reddit, la version américaine du post bar, n'en pouvait plus.
Le mois dernier, la campagne "Blackout" de Reddit était une protestation contre la politique officielle de facturation de l'API.
Lorsque Shichao a écrit à ce sujet auparavant, il devinait encore si les responsables de Reddit feraient des concessions à la fin.
À en juger par le suivi actuel, il a été confirmé que la plupart des logiciels tiers ont été fermés et Reddit est déterminé à facturer les données.
Pendant cette période, Twitter a de nouveau ajusté la limite de débit. Les comptes qui ne dépensent pas d'argent pour s'authentifier ne peuvent lire que 600 messages par jour. Le but est également d'empêcher les robots de saisir les données des utilisateurs.
Les données sont-elles si précieuses ?
Shi Chao a estimé que c'était toujours la faute de ** AI. **
Si le grand modèle d'IA veut devenir plus intelligent, il a besoin d'un flux constant de données pour "s'alimenter".
Ceux qui peuvent faire de grands modèles maintenant, soit ont leurs propres données, comme Baidu, Ali et Tencent, soit explorent les données d'autres personnes, voici le nom OpenAI.
Parce que de nombreux sites Web ont des interfaces API ouvertes et gratuites, des géants tels que Microsoft et OpenAI ont eu une opportunité.
Mais aujourd'hui est différent du passé : après que l'IA a redonné de la valeur aux données, les plateformes avec des puces dans les mains ne veulent bien sûr absolument pas être prostituées pour rien. **
Même le PDG de Reddit, Hoffman, l'a dit clairement : il ne veut tout simplement pas fournir des données aux géants gratuitement.
Par conséquent, la poursuite d'OpenAI est probablement due au fait que les plateformes se sont unies pour "tuer des poulets et des singes" et guérir les tendances malsaines de l'IA.
Cependant, il est difficile de dire si la loi sera du côté d'OpenAI cette fois.
Parce que le droit d'auteur des données implique 3 enjeux clés :
**1. Le comportement du robot d'exploration de données lui-même est-il légal ? **
**2. Les données sont-elles protégées par le droit d'auteur ? **
**3. Les œuvres générées à partir de données sont-elles protégées par le droit d'auteur ? **
Tout d'abord, la première question, pour obtenir des données, n'est rien de plus que de payer des achats ou de collecter des données accessibles au public sur Internet.
Cependant, il convient de noter que les données divulguées ne correspondent pas à une utilisation autorisée, et cela dépend également de la présence ou non de clauses pertinentes sur le site Web qui restreignent le comportement des robots d'exploration de données.
Si le consentement du titulaire du droit d'auteur est directement dépassé ou si les données sont obtenues de force en contournant les restrictions du site Web, l'obtention illégale de données du système d'information informatique constitue un crime légitime.
Même si OpenAI prétend explorer des données à partir de sites Web publics, la légalité du comportement d'exploration des données dépend de l'autorisation donnée par le titulaire du droit d'auteur.
Deuxièmement, si les données elles-mêmes sont soumises au droit d'auteur.
Selon la loi américaine sur le droit d'auteur, si les données utilisées pour la formation du modèle d'IA entrent dans le champ d'application de "l'utilisation équitable", cela ne constituera pas une contrefaçon.
Mais le problème réside dans ce "fair use".
Les éléments constitutifs de « l'utilisation équitable » comprennent si une utilisation commerciale est impliquée, si l'œuvre elle-même est protégée par la loi sur le droit d'auteur, le nombre de parties utilisées et l'impact sur l'œuvre elle-même après utilisation.
Comme les reportages et la recherche universitaire, les citations appropriées sont tout à fait acceptables.
L'utilisation des données de centaines de millions de niveaux sur les modèles d'IA et les logiciels d'IA commercialisés peut-elle toujours être considérée comme une "utilisation équitable" ?
Enfin, il y a le problème du droit d'auteur des œuvres générées par l'IA.
Étant donné que le droit d'auteur des données de formation n'est pas clair, le contenu généré par l'IA fera naturellement l'objet de litiges en matière de droit d'auteur. Il y a quelques jours, Steam a également supprimé un jeu généré à l'aide d'AIGC au motif qu'il y avait un problème de droit d'auteur.
Prenons l'exemple de la peinture AI. La génération d'images équivaut à un processus de division et de réorganisation. Bien que le résultat final soit complètement "nouveau", il conserve néanmoins certaines caractéristiques de l'image d'apprentissage.
Cependant, que cette situation soit considérée comme une infraction ou non, les opinions divergent selon les pays.
Étant donné que les données de formation appartiennent à d'autres, le Bureau américain du droit d'auteur a déterminé que les œuvres générées par l'IA ne sont pas protégées par la loi sur le droit d'auteur et peuvent même enfreindre le droit d'auteur.
L'attitude du gouvernement japonais est assez différente, affirmant que la loi japonaise ne protège pas le droit d'auteur des données utilisées pour la formation à l'IA.
Au moins dans le cadre juridique actuel, il est difficile d'obtenir une réponse unifiée aux questions ci-dessus.
La surveillance n'étant pas assez forte, le titulaire du droit d'auteur n'a d'autre choix que de le faire lui-même.Si la redevance devait être facturée, celle qui devrait être récupérée devrait l'être rapidement.
▼Documents poursuivis par OpenAI
Il est prévisible qu'après Twitter et Reddit, il y aura peut-être plus de parties du droit d'auteur sur le contenu qui érigeront de hauts murs.
Cette question, pour la plate-forme, est bien sûr une nouvelle façon de gagner de l'argent. Peu importe à quel point les géants de la technologie sont mauvais, ils dépenseront plus d'argent.
Mais pour Internet dans son ensemble, ce n'est pas une bonne chose.
À cette époque, Internet est né avec le gène du partage ouvert, comme Wikipédia et Twitter, qui fournissaient des interfaces API gratuitement toute l'année, ce qui rendait très pratique pour les développeurs d'appeler des données.
Mais maintenant, si les frais de données sont autorisés à être mis en œuvre de cette manière, il est difficile de dire quel en sera le résultat.
Après tout, les petits développeurs n'ont pas la capacité de payer des frais de données énormes. Si l'innovation ne se produit que chez les géants, n'est-ce pas un pur monopole ?
La chose la plus importante est que de nombreux sites Web qui peuvent être consultés gratuitement maintenant devront peut-être être consultés plus tard.C'est le véritable critique pour les utilisateurs ordinaires comme nous.
En fait, les frais de données ne peuvent pas être entièrement imputés à la plate-forme, ce qui fait vraiment peur aux géants de l'IA de "voler", ce qui est un geste impuissant pour se protéger.
Bien que Google ait une "politique de confidentialité" cette fois, il est difficile de dire quel en sera le résultat.
Par conséquent, la clé est de voir quand le marteau de la supervision tombera.
Clarifier le droit d'auteur des données est un obstacle qui ne peut être évité dans le développement de l'IA, et maintenant, il semble également être lié à l'orientation future d'Internet.
Je me demande si le vaisseau IA va nous pousser dans une ère plus ouverte ou fermée ?
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Laissez les grandes entreprises d'IA "voler" comme ça, nous ne verrons peut-être pas de sites Web gratuits
Source originale : Mauvaise critique
Il y a quelques jours, Google a soudainement mis à jour sa politique de confidentialité, indiquant clairement qu'il utilisera toutes les données publiques sur Internet pour former son propre modèle d'IA.
Peu de temps après qu'OpenAI ait été poursuivi pour violation de données, Google était pressé de frapper le pistolet.
Cette affaire n'a jamais cessé depuis que ChatGPT est devenu populaire.
Shichao vous donnera d'abord un aperçu de la chronologie.
En mars de cette année, Musk a pris les devants en tirant le premier coup sur les frais de données, déclarant que l'interface API de Twitter n'était plus gratuite.
Le mois dernier, la campagne "Blackout" de Reddit était une protestation contre la politique officielle de facturation de l'API.
Pendant cette période, Twitter a de nouveau ajusté la limite de débit. Les comptes qui ne dépensent pas d'argent pour s'authentifier ne peuvent lire que 600 messages par jour. Le but est également d'empêcher les robots de saisir les données des utilisateurs.
Shi Chao a estimé que c'était toujours la faute de ** AI. **
Ceux qui peuvent faire de grands modèles maintenant, soit ont leurs propres données, comme Baidu, Ali et Tencent, soit explorent les données d'autres personnes, voici le nom OpenAI.
Parce que de nombreux sites Web ont des interfaces API ouvertes et gratuites, des géants tels que Microsoft et OpenAI ont eu une opportunité.
Même le PDG de Reddit, Hoffman, l'a dit clairement : il ne veut tout simplement pas fournir des données aux géants gratuitement.
Cependant, il est difficile de dire si la loi sera du côté d'OpenAI cette fois.
**1. Le comportement du robot d'exploration de données lui-même est-il légal ? **
**2. Les données sont-elles protégées par le droit d'auteur ? **
**3. Les œuvres générées à partir de données sont-elles protégées par le droit d'auteur ? **
Tout d'abord, la première question, pour obtenir des données, n'est rien de plus que de payer des achats ou de collecter des données accessibles au public sur Internet.
Cependant, il convient de noter que les données divulguées ne correspondent pas à une utilisation autorisée, et cela dépend également de la présence ou non de clauses pertinentes sur le site Web qui restreignent le comportement des robots d'exploration de données.
Deuxièmement, si les données elles-mêmes sont soumises au droit d'auteur.
Selon la loi américaine sur le droit d'auteur, si les données utilisées pour la formation du modèle d'IA entrent dans le champ d'application de "l'utilisation équitable", cela ne constituera pas une contrefaçon.
Mais le problème réside dans ce "fair use".
Comme les reportages et la recherche universitaire, les citations appropriées sont tout à fait acceptables.
L'utilisation des données de centaines de millions de niveaux sur les modèles d'IA et les logiciels d'IA commercialisés peut-elle toujours être considérée comme une "utilisation équitable" ?
Enfin, il y a le problème du droit d'auteur des œuvres générées par l'IA.
Étant donné que le droit d'auteur des données de formation n'est pas clair, le contenu généré par l'IA fera naturellement l'objet de litiges en matière de droit d'auteur. Il y a quelques jours, Steam a également supprimé un jeu généré à l'aide d'AIGC au motif qu'il y avait un problème de droit d'auteur.
Étant donné que les données de formation appartiennent à d'autres, le Bureau américain du droit d'auteur a déterminé que les œuvres générées par l'IA ne sont pas protégées par la loi sur le droit d'auteur et peuvent même enfreindre le droit d'auteur.
L'attitude du gouvernement japonais est assez différente, affirmant que la loi japonaise ne protège pas le droit d'auteur des données utilisées pour la formation à l'IA.
▼Documents poursuivis par OpenAI
Cette question, pour la plate-forme, est bien sûr une nouvelle façon de gagner de l'argent. Peu importe à quel point les géants de la technologie sont mauvais, ils dépenseront plus d'argent.
À cette époque, Internet est né avec le gène du partage ouvert, comme Wikipédia et Twitter, qui fournissaient des interfaces API gratuitement toute l'année, ce qui rendait très pratique pour les développeurs d'appeler des données.
Après tout, les petits développeurs n'ont pas la capacité de payer des frais de données énormes. Si l'innovation ne se produit que chez les géants, n'est-ce pas un pur monopole ?
La chose la plus importante est que de nombreux sites Web qui peuvent être consultés gratuitement maintenant devront peut-être être consultés plus tard.C'est le véritable critique pour les utilisateurs ordinaires comme nous.
Par conséquent, la clé est de voir quand le marteau de la supervision tombera.
Clarifier le droit d'auteur des données est un obstacle qui ne peut être évité dans le développement de l'IA, et maintenant, il semble également être lié à l'orientation future d'Internet.
Je me demande si le vaisseau IA va nous pousser dans une ère plus ouverte ou fermée ?