OpenAI a également du mal avec les données ! L'entreprise admet que l'utilisation de crawlers pour se limiter est difficile à dissiper les soupçons du public
Source : "Science and Technology Innovation Board Daily"
Modifier la chanson Ziqiao
Source de l'image : générée par l'IA illimitée
Les données, la puissance de calcul et les algorithmes sont considérés comme les trois éléments essentiels de l'IA générative, et il est difficile de dire lequel est le plus important.
Or, pour des entreprises vedettes comme OpenAI, la puissance de calcul est fondamentalement un enjeu économique.Les grandes entreprises thésaurisent une grande quantité de matériel onéreux en vertu de leur "capacité monétaire", et le problème de la rareté des données est encore plus un casse-tête. eux dans une crise morale.
En prenant OpenAI comme exemple, son comportement de capture de données publiques pour former des modèles d'IA a longtemps été controversé. ** Selon le dernier rapport du média technologique étranger Insider, OpenAI a récemment admis avoir lancé un robot d'exploration Web nommé GPTBot, qui est utilisé pour explorer et collecter des données pour la formation de modèles à grande échelle. **
OpenAI est soupçonné d'être un "voleur de données"
Un robot d'exploration Web est un programme informatique qui simule le comportement d'un humain (utilisateur du réseau) et navigue et collecte automatiquement des informations sur le réseau. Le robot d'exploration Web peut enregistrer les données qu'il visite, et le récupérateur de données analyse et réutilise les données, déduit les préférences des internautes, puis les transmet aux groupes d'utilisateurs correspondants.
** On ne sait pas depuis combien de temps les robots d'exploration d'OpenAI se cachent en ligne, et certains soupçonnent qu'OpenAI collecte secrètement les données en ligne de tout le monde depuis des mois ou des années. **
Face à de telles "accusations", OpenAI s'est activement défendu. La société a déclaré que GPTBot respectera strictement les règles de tout paywall, ne capturera pas d'informations nécessitant un paiement et ne collectera pas de données permettant de retracer des personnes personnellement identifiables.
De plus, OpenAI a lancé une méthode pour bloquer GPTbot.Les utilisateurs peuvent modifier leur fichier robots.txt, ou bloquer leurs adresses IP pour interdire l'accès aux crawlers. La société a également récemment annoncé un accord avec l'Associated Press dans lequel OpenAI paiera le contenu AP nécessaire aux données de formation de l'IA.
La confiance perdue
En tant que moyen de collecte de données, la technologie crawler elle-même ne fait aucune distinction entre légal et illégal. **Cependant, l'initiative d'OpenAI de fixer des limites à ses outils de crawler ne semble pas pouvoir restaurer la confiance du public dans cette grande entreprise modèle. **
Neil Clarke, rédacteur en chef du magazine de science-fiction vétéran "Clarkworld" et lauréat du prix Hugo, a déclaré : "OpenAI et d'autres sociétés de modélisation à grande échelle ont démontré à plusieurs reprises qu'elles ne respectaient pas les droits des auteurs, des artistes et d'autres personnes créatives. basé en grande partie sur le travail protégé par le droit d'auteur d'autrui.
Il a également donné un exemple, CCBot est un autre robot sur chenilles exploité par l'organisation Common Crawl. Common Crawl est actuellement le principal fournisseur de données d'entraînement pour les modèles d'intelligence artificielle. « Autant que je sache, personne n'a réussi à demander à Common Crawl de supprimer des données. ", a déclaré Clark. "J'ai essayé et je n'ai pas eu de réponse."
D'un autre côté, lorsqu'il s'agit de tirer contre les grandes entreprises, les gens ordinaires sont généralement désavantagés. Comme l'a dit Clark, puisque OpenAI est prêt à payer pour les données de grandes entreprises comme (Associated Press), pourquoi ne paie-t-il pas pour les informations d'autres personnes ? "J'ai interrogé OpenAI à ce sujet, mais je n'ai reçu aucune réponse."
Cependant, Clark lui-même se tient à l'opposé d'OpenAI : le "Clark World" qu'il a fondé fait face à un flot de contenus générés par l'IA. Clark a souligné qu'après l'ouverture de ChatGPT à la fin de l'année dernière, les soumissions de spam générées par l'IA ont augmenté, et le coût de détection de ces travaux était élevé, et la revue a temporairement suspendu l'appel à manuscrits.
Conclusion
Auparavant, OpenAI a été poursuivi par plusieurs parties pour des questions de droit d'auteur, y compris le recours collectif promu par le cabinet d'avocats Clarkson et des auteurs à succès tels que Paul Tremblay et Mona Awad.Des célébrités poursuivent en leur vrai nom.
Avec la nouvelle itération de la technologie d'IA générative, des différends similaires ne feront qu'augmenter.
Les grandes entreprises sont plus susceptibles d'être la cible de critiques publiques.Même si elles osent prendre leurs responsabilités, il n'est pas facile d'atteindre une conformité totale avec l'acquisition de données. En raison de l'énorme quantité de paramètres, de grands modèles doivent être formés et déployés à l'aide de technologies telles que l'informatique distribuée et les services cloud, ce qui augmente le risque de vol de données, de falsification, d'utilisation abusive ou de fuite.
Comment équilibrer la protection de la vie privée et encourager l'innovation technologique, et comment trouver le chemin optimal entre la survie de l'entreprise et la production conforme sont déjà des problèmes que toute entreprise dédiée à l'IA générative ne peut éviter.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
OpenAI a également du mal avec les données ! L'entreprise admet que l'utilisation de crawlers pour se limiter est difficile à dissiper les soupçons du public
Source : "Science and Technology Innovation Board Daily"
Modifier la chanson Ziqiao
Les données, la puissance de calcul et les algorithmes sont considérés comme les trois éléments essentiels de l'IA générative, et il est difficile de dire lequel est le plus important.
Or, pour des entreprises vedettes comme OpenAI, la puissance de calcul est fondamentalement un enjeu économique.Les grandes entreprises thésaurisent une grande quantité de matériel onéreux en vertu de leur "capacité monétaire", et le problème de la rareté des données est encore plus un casse-tête. eux dans une crise morale.
En prenant OpenAI comme exemple, son comportement de capture de données publiques pour former des modèles d'IA a longtemps été controversé. ** Selon le dernier rapport du média technologique étranger Insider, OpenAI a récemment admis avoir lancé un robot d'exploration Web nommé GPTBot, qui est utilisé pour explorer et collecter des données pour la formation de modèles à grande échelle. **
OpenAI est soupçonné d'être un "voleur de données"
Un robot d'exploration Web est un programme informatique qui simule le comportement d'un humain (utilisateur du réseau) et navigue et collecte automatiquement des informations sur le réseau. Le robot d'exploration Web peut enregistrer les données qu'il visite, et le récupérateur de données analyse et réutilise les données, déduit les préférences des internautes, puis les transmet aux groupes d'utilisateurs correspondants.
** On ne sait pas depuis combien de temps les robots d'exploration d'OpenAI se cachent en ligne, et certains soupçonnent qu'OpenAI collecte secrètement les données en ligne de tout le monde depuis des mois ou des années. **
Face à de telles "accusations", OpenAI s'est activement défendu. La société a déclaré que GPTBot respectera strictement les règles de tout paywall, ne capturera pas d'informations nécessitant un paiement et ne collectera pas de données permettant de retracer des personnes personnellement identifiables.
De plus, OpenAI a lancé une méthode pour bloquer GPTbot.Les utilisateurs peuvent modifier leur fichier robots.txt, ou bloquer leurs adresses IP pour interdire l'accès aux crawlers. La société a également récemment annoncé un accord avec l'Associated Press dans lequel OpenAI paiera le contenu AP nécessaire aux données de formation de l'IA.
La confiance perdue
En tant que moyen de collecte de données, la technologie crawler elle-même ne fait aucune distinction entre légal et illégal. **Cependant, l'initiative d'OpenAI de fixer des limites à ses outils de crawler ne semble pas pouvoir restaurer la confiance du public dans cette grande entreprise modèle. **
Neil Clarke, rédacteur en chef du magazine de science-fiction vétéran "Clarkworld" et lauréat du prix Hugo, a déclaré : "OpenAI et d'autres sociétés de modélisation à grande échelle ont démontré à plusieurs reprises qu'elles ne respectaient pas les droits des auteurs, des artistes et d'autres personnes créatives. basé en grande partie sur le travail protégé par le droit d'auteur d'autrui.
Il a également donné un exemple, CCBot est un autre robot sur chenilles exploité par l'organisation Common Crawl. Common Crawl est actuellement le principal fournisseur de données d'entraînement pour les modèles d'intelligence artificielle. « Autant que je sache, personne n'a réussi à demander à Common Crawl de supprimer des données. ", a déclaré Clark. "J'ai essayé et je n'ai pas eu de réponse."
D'un autre côté, lorsqu'il s'agit de tirer contre les grandes entreprises, les gens ordinaires sont généralement désavantagés. Comme l'a dit Clark, puisque OpenAI est prêt à payer pour les données de grandes entreprises comme (Associated Press), pourquoi ne paie-t-il pas pour les informations d'autres personnes ? "J'ai interrogé OpenAI à ce sujet, mais je n'ai reçu aucune réponse."
Cependant, Clark lui-même se tient à l'opposé d'OpenAI : le "Clark World" qu'il a fondé fait face à un flot de contenus générés par l'IA. Clark a souligné qu'après l'ouverture de ChatGPT à la fin de l'année dernière, les soumissions de spam générées par l'IA ont augmenté, et le coût de détection de ces travaux était élevé, et la revue a temporairement suspendu l'appel à manuscrits.
Conclusion
Auparavant, OpenAI a été poursuivi par plusieurs parties pour des questions de droit d'auteur, y compris le recours collectif promu par le cabinet d'avocats Clarkson et des auteurs à succès tels que Paul Tremblay et Mona Awad.Des célébrités poursuivent en leur vrai nom.
Avec la nouvelle itération de la technologie d'IA générative, des différends similaires ne feront qu'augmenter.
Les grandes entreprises sont plus susceptibles d'être la cible de critiques publiques.Même si elles osent prendre leurs responsabilités, il n'est pas facile d'atteindre une conformité totale avec l'acquisition de données. En raison de l'énorme quantité de paramètres, de grands modèles doivent être formés et déployés à l'aide de technologies telles que l'informatique distribuée et les services cloud, ce qui augmente le risque de vol de données, de falsification, d'utilisation abusive ou de fuite.
Comment équilibrer la protection de la vie privée et encourager l'innovation technologique, et comment trouver le chemin optimal entre la survie de l'entreprise et la production conforme sont déjà des problèmes que toute entreprise dédiée à l'IA générative ne peut éviter.