GPT-5 n'est pas loin ! OpenAI a lancé le robot d'exploration Web GPTBot, qui récupère automatiquement les données et peut être désactivé de manière sélective

2023-08-08 06:14:41

Edit : Peach a tellement sommeil

Source : Xinzhiyuan

Guide : Tout à l'heure, OpenAI a lancé GPTBot, un robot d'exploration Web capable de récupérer automatiquement des données sur l'ensemble d'Internet. Les données résultantes seront utilisées pour former des modèles d'IA comme GPT-4 et GPT-5 !

Il y a quelque temps, il y avait une agitation dans la saisie des données des utilisateurs de la plate-forme, et les internautes de Reddit se disputaient.

Aujourd'hui, OpenAI a lancé un outil de robot d'exploration Web GPTBot, qui peut automatiquement récupérer les données du site Web.

comment utiliser?

OpenAI a déclaré dans le document publié que le robot d'indexation filtrera pour supprimer les sources qui nécessitent un accès payant, mais supprimera également les informations personnellement identifiables (PII) ou le texte qui enfreint ses politiques.

Les données capturées par GPTBot sont utilisées pour former GPT-4 ou GPT-5, ce qui peut améliorer la précision et les capacités des futurs systèmes d'intelligence artificielle.

L'outil peut être identifié par le code suivant :

Jeton d'agent utilisateur : chaîne d'agent utilisateur GPTBotFull : Mozilla/5.0 AppleWebKit/537.36 (KHTML, comme Gecko ; compatible ; GPTBot/1.0 ; +

Interdire l'accès à GPTBot

D'autre part, vous pouvez également empêcher GPTBot d'accéder aux sites Web en l'ajoutant au site robots.txt.

Cela signifie que les propriétaires de sites Web doivent volontairement prendre des mesures pour interdire à OpenAI d'accéder à leurs sites Web et de ne pas utiliser leurs propres données pour la formation.

Agent utilisateur : GPTBotDisallow : /

Accès GPTBot personnalisé

Vous pouvez également contrôler l'accès de GPTBot à certains contenus du site Web via le code suivant.

Agent utilisateur : GPTBotAllow : /répertoire-1/Disallow : /répertoire-2/

Exportation IP

Pour le robot d'exploration d'OpenAI, le site Web sera appelé à partir d'un bloc d'adresses IP enregistrées sur le site Web d'OpenAI.

Discussion animée des internautes

La décision d'OpenAI a déclenché des discussions parmi les internautes sur les problèmes éthiques des robots d'exploration Web utilisés pour former des modèles d'IA.

"OpenAI ne cite même pas modérément. Il fait des œuvres dérivées et ne cite pas, masquant ainsi le fait qu'il est là."

Les internautes ont déclaré qu'il y avait enfin une chance d'empêcher OpenAI de saisir les données de votre réseau pour former le modèle.

Il a également été suggéré que le module complémentaire de navigateur ChatGPT avait été supprimé pendant un certain temps, en partie parce qu'il permettait d'accéder au contenu derrière un mur payant.

Il y a quelque temps, OpenAI a déposé une demande de marque pour GPT-5 auprès de l'Office américain des brevets le 18 juillet, suggérant que l'entreprise est en train de former un système d'IA plus avancé.

GPTBot aidera apparemment OpenAI à collecter plus de données sur Internet pour former le modèle.

Les références:

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.