Guia: Agora, a OpenAI lançou o GPTBot - um rastreador da web que pode capturar dados automaticamente de toda a Internet. Os dados resultantes serão usados para treinar modelos de IA como GPT-4 e GPT-5!
Algum tempo atrás, houve um tumulto na obtenção de dados de usuários da plataforma e os internautas do Reddit estavam discutindo.
Hoje, a OpenAI lançou uma ferramenta de rastreador da web GPTBot, que pode coletar automaticamente os dados do site.
**Como usar? **
A OpenAI disse no documento publicado que o rastreador da Web filtrará para remover fontes que exigem acesso pago, mas também removerá informações de identificação pessoal (PII) ou texto que viole suas políticas.
Os dados capturados pelo GPTBot são usados para treinar GPT-4 ou GPT-5, o que pode melhorar a precisão e as capacidades de futuros sistemas de inteligência artificial.
A ferramenta pode ser identificada pelo seguinte código:
Token do agente do usuário: GPTBotFull user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatível; GPTBot/1.0; +
Proibir o acesso ao GPTBot
Por outro lado, você também pode desativar o GPTBot de acessar sites adicionando-o ao site robots.txt.
Isso significa que os proprietários de sites devem voluntariamente tomar medidas para proibir a OpenAI de acessar seus sites e não usar seus próprios dados para treinamento.
Agente do usuário: GPTBotDisallow: /
Acesso GPTBot Personalizado
Você também pode controlar o acesso do GPTBot a algum conteúdo do site através do seguinte código.
Para o rastreador da OpenAI, o site será chamado a partir de um bloco de endereços IP registrados no site da OpenAI.
Discussão quente do internauta
O movimento da OpenAI desencadeou discussões entre os internautas sobre as questões éticas dos rastreadores da Web usados para treinar modelos de IA.
"A OpenAI nem cita moderadamente. Está fazendo trabalhos derivados e não citando, obscurecendo assim o fato de que está lá."
Os internautas disseram que finalmente há uma chance de impedir que o OpenAI pegue seus dados de rede para treinar o modelo.
Também foi sugerido que o complemento do navegador ChatGPT havia sido removido por algum tempo, em parte porque permitia o acesso ao conteúdo por trás de um acesso pago.
Há algum tempo, a OpenAI apresentou um pedido de marca registrada para GPT-5 ao Escritório de Patentes dos EUA em 18 de julho, sugerindo que a empresa está treinando um sistema de IA mais avançado.
Aparentemente, o GPTBot ajudará o OpenAI a coletar mais dados da Internet para treinar o modelo.
Referências:
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
GPT-5 não está longe! A OpenAI lançou o rastreador da web GPTBot, que coleta dados automaticamente e pode ser desativado seletivamente
Edit: Peach está com tanto sono
Fonte: Xinzhiyuan
Guia: Agora, a OpenAI lançou o GPTBot - um rastreador da web que pode capturar dados automaticamente de toda a Internet. Os dados resultantes serão usados para treinar modelos de IA como GPT-4 e GPT-5!
Algum tempo atrás, houve um tumulto na obtenção de dados de usuários da plataforma e os internautas do Reddit estavam discutindo.
Hoje, a OpenAI lançou uma ferramenta de rastreador da web GPTBot, que pode coletar automaticamente os dados do site.
**Como usar? **
A OpenAI disse no documento publicado que o rastreador da Web filtrará para remover fontes que exigem acesso pago, mas também removerá informações de identificação pessoal (PII) ou texto que viole suas políticas.
Os dados capturados pelo GPTBot são usados para treinar GPT-4 ou GPT-5, o que pode melhorar a precisão e as capacidades de futuros sistemas de inteligência artificial.
A ferramenta pode ser identificada pelo seguinte código:
Token do agente do usuário: GPTBotFull user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatível; GPTBot/1.0; +
Proibir o acesso ao GPTBot
Por outro lado, você também pode desativar o GPTBot de acessar sites adicionando-o ao site robots.txt.
Isso significa que os proprietários de sites devem voluntariamente tomar medidas para proibir a OpenAI de acessar seus sites e não usar seus próprios dados para treinamento.
Agente do usuário: GPTBotDisallow: /
Acesso GPTBot Personalizado
Você também pode controlar o acesso do GPTBot a algum conteúdo do site através do seguinte código.
User-agent: GPTBotAllow: /directory-1/Disallow: /directory-2/
Exportação IP
Para o rastreador da OpenAI, o site será chamado a partir de um bloco de endereços IP registrados no site da OpenAI.
Discussão quente do internauta
O movimento da OpenAI desencadeou discussões entre os internautas sobre as questões éticas dos rastreadores da Web usados para treinar modelos de IA.
"A OpenAI nem cita moderadamente. Está fazendo trabalhos derivados e não citando, obscurecendo assim o fato de que está lá."
Referências: