Guía: Justo ahora, OpenAI lanzó GPTBot, un rastreador web que puede capturar automáticamente datos de todo Internet. ¡Los datos resultantes se utilizarán para entrenar modelos de IA como GPT-4 y GPT-5!
Hace algún tiempo, hubo una confusión en la captura de datos de usuarios de la plataforma, y los internautas de Reddit estaban discutiendo.
Hoy, OpenAI lanzó una herramienta de rastreo web GPTBot, que puede raspar automáticamente los datos del sitio web.
**¿cómo utilizar? **
OpenAI dijo en el documento publicado que el rastreador web filtrará para eliminar las fuentes que requieren acceso pago, pero también eliminará la información de identificación personal (PII) o el texto que viole sus políticas.
Los datos capturados por GPTBot se utilizan para entrenar GPT-4 o GPT-5, que pueden mejorar la precisión y las capacidades de los futuros sistemas de inteligencia artificial.
La herramienta se puede identificar con el siguiente código:
Token de agente de usuario: Cadena de agente de usuario GPTBotFull: Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; GPTBot/1.0; +
Prohibir el acceso a GPTBot
Por otro lado, también puede deshabilitar el acceso de GPTBot a sitios web agregándolo al sitio robots.txt.
Esto significa que los propietarios de sitios web deben tomar medidas voluntariamente para prohibir que OpenAI acceda a sus sitios web y no use sus propios datos para capacitación.
Agente de usuario: GPTBotDisallow: /
Acceso personalizado a GPTBot
También puede controlar el acceso de GPTBot a algunos contenidos del sitio web a través del siguiente código.
Agente de usuario: GPTBotAllow: /directory-1/Disallow: /directory-2/
Exportación de propiedad intelectual
Para el rastreador de OpenAI, se llamará al sitio web desde un bloque de direcciones IP registradas en el sitio web de OpenAI.
Discusión candente de los internautas
El movimiento de OpenAI ha provocado debates entre los internautas sobre las cuestiones éticas de los rastreadores web utilizados para entrenar modelos de IA.
"OpenAI ni siquiera se cita moderadamente. Está haciendo un trabajo derivado y no lo cita, oscureciendo así el hecho de que lo es".
Los internautas dijeron que finalmente existe la posibilidad de evitar que OpenAI obtenga los datos de su red para entrenar el modelo.
También se sugirió que el complemento del navegador ChatGPT se eliminó durante algún tiempo, en parte porque permitía el acceso al contenido detrás de un muro de pago.
Hace algún tiempo, OpenAI presentó una solicitud de marca registrada para GPT-5 a la Oficina de Patentes de EE. UU. el 18 de julio, lo que sugiere que la empresa está entrenando un sistema de IA más avanzado.
Aparentemente, GPTBot ayudará a OpenAI a recopilar más datos de Internet para entrenar el modelo.
Referencias:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¡GPT-5 no está lejos! OpenAI lanzó el rastreador web GPTBot, que captura datos automáticamente y se puede desactivar de forma selectiva
Editar: Peach tiene mucho sueño.
Fuente: Xinzhiyuan
Guía: Justo ahora, OpenAI lanzó GPTBot, un rastreador web que puede capturar automáticamente datos de todo Internet. ¡Los datos resultantes se utilizarán para entrenar modelos de IA como GPT-4 y GPT-5!
Hace algún tiempo, hubo una confusión en la captura de datos de usuarios de la plataforma, y los internautas de Reddit estaban discutiendo.
Hoy, OpenAI lanzó una herramienta de rastreo web GPTBot, que puede raspar automáticamente los datos del sitio web.
**¿cómo utilizar? **
OpenAI dijo en el documento publicado que el rastreador web filtrará para eliminar las fuentes que requieren acceso pago, pero también eliminará la información de identificación personal (PII) o el texto que viole sus políticas.
Los datos capturados por GPTBot se utilizan para entrenar GPT-4 o GPT-5, que pueden mejorar la precisión y las capacidades de los futuros sistemas de inteligencia artificial.
La herramienta se puede identificar con el siguiente código:
Token de agente de usuario: Cadena de agente de usuario GPTBotFull: Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; GPTBot/1.0; +
Prohibir el acceso a GPTBot
Por otro lado, también puede deshabilitar el acceso de GPTBot a sitios web agregándolo al sitio robots.txt.
Esto significa que los propietarios de sitios web deben tomar medidas voluntariamente para prohibir que OpenAI acceda a sus sitios web y no use sus propios datos para capacitación.
Agente de usuario: GPTBotDisallow: /
Acceso personalizado a GPTBot
También puede controlar el acceso de GPTBot a algunos contenidos del sitio web a través del siguiente código.
Agente de usuario: GPTBotAllow: /directory-1/Disallow: /directory-2/
Exportación de propiedad intelectual
Para el rastreador de OpenAI, se llamará al sitio web desde un bloque de direcciones IP registradas en el sitio web de OpenAI.
Discusión candente de los internautas
El movimiento de OpenAI ha provocado debates entre los internautas sobre las cuestiones éticas de los rastreadores web utilizados para entrenar modelos de IA.
"OpenAI ni siquiera se cita moderadamente. Está haciendo un trabajo derivado y no lo cita, oscureciendo así el hecho de que lo es".
Referencias: