Руководство: Только что OpenAI запустила GPTBot — поисковый робот, который может автоматически собирать данные со всего Интернета. Полученные данные будут использованы для обучения таких моделей ИИ, как GPT-4 и GPT-5!
Некоторое время назад произошла суматоха с захватом пользовательских данных платформы, и пользователи сети Reddit спорили.
Сегодня OpenAI запустила инструмент веб-краулера GPTBot, который может автоматически очищать данные веб-сайтов.
**как использовать? **
В опубликованном документе OpenAI говорится, что веб-сканер будет фильтровать источники, требующие платного доступа, а также удалять личную информацию (PII) или текст, нарушающий его политику.
Данные, собранные GPTBot, используются для обучения GPT-4 или GPT-5, что может повысить точность и возможности будущих систем искусственного интеллекта.
Инструмент можно идентифицировать по следующему коду:
С другой стороны, вы также можете запретить GPTBot доступ к веб-сайтам, добавив его в robots.txt сайта.
Это означает, что владельцы веб-сайтов должны добровольно принять меры, чтобы запретить OpenAI доступ к своим веб-сайтам и не использовать собственные данные для обучения.
Агент пользователя: GPTBotDisallow: /
Пользовательский доступ к GPTBot
Вы также можете контролировать доступ GPTBot к некоторому контенту веб-сайта с помощью следующего кода.
Для сканера OpenAI веб-сайт будет вызываться из блока IP-адресов, записанных на веб-сайте OpenAI.
Горячая дискуссия в сети
Шаг OpenAI вызвал дискуссии среди пользователей сети об этических проблемах веб-сканеров, используемых для обучения моделей ИИ.
"OpenAI даже умеренно не цитирует. Он делает производные работы и не цитирует, тем самым скрывая тот факт, что он там есть".
Пользователи сети заявили, что наконец-то появился шанс помешать OpenAI собирать ваши сетевые данные для обучения модели.
Также было высказано предположение, что надстройка браузера ChatGPT была удалена на некоторое время, отчасти потому, что она разрешала доступ к контенту за платным доступом.
Некоторое время назад, 18 июля, OpenAI подала заявку на товарный знак для GPT-5 в Патентное ведомство США, предполагая, что компания обучает более продвинутую систему ИИ.
GPTBot, по-видимому, поможет OpenAI собрать больше данных из Интернета для обучения модели.
Использованная литература:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
ГПТ-5 не за горами! OpenAI запустил веб-краулер GPTBot, который автоматически собирает данные и может быть выборочно отключен.
Редактировать: Персик такой сонный
Источник: Синьчжиюань
Руководство: Только что OpenAI запустила GPTBot — поисковый робот, который может автоматически собирать данные со всего Интернета. Полученные данные будут использованы для обучения таких моделей ИИ, как GPT-4 и GPT-5!
Некоторое время назад произошла суматоха с захватом пользовательских данных платформы, и пользователи сети Reddit спорили.
Сегодня OpenAI запустила инструмент веб-краулера GPTBot, который может автоматически очищать данные веб-сайтов.
**как использовать? **
В опубликованном документе OpenAI говорится, что веб-сканер будет фильтровать источники, требующие платного доступа, а также удалять личную информацию (PII) или текст, нарушающий его политику.
Данные, собранные GPTBot, используются для обучения GPT-4 или GPT-5, что может повысить точность и возможности будущих систем искусственного интеллекта.
Инструмент можно идентифицировать по следующему коду:
Токен пользовательского агента: GPTBotFull строка пользовательского агента: Mozilla/5.0 AppleWebKit/537.36 (KHTML, например Gecko; совместимо; GPTBot/1.0; +
Запретить доступ к GPTBot
С другой стороны, вы также можете запретить GPTBot доступ к веб-сайтам, добавив его в robots.txt сайта.
Это означает, что владельцы веб-сайтов должны добровольно принять меры, чтобы запретить OpenAI доступ к своим веб-сайтам и не использовать собственные данные для обучения.
Агент пользователя: GPTBotDisallow: /
Пользовательский доступ к GPTBot
Вы также можете контролировать доступ GPTBot к некоторому контенту веб-сайта с помощью следующего кода.
Агент пользователя: GPTBotAllow: /directory-1/Disallow: /directory-2/
Экспорт IP
Для сканера OpenAI веб-сайт будет вызываться из блока IP-адресов, записанных на веб-сайте OpenAI.
Горячая дискуссия в сети
Шаг OpenAI вызвал дискуссии среди пользователей сети об этических проблемах веб-сканеров, используемых для обучения моделей ИИ.
"OpenAI даже умеренно не цитирует. Он делает производные работы и не цитирует, тем самым скрывая тот факт, что он там есть".
Использованная литература: