ГПТ-5 не за горами! OpenAI запустил веб-краулер GPTBot, который автоматически собирает данные и может быть выборочно отключен.

2023-08-08 06:14:41

Редактировать: Персик такой сонный

Источник: Синьчжиюань

Руководство: Только что OpenAI запустила GPTBot — поисковый робот, который может автоматически собирать данные со всего Интернета. Полученные данные будут использованы для обучения таких моделей ИИ, как GPT-4 и GPT-5!

Некоторое время назад произошла суматоха с захватом пользовательских данных платформы, и пользователи сети Reddit спорили.

Сегодня OpenAI запустила инструмент веб-краулера GPTBot, который может автоматически очищать данные веб-сайтов.

как использовать?

В опубликованном документе OpenAI говорится, что веб-сканер будет фильтровать источники, требующие платного доступа, а также удалять личную информацию (PII) или текст, нарушающий его политику.

Данные, собранные GPTBot, используются для обучения GPT-4 или GPT-5, что может повысить точность и возможности будущих систем искусственного интеллекта.

Инструмент можно идентифицировать по следующему коду:

Токен пользовательского агента: GPTBotFull строка пользовательского агента: Mozilla/5.0 AppleWebKit/537.36 (KHTML, например Gecko; совместимо; GPTBot/1.0; +

Запретить доступ к GPTBot

С другой стороны, вы также можете запретить GPTBot доступ к веб-сайтам, добавив его в robots.txt сайта.

Это означает, что владельцы веб-сайтов должны добровольно принять меры, чтобы запретить OpenAI доступ к своим веб-сайтам и не использовать собственные данные для обучения.

Агент пользователя: GPTBotDisallow: /

Пользовательский доступ к GPTBot

Вы также можете контролировать доступ GPTBot к некоторому контенту веб-сайта с помощью следующего кода.

Агент пользователя: GPTBotAllow: /directory-1/Disallow: /directory-2/

Экспорт IP

Для сканера OpenAI веб-сайт будет вызываться из блока IP-адресов, записанных на веб-сайте OpenAI.

Горячая дискуссия в сети

Шаг OpenAI вызвал дискуссии среди пользователей сети об этических проблемах веб-сканеров, используемых для обучения моделей ИИ.

"OpenAI даже умеренно не цитирует. Он делает производные работы и не цитирует, тем самым скрывая тот факт, что он там есть".

Пользователи сети заявили, что наконец-то появился шанс помешать OpenAI собирать ваши сетевые данные для обучения модели.

Также было высказано предположение, что надстройка браузера ChatGPT была удалена на некоторое время, отчасти потому, что она разрешала доступ к контенту за платным доступом.

Некоторое время назад, 18 июля, OpenAI подала заявку на товарный знак для GPT-5 в Патентное ведомство США, предполагая, что компания обучает более продвинутую систему ИИ.

GPTBot, по-видимому, поможет OpenAI собрать больше данных из Интернета для обучения модели.

Использованная литература:

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .