GPT-5不遠了! OpenAI推出網絡爬蟲GPTBot,自動抓取數據,可選擇性關閉

編輯:桃子好困

來源:新智元

**導讀:**就在剛剛,OpenAI推出了GPTBot——一個可以自動從整個互聯網抓取數據的網絡爬蟲。得到的這些數據則會被用來訓練像GPT-4和GPT-5這樣的AI模型!

前段時間,抓取平台用戶數據風波,Reddit網友吵翻了天。

今天,OpenAI推出了一個網絡爬蟲工具GPTBot,能夠自動抓取網站的數據。

**如何使用? **

OpenAI在發布的文檔中表示,網絡爬蟲將過濾刪除需要付費強訪問的來源,同時也會刪除個人身份信息(PII)或違反其政策的文本。

GPTBot抓取的數據,被用來訓練GPT-4或GPT-5,能夠提升未來人工智能係統的準確性和能力。

可通過以下代碼識別該工具:

用戶代理令牌:GPTBotFull 用戶代理字符串:Mozilla/5.0 AppleWebKit/537.36(KHTML,如 Gecko;兼容;GPTBot/1.0;+

禁止GPTBot訪問

另一方面,你也可以通過將GPTBot添加到站點robots. txt,來禁止其訪問網站。

這意味著,網站所有者必須自願採取措施,禁止OpenAI對自己的網站訪問,不將自己的數據用來訓練。

用戶代理:GPTBotDisallow:/

自定義GPTBot訪問

你還可以通過以下代碼,來控制GPTBot對網站部分內容的訪問。

用戶代理:GPTBotAllow:/directory-1/Disallow:/directory-2/

IP出口

對於OpenAI的爬蟲,將從OpenAI網站上記錄的IP地址塊調用網站。

網友熱議

OpenAI此舉引發了網友對用於訓練AI模型的網絡爬蟲的道德問題的討論。

「OpenAI甚至沒有適度引用。它是在製作衍生作品,卻沒有引用,從而掩蓋了它的事實。」

網友表示,終於有機會阻止OpenAI抓取你的網絡數據,來訓練模型。

還有人表示,ChatGPT瀏覽器插件已被移除一段時間,部分原因是它可以訪問付費牆後面的內容。

前段時間,OpenAI於7月18日向美國專利局提交了GPT-5的商標申請,暗示著公司正在訓練更高級的AI系統。

GPTBot顯然將幫助該OpenAI從互聯網上收集更多數據來訓練這個模型。

參考資料:

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)