追記:ピーチはとても眠いです出典:新志源**ガイド:** たった今、OpenAI は、インターネット全体からデータを自動的に取得できる Web クローラーである GPTBot を起動しました。結果として得られるデータは、GPT-4 や GPT-5 などの AI モデルのトレーニングに使用されます。少し前に、プラットフォームのユーザーデータの取得に関する混乱があり、Redditのネチズンが議論していました。本日、OpenAI は、Web サイトのデータを自動的に収集できる Web クローラー ツール GPTBot をリリースしました。## **使い方? **OpenAIは公開文書の中で、Webクローラーは有料アクセスを必要とするソースをフィルタリングして削除するだけでなく、個人を特定できる情報(PII)やポリシーに違反するテキストも削除すると述べた。GPTBot によってキャプチャされたデータは、GPT-4 または GPT-5 のトレーニングに使用され、将来の人工知能システムの精度と機能を向上させることができます。このツールは次のコードで識別できます。ユーザー エージェント トークン: GPTBotFull ユーザー エージェント文字列: Mozilla/5.0 AppleWebKit/537.36 (Gecko のような KHTML、互換性、GPTBot/1.0、+## **GPTBot へのアクセスを禁止します**一方、GPTBot をサイト robots.txt に追加することで、GPTBot が Web サイトにアクセスできないようにすることもできます。これは、Web サイト所有者が、OpenAI が自分の Web サイトにアクセスしたり、自分のデータをトレーニングに使用したりすることを禁止する措置を自主的に講じる必要があることを意味します。ユーザーエージェント: GPTBotDisallow: /## **カスタム GPTBot アクセス**次のコードを使用して、Web サイトの一部のコンテンツへの GPTBot のアクセスを制御することもできます。ユーザーエージェント: GPTBotAllow: /directory-1/Disallow: /directory-2/**IP エクスポート**OpenAI のクローラーの場合、Web サイトは OpenAI Web サイトに記録された IP アドレスのブロックから呼び出されます。## **ネチズンの熱い議論**OpenAIの動きは、AIモデルのトレーニングに使用されるWebクローラーの倫理的問題についてネチズンの間で議論を引き起こした。「OpenAIは適度な引用さえしていません。引用せずに派生著作物を作成しているため、OpenAIが存在するという事実が曖昧になっています。」 ネットユーザーは、OpenAI がモデルをトレーニングするためにネットワーク データを取得するのを防ぐチャンスがついに来たと述べています。  また、ChatGPT ブラウザ アドオンは、ペイウォールの背後にあるコンテンツへのアクセスを許可していたこともあり、しばらく削除されていたことも示唆されています。 少し前に、OpenAI は 7 月 18 日に GPT-5 の商標出願を米国特許庁に提出し、同社がより高度な AI システムをトレーニングしていることを示唆しました。 GPTBot は、OpenAI がモデルをトレーニングするためにインターネットからより多くのデータを収集するのに役立つようです。参考文献:
GPT-5はそう遠くないです! OpenAI は、データを自動的に取得し、選択的にオフにすることができる Web クローラー GPTBot を起動しました。
追記:ピーチはとても眠いです
出典:新志源
ガイド: たった今、OpenAI は、インターネット全体からデータを自動的に取得できる Web クローラーである GPTBot を起動しました。結果として得られるデータは、GPT-4 や GPT-5 などの AI モデルのトレーニングに使用されます。
少し前に、プラットフォームのユーザーデータの取得に関する混乱があり、Redditのネチズンが議論していました。
本日、OpenAI は、Web サイトのデータを自動的に収集できる Web クローラー ツール GPTBot をリリースしました。
## **使い方? **
OpenAIは公開文書の中で、Webクローラーは有料アクセスを必要とするソースをフィルタリングして削除するだけでなく、個人を特定できる情報(PII)やポリシーに違反するテキストも削除すると述べた。
GPTBot によってキャプチャされたデータは、GPT-4 または GPT-5 のトレーニングに使用され、将来の人工知能システムの精度と機能を向上させることができます。
このツールは次のコードで識別できます。
ユーザー エージェント トークン: GPTBotFull ユーザー エージェント文字列: Mozilla/5.0 AppleWebKit/537.36 (Gecko のような KHTML、互換性、GPTBot/1.0、+
GPTBot へのアクセスを禁止します
一方、GPTBot をサイト robots.txt に追加することで、GPTBot が Web サイトにアクセスできないようにすることもできます。
これは、Web サイト所有者が、OpenAI が自分の Web サイトにアクセスしたり、自分のデータをトレーニングに使用したりすることを禁止する措置を自主的に講じる必要があることを意味します。
ユーザーエージェント: GPTBotDisallow: /
カスタム GPTBot アクセス
次のコードを使用して、Web サイトの一部のコンテンツへの GPTBot のアクセスを制御することもできます。
ユーザーエージェント: GPTBotAllow: /directory-1/Disallow: /directory-2/
IP エクスポート
OpenAI のクローラーの場合、Web サイトは OpenAI Web サイトに記録された IP アドレスのブロックから呼び出されます。
ネチズンの熱い議論
OpenAIの動きは、AIモデルのトレーニングに使用されるWebクローラーの倫理的問題についてネチズンの間で議論を引き起こした。
「OpenAIは適度な引用さえしていません。引用せずに派生著作物を作成しているため、OpenAIが存在するという事実が曖昧になっています。」
参考文献: