GPT-5はそう遠くないです！ OpenAI は、データを自動的に取得し、選択的にオフにすることができる Web クローラー GPTBot を起動しました。

2023-08-08 06:14:41

追記：ピーチはとても眠いです

出典：新志源

ガイド: たった今、OpenAI は、インターネット全体からデータを自動的に取得できる Web クローラーである GPTBot を起動しました。結果として得られるデータは、GPT-4 や GPT-5 などの AI モデルのトレーニングに使用されます。

少し前に、プラットフォームのユーザーデータの取得に関する混乱があり、Redditのネチズンが議論していました。

本日、OpenAI は、Web サイトのデータを自動的に収集できる Web クローラーツール GPTBot をリリースしました。

＃＃ **使い方？ **

OpenAIは公開文書の中で、Webクローラーは有料アクセスを必要とするソースをフィルタリングして削除するだけでなく、個人を特定できる情報（PII）やポリシーに違反するテキストも削除すると述べた。

GPTBot によってキャプチャされたデータは、GPT-4 または GPT-5 のトレーニングに使用され、将来の人工知能システムの精度と機能を向上させることができます。

このツールは次のコードで識別できます。

ユーザーエージェントトークン: GPTBotFull ユーザーエージェント文字列: Mozilla/5.0 AppleWebKit/537.36 (Gecko のような KHTML、互換性、GPTBot/1.0、+

GPTBot へのアクセスを禁止します

一方、GPTBot をサイト robots.txt に追加することで、GPTBot が Web サイトにアクセスできないようにすることもできます。

これは、Web サイト所有者が、OpenAI が自分の Web サイトにアクセスしたり、自分のデータをトレーニングに使用したりすることを禁止する措置を自主的に講じる必要があることを意味します。

ユーザーエージェント: GPTBotDisallow: /

次のコードを使用して、Web サイトの一部のコンテンツへの GPTBot のアクセスを制御することもできます。

ユーザーエージェント: GPTBotAllow: /directory-1/Disallow: /directory-2/

IP エクスポート

OpenAI のクローラーの場合、Web サイトは OpenAI Web サイトに記録された IP アドレスのブロックから呼び出されます。

OpenAIの動きは、AIモデルのトレーニングに使用されるWebクローラーの倫理的問題についてネチズンの間で議論を引き起こした。

「OpenAIは適度な引用さえしていません。引用せずに派生著作物を作成しているため、OpenAIが存在するという事実が曖昧になっています。」

ネットユーザーは、OpenAI がモデルをトレーニングするためにネットワークデータを取得するのを防ぐチャンスがついに来たと述べています。

また、ChatGPT ブラウザアドオンは、ペイウォールの背後にあるコンテンツへのアクセスを許可していたこともあり、しばらく削除されていたことも示唆されています。

少し前に、OpenAI は 7 月 18 日に GPT-5 の商標出願を米国特許庁に提出し、同社がより高度な AI システムをトレーニングしていることを示唆しました。

GPTBot は、OpenAI がモデルをトレーニングするためにインターネットからより多くのデータを収集するのに役立つようです。

参考文献:

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

0/400

コメントなし