OpenAI もデータに苦労しています。同社は、自身を制限するためにクローラーを使用することは世間の疑惑を払拭するのが難しいことを認めています

出典: 「科学技術イノベーション委員会日報」

ソング・ジチャオを編集

画像ソース: Unbounded AI によって生成

データ、計算能力、アルゴリズムは生成 AI の 3 つの中心要素とみなされますが、どれがより重要であるかを言うのは困難です。

しかし、OpenAI のようなスター企業にとって、コンピューティング能力は基本的に経済問題です。大企業はその「資金力」のおかげで高価なハードウェアを大量に買いだめしており、データ不足の問題はさらに頭の痛い問題です。彼らは道徳的危機に陥っています。

OpenAI を例に挙げると、AI モデルをトレーニングするために公開データを取得するその動作は、長い間物議を醸してきました。 **海外テクノロジーメディア Insider の最新レポートによると、OpenAI は最近、大規模モデルのトレーニング用のデータをクロールして収集するために使用される GPTBot という名前の Web クローラー ロボットを発売したことを認めました。 **

OpenAI は「データ窃盗」の疑いがある

Web クローラーとは、人間 (ネットワーク ユーザー) の動作を模倣し、ネットワーク情報を自動的に閲覧および収集するコンピューター プログラムです。 Web クローラーはアクセスしたデータを保存でき、データ グラバーはデータを分析して再利用し、インターネット ユーザーの好みを推測して、一致するユーザー グループにプッシュします。

**OpenAI のクローラー ボットがどのくらいの期間オンラインに潜んでいるかは不明であり、OpenAI が数か月または数年にわたって秘密裏に全員のオンライン データを収集しているのではないかと疑う人もいます。 **

このような「告発」に直面したOpenAIは積極的に弁護し、GPTBotはペイウォールのルールを厳格に遵守し、支払いを必要とする情報を取得せず、個人を特定できるデータを収集しないと述べた。

さらに、OpenAI は GPTbot をブロックする方法を開始しており、ユーザーは robots.txt ファイルを変更するか、IP アドレスをブロックしてクローラーによるアクセスを拒否できます。同社は最近、OpenAIがAIのトレーニングデータに必要なAPコンテンツの代金を支払うというAP通信との契約も発表した。

失われた信頼

データ収集手段としてのクローラー技術自体には合法と違法の区別はありません。 **しかし、クローラーツールに制限を設けるというOpenAIの取り組みは、この大手模範企業に対する国民の信頼を回復することはできそうにない。 **

ベテランSF雑誌「クラークワールド」の編集長でヒューゴー賞受賞者のニール・クラーク氏は、「OpenAIやその他の大規模モデル会社は、著者やアーティストの権利を尊重していないことを繰り返し示してきた」と述べた。およびその他のクリエイティブな人々。主に他者の著作権で保護された作品に基づいています。」

同氏はまた例を挙げ、「CCBotはCommon Crawl組織が運営する別のクローラーロボットだ。Common Crawlは現在、人工知能モデルのトレーニングデータの主要サプライヤーである。私の知る限り、Common Crawlにデータ削除を依頼することに成功した人はいない」と語った。 「試してみましたが、反応はありませんでした。」とクラークさんは言いました。

一方で、大企業と戦うとなると、一般人は不利な立場に立つことがほとんどです。クラーク氏が言ったように、OpenAI は(Associated Press)のような大企業のデータに喜んでお金を払うのに、なぜ他の人の情報にはお金を払わないのでしょうか? 「この件についてOpenAIに問い合わせましたが、返答はありませんでした。」

しかし、Clark 自体は OpenAI とは対極に位置しており、彼が設立した「Clark World」は AI が生成するコンテンツの氾濫に直面しています。クラーク氏は、昨年末にChatGPTが開設されてからAI生成のスパム投稿が急増し、そのような著作物を検出するコストが高額になったため、同誌が原稿募集を一時停止したと指摘した。

## 結論

OpenAIはこれまでにも、クラークソン法律事務所やポール・トレンブレイ氏やモナ・アワド氏などのベストセラー作家らが推進した集団訴訟など、著作権問題で複数の当事者から訴訟を起こされており、著名人らが実名で訴訟を起こしている。

生成型 AI テクノロジーがさらに反復されると、同様の紛争は増加するばかりです。

大企業ほど社会の批判の対象となりやすく、たとえ責任を負ってもデータ取得の徹底は容易ではない。パラメーターが膨大なため、大規模なモデルは分散コンピューティングやクラウド サービスなどのテクノロジーを利用してトレーニングおよびデプロイする必要があり、データの盗難、改ざん、悪用、漏洩のリスクが高まります。

個人のプライバシーの保護と技術革新の促進のバランスをとる方法、および企業の存続と準拠した生産の間の最適な道を見つける方法は、生成 AI に専念するすべての企業にとってすでに避けられない問題です。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)