大手AI企業にこのように「盗まれる」ままにしておくと、無料のWebサイトが表示されなくなるかもしれません

巴比特_

2023-07-12 02:02:10

出典: 悪いレビュー

画像ソース: Unbounded AI によって生成‌

数日前、Googleは突然プライバシーポリシーを更新し、インターネット上のすべての公開データを使用して独自のAIモデルをトレーニングすることを明らかにした。

つまり、新しいポリシーによれば、投稿、検索したキーワード、視聴した動画などを含むがこれらに限定されない、インターネット上に公開されたあらゆる情報が Google によってクロールされる可能性があります。

これは適切なネットストリーキングではないでしょうか！

OpenAIがデータ侵害で訴えられてから間もなく、Googleは急いで攻撃を開始した。

現時点では、データ料金とは関係がない可能性が高く、Google がこの無料ウールの波を集めなければ、将来的には集められなくなる可能性が非常に高いです。 **

ChatGPTが普及して以来、この問題は絶えることがありません。

Shichao が最初にタイムラインの概要を説明します。

今年3月、マスク氏は先頭に立ってデータ料金の先制攻撃を開始し、TwitterのAPIインターフェースはもはや無料ではないと宣言した。

その直後、米国版ポストバーであるレディットは耐えられなくなった。

先月、Reddit の「ブラックアウト」キャンペーンは、公式の API 料金ポリシーに対する抗議でした。

Shichao 氏が以前この件について書いたとき、Reddit 関係者が最終的に譲歩するかどうかまだ推測していました。

現在の追跡調査から判断すると、ほとんどのサードパーティソフトウェアがシャットダウンされたことが確認されており、Reddit はデータ料金を請求することを決定しています。

この期間中、Twitterはレート制限を再度調整し、認証にお金を費やさないアカウントは1日あたり600件の投稿しか読むことができません。これはロボットがユーザーデータを取得するのを防ぐためでもあります。

データってそんなに貴重なものなのでしょうか？

シーチャオは、やはり**AIのせいだと感じました。 **

大きな AI モデルがより賢くなりたい場合は、「フィード」するためのデータの安定したストリームが必要です。

現在、大規模なモデルを作成できる人は、Baidu、Ali、Tencent などの独自のデータを持っているか、他の人のデータをクロールしているかのどちらかです (ここでは OpenAI と呼ばれています)。

多くの Web サイトにはオープンで無料の API インターフェイスがあるため、Microsoft や OpenAI などの大手企業にチャンスが与えられています。

しかし、今日は過去とは異なり、AI がデータ価値を再び与えた後、チップを手にしたプラットフォームは、当然のことながら、無償で売春されることを絶対に嫌がります。 **

RedditのCEOホフマンでさえ、巨人に無料でデータを提供したくないだけだと明言した。

したがって、OpenAIの起訴は、おそらくプラットフォームが「ニワトリとサルを殺し」、AIの不健全な傾向を治すために団結したという事実によるものである。

しかし、今回この法律がOpenAIの側に立つかどうかは分からない。

データの著作権には次の 3 つの重要な問題が含まれるためです。

**1. データクローラー自体の動作は合法ですか? **

**2. データは著作権で保護されていますか? **

**3. データから生成された作品は著作権で保護されていますか? **

まず、最初のデータを取得するということですが、これはお金を払って購入したり、インターネット上で公開されているデータを収集したりすることに他なりません。

ただし、公開データは許可された使用と同等ではないことに注意してください。また、Web サイトにデータクローラーの動作を制限する関連条項があるかどうかにも依存します。

著作権者の承諾を直接超えたり、Webサイトの制限を回避して強制的にデータを取得した場合は、コンピュータ情報システムのデータを不正に取得する犯罪となります。

OpenAI が公開 Web サイトからデータをクロールすると主張したとしても、データのクロール行為自体が合法であるかどうかは、著作権所有者が許可を与えているかどうかによって異なります。

2つ目は、データ自体が著作権の対象であるかどうかについてです。

米国の著作権法によれば、AIモデルのトレーニングに使用されるデータが「フェアユース」の範囲内にある場合、著作権侵害にはならないとされている。

しかし、問題はこの「フェアユース」にあります。

「フェアユース」の構成要素には、商業利用の有無、作品自体が著作権法で保護されているかどうか、使用されているパーツの数、使用後の作品自体への影響などが含まれます。

ニュースレポートや学術研究と同様、適切な引用はまったく問題ありません。

AI モデルや商用化された AI ソフトウェアにおける数億レベルのデータ使用は、依然として「フェアユース」としてカウントされますか?

最後に、AI 生成された作品の著作権の問題があります。

学習データの著作権は明確ではないため、AIが生成したコンテンツには当然著作権紛争が発生します。数日前、Steam も著作権上の問題があるという理由で、AIGC を使用して生成されたゲームを削除しました。

AI ペイントを例に挙げると、画像の生成は分割して再構成するプロセスに相当し、最終的な結果は完全に「新しい」ものですが、トレーニング画像のいくつかの特徴がまだ残っています。

しかし、この状況を侵害とみなすかどうかについては、各国の意見が分かれています。

トレーニングデータは他人のものであるため、米国著作権局は、AIによって生成された作品は著作権法で保護されず、著作権を侵害する可能性さえあると判断した。

日本の法律はAIの学習に使われたデータの著作権を保護していないとして、日本政府の態度は大きく異なっている。

少なくとも現在の法的枠組みの下では、上記の疑問に対して統一的な答えを得ることは困難です。

監督が弱いので著作権者が自分でやるしかなく、もし料金を請求されるなら早く回収すべきものは回収すべきです。

▼OpenAI訴訟文書

Twitter や Reddit の後、さらに多くのコンテンツ著作権団体が高い壁を築く可能性があることが予測されます。

もちろん、この問題はプラットフォームにとって新たな金儲けの方法であり、テクノロジー大手がどれほど悪かろうと、彼らはより多くの資金を投じるだろう。

しかし、インターネット全体にとって、それは良いことではありません。

当時、Wikipedia や Twitter など、オープン共有の遺伝子を持ったインターネットが誕生し、API インターフェイスが一年中無料で提供され、開発者にとってデータの呼び出しが非常に便利になりました。

しかし現在、このようにデータ料金の導入が許可された場合、結果がどうなるかは予測が難しい。

結局のところ、小規模な開発者には莫大なデータ料金を支払う能力はありません。イノベーションが巨大企業でのみ発生するのであれば、これは純粋な独占ではないでしょうか?

最も重要なことは、現在無料で閲覧できる多くの Web サイトは、後で閲覧する必要がある可能性があるということであり、これは私たちのような一般ユーザーにとって非常に重要です。

実際のところ、データ料金のすべてをプラットフォームのせいにすることはできず、AI 大手企業が「強奪」を恐れるようになっており、これは保身のための無力な行為です。

今回Googleは「プライバシーポリシー」を設けたが、結果がどうなるかは分からない。

したがって、鍵となるのは、いつ監督という大槌が下されるかである。

データの著作権の明確化はAIの発展において避けては通れないハードルであり、今やインターネットの今後の方向性にも関わってきそうです。

AI船は私たちをよりオープンな時代、あるいはクローズドな時代へと押し進めるのだろうか？

原文表示

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 いいね

報酬
1
コメント
共有

0/400

コメントなし

トピック
GT 2025 Q2 Burn Completed
13k 人気度
Michael Saylor Hints at Buying BTC
10k 人気度
BTC
30453k 人気度
4contentstar
10720k 人気度
5NADA
11186k 人気度
6BOME
11565k 人気度
7BTC
30453k 人気度
8SMILE
9062k 人気度
9比特币
13441k 人気度

ピン

サイトマップ