自分の作品を守るために、作家や芸術家はさまざまな形の抗議活動に訴えてきました。作品をロックして人工知能が取得できないようにする人もいますし、人工知能が生成したコンテンツを公開する Web サイトをボイコットする人もいますし、人工知能の学習を妨げるために破壊的なコンテンツを書くことを選択する人もいます。
Googleの法務顧問であるハリマ・デレイン・プラド氏はメディアに対し、「私たちがオープンウェブへの投稿や公開データなど、公開ソースからのデータを使用していることは何年も前から誰の目にも明らかでした。サービスの背後にあるAIモデルをトレーニングするために収集された情報です」と語った。 Google 翻訳のようなものです」と彼女は述べ、「米国の法律は公開情報の新たな有益な利用の創造を支持しており、私たちはこれらの根拠のない主張に反論することを楽しみにしています。」と述べた。
知的財産法を研究するマイアミ大学のアンドレス・サウィッキ教授はインタビューで、企業が知的財産権をめぐって他社に訴訟を起こすことを認めた1992年の米国控訴裁判所の判決など、ハイテク企業に有利となる可能性のある前例がいくつかあると述べた。ソフトウェア コードは競合製品を設計するためにリバース エンジニアリングされます。しかし、大企業がクリエイターの作品を利用して新たな金儲けのツールを作るのは直感的に不公平だと多くの人が言う。 「生成型 AI に関する質問に答えるのは非常に難しいです」と彼は言いました。
この「データ蜂起」は長期的には大きな波紋を起こさないかもしれない。 Google や Microsoft などのテクノロジー大手はすでに膨大な独自データを保有しており、さらに多くのデータを取得する能力を持っています。しかし、コンテンツの入手が難しくなっているため、大手企業との対決を目指す新興企業や非営利団体は、システムをトレーニングするための十分なデータを入手できない可能性があります。
ちょうど7月初旬、カリフォルニア大学バークレー校のコンピューターサイエンス教授であり、『Artificial Intelligence: A Modern Approach』の著者でもあるスチュアート・ラッセル氏は、ChatGPTのようなAI駆動のロボットが間もなく「宇宙から使い果たされる可能性がある」と警告した。 「テキスト」、そして大量のテキストを収集してボットを訓練する技術は「苦戦し始めた」。
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
米国で「データ蜂起」勃発:ハリウッド文学、ジャーナリズム、ソーシャルメディアがAIに反逆
著者:インターン チェン・シャオルイ、記者 ファン・シャオ
出典: ザ・ペーパー
米国のサンタクララ大学法学部のエリック・ゴールドマン教授は、訴訟の波は始まったばかりで、人工知能の将来を決定づける「第2波、第3波」が到来すると考えている。
AI企業は、AIをトレーニングするために著作権で保護された作品を使用するのが合理的であると主張している。米国著作権法の「変形的使用」の概念への言及は、素材が「変形的」な方法で変更される場合には例外を設けることになる。
アメリカ脚本家組合は賃金引き上げ、ストリーミングメディアプラットフォームのシェア拡大、人工知能の監督などを求めて70日以上ストライキを続けている。
アメリカでは「データ反乱」が勃発しており、ハリウッド、アーティスト、作家、ソーシャルメディア企業、報道機関も反乱軍に加わっている。
すべての責任は、ChatGPT や Stable Diffusion などの生成人工知能ツールに向けられており、これらはコンテンツ作成者の著作物を許可や報酬なしに大規模な言語モデルをトレーニングするために違法に使用したとして告発されています。
この「データの蜂起」の中心にあるのは、オンライン情報 (ストーリー、アートワーク、ニュース記事、ウェブ投稿、写真) には未開発の重要な価値がある可能性があるという新たな認識です。インターネット上の公開コンテンツをスクレイピングする行為には長い歴史があり、これを行っているほとんどの企業や非営利団体はそれを公表しています。しかし、ChatGPT がリリースされる前、データ所有者は ChatGPT についてあまり知りませんでしたし、特に深刻な問題とも考えていませんでした。現在、一般の人々が AI トレーニングの基本についてさらに学ぶにつれて、状況は変わりました。
「これはデータの価値の根本的な再構築です。」とメディアのインタビューで Nomic の創設者兼 CEO の Brandon Duderstadt 氏は述べました。データにアクセスし、そこから価値を得るために広告を掲載することができます。現在、人々はそうしなければならないと考えています。データを保護します。」
波の後の潮
ここ数カ月間、レディットやツイッターなどのソーシャルメディア企業、ニューヨーク・タイムズやNBCなどの報道機関、SF作家のポール・トレンブレイや女優のサラ・シルバーマン(サラ・シルバーマン)などが、作品やデータの不正収集に反対する行動を起こしている。人工知能によって。この一連の動きはアメリカのメディアによって「データ反乱」と呼ばれた。
シルバーマン氏は先週、OpenAIとMetaに対し、両社のチャットボットが同氏の本の内容を正確に要約できるため、トレーニングデータに同氏の本の海賊版を使用したとして訴訟を起こした。さらに、ジョディ・ピクルト氏、マーガレット・アトウッド氏、ベト・タン・グエン氏を含む5,000人以上の著者が、テクノロジー企業に対し、書籍をトレーニングデータとして使用する際に許可を求め、著作権の帰属と補償金を与えるよう求める嘆願書に署名している。
自分の作品を守るために、作家や芸術家はさまざまな形の抗議活動に訴えてきました。作品をロックして人工知能が取得できないようにする人もいますし、人工知能が生成したコンテンツを公開する Web サイトをボイコットする人もいますし、人工知能の学習を妨げるために破壊的なコンテンツを書くことを選択する人もいます。
7月13日、ハリウッドの3大労働組合の一つで16万人の組合員を擁するSAG-AFTRAがストライキを発表、その前から全米脚本家組合は70日以上ストライキを続けていた。ニューヨーク・タイムズ紙によると、ゼネストにより1,340億ドル規模の米国の映画・テレビ産業が停止状態に陥り、俳優がAIやコンピューター生成の顔や声に置き換えられることはないことが保証されている。
一方、一部の報道機関はAIに抵抗している。ニューヨーク・タイムズ紙は6月、生成型AIの利用に関する社内メモの中で「AI企業はわれわれの知的財産を尊重すべきだ」と述べ、ニューヨーク・タイムズ紙やワシントン・ポスト紙などのオンライン出版社は声明で、著作権で保護されたAIの利用は、人工知能のトレーニングデータとしてのニュース記事には潜在的なリスクと法的問題があり、人工知能企業に対し、出版社の財産権と創造的労働に関する知識を尊重するよう求めた。
ソーシャルメディア企業も同様の姿勢をとっている。ソーシャルニュースサイトのレディットは4月、アプリケーションプログラミングインターフェース(API)へのアクセスに対してサードパーティに課金したいと発表した。 Redditの最高経営責任者(CEO)スティーブ・ホフマン氏は、自社が「世界最大手の企業にすべての価値を無料で提供する必要はない」と述べた。7月には、Twitterオーナーのイーロン・マスク氏(イーロン・マスク)も、一部の企業や組織が「 Twitter の大量のデータが違法に取得されました。「過度のデータ スクレイピングとシステム操作」に対応して、Twitter は個人アカウントが閲覧できるツイートの数を制限することを決定しました。
この「データ蜂起」には「訴訟の波」も含まれており、一部のAI企業はデータプライバシーの懸念を理由に複数回訴えられている。 11月、プログラマーのグループがMicrosoftとOpenAIに対して集団訴訟を起こし、両社が自社のコードを使って人工知能プログラミングアシスタントを訓練することで著作権を侵害したと主張した。今年6月、ロサンゼルスに本拠を置くクラークソン法律事務所は、OpenAIが未成年者からデータを収集した方法を指摘し、Webスクレイピングは著作権法に違反し「窃盗」に当たるとして、OpenAIとMicrosoftを相手取って151ページにわたる集団訴訟を起こした。同社はその後、Googleに対して同様の訴訟を起こした。
サンタクララ大学法学部のエリック・ゴールドマン教授(エリック・ゴールドマン)はメディアのインタビューで、この訴訟の主張は範囲が広すぎ、法廷で受け入れられる可能性は低いと述べた。しかし同氏は、訴訟の波は始まったばかりで、人工知能の将来を決定づける「第2波、第3波」が来ると主張する。
法的論争
OpenAI の ChatGPT と Dall-E、Google の Bard、Stability AI の Stable Diffusion、およびその他の生成 AI はすべて、インターネットから取得した大量のニュース記事、書籍、写真、ビデオ、ブログ投稿に基づいてトレーニングされており、公開されているものの多くは著作権で保護されています。
今年3月、OpenAIは同機関の主要言語モデルの分析報告書を発表し、トレーニングデータのテキスト部分にニュースサイト、ウィキペディア、現在は閉鎖されている海賊版データベース(LibGen)のデータが使用されていたことを示した。米国司法省。
7月13日、米連邦取引委員会(FTC)は20ページの文書をOpenAIに送り、消費者の権利規制に違反していないか調査するため、リスク管理、データセキュリティ、人工知能モデルの情報レビューに関する記録を提供するよう求めた。権利。
しかし、AI企業は公の場や訴訟への対応で、AIを訓練するために著作権で保護された作品を使用するのは合理的だと主張してきた。これは、米国著作権法の「変形的使用」の概念への言及であり、素材がA版で出版された場合に発生する。例外を生み出す「変革的な」変更方法。
Googleのグローバル担当社長、ケント・ウォーカー氏はインタビューで、「AIモデルは基本的にすべての情報から学習している。学生が図書館で本を読んでから、書き方や読み方を学ぶようなものだ」と語った。他の人の作品をコピーしたり、著作権を侵害したりしていないかを確認する必要があります。」
Googleの法務顧問であるハリマ・デレイン・プラド氏はメディアに対し、「私たちがオープンウェブへの投稿や公開データなど、公開ソースからのデータを使用していることは何年も前から誰の目にも明らかでした。サービスの背後にあるAIモデルをトレーニングするために収集された情報です」と語った。 Google 翻訳のようなものです」と彼女は述べ、「米国の法律は公開情報の新たな有益な利用の創造を支持しており、私たちはこれらの根拠のない主張に反論することを楽しみにしています。」と述べた。
知的財産法を研究するマイアミ大学のアンドレス・サウィッキ教授はインタビューで、企業が知的財産権をめぐって他社に訴訟を起こすことを認めた1992年の米国控訴裁判所の判決など、ハイテク企業に有利となる可能性のある前例がいくつかあると述べた。ソフトウェア コードは競合製品を設計するためにリバース エンジニアリングされます。しかし、大企業がクリエイターの作品を利用して新たな金儲けのツールを作るのは直感的に不公平だと多くの人が言う。 「生成型 AI に関する質問に答えるのは非常に難しいです」と彼は言いました。
マイアミ大学のジェシカ・D・リットマン・サウィッキー教授(著作権法)は、AIモデルの規模を考えると、フェアユースの原則はAI企業にとって強力な防御手段になると述べた。特定の人間。しかし、AI企業を訴えるクリエイターたちが、自分たちの作品によく似たAI出力の例を十分に示すことができれば、著作権が侵害されていると信じる十分な理由が得られるだろうと彼女は主張する。
AI 企業が対応し始める
AI企業は自社の製品にフィルタをインストールして、既存の作品とあまりにも類似したものを生成しないようにすることで、これを回避できるとサウウィッキー氏は述べた。たとえば、ビデオ サイト YouTube は、サイトにアップロードされた著作権で保護された作品を検出し、自動的に削除するテクノロジーをすでに使用しています。理論的には、AI 企業は既存の芸術作品、音楽、文章によく似た出力を見つけるアルゴリズムを構築することもできます。
この「データ蜂起」は長期的には大きな波紋を起こさないかもしれない。 Google や Microsoft などのテクノロジー大手はすでに膨大な独自データを保有しており、さらに多くのデータを取得する能力を持っています。しかし、コンテンツの入手が難しくなっているため、大手企業との対決を目指す新興企業や非営利団体は、システムをトレーニングするための十分なデータを入手できない可能性があります。
ちょうど7月初旬、カリフォルニア大学バークレー校のコンピューターサイエンス教授であり、『Artificial Intelligence: A Modern Approach』の著者でもあるスチュアート・ラッセル氏は、ChatGPTのようなAI駆動のロボットが間もなく「宇宙から使い果たされる可能性がある」と警告した。 「テキスト」、そして大量のテキストを収集してボットを訓練する技術は「苦戦し始めた」。
協力的な姿勢で波に乗っている企業もある。 OpenAIは声明の中で、「我々はクリエイターと著者の権利を尊重しており、彼らの利益を守るために今後も彼らと協力し続けることを楽しみにしている。」と述べた。7月14日、AP通信は1985年からのニュース記事のアーカイブを米国にライセンス供与することに同意したOpenAI を活用しながら、OpenAI のテクノロジーと製品も活用します。
グーグルはまた、パブリッシャーが将来的に自社のコンテンツをどのように管理するかについての交渉に関与していると声明で述べた。同社は「誰もが活気に満ちたコンテンツエコシステムから恩恵を受けることができると信じている」と述べた。
人工知能企業ハギングフェイスの主任倫理科学者マーガレット・ミッチェル氏はメディアのインタビューで、「データ収集システム全体を変える必要があり、残念ながらそれは訴訟を通じて達成する必要がある。 「訴訟や新たな規制のために、OpenAIが年末までに自社製品の1つを完全に廃止しても驚かないだろう」と彼女は語った。