最初の ChatGPT 著作権訴訟: OpenAI は 6 つの罪に問われ、書籍の要約を出力したとして「逮捕」された

2023-08-07 02:33:22

出典: テンセントテクノロジー

画像ソース: Unbounded AI によって生成‌

2023 年 6 月 28 日、最初の代表的な ChatGPT 著作権侵害訴訟がついに世間の注目を集めました。 2人の作家がカリフォルニア北部地方裁判所にOpen AIに対して著作権集団訴訟を起こし、後者が商業的利益のために許可なくChatGPTを訓練するために著作権で保護された書籍を使用したとして告訴した。

原告のポール・トレンブレイとモナ・アワドはマサチューセッツ州に住んでおり、それぞれ訴訟に関係する作品「世界の終わりの小屋」と「太った女の子とバニーを見る13の方法」の著作権を所有しており、被告はオープン AI が生成および運用する人工知能製品 ChatGPT は現在、主に 2 つの基礎となる大規模言語モデル、GPT-3.5 と GPT-4 によって駆動されています。

訴状では、原告はOpen AIに自身の著作権で保護された書籍をモデルトレーニングに使用することを許可していなかったものの、ChatGPTはコマンドに従って書籍の概要を出力できたが、これは被告がコーパスに関係する書籍を含めた場合にのみ起こり得ることを指摘した。トレーニング用に。

01 は本の概要を出力するために「キャプチャ」されました

原告は、Open AI トレーニングデータセットに含まれる大量のコンテンツは、原告が著作権を有する書籍を含め、著作権で保護された著作物であると述べました。しかし、オープンAIは原告の同意を得ておらず、コンテンツの出典も明示しておらず、必要な料金も支払っていません。原告が出版した書籍には、出版番号、著作権番号、著作権者名、利用条件などの著作権管理情報が明確に記載されている。

**原告は、既存の事実と情報から、ChatGPT が特定の書籍の概要を正確に生成できる唯一の説明可能な理由は、Open AI が関連する書籍を取得してコピーし、それをその大規模言語モデル (GPT3. 5 または GPT4) トレーニング。 **

原告のテストでは、ChatGPT が s を通じて事件に関係する 2 冊の書籍を要約するように依頼された場合、ChatGPT はより正確な要約を生成できることがわかりました (ただし、少量の間違った内容もありました)。これは、ChatGPT が特定の作業の内容をトレーニングデータセットに保存し、対応するテキストを出力できることを示しています。同時に、大規模言語モデルのコンテンツ生成原理の設計により、ChatGPT の出力コンテンツにはオリジナルの著作権管理情報が含まれなくなります。

02「ChatGPT、どうやって走るの！」

**この訴訟で興味深い点は、Open AI の侵害を証明する過程で、原告による ChatGPT の基本原則の導入が、ChatGPT との対話と「自己紹介」を求めることに基づいていたことです。具体的な内容をまとめると以下のようになります。 **

Open AI は、GPT-1 (2018.6)、GPT-2 (2019.2)、GPT-3 (2020.5)、GPT-3.5 (2022.3)、および最新の GPT-4 (2023.3) を含む一連の大規模な言語モデルをリリースしました。。一般に、人工知能ソフトウェアは、統計的手法を使用して、アルゴリズムを通じて人間の論理と推論をシミュレートすることを目的としています。大規模言語モデルは、自然言語を解析して出力するために使用される特殊な人工知能ソフトウェアの一種です。

**一方で、Open AI は Web ページを通じて月額 20 ドルの料金で ChatGPT をユーザーに提供します。 **ユーザーは、ChatGPT の 2 つのバージョン、GPT-3.5 モデルまたは更新された GPT-4 モデルを選択できます。 ** 一方、ChatGPTはソフトウェア開発者にもAPIの形で提供されています。 **API インターフェイスにより、開発者は ChatGPT とデータ交換するためのプログラムを作成できます。この場合、使用量に応じて課金されます。

** サービスがページ形式で提供される場合でも、API 形式で提供される場合でも、ChatGPT はユーザーのリクエストに積極的に応答します。 **ユーザーが ChatGPT に質問すると、ChatGPT は答えを返します。ユーザーが ChatGPT に指示を与えると、ChatGPT はそれを実行します。ユーザーが ChatGPT に本の概要を要約するよう依頼した場合でも、ChatGPT はそれを実行します。

03 書籍は大規模モデルトレーニングのコアコーパスです

原告の見解は、エンジニアによって書かれた従来のソフトウェアとは異なり、大規模な言語モデルは、さまざまなソースから大量のコンテンツコーパスを収集し、それらをモデルに「フィード」する「トレーニング」を通じて開発されるというものです。 (トレーニングデータセット)。

大規模な言語モデルは、トレーニングされた作品内の一連のテキストの組み合わせにできるだけ近づくように出力を常に調整します。 ** 大規模な言語モデルのトレーニングには多くのコンテンツが使用されますが、書籍は高品質な長文の最良の例を提供するため、常にトレーニングデータセットの中核となるコーパス素材であることは注目に値します。 **

2018 年 6 月に発行された企業文書「生成的事前トレーニングによる言語理解を向上させる」の中で、Open AI は、GPT-1 のトレーニングが「BookCorpus」データセットに依存していることを明らかにしました。「BookCorpus」には、冒険、ファンタジー、ロマンスなど、さまざまな分野の書籍 7,000 冊が収録されています。 **Open AI は、書籍がトレーニングコーパスとして特に重要である理由は、書籍には長く連続したテキストが含まれており、これにより生成モデルが長いテキスト情報の処理方法を学習できるからであると指摘しました。 **

** Open AI、Google、Amazon などの多くの人工知能研究開発企業は、モデルのトレーニングに「BookCorpus」を使用しています。 ** 2015 年に人工知能研究チームがこのデータセットを作成しました。これには Smashwords.com Web サイトの書籍が含まれていますが、「BookCorpus」はこれらの書籍を含める際に著作権所有者から許可を取得していませんでした。

04 GPT の背後にある書籍コーパスの謎を解く

原告は、Open AI の情報開示イニシアチブ (企業文書) を公的に調査することにより、GPT シリーズのモデルのトレーニングが膨大な書籍コンテンツの不正使用に基づいていることを証明したいと考えています。 **2020 年 7 月に発行された企業文書「言語モデルは小規模なサンプル学習者」の中で、Open AI は、GPT-3 トレーニングデータセットのコンテンツの 15% が「Books1」と「Books2」という 2 つの電子データベースからのものであることを明らかにしました。書籍コーパス。 **

Open AI は「Books1」と「Books2」の内容の詳細については説明していませんが、関連する手がかりから推測できます: 第一に、2 つのコーパスはインターネットからのものであり、第二に、2 つのコーパスの規模はインターネットよりも大幅に大きいです。「ブックコーパス」。 Open AIの開示によれば、「Books1」の規模はBookCorpusの9倍（約6万3,000冊）、Books2は42倍（約29万4,000冊）。 **実際には、このような大規模な書籍コーパスを提供できるデータベースはごく少数です。一方、「Books1」はおそらく「Project Gutenberg」または「Project Gutenberg Corpus Standardization」から来ています。 **Project Gutenberg は、「著作権保護期間を超えた」電子書籍のオンラインライブラリです。 2020 年 9 月、プロジェクトグーテンベルクは 60,000 冊以上の書籍が含まれていると発表しました。 Project Gutenberg は著作権で保護されていないため、人工知能モデルのトレーニングに広く使用されています。 2018年、人工知能研究チームは「プロジェクト・グーテンベルク」に基づいて5万冊以上の書籍からなる「標準化プロジェクト・グーテンベルグ・コーパス」（標準化プロジェクト・グーテンベルグ・コーパス）を作成した。 **一方、「Books2」はインターネット上の「Shadow Library」から派生した可能性が高いです。 **「Books2」データセットには約 29,400 冊の書籍が含まれており、このような大規模な書籍コーパスを提供できるのは、非常に批判されている「シャドウライブラリ」だけです。例としては、Library Genesis、Z-Library、Sci-Hub、Bibliotik などが挙げられます。「影の図書館」という用語は、2011 年に発表された記事「新興経済におけるメディア著作権侵害」の中で米国社会科学研究評議会によって造語されました。 2023 年 3 月、Open AI は GPT-4 エンタープライズペーパーをリリースしましたが、「業界の競争状況と製品アプリケーションのセキュリティを考慮して、トレーニングデータセットの構造と内容は今後公開されません。」と述べられています。

05 Open AI は 6 件の侵害申し立てに直面している

**原告はOpen AIに対して合計6件の申し立てを起こしており、最初の3件は著作権侵害に関するもの、4件目は不正競争に関するもの、5件目と6件目は注意義務と不当利得という2つの基本的な種類の民事責任に関わるものである。 **

**まず、著作権の直接侵害です。 **原告は、Open AI に対し、その書籍の複製または二次的著作物を作成することを許可しておらず、また、Open AI に上記の複製または派生的著作物を公に展示または配布することも許可していません。

また、原告は、Open AI大型言語モデルが動作するには、原告の書籍から表現情報を抽出して保存する必要があるため、大型言語モデル自体が原告の許可なく侵害的な二次的著作物に当たると強調した。

**第二に、著作権代替侵害。 **原告は、許可がない場合、大きなモデルの各出力は侵害的な二次的著作物を構成すると強調しました。 Open AI は、大規模言語モデルのコンテンツ出力を制御し、そこから経済的利益を得る権利と能力を持っているため、著作権代替侵害となります。

アメリカの判例法体系では、「侵害の代替」、「侵害の幇助」、「侵害の教唆」が合わせて完全な間接著作権侵害の体系を構成しています。間接侵害は直接侵害の反対で、侵害者が著作権の排他的権利によって規制される行為（つまり、直接著作権侵害）を直接行っていないにもかかわらず、著作権の直接侵害に一定の条件を与えることを意味します。

**第三に、DMCA の著作権管理情報の規定に違反します。 **製品設計の仕組み上、ChatGPTが出力するコンテンツには作品の「著作権管理情報」(CMI)が残らないため、原告作品の著作権管理情報を故意に削除する被告の行為は「デジタル著作権法」に違反する。ミレニアム著作権法」(DMCA) の規定。さらに、被告らは、著作権管理情報を持たずに権利を侵害する二次的著作物を無許可で配布するというDMCAにも違反した。

「著作権管理情報」とは、作品の所有者、権利の帰属、利用条件などを特定できる情報です。米国でも私の国でも、著作権管理情報を削除または変更したり、削除または変更された著作権管理情報を含む著作物を公衆に公開したりすることは違法です。

**第四に、不当な競争。 **Open AI による原告の著作物のモデルトレーニングへの不正使用は、不適切、非道徳的、強制的であり、消費者の利益に有害であるため、カリフォルニア州ビジネスおよび職業法に違反します。

被告は、コンテンツの出典を示さずに、原告の著作物の抜粋と要約を出力するように ChatGPT を意図的に設計しました。 ChatGPT は、著作者を隠し、侵害された作品の内容や意見をコピーすることで、不当な利益や評判を得るために商用製品を開発しています。

**第五に、過失侵害は注意義務違反です。 **オープン AI は、「カリフォルニア州民法」に規定されている注意義務を負う必要があります。すべての人は他者に対して合理的な行動をとる必要があります。この義務は、業界の慣習、商習慣、被告が保有する情報、およびその情報に基づいて管理する能力に基づいています。

** 第六に、不当利得。 **原告は、問題の書籍の作成に多大な時間と労力を費やした。原告自身の著作物が許可なく GPT モデルのトレーニングに使用されたため、原告はその著作物から利益を得る権利を剥奪されました。 GPT モデルをトレーニングする原告の成果を利用して商業的利益を得るのは、被告にとって不公平です。禁止または制限されない限り、被告の行為は原告に取り返しのつかない損害を与える可能性があります。

** 最後に書かれています: この訴訟で議論されるべき 3 つの問題。 **

**ChatGPTの著作権侵害に関する最初の代表訴訟として、カリフォルニア州北部地方裁判所が正式な判決を下すまでにはまだ長い時間がかかるだろう。しかしその前に、原告の訴状の具体的な内容に関しては、まだ注目し検討すべき問題がいくつかある。 **

**懸念事項 1: モデル侵害を発見するのは簡単ではありません。 **

大規模な言語モデルのトレーニングは、本質的に、作品を使用する一種の内部的かつ非明示的な動作であり、著作権所有者は、自分の作品が侵害されていることを知るという現実的な問題を抱えています。一般的に言えば、モデルによって生成されたコンテンツがそれ自体の作品と実質的に類似していることを比較することによってのみ、モデルのトレーニング段階でその作品の不正使用があったと推定できます。本件において、原告が自身の著書がOpen AIのもとで大規模言語モデルに侵害されていると告発できたのは、ChatGPTが自身の著作の概要を出力していたことを発見したためである。

しかし、この主張に根拠があるかどうかはまだ分からない。 **ChatGPT によって出力された著作物の要約が、原告の書籍を直接コピーしてトレーニングしたものではなく、インターネット上の原告の書籍の公開紹介資料のコレクションのみに基づいている場合、侵害主張の正当性は揺らぎます。 **原告はまた、ChatGPT によって出力された書籍の概要にいくつかの事実誤認があることを認めました。これは、大規模なモデルが関係する書籍を十分に研究していない可能性があることもある程度示しています。

**懸念事項 2: どのような権利が侵害されるのかを実証する必要がある。 **

現時点では、「作品データの保管」は形式的には著作権法における「複製権」の規制に該当する可能性があるものの、その核心となる「作品データの育成行為」が著作権法上のどのような権利を侵害するのか？まだ侵害されていない。全会一致の結論が得られた。この訴訟において、原告は、大規模言語モデルの通常の動作とコンテンツ出力は作品のコーパスのトレーニングに基づいているため、大規模モデルのトレーニングは著作権侵害を構成し、大規模モデル自体が侵害を構成すると強調しました。派生作品。

この主張もまだ検討の余地があります。 **この場合、「特定の著作物の一般化、要約、翻訳をの形式で必要とする」などのいくつかの特別なコンテンツ生成要件を除き、ほとんどの場合、大規模モデルはオープンコンテンツ生成命令 (特定の著作物に限定されない) を受け入れます。特定の作品、特定の作家の作風）を含む場合でも、基本的に特定の作品や特定の作品の断片を出力することはありませんので、著作権侵害にはなりません。 **

**懸念事項 3: 上流と下流の責任を明確にする必要がある。 **

大規模モデルの著作権の分野では、モデル開発者は大規模モデル自体に関連する権利を持っているため、モデルのトレーニングに関わる著作権責任を負います。大規模モデルの出力の内容については、現在の業界の慣行から、一般的な慣行は次のとおりです。契約により権利を明確にし、責任はユーザーに帰属します。 2023年7月10日に中国サイバースペース局が発行した「生成型人工知能サービスの管理に関する暫定措置」でも、「プロバイダーはユーザーとサービス契約を締結し、双方の権利と義務を明確にする必要がある」と明確に認められた。

**注目に値する原告の主張から判断すると、モデル学習とコンテンツ出力の二段階、権利と責任の分離の考え方も踏襲している。 **直接的な著作権侵害に対する原告の主張は、オープン AI モデルのトレーニング段階に焦点を当てています。第一に、原告の許可なしに、モデルのトレーニングプロセス中に書籍のコピーが作成されたことです。第二に、原告の許可なしに、大規模な言語モデル自体が侵害を構成しています。派生作品。 **ChatGPTの出力内容に対する原告の侵害主張は、Open AIが著作権の間接侵害(代用侵害)に当たると主張するだけである。これは、大規模モデルの出力コンテンツについては、ユーザーが対応する権利を持っているため、著作権の直接侵害に対して責任を負うことも意味します。 **

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。