「初のビッグモデルデータ盗難事件」の裏側

文:朱玲

**出典: **金融協会

画像ソース: Unbounded AI によって生成‌

OpenAIが「データ窃盗」の告発に直面し、複数の集団訴訟および個人訴訟に深く関与していたとき、中国の「AI大型モデルデータ窃盗の初の事件」が勃発する寸前だったが、最終的には両者が解決した。 「誤解」の裏には別の理由がある? 何か秘密がある?

最近、Century Tianhong が投資した AI 支援ライティング製品 Bishen Composition は、8 月 4 日に学習について考えるのをやめ、関連するデータ検索事件に対して訴訟を起こすことを決定したとの声明を発表した。 **

Bishen Commissionは、綿密な調査とXueersi氏との率直なコミュニケーションを経て、両当事者は係争中の条件について合意に達し、両当事者は誤解を解消した、今後も協力を深め、共同で探査を推進すると述べた。教育分野におけるAI技術の発展。

「科創版日報」の記者は美申作文に対し、和解の理由と誤解の理由を尋ねたが、担当者は「事件については声明文で明確に説明しており、それ以外の回答はしない」と述べた。

1回半の「エアシャウト」

2か月前に遡りますが、Penshen Comboは6月13日午後に声明を発表し、パートナーのXueersiが次期AI大規模モデル製品をトレーニングするために組成在庫データを「盗んだ」と非難しました。 Bishen Comboは、この紛争を司法手続きを通じて解決し、Xueersiに対し賠償金1元の支払い、公的謝罪、クロールされたデータの削除を要求し、これを中国における「AI大型モデルのデータ盗難事件としては初」と称すると述べた。 **

その夜、** Xueersi は即座に、Bishen Commission のデータの使用は両当事者間の契約で合意された通常の協力の範囲内であり、** Bishen Commission の「主観的な推測」は「事実と著しく矛盾している」と返答した。

6月14日、Penshen Comboは通話量とサーバーログのスクリーンショットを取り出してXueersiの対応に反論し、Xueersiが「クローラー」技術を使用してわずか数日でPenshenのComposition APPサーバー上の258万件のデータに違法にアクセスしてキャッシュしたことを証明しようとした。 、これは「データベースの拾い上げ」の典型的な行為であり、美神構成のデータ権利を重大に侵害します。

その後、雪思氏は公の場で反応を示さず、「科創版日報」の記者は、雪思氏の親会社であるTALに取材を求めたが、通信担当者は記者を関連部門に異動させることを拒否した。

6月20日、ペン神傘下の北京宜宜良華科技有限公司の第二株主である石路天紅氏は対話プラットフォーム上で、同社も事件の進展に注目していると述べた。これに先立ち、インタラクティブプラットフォーム上での美神構成への言及により、世紀天紅の株価は4月24日以来、10営業日連続で100%以上上昇した。

500 万の構成素材はどこから来たのか

2019 年の初めに、Blue Media Exchange は Penshen Composition の創設者である Song Jiawe 氏に次のような質問をしました。**Penshen のバックステージに蓄積された膨大な情報コンテンツ データの著作権問題をどのように解決するか? **

ソン・ジアウェイ氏は当時、一部の著作権所有者と連絡を取り、協力していると率直に語った。さらに、ペン神チームは、詩や有名な引用などの公共作品の資料を収集するために最善を尽くしています。 **このレポートの著者は、著作権問題が将来ペンゴッドにとって長期的な問題となる可能性があると予測しました。 **

Penshen Composition と Shiji Tianhong 氏によると、AI の中核要素の 1 つであるデータは、500 万を超える構成素材を蓄積しています。

Century Tianhong は以前、インタラクティブ プラットフォームで、Penshen Combo のビッグデータは独自の蓄積から来ており、アルゴリズム モデルは自社で開発およびトレーニングされていると述べました。

5月8日、深セン証券取引所はShiji Tianhongに対して懸念書を発行し、**その内容は、同社が「ペンシェン構成」のAIモデルを1画と2画でトレーニングするために必要なデータを提供したかどうか説明するよう求めた。その場合、会社の関連情報と組み合わせる必要があります。「データセキュリティ法」およびその他の関連規制に準拠したデータ取得の方法とソースなどにより、関連データの取得、処理、使用の合法性が説明されます。関連するデータ資産の所有権の所有権が明確かどうか、潜在的な紛争があるかどうか、他の当事者との契約および利益協定があるかどうか。

懸念の書簡に対し、世紀天紅は「ペンシェン作文」のAIモデルのトレーニングに必要なデータはすべて自社の事業の過程で蓄積されていることが確認されたと述べた。同社はこれまで「ペンシェン作文」を利用する顧客にサービスを提供しておらず、「ペンシェン作文」のAIモデルトレーニングに必要なデータを易宜良書に提供したこともない。今後、一筆二筆による「ペンシェン作文」のAIモデル学習のためのデータ調達の需要が生じた場合には、「データ保護法」およびその他の関連法規を厳守し、確実に対応してまいります。関連するデータの取得、処理、使用が合法であり、データ資産の所有権が明確であること、潜在的な紛争がないことを前提として、具体的な事業協力方法を決定するための交渉を行うこと。

美神作文は「科創版日報」の記者に対し、「ユーザーが美神作文APP上で当社のサービスを利用する場合、契約に従い、当社はユーザーのオリジナル作文素材を大量に蓄積し、当社の資産となります。」と述べた。 「これも、Xueersi が私たちに協力してくれた理由です。Xueersi がゼロからデータを蓄積すると、時間コストが非常に高くつき、短期間で同じ桁のデータを蓄積する方法はありません。」

「科創版日報」の記者は、ペン神作文のユーザーサービス規約によれば、ペン神作文でユーザーが公開したコンテンツは、ペン神作文に無償かつ取消不能な非独占的ライセンスを付与していることに気づいた。

**誰が誰の曲を正確にコピーしたのでしょうか? **

大学を卒業したばかりの王昊軒さんは、大学2年生の時にネットで自分の名前を検索したところ、中学時代に書いた作文がペンシェン作文プラットフォームに掲載されているのを発見したと『科創版日報』の記者に語った。 **

王浩軒さんによると、この作文は公的には発行されていない社内報に掲載するよう中学校教師から勧められ、多大な労力を費やして執筆したという。彼は、ペンシェン・コンポジションが自分の作品を許可なく使用したことに怒っていました。

ワン・ハシュアン氏は、これが自身の作品に関する情報をインターネット上で広める権利を侵害していると考えている。ペンシェン・コンポジションのスタッフと交渉したが、相手の態度は悪く、コンポジションを削除するだけでメッセージへの返信も途絶えた。彼が弁護士に委託してビシェン・コンポジションに送った弁護士の手紙には返答がなかった。

Wang Haoxuanさんは自分の権利を守るためにBishen Constructionを告訴することを決定し、訴訟は裁判所に起こされた。ビシェン・コンポジションの弁護士が和解を望んで彼に連絡を取ったのは、裁判の1週間前になってからだった。弁護士は、記事は他人によってBishen Constructionのウェブサイトに投稿されたものであり、Bishen Commissionはそれを表示する責任があるだけだと述べた。

裁判官の調停を経て、王浩軒氏と碧申構成氏は最終的に和解に達し、王浩軒氏は賠償金を受け取った。

しかし、Wang Haoxuan氏は、彼の記事は筆神の作文の著作権を侵害するものよりもはるかに多いのではないかと推測していますが、それについては知らない人の方が多いです。また、「美品作文」プラットフォームは小中学生を対象としており、自分の記事が侵害されていると分かっていても、必ずしも自分の権利を守る意識を持っているとは限りません。

「科創版日報」の記者は、美神作文が薛爾思を告発した際、オリジナルの文章に比べて美神作文アプリ内の作文の数が多く、作者や公開時期などの情報が表示されていないことを発見した。 **記者が比較したところ、これらの作品はXiaohe Compositionなどの非営利ウェブサイトで公開されていたことが判明した。 **

左の写真は侵害問題を含む作品、右の写真はオリジナルの作品

この点に関して、ペンシェン作文は当時の「科創版日報」の記者に対し、「著者が複数の原稿を寄稿するのは普通のことだ。これらの記事はユーザーによってアップロードされ、ユーザーは著作権と著作権について責任を負う」と答えた。 「記事の真正性を確認します。他人が記事の著作権に異議を唱え、証拠を提出した場合、事前確認の上、法律に基づき削除させていただきます。記事は初期の記事であり、当時の表示は完璧ではありませんでした。」

しかし、暁和作文.comは「科創版日報」の記者に対し、「他のウェブサイトに掲載されている作文が暁和作文によって出版されたものであれば、最初はすべて収集ステーションであり、暁河作文ネットワークの記事をコピーすることから始まりました。**」しかし、手続きが煩雑すぎるため、権利が保護されません。」

Xiaohe作曲.comの著作権説明ページには、「Xiaohe作曲.comが公開する作品の著作権は作者に帰属し、いかなるオンライン媒体への転載も禁止されています。他の紙媒体への転載は、当サイトとその許諾を得る必要があります。」と記載されています。著者に料金を支払います。少数の Web サイトとソフトウェア会社に厳重に警告し、このサイトのコンテンツのコピーを直ちに中止してください。」

北京京石法律事務所の弁護士、孟波氏は「科創版日報」の記者に対し、著作権法で言及される著作物とは、文学、芸術、科学の分野でオリジナルであり、一部の著作物で複製できる知的成果を指すと語った。目に見える形。 「著作権法施行規則」第6条により、著作権は著作物の創作が完了した日から発生するとされています。文学、芸術、科学作品の作者の著作権、および著作権に関連する権利および利益は法律で保護されています。 「著作権法」第52条の規定により、著作権および著作権に関連する権利を侵害した者は、場合に応じて、侵害の停止、影響の除去、謝罪、損失の補償などの民事上の責任を負うことになります。

データが「脱水」されると、組成は大幅に減少します

「科創版日報」の記者は、上記の著作権侵害問題を含む作文が美神作文アプリの検索結果から消えていることを発見し、共有リンクを開くと「この作文は、著作権侵害のため棚から削除された」と表示されている。オリジナルではありません。」 **

**しかし、データが「脱水」された後、美神作文アプリ上のエッセイの数は大幅に減少した **「科創版日報」の記者は、以前に公開された雪尔四アクセスログのスクリーンショットにあるいくつかの検索ワードに従って検索したBishenzuowen 氏、Xueersi 氏は、以前に高頻度検索語の複数のページを訪問していました (Bishen 作文では、各ページで 30 件の作文結果が返されるとのことでした) が、現在、検索結果には 1 つまたは 2 つの作文のみが残っています。

しかし、Penshen Commission は曲数に関する導入に変更を加えず、会員価格は下がることなく値上がりしました。なお、ペンシェン・コンポジションが会員に提供する「数秒で構成を変更する」という特別な特典は、「ワンクリックで原稿を洗浄する」ことで新しい構成を生成できる疑いがあることを指摘しておく必要がある。

ペンシェンコンポジションの年会費が2ヶ月前と比べて値上がりしました

さらに、2020 年 9 月に、Penshen Composite APP が、方向性の悪い下品な情報を推進しているとして中国国家サイバースペース局によって命名され、通知されました。 「ネットレターチャイナ」によると、当時ペンシェン作文アプリの「ファミリースクエア」欄には多くの有名人支援グループがあり、プラットフォーム上には「男性と女性」「恋愛」のコンテンツが多数あったという。それは未成年者の身体的および精神的健康を助長するものではありませんでした。記者は、現在ペン神コンポジションに関与しているグループや関連コンテンツがないことに気付きました。

また、ペン・ゴッド・コンポジションは声明の中で、ユーザー、パートナー、企業によるデータの安全かつコンプライアンスに準拠した使用を確保するために、データ使用の規制と保護を引き続き強化すると述べた。

** 急激な成長の後、高品質のデータとコンプライアンスの構築、または成熟段階に入るためにAPPと業界AIモデルを学習するための避けられない選択。 **

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)