ヨーロッパでは、EU 基本権憲章および一般データ保護規則は、個人データの保護の権利をデータ主体が享受する特別な権利とみなしており、これには財産権は含まれません。一般データ保護規則などの EU の法律では、データ管理者がデータを対象とした財産権を享受することは明確に規定されていませんが、データ管理者のデータ財産権は、データベース保護、著作権法保護、営業秘密保護、契約法保護、およびその他の方法によって保護されます。競争法保護等により保護されます。さらに、欧州委員会が発行した文書「欧州データエコノミーの構築」では、データ管理者に非個人データおよび匿名化された個人データに対する普遍的な所有権を与え、独占的使用を可能にする「データ作成者権」の導入を約束しています。これには、他者にそのようなデータの使用を許可する権利も含まれます。米国では、個人情報に対する財産権が個人に与えられるべきだと考える法学者もいますが、裁判所は通常、そのような財産権を認めていません。場合によっては、米国の裁判所が、企業が保有するデータの所有権を有していると判示したことがあります。データ財産に関する国内外の法的経験は、「人的資源と富の分離」が我が国のデータ財産権システムを構築するための中核となる理論的命題となるべきであることを示しています。
AI の大規模モデルのトレーニングの背後で、データ産業チェーンが形成されています
著者: Guo Xiaojing、Tencent Technology
「奇跡を起こす」と「暴力的な美学」、この 2 つの言葉は ChatGPT の議論で常に登場します。 「活発」「暴力的」という点では、「膨大な計算能力」に加えて、膨大な量のデータも存在します。 a16z の創設者であるマーク・アンドリーセン氏も Data+AI カンファレンスで、過去 20 年間にインターネットによって蓄積された膨大なデータが、この AI の新しい波の台頭の重要な理由であると指摘しました。トレーニングに使用できるデータが含まれています。
OpenAIによると、GPT-3.5には最大45TBのテキストコーパスがあり、これは中国の4大古典の472万セットに相当し、GPT-4はマルチモーダルデータをGPT-3およびGPT-3.5トレーニングデータセットに追加します。 。 7 月 18 日、Facebook の親会社である Meta は、初のオープンソースで商用利用可能な大規模言語モデルである Llama2 をリリースしました。事前トレーニングは 2 兆トークンに達すると予想されています。
大量の高品質データを取得できる能力は、将来の大規模モデル企業の中核的な競争力の1つとみなされており、大手巨大企業によるAI軍拡競争にも必須となっている。データは、将来の開発を決定する生産の重要な要素とも見なされます。 「デジタル中国発展報告書(2022年)」の統計によると、データ要素が生み出すデジタル経済の可能性は非常に大きく、我が国のデータ出力は2022年に8.1ZBに達し、世界の10.5%を占めると予想されています。世界第 2 位にランクされ、デジタル経済の発展が最前線にあります。
しかし、まったく新しい生産要素としてのデータは、早急に解決する必要がある一連の問題ももたらします。それは、データをどのように理解するかということです。データの権利を確認するにはどうすればよいですか?データの価値を発掘するにはどうすればよいでしょうか?本当に取引、流通できるのでしょうか?本当にデータを資産として企業の財務諸表に含めることができるのでしょうか?セキュリティはどのように管理されていますか?この目的を達成するために、私たちは北京郵電大学**科学技術研究所の副学部長である曽学雲教授に話を聞き、関連する質問に詳しく答えてもらいました。
以下は会話の記録です:
**Tencent Technology: 一般の人は心配するかもしれませんが、大規模モデルのトレーニング用のデータはどこから来るのでしょうか?私の個人データが使用されることはありますか?また、これらのデータの権利に問題はありますか? **
曾学雲教授: ビッグモデルによって計算されたデータは個人データです。企業データと比較すると、個人データには 所有権の問題があります。 **原則として、データの所有者は私です。 **例えば、ソーシャルソフトウェア上で生成されるデータは、原則としてソーシャルソフトウェアが属する企業が私の個人データを使用することはできません。実際にはこれらの企業はデフォルトの権限によってデータを管理していますが、特定のデータをどのように使用するかは、 「個人情報保護法」により規制される場合があります。
では、大規模なモデルの計算に使用する場合、どのように使用すればよいのでしょうか?技術面では匿名化処理を行う必要があり、運用面では**特定の企業にこれらのデータを運用する法的権利を与える市場主体も必要である、言い換えれば、これらのデータを与えて、市場の主題を見つけます。 **市場指向の主体がデータを取得する場合、データを生成するために人的資源、時間、知性、資本を投資する必要がありますが、これは労働投入と呼ぶことができます。個人に属するデータ情報は、労働投入を経て、企業の一種の再生データ、すなわち二次データとして導出される。その後、二次データから手続き型データが生成され、さらにデータ製品やデータ サービスが生成されます。このとき、個人をデータ所有者とするオリジナルの個人データが、企業向けのデータ製品やサービスに変換されます。これは 製品化プロセス です。
**Tencent Technology: インターネット企業は承認を通じて個人データを取得し、これらの企業がプロセスを処理した後、それらは企業の何らかのデータ資産になる可能性があると理解できますか? **
曾学雲教授: 自然界のさまざまな天然資源と同じように、私たちはインターネット上で個人的に大量のデータを生成していることも理解できます。たとえば、土地にはたくさんの花や木が育ち、多くの資源が育ちます。この種のリソースは一種の公共リソースであり、開発して利用することはできますが、直接売買することはできません。 利用・加工後に生成されるものは企業の資産であることは認められており、このようにデータ生産要素の開発も促進すべきである。
**Tencent Technology: 個人の観点から、個人データを保護し、希望どおりにデータを流通させるにはどうすればよいでしょうか? **
**曽学雲教授: **人工知能の時代において、人々のプライバシーを保護することはますます困難になっています。人々のあらゆる行動が記録されるため、地理的な位置、生活、仕事、食事、日常生活の移動がすべて記録されます。一度記録されると、元々私たちのものであった情報は、加害者によって制御できなくなります。したがって、現時点ではプライバシー漏洩のリスクが非常に高く、データ保護のタスクも非常に重く、データ保護も非常に困難です。
人々は自分のデータ権利をどのように保護するのでしょうか?実際、各国でもいくつかの商法が存在します。 最初のタイプは、日本と同様にデータ バンクを使用します。つまり、誰もが銀行に預金するのと同じようにデータ バンクにデータを保存できます。データバンクはデータの保管者であると同時に、データ価値の独自の開発者としても機能し、個人も一定の利益を得ることができます。これは、自分のデータをある程度開示して使用することをいとわない一部の人々が、自ら選択した方法でデータ保護の問題を解決するビジネスモデルを持つことを可能にすることを意味します。つまり、法務データの流通、法務データの開発・活用モデルの構築、これが一枚でございます。
**もう 1 つの部分は、私は個人的にはそうしたくないので、データ所有者には権限を与えません。 **認可がない場合、国はデータ保護を強化する必要があります。データのこの部分を違法に開発したい人は処罰され、法的に監督されなければなりませんが、ブロックチェーン技術を使用してそのような行為を追跡できます。たとえば、データが漏洩したかどうか、どこで漏洩したかなど、データ フローを追跡します。データの親族関係を追跡および分析することも可能であり、現在はデータ親族関係テクノロジーがあります。大まかに言うと、**データはどこから来て、どこへ行くのでしょうか? データリネージ分析は、実際には、データ相関分析とデータトレーサビリティの一種です。**リネージという言葉を使用すると、データの詳細を非常に鮮明に説明できます。 。すべてが記録されるため、他人のデータやテクノロジーを記録することも記録され、公開され、浸透する可能性があります。
私の国の「民法」は、人格権の章で個人情報の保護に関する特別な規定を設けています。 「民法」第 127 条では、データとネットワーク仮想プロパティを並置し、データのプロパティ属性を強調しています。現地の法律では、「上海市データ規則」第 12 条の規定は、「人的資源と富の 2 つの部門」の権利配分モデルを直接反映しています。この条文では、「本市は、法律に従って、個人情報に関連する自然人の人格権および利益を保護する。」と規定されており、また、デジタル技術の発展における関連するデータ革新活動によって得られる法的財産権および利益も保護される。経済。"
2021年8月20日、第13期全国人民代表大会常務委員会第30回会議は、2021年11月1日に施行される「中華人民共和国個人情報保護法」の可決を可決した。詳細はオンラインでご覧いただけます。 「個人情報保護法」における個人情報の司法的性質も個人の権利利益の保護であり、個人情報の財産権利益にはほとんど関与しません。
**Tencent Technology: 大規模モデルのトレーニングにはどのような高品質のデータが重要ですか? **
**曽学雲教授: **データは、人間の経済的、社会的、生産、管理、商業、さらには軍事活動のすべての記録である必要があります。このような記録は、さまざまな業界、分野、側面で生み出されています。生データに関しては、品質が高いものと低いものがあります。例えば、**上場企業の財務諸表や財務データは質の高いデータであり、構造化データです。 **この種の財務諸表および財務情報は、社会の監査および公認会計士の監査を受けており、中国証券監督管理委員会が情報開示を監督しているため、高品質のデータです。別の例として、**CNKI の論文データも高品質のデータです。 **ただし、インターネット上で生成されるデータは非構造化かつ非標準化されたデータです。このようなデータは一種のオリジナルで乱雑で規制されていないデータであり、計算前に詳細なクリーニングが必要となるため、高品質のデータは通常、非構造化処理プロセスから構造化処理プロセスに移行します。 **
**Tencent Technology: 高品質のデータは継続的に生成できるのに、なぜ「高品質のデータはほぼ使い果たされる」と言われるのでしょうか? **
曽学雲教授: データを生成および処理する能力は、人々のデータ需要に追いつくことができず、データの生成および処理に関するサプライチェーン バリュー チェーン全体の生産性は依然として相対的に低いと思います。データは絶えず爆発的に増加しているものの、高品質のデータは枯渇しつつあることを私たちは知っているため、それはデータから高品質のデータに至るプロセスにおいて、ある種の生産性と統合能力が欠如していることを意味しているだけです。このとき必要となるのがデータベンダーであり、現在のデータベンダーの多くはデータを直接利用するだけですが、データの生成や加工、高品質なデータをいかに生成するか、この領域の能力やビジネスモデル設計が重要です。まだ足りないです。
実際、OpenAI の GPT-4 は、前世代モデル GPT-3.5 によって生成された大量のデータをトレーニングに使用します。 OpenAI の創設者は最近のインタビューでも次のように述べています、「合成データは、大規模なモデル データの不足を解決する効果的な方法です。重要なのは、AI によって生成されたどのデータが利用可能で、どのデータが利用できないかを区別するシステム全体があることです」そして、トレーニングされたモデルの効果に基づいてフィードバックを提供し続けます。」この会社は資金を調達できるだけでなく、多くのコンピューティング能力を簡単に制御することができ、データの製品技術能力もこの会社の中核的な競争力の 1 つです。
**Tencent Technology: 高品質データの生産性を向上させるために、工業デザインに必要なリンクは何ですか? **
曾学雲教授: この質問については、まずデータとは何なのかを理解する必要があります。どのようなデータがあるのでしょうか?そしてそのデータはどうすればいいのでしょうか?つまり、高品質のデータを生成することは、高品質のデータを保有するための生産能力があることを意味するわけではなく、高品質のデータを生成する意欲があることを意味するものでもありません。データをソースから理解する必要がある データで解決すべき社会の課題とは ?市場のデータ需要はどこにあるのでしょうか?では、元データから需要側まで、途中でどのように制作すればよいのでしょうか?この一連の問題には工業デザインが必要であり、現在の全体的な考え方では十分ではありません。
**Tencent Technology: 業界の未熟さは一面ですが、業界がまだブルーオーシャンであることも意味しますか? **
**曾学雲教授: **非常に初期の青い海。初期には、データの違法な直接取引の事例がいくつかありましたが、その後、国内法によりデータ自体を直接売買することはできなくなり、生データの取引もできなくなりました。データを独自の取引に使用することはできません。データを持っていてそのデータを直接販売するのではなく、自分の制作に投資して取引を行った結果である必要があります。これは許可されません。
**2022 年 (12 月)、「データ二十条」**が公布され、データ所有権の分離と、データ所有権、管理権、およびデータの複数所有権の要件が提唱されました。データはこの階層カテゴリで管理されるべきであると述べた部門。これはデータ ガバナンスの最上位設計であり、全体的な青写真です。それは、将来のデータ産業の標準化された発展の始まりであるとも言えます。このとき、人々はデータが全体ではなく、データがどのような権利や利益を持っているかを理解する必要があることに気づき、本来の法に基づく研究から経済学に基づく研究への進歩でもあります。 ** データ市場を確立するには、市場が経済的行動でなければなりません。 この種の経済行動には多くの経済ツールや経済理論を使用する必要があるため、現在データサイエンスの研究、国家によるデータのガバナンスから、学術界におけるデータの研究、およびデータの管理まで業界における活用はブルーオーシャンであり、まだ始まったばかりの状態です。 **
**Tencent Technology: この観点からすると、データは企業の特定の資産として存在する可能性がありますが、データはどのような資産に属しますか? **
**Zeng Xueyun 教授:データ分類は学界で非常にホットなテーマです。データは無形、目に見えない、形のないものと考えられていることが多く、無形資産と呼ばれます。しかし実際には、ITU の分類によれば、データには生産と処理のプロセスも含まれるため、データは在庫資産に近いものになります。そして、データ自体は電子有形資産ですが、なぜ電子有形資産なのか?データは物理的な空間を占有し、多くのデータ自体は物理的な形式を持ち、それがネットワーク側の物理的な形式になります。画像ではこの電子画像が表示され、サウンドではこの音が聞こえ、ポートレートではこのポートレートが表示されるため、 データはデジタル有形資産です。 **
データ資産は非常に特殊な資産クラスであることはわかっています。データを償却に関して無形資産に例えたり、減価償却に関して固定資産に例えたりできると提案する人もいます。実際には、まずデータを階層的に分類して、データがどのカテゴリに属しているかを確認する必要があります。 特定の種類のデータについては、拡張性と融合性も備えています。たとえば、チャイナユニコムのすべての通話データを個人の銀行預金および投資データと統合できれば、投資や融資からコミュニケーションやキャリアに至るまで、より多くの情報を含むこの人物のポートレートを生成できます。このとき、データとデータの融合によって生成されるデータ価値の蓄積効果が発生し、データは融合され、成長可能となります。データには実際に時間に敏感**な部分もあり、その価値は時間の経過とともに減衰します。したがって、その会計的価値を知るためには、データそのものの特徴をより具体的に分析する必要があります。データ価値の会計処理には、固定資産とは異なり、その時点での資産価値が固定されているため、より変動性と不確実性が伴います。資産形成の程度は確実であり、時間の経過とともにその価値は徐々に減少していきますが、データは必ずしも時間とともに減少するわけではなく、より複雑な資産形態をとります。
**Tencent Technology: 将来のデータは AI 企業の中核的な競争力の 1 つですか?データ資産を数値化して企業評価に反映することは可能でしょうか? **
**Zeng Xueyun 教授: **人工知能企業にとって、**データは競争力の中核です。 ** AI 企業の場合、製品エクスペリエンスが企業のビジネス価値を決定し、データ機能が製品エクスペリエンスを決定します。 ** 国にとって、データは将来の主要な競争力であり、石油が工業化時代の金であり、**データがインターネット経済時代の金であるのと同じように、将来の金でもあります。 **
しかし現状では、世界各国がデータガバナンスで困難に直面しており、データセキュリティ、データガバナンス、データ開発・活用のバランスをどう解決していくかという課題を、率先して打開している国はありません。 **
この点で、中国はデータの重要性を痛感している。データが新たな生産性をもたらすことはどの国も認識していますが、データをどのように活用するかには市場関係者、スマートテクノロジー、国家規制が必要となるため、解決できる単純な問題ではなく、システムの複雑性の問題となります。
中国の国家統治は中央から地方まで比較的中央集権的な仕組みであるため、当然国全体のビッグデータを統合する利点があるが、この利点はまだ反映されておらず、**データの評価にある。評価と評価の問題、会計報告書へのデータ入力の問題は解決されていない。 ** この問題に対する良い解決策は世界中にありません。
**データをオフバランスシート資産からオンバランスシート資産に転送できれば、データガバナンスの価値会計とデータ価値の管理がうまく解決され、データ取引は客観的な根拠を持つことになります。 **現在、当社の企業データは基本的にオフバランスシート資産であり、評価も行われておらず、貸借対照表上での測定や報告も行われていないため、会社がどれだけのデータを保有しているかが明確ではなく、データの経済性を考慮することも困難です。値の統計を作成します。データがテーブルに入力されない場合、そのトランザクションには合理的な根拠が欠けることになります。**そのため、テーブルへのデータ入力は重要な問題です。 **データ量の統計、データ価格の計算、およびデータ取引の価格設定については、量統計から価格計算、取引の基礎に至るまで、貸借対照表と損益計算書にデータを入力する必要があります。をクリックし、「財務諸表の会計は基礎となる機能」と入力します。この根本的な機能はまだ解決されていません。
**Tencent Technology: データ財産権法の国際的な前例は何ですか? **
**Zeng Xueyun 教授: **データ財産権法に関する研究。現在、世界の主要国ではデータ保護基本法が整備されており、データ財産権における人格権の保護を推進するという位置づけが明確になってきていますが、データ利活用に関する法規制は基本的に整備されていません。私の国では、データ要素の流通促進にかなりの重点が置かれていますが、法律や規制による支援、規制、指導がなければ、主に行政文書に依存しており、依然として多くの立法上の欠陥があります。現在、データ財産権の規制とデータ要素の流通を加速するという観点から、世界的な法構築の新たな方向性を革新的に導くことが急務となっています。国内外の状況は以下の通りです。
国際的な側面: 2016 年に欧州連合によって可決された一般データ保護規則 (GDPR) は、現在最も包括的で影響力のあるデータ プライバシー法です。 「規制」は、データ主体の権利の強化、個人データの使用の管理の確保、データのセキュリティとデータの自由な流れの考慮という 2 つの方向で発展しています。 GDPRでは、個人の既存の権利の確認と改善を踏まえ、個人データに対するデータ主体のより効果的な管理を実現するために、削除の権利(第17条)やポータビリティの権利(第20条)等を規定しています。 , しかし、この条項では、個人データの所有権の移転と財産権の分配については明確になっていません。
米国はデータ所有権の法的保護のシステムと理論的検討をより早く開始しましたが、関連する規範のほとんどはさまざまな法案に散在しています。各州の法律には互換性はありませんが、幅広い分野をカバーしており、データ活用を促進するために実際の紛争解決にある程度の柔軟性を持っています。たとえば、2018 年に公布された「2018 年カリフォルニア州消費者プライバシー法」と 2020 年に公布された「2020 年カリフォルニア州プライバシー法」では、アクセスする権利、削除する権利、知る権利などを含むデータ権利の判断が強化されました。消費者の個人のプライバシー権は、データ転送中のデータ主体の権利と利益の保護を強化し、これは側面から見ると、データの経済的価値の使用に対する米国の許可を反映しています。我が国では、データの作成に対するデータ契約の寄与、保管・管理に係るコスト負担、データ取引を促進するためのデータ取引契約の標準化等を十分に考慮した「データ利用権契約に関するガイドライン」を2017年に策定しました。これは大きな進歩ですが、データ財産権の明確な定義はまだありません。
ヨーロッパでは、EU 基本権憲章および一般データ保護規則は、個人データの保護の権利をデータ主体が享受する特別な権利とみなしており、これには財産権は含まれません。一般データ保護規則などの EU の法律では、データ管理者がデータを対象とした財産権を享受することは明確に規定されていませんが、データ管理者のデータ財産権は、データベース保護、著作権法保護、営業秘密保護、契約法保護、およびその他の方法によって保護されます。競争法保護等により保護されます。さらに、欧州委員会が発行した文書「欧州データエコノミーの構築」では、データ管理者に非個人データおよび匿名化された個人データに対する普遍的な所有権を与え、独占的使用を可能にする「データ作成者権」の導入を約束しています。これには、他者にそのようなデータの使用を許可する権利も含まれます。米国では、個人情報に対する財産権が個人に与えられるべきだと考える法学者もいますが、裁判所は通常、そのような財産権を認めていません。場合によっては、米国の裁判所が、企業が保有するデータの所有権を有していると判示したことがあります。データ財産に関する国内外の法的経験は、「人的資源と富の分離」が我が国のデータ財産権システムを構築するための中核となる理論的命題となるべきであることを示しています。