出典:AIGCオープンコミュニティ 画像ソース: Unbounded AIによって生成ChatGPT のような大規模言語モデルは、推論にどの程度強力ですか? 投稿やプライベートデータから、住所、年齢、性別、職業、収入、その他の個人データを推測できます。スイス連邦工科大学は、年齢、学歴、性別、職業、婚姻状況、居住地、出生地、収入などの個人データを含む、520人のRedditユーザーの実際のデータセットであるPersonalRedditを収集し、手動で注釈を付けました。次に、研究者らは、GPT-4、Claude-2、Llama-2 など、9 つの主要な大規模言語モデルを使用して、PersonalReddit データセットで特定の質問とプライバシー データの推論を実行しました。その結果、これらのモデルはトップ1とトップ3の95.8%の正解率を達成し、ユーザーのテキストコンテンツを解析するだけで、テキストに隠されたさまざまな実際のプライバシーデータを自動的に推測できることがわかりました。 **住所: 研究者はまた、米国では、人口の半分の正確な身元を決定するために必要なのは、場所、性別、生年月日などのほんの一握りの属性だけであると指摘しました。これは、違法な人物がインターネット上の誰かによって作成された投稿や個人情報を入手し、それについて推論するために大規模な言語モデルを使用した場合、日常の趣味、仕事と休息の習慣、仕事の職業、自宅の住所などの機密性の高いプライバシーデータを簡単に入手できることを意味します。 ## **PersonalRedditデータセットの構築** 研究者たちは、実際のRedditユーザーの個人属性のデータセットであるPersonalRedditを構築しました。 データセットには、520人のRedditユーザーの経歴と合計5,814件のコメントが含まれています。 レビューは2012年から2016年までの期間を対象としています。個人属性には、年齢、学歴、性別、職業、婚姻状況、居住地、出生地、収入の8つのカテゴリーがあります。 研究者は、各ユーザープロファイルに手動で注釈を付け、モデルの推論効果をテストするための実際のデータとして正確な属性ラベルを取得しました。データセットの構築は、次の 2 つの主要な原則によって導かれます。1)コメントの内容は、インターネット上で使用されている言語の特性を真に反映したものでなければなりません。 ユーザーは主にオンラインプラットフォームを通じて言語モデルと対話するため、オンラインコーパスは代表的で普遍的です。2)個人属性の種類は、さまざまなプライバシー保護規制の要件を反映するために異なる必要があります。 既存のデータセットには、多くの場合、1〜2つのカテゴリの属性しか含まれておらず、調査では、より広い範囲の個人情報を推測するモデルの能力を評価する必要があります。さらに、研究者はアノテーターに各属性を評価してもらい、アノテーターがどれだけ簡単か、アノテーターがどれだけ自信を持っているかを示しました。 難易度は 1 (非常に簡単) から 5 (非常に難しい) の範囲です。 属性情報がテキストから直接入手できない場合、アノテーターは従来の検索エンジンを使用して属性情報を確認できます。 ## **敵対的相互作用** 言語チャットボットアプリケーションの数が増えていることを考慮して、研究者は現実世界の対話をシミュレートするための敵対的会話シナリオも構築しました。悪質な大規模言語モデル駆動型チャットボットが開発され、表向きは便利な旅行アシスタントとして、隠されたタスクは、ユーザーの居住地、年齢、性別などの個人情報を抽出することでした。 チャットボットは、シミュレートされた会話で、一見無害な質問を通じて関連する手がかりを明らかにするようにユーザーを誘導し、複数回の対話の後に個人のプライバシーデータを正確に推測して、この敵対的アプローチの実現可能性を検証できます。 ## **テストデータ** 研究者らは、GPT-4、Claude-2、Llama-2など、9つの主流の大規模言語モデルをテスト用に選択しました。 各ユーザーのすべてのコメントは、特定のプロンプト形式でカプセル化され、ユーザーの属性に関する推論を出力するために必要なさまざまな言語モデルに入力されます。そして、モデルの予測結果を、人体ラベルでアノテーションされた実データと比較し、各モデルの属性推論精度を求めます。 実験結果によると、GPT-4の全体的なトップ1の正解率は84.6%に達し、トップ3の正解率は95.1%に達し、プロの手動注釈の効果にほぼ匹敵しますが、コストは手動注釈の約1%にすぎません。 また、異なるモデル間には明らかなスケール効果があり、パラメータの数が多いモデルほど効果が高くなります。 これは、現在の主要な言語モデルが、テキストから個人情報を推測する強力な能力を獲得していることを証明しています。 ## **保護措置の評価** また、研究者は、クライアントとサーバーの両方から個人データを保護するための現在の対策も評価しました。 クライアント側では、業界をリードするテキスト匿名化ツールによって実行されるテキスト処理をテストしました。その結果、GPT-4は、ほとんどの個人情報が削除された場合でも、残りの言語的特徴を利用して、場所や年齢などの個人データを正確に推測できることがわかりました。サーバ側から見ると、既存の商用モデルはプライバシー漏洩に対して整合・最適化されておらず、現在の対策では言語モデルの推論を効果的に防ぐことができません。 この研究は、GPT-4などの大規模言語モデルの優れた推論能力を実証する一方で、データメモリをトレーニングするだけでなく、推論によって引き起こされるプライバシー漏洩のリスクを軽減するために、より広範な保護対策が必要であることを大規模言語モデルのプライバシーへの影響に注意を喚起しています。
ChatGPT、Llama-2、その他の大型モデルは、プライバシーデータを推測できます。
出典:AIGCオープンコミュニティ
ChatGPT のような大規模言語モデルは、推論にどの程度強力ですか? 投稿やプライベートデータから、住所、年齢、性別、職業、収入、その他の個人データを推測できます。
スイス連邦工科大学は、年齢、学歴、性別、職業、婚姻状況、居住地、出生地、収入などの個人データを含む、520人のRedditユーザーの実際のデータセットであるPersonalRedditを収集し、手動で注釈を付けました。
次に、研究者らは、GPT-4、Claude-2、Llama-2 など、9 つの主要な大規模言語モデルを使用して、PersonalReddit データセットで特定の質問とプライバシー データの推論を実行しました。
その結果、これらのモデルはトップ1とトップ3の95.8%の正解率を達成し、ユーザーのテキストコンテンツを解析するだけで、テキストに隠されたさまざまな実際のプライバシーデータを自動的に推測できることがわかりました。 **
住所:
これは、違法な人物がインターネット上の誰かによって作成された投稿や個人情報を入手し、それについて推論するために大規模な言語モデルを使用した場合、日常の趣味、仕事と休息の習慣、仕事の職業、自宅の住所などの機密性の高いプライバシーデータを簡単に入手できることを意味します。
PersonalRedditデータセットの構築
研究者たちは、実際のRedditユーザーの個人属性のデータセットであるPersonalRedditを構築しました。 データセットには、520人のRedditユーザーの経歴と合計5,814件のコメントが含まれています。 レビューは2012年から2016年までの期間を対象としています。
個人属性には、年齢、学歴、性別、職業、婚姻状況、居住地、出生地、収入の8つのカテゴリーがあります。 研究者は、各ユーザープロファイルに手動で注釈を付け、モデルの推論効果をテストするための実際のデータとして正確な属性ラベルを取得しました。
データセットの構築は、次の 2 つの主要な原則によって導かれます。
1)コメントの内容は、インターネット上で使用されている言語の特性を真に反映したものでなければなりません。 ユーザーは主にオンラインプラットフォームを通じて言語モデルと対話するため、オンラインコーパスは代表的で普遍的です。
2)個人属性の種類は、さまざまなプライバシー保護規制の要件を反映するために異なる必要があります。 既存のデータセットには、多くの場合、1〜2つのカテゴリの属性しか含まれておらず、調査では、より広い範囲の個人情報を推測するモデルの能力を評価する必要があります。
さらに、研究者はアノテーターに各属性を評価してもらい、アノテーターがどれだけ簡単か、アノテーターがどれだけ自信を持っているかを示しました。 難易度は 1 (非常に簡単) から 5 (非常に難しい) の範囲です。 属性情報がテキストから直接入手できない場合、アノテーターは従来の検索エンジンを使用して属性情報を確認できます。
敵対的相互作用
言語チャットボットアプリケーションの数が増えていることを考慮して、研究者は現実世界の対話をシミュレートするための敵対的会話シナリオも構築しました。
悪質な大規模言語モデル駆動型チャットボットが開発され、表向きは便利な旅行アシスタントとして、隠されたタスクは、ユーザーの居住地、年齢、性別などの個人情報を抽出することでした。
テストデータ
研究者らは、GPT-4、Claude-2、Llama-2など、9つの主流の大規模言語モデルをテスト用に選択しました。 各ユーザーのすべてのコメントは、特定のプロンプト形式でカプセル化され、ユーザーの属性に関する推論を出力するために必要なさまざまな言語モデルに入力されます。
そして、モデルの予測結果を、人体ラベルでアノテーションされた実データと比較し、各モデルの属性推論精度を求めます。
保護措置の評価
また、研究者は、クライアントとサーバーの両方から個人データを保護するための現在の対策も評価しました。 クライアント側では、業界をリードするテキスト匿名化ツールによって実行されるテキスト処理をテストしました。
その結果、GPT-4は、ほとんどの個人情報が削除された場合でも、残りの言語的特徴を利用して、場所や年齢などの個人データを正確に推測できることがわかりました。
サーバ側から見ると、既存の商用モデルはプライバシー漏洩に対して整合・最適化されておらず、現在の対策では言語モデルの推論を効果的に防ぐことができません。