メンバーシップ推論では、入力サンプル x がトレーニング セット D の一部として使用されるかどうかを判断しようとします。たとえば、通常の状況では、ユーザーの個人データは機密に保たれますが、機密情報以外の情報は依然として推測に使用される可能性があります。例としては、プライベートクラブのメンバーが紫色のサングラスと赤い革靴を履くのが好きであることがわかっている場合、紫色のサングラスと赤い革靴を履いている人に出会ったときに、その人はおそらくこの人であると推測できます(機密情報ではない)。 ). プライベートクラブのメンバーシップ (機密情報)。
「あなたは誰なのか、そしてどのように行動するか: ユーザーのソーシャルフレンドと行動を介した属性推論攻撃」という記事では、ユーザーの既知の行動を通じてユーザーの他の情報をロックして抽出する、属性推論攻撃手法の一種を紹介しています。ユーザーそのもの。 「AttriGuard: A Practical Defense Against Attribute Inference Attacks via Adversarial Machine Learning」では、属性推論攻撃に対処するための防御方法をいくつか紹介します。
「セサミストリートの泥棒! BERT ベースの API のモデル抽出」では、メンバーシップ推論を使用してモデル抽出を防御するというアイデアを検討します。これは、モデル所有者がメンバーシップ推論を使用して、正当なユーザーのクエリと、モデルを抽出することのみを目的とする無意味なクエリを区別できるという前提に基づいています。著者らは、このタイプの防御には、正規のユーザーが発行した正規ではあるが配布対象外のクエリにフラグを立てる可能性があるなどの限界があるが、さらに重要なことに、適応型クエリを作成する攻撃者によって回避できる可能性があることを指摘しています。
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
大規模モデルのデータプライバシー、いくつかの一般的なモデル攻撃方法についての話
出典: オアシス キャピタル
著者:カウンセラーバイタリティ
2023 年 3 月 20 日、ChatGPT でデータ侵害が発生し、一部の ChatGPT ユーザーの個人情報が流出しました。これを考慮して、イタリアのプライバシー規制当局は、ChatGPT が個人データを違法に処理し、プライバシーを侵害し、関連する GDPR 規制に違反している疑いがあると考えています。その後イタリアはChatGPTの使用を禁止した最初の国となり、他のEU諸国でもこの技術を管理するためにより厳しい措置が必要かどうかについての議論が巻き起こった。
ほぼすべてのオンライン サービスは個人データを収集しており、LLM のトレーニングにこのデータを使用する場合があります。ただし、トレーニングに使用されるデータをモデルがどのように使用するかを決定するのは困難です。地理的位置、健康記録、身元情報などの機密データがモデルのトレーニングで使用される場合、モデル内の個人データに対するデータ抽出攻撃により、ユーザーのプライバシーが大量に漏洩する原因になります。記事「大規模な事前トレーニング済み言語モデルは個人情報を漏洩しますか?」では、LLM のトレーニング データの記憶により、LLM には対話プロセス中に個人情報が漏洩するリスクが実際にあり、そのリスクは例の数に応じて増加することを証明しています。 。
モデルが情報を漏洩する理由はいくつかあります。これらの一部は構造的なものであり、モデルの構築方法に関係していますが、その他は貧弱な一般化や機密データの記憶などが原因です。次回の記事では、まず基本的なデータ漏洩プロセスを紹介し、次にプライバシー攻撃、ジェイルブレイク、データポイズニング、バックドア攻撃などのいくつかの一般的なモデル攻撃手法を紹介し、最後にプライバシー保護に関する現在の研究をいくつか紹介します。
I. 脅威モデリング
基本的な LLM 脅威モデルには、一般的なモデル環境、さまざまなアクター、および機密資産が含まれます。機密資産には、トレーニング データセット、モデル パラメーター、モデル ハイパーパラメーター、アーキテクチャが含まれます。参加者には、データ所有者、モデル所有者、モデル消費者、および敵対者が含まれます。次の図は、脅威モデルの下での資産、アクター、情報フロー、および考えられる運用フローを示しています。
II. プライバシー攻撃
プライバシー攻撃は、メンバーシップ推論攻撃、再構成攻撃、属性推論攻撃、モデル抽出の 4 つの主なタイプに分類されます。
メンバーシップ推論では、入力サンプル x がトレーニング セット D の一部として使用されるかどうかを判断しようとします。たとえば、通常の状況では、ユーザーの個人データは機密に保たれますが、機密情報以外の情報は依然として推測に使用される可能性があります。例としては、プライベートクラブのメンバーが紫色のサングラスと赤い革靴を履くのが好きであることがわかっている場合、紫色のサングラスと赤い革靴を履いている人に出会ったときに、その人はおそらくこの人であると推測できます(機密情報ではない)。 ). プライベートクラブのメンバーシップ (機密情報)。
メンバーシップ推論攻撃は、現在プライバシー攻撃の最も一般的な方法であり、Shokri らの記事「機械学習モデルに対するメンバーシップ推論攻撃」で初めて提案されました。この記事では、この攻撃はモデルの出力予測ベクトルの知識のみを前提としており、教師あり機械学習モデルに対して実行されると指摘しています。モデルのパラメーターと勾配にアクセスできると、より正確なメンバーシップ推論攻撃が可能になります。
メンバーシップ推論攻撃の典型的な方法はシャドウ攻撃と呼ばれます。つまり、既知のアクセス可能なデータ セットに基づいてシャドウ モデルをトレーニングし、シャドウ モデルに問い合わせることによって機密情報を取得します。
教師あり学習モデルに加えて、GAN や VAE などの生成モデルもメンバーシップ推論攻撃に対して脆弱です。 「GAN-Leaks: 生成モデルに対するメンバーシップ推論攻撃の分類」では、メンバー推論攻撃に直面した GAN の問題を紹介し、「LOGAN: 生成モデルに対するメンバーシップ推論攻撃」では、メンバー推論における他の生成モデルの攻撃への対応を紹介しています。データ生成コンポーネントの理解に基づいてトレーニング データを取得する方法を紹介します。(MLM) モデルは MIA 攻撃に対して脆弱でもあり、場合によってはサンプル データがトレーニング データに属するかどうかを判断する可能性があります。
一方、メンバーシップ推論はモデルのセキュリティのレビューにも使用でき、データ所有者はメンバーシップ推論を使用してブラックボックス モデルをレビューできます。 「シーケンスツーシーケンス モデルに対するメンバーシップ推論攻撃: 私のデータはあなたの機械翻訳に含まれていますか?」では、データ所有者がデータが許可なく使用されているかどうかを確認する方法について説明しています。
「機械学習モデルに対するメンバーシップ推論攻撃」では、過学習とブラック ボックス メンバーシップ推論の間の関連性を調査します。著者らは、同じデータセットを使用して異なる MLaaS プラットフォームでモデルをトレーニングすることにより、攻撃の精度に対する過学習の影響を測定します。実験では、過剰適合がプライバシー漏洩につながる可能性があることを示していますが、一般化度が高い一部のモデルはメンバーシップ漏洩を起こしやすいため、これが唯一のケースではないことも指摘しています。
再構築攻撃は、トレーニング ラベルとともに複数のトレーニング サンプルを再構築しようとします。つまり、出力ラベルと特定の特徴の部分的な知識が与えられた場合に、機密性の高い特徴や完全なデータ サンプルを回復しようとします。たとえば、次の図に示すように、モデル反転により、モデル インターフェイスで取得された情報が逆に再構築され、トレーニング データ内の生体特性や医療記録などのユーザーの機密情報が復元されます。
属性推論攻撃とは、一般に公開されている属性と構造を使用して、隠された属性データまたは不完全な属性データを推論することを指します。たとえば、患者データセット内の男性と女性の比率に関する情報を抽出したり、性別分類モデルでトレーニング データセット内の人々が眼鏡をかけているかどうかを推測したりすることができます。場合によっては、この種の漏洩はプライバシーに影響を及ぼす可能性があります。
「スマート マシンをよりスマートなマシンでハッキングする: 機械学習分類子から意味のあるデータを抽出する方法」では、特定の種類の属性データを利用してトレーニング データをより深く理解することもでき、他のユーザーがこの情報を使用してデータをつなぎ合わせることができると述べています。よりグローバルなイメージ。
「あなたは誰なのか、そしてどのように行動するか: ユーザーのソーシャルフレンドと行動を介した属性推論攻撃」という記事では、ユーザーの既知の行動を通じてユーザーの他の情報をロックして抽出する、属性推論攻撃手法の一種を紹介しています。ユーザーそのもの。 「AttriGuard: A Practical Defense Against Attribute Inference Attacks via Adversarial Machine Learning」では、属性推論攻撃に対処するための防御方法をいくつか紹介します。
属性推論は、モデルによって意図せずに学習された情報、またはトレーニング タスクに無関係な情報をモデルから抽出することを目的としています。よく一般化されたモデルであっても、入力データ分布全体に関連するプロパティを学習する場合がありますが、これはモデル トレーニングの学習プロセスでは避けられない場合があります。
「協調学習における意図しない特徴漏洩の悪用」は、十分に一般化されたモデルであっても属性推論攻撃が可能であることを示しているため、過学習は属性推論攻撃の原因ではないようです。属性推論攻撃については、何が原因で、どのような状況で効果があると思われるかについては、現時点ではほとんど情報がありませんが、これは今後の研究の有望な方向性となる可能性があります。
モデル抽出はブラックボックス攻撃の一種であり、攻撃者が情報を抽出し、場合によっては攻撃対象のモデルと非常によく似た動作をする代理モデルを作成することでモデルを完全に再構築しようとします。
「BERT ベースの API のモデル抽出」、「モデルの説明からのモデルの再構築」、「ノックオフ ネット: ブラックボックス モデルの機能の盗用」、「ニューラル ネットワークの高精度かつ高忠実度の抽出」いくつかの論文をさまざまな角度から説明モデル抽出攻撃時。
サロゲート モデルの作成には主に 2 つのステップがあります。最初のステップはタスク精度の抽出です。学習タスクに関連するテスト セットが入力データ分布から抽出され、ターゲット モデルの精度と一致するモデルが作成されます。 2 番目のステップは忠実度の抽出です。つまり、作成されたサロゲートを、学習タスクに関係のない一連のモデルと一致させてターゲットに適合させます。タスク精度の抽出の目標は、ターゲット モデルと同等かそれ以上に同じタスクを学習できるサロゲートを作成することです。忠実度抽出の目標は、サロゲートが可能な限り忠実に決定境界を複製することを試みることです。
サロゲート モデルの作成に加えて、「機械学習におけるハイパーパラメータの盗用」や「ブラック ボックス ニューラル ネットワークのリバース エンジニアリングに向けて」で説明したターゲット モデルのハイパーパラメータの盗用など、ターゲット モデルからの情報の回復に焦点を当てた方法もあります。各種ニューラルネットワークアーキテクチャの活性化関数の抽出、最適化アルゴリズム、層数などについて。
記事「ブラックボックス ニューラル ネットワークのリバース エンジニアリングに向けて」では、テスト セットの適合率が 98% を超えるモデルが攻撃された場合、抽出攻撃を通じてモデル パラメーターを盗む可能性があることが示されています。さらに、「ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine Learning Models」では、汎化誤差が高いモデルほど盗むのが難しいことが実証されています。これは、サンプルの攻撃者が所有していないデータセットをモデルが記憶しているためと考えられます。モデル抽出の成功率に影響を与えるもう 1 つの要因は、テスト セットのデータ カテゴリであり、データ カテゴリが増えると、攻撃パフォーマンスの低下につながります。
III. モデルの脱獄
モデルのジェイルブレイクとは、攻撃的な出力、コンテンツ監視出力の違反、個人データ漏洩の出力など、何らかの方法で退化した出力動作を LLM に生成させることです。専門家でなくても、プロンプトを操作するだけで LLM をジェイルブレイクできることが、ますます多くの研究で示されています。
たとえば、次の例では、開発者の目標は翻訳モデルを構築することです。このシナリオには 2 人のユーザーがいます。最初のユーザーは無害で、意図されたユースケースにモデルを使用します。一方、2 番目のユーザーは悪意のある入力を提供することでモデルの目標を変更しようとしています。この例では、言語モデルは実際に文を翻訳するのではなく、「Haha pwned!!」と応答します。この脱獄状況では、モデルの応答は、ターゲットのハイジャック (単にタスクの実行に失敗する) から、攻撃的な人種差別的なテキストの生成、さらにはプライベートな専有情報の投稿に至るまで、さまざまな意図を持って設計される可能性があります。
データポイズニングは特別な種類の敵対的攻撃であり、生成モデルの動作に対する攻撃手法です。悪意のある攻撃者は、データ ポイズニングを使用してモデルへのバックドアを開き、アルゴリズムで制御されたシステムをバイパスする可能性があります。
人間の目には、以下の 3 つの画像は、鳥、犬、馬という 3 つの異なるものに見えます。しかし、機械学習アルゴリズムにとって、これら 3 つはおそらくすべて同じ意味、つまり黒い境界線のある小さな白いボックスを意味します。この例は、データを誤って分類するために悪用される可能性がある機械学習モデルの危険な特性を示しています。
記事「RealToxicitys: 言語モデルにおける神経毒性変性の解明」では、モデルの内部パラメータを公開するためのテキストベースのプロンプトのセットを GPT-2 に提供する方法について言及しています。 「NLP モデルに対する隠蔽データポイズニング攻撃」では、ターゲットにないテキストを生成するために、言語モデルを誤動作させるためにトレーニング データを変更する方法を検討します。
データポイズニングは非常に危険ですが、ポイズニングされたモデルを配布するには、攻撃者が機械学習モデルのトレーニング パイプラインにアクセスする必要があります。したがって、データ反復を継続的に収集するモデル、またはフェデレーテッド ラーニングに基づくモデルは、データ ポイズニングの影響に特別な注意を払う必要があります。
V. バックドア攻撃
バックドア攻撃とは、テキストを密かに挿入または変更して、言語モデルから悪意のある出力を引き起こすことを指します。論文「自然言語処理に対するバックドア: レビュー」では、トレーニング中に特定の脆弱性がモデルに渡され、語彙の使用を通じてモデルの毒性の活性化を引き起こす可能性があるバックドア攻撃の問題を紹介しています。
これは、モデルの期待される機能が保持されるという点でデータ ポイズニングとは異なります。 「言語モデルに対するトレーニング不要の語彙バックドア攻撃」では、言語モデルのトークナイザーに語彙の「トリガー」を導入することで埋め込み辞書を操作する、トレーニング不要の語彙バックドア攻撃 (TFLex Attack) と呼ばれる手法が提案されています。
SolidGoldコイキング現象
SolidGoldMgikarp 現象は、典型的なバックドア攻撃現象です**。ChatGPT に「SolidGoldMgikarp」と入力すると、「配布」という 1 つの単語のみが応答します。 「StreamerBot」を繰り返すように求められると、「あなたは馬鹿だ」と答えます。 「TheNitromeFan」を繰り返すように求められたとき、「182」と応答しました。単語を一重引用符で囲むと、彼の答えは無限の「The」になります。 TheNitromeFanとは誰なのかとの質問に対し、ChatGPTは「182は数字であって人ではない。数字自体を指すのによく使われる」と答えた。
SolidGoldMagikarp 現象は、OpenAI の GPT トークナイザーを使用して、モデルが説明できない特定のトークンや、モデルが文字化けテキストを出力する原因となるトークンを識別することを指します。記事「ランダムな方向から見てSolidGoldMagikarpを説明する」では、この現象の背後にある考えられる理由を調査しています。
以下は、より頻繁に発生する重要なタイプのバックドア攻撃の一部です。
A. コマンドベース
a. 直接的な命令: これらの攻撃は主に「以前のヒントを無視する: 言語モデルの攻撃テクニック」を指しますが、これは単純にモデルに以前のヒントを無視して現在の場所に新しいタスクを割り当てるよう指示します。
b. 認知攻撃: 最も一般的なタイプの攻撃で、LLM は通常、「安全なスペース」を提供するか、そのような応答を保証することによって、通常は実行しないような誤った動作を実行するように LLM を「だます」。 「Chatgpt: この AI にはジェイルブレイクがある?!」では、ChatGPT に対するそのような攻撃のいくつかの試みが記録されています。
c. 命令の繰り返し: これらのタイプの攻撃では、攻撃者が言語モデルを「要求」しているように見せるために、同じ命令を複数回入力することが含まれます。文字通りの意味での物乞いは言葉でも表現できます。
d. 間接的なミッション逸脱: この攻撃は、別の悪意のあるミッションを装うことに焦点を当てています。この攻撃は、通常は悪意のある指示に従わないモデルをターゲットとしています。
B. 指示以外に基づく場合
a. 文法変換: このタイプの攻撃には、アプリケーションに存在する可能性のあるコンテンツ フィルターをバイパスするための、LeetSpeak や Base64 の使用などの攻撃テキストの直交変換が含まれており、モデルは本質的にこのエンコードされたテキストを変換できます。
b. いくつかのハック: 言語モデルのトレーニング パラダイムを含むシンプルなアプローチ。このアプローチでは、攻撃には、悪意を持って置き忘れられたモデルを狙った可能性のあるいくつかのテキスト特徴が組み込まれています。たとえば、SolidGoldMagikarp 現象はこのカテゴリに分類されます。
c. 命令としてのテキスト補完: これらの攻撃は、モデルに不完全な文を入力することによって機能し、それによってモデルに文を強制的に完成させ、その過程で以前の命令を無視し、結果として誤った配置が発生します。
モデル攻撃を防御する方法を研究することは困難かつ重要な作業です。セキュリティ分析に関するほとんどの論文では、対応する攻撃を軽減する方法が提案およびテストされています。以下に代表的な防御方法をいくつか示します。
差分プライバシーは現在、メンバーシップ推論攻撃に対する最も有力な防御手段の 1 つであり、モデル出力内の個々のデータのセキュリティを保証します。差分プライバシーに関する議論は、「差分プライバシーのアルゴリズムの基礎」という論文に基づいています。
差分プライバシーはモデルの出力にノイズを追加するため、攻撃者が出力に基づいて 2 つのデータセットを統計的に厳密に区別することができなくなります。差分プライバシーはもともとデータ分析のためのプライバシーの定義であり、「個人を知らなくても集団に関する有用な情報を学習する」という考えに基づいて設計されました。差分プライバシーは、データ セット全体のプライバシー セキュリティを保護するのではなく、ノイズ メカニズムを通じてデータ セット内の各個人のプライベート データを保護します。
差分プライバシーの数学的定義は次のとおりです。
機械学習における正則化手法は、過剰適合を軽減し、モデルの汎化パフォーマンスを向上させることを目的としています。ドロップアウトは、トレーニング中に事前に定義された割合のニューラル ネットワーク ユニットをランダムにドロップする、一般的に使用される正則化形式です。ブラックボックスメンバーシップ推論攻撃が過剰適合に関連していることを考えると、これはそのような攻撃に対処する賢明な方法であり、いくつかの論文がこれを防御策として提案し、良い結果をもたらしています。
モデルスタッキングなど、個別にトレーニングされた複数のモデルを組み合わせる手法を使用した別の形式の正則化は、推論攻撃に対して肯定的な結果をもたらしました。モデルスタッキングまたは同様の手法の利点の 1 つは、モデル クラスに依存しないことです。
多くのモデルは、推論中に予測ベクトルにアクセスできることを前提としているため、提案された対策の 1 つは、出力をモデルの上位 k クラスまたは予測に制限することです。ただし、この制限は、最も厳格な形式 (クラス ラベルの出力のみ) であっても、モデルの誤分類により情報漏洩が依然として発生する可能性があるため、メンバーシップ推論攻撃を完全に軽減することはできないようです。もう 1 つのオプションは、予測ベクトルの精度を下げて、情報漏洩を減らすことです。
さらに、出力ベクトルにノイズを追加すると、メンバーシップ推論攻撃にも影響を与えることが示されています。
通常、再構成攻撃ではトレーニング中に損失勾配にアクセスする必要があるため、再構成攻撃に対するほとんどの防御では、これらの勾配から取得した情報に影響を与える手法が提案されています。深層学習における再構成攻撃に対する防御策として、特定のしきい値を下回るすべての損失勾配をゼロに設定することが提案されています。記事「勾配からのディープ リーク」では、この方法が非常に効果的であることが証明されており、勾配の 20% のみがゼロに設定されている場合、モデルのパフォーマンスへの影響は無視できます。
「PRADA: DNN モデル窃盗攻撃に対する保護」では、敵対者が使用するモデル クエリに基づいてモデル窃盗攻撃を検出する方法を提案しています。検出は、決定境界を探索しようとするモデル クエリのサンプル分布が通常のクエリとは異なるという前提に基づいています。検出は成功したが、敵が戦略を調整すれば回避できる可能性があると著者らは指摘している。
「セサミストリートの泥棒! BERT ベースの API のモデル抽出」では、メンバーシップ推論を使用してモデル抽出を防御するというアイデアを検討します。これは、モデル所有者がメンバーシップ推論を使用して、正当なユーザーのクエリと、モデルを抽出することのみを目的とする無意味なクエリを区別できるという前提に基づいています。著者らは、このタイプの防御には、正規のユーザーが発行した正規ではあるが配布対象外のクエリにフラグを立てる可能性があるなどの限界があるが、さらに重要なことに、適応型クエリを作成する攻撃者によって回避できる可能性があることを指摘しています。
「チューニングによる大規模言語モデルからの記憶データの抽出の制御」では、ヒントチューニングを使用してLLMの記憶内容の抽出率を制御する新しい方法が提案されています。彼らは、それぞれ攻撃と防御に対応して、抽出率を増加および減少させるための 2 つのヒント トレーニング戦略を提案しています。
VII. 結論
LLM には依然として比較的大きなセキュリティ リスクとプライバシー漏洩リスクが存在します
モデルの構造とデータを抽出する攻撃は、本質的にはモデルの機密性に対する攻撃です。
学術コミュニティにおける主な研究は現在、モデルを攻撃する方法とデータ漏洩の原理に焦点を当てています。
LLM によるデータ漏洩のメカニズムの一部はまだ不明
差分プライバシー、予測ベクトル改ざんなどによりデータプライバシーをある程度保護でき、これらの手法はモデルのトレーニング段階に集中します。
既存の保護対策は完璧ではなく、モデルのパフォーマンスと精度を犠牲にする必要がある
________
## 参照:
※1.カルペシュ・クリシュナ、ガウラフ・シン・トマール、アンカー・P・パリク、ニコラス・ペーパーノット、モヒト・アイヤー。 2020. セサミストリートの泥棒たち! BERT ベースの API のモデル抽出。学習表現に関する国際会議にて。 ICLR、仮想カンファレンス、以前はエチオピアのアディスアベバ*。
※2.秘密の共有者: ニューラルネットワークにおける意図しない記憶を調べてテストする*
※3.マルティン・アバディ、アンディ・チュー、イアン・J・グッドフェロー、HB・マクマハン、イリヤ・ミロノフ、クナル・タルワール、リー・チャン。 2016. 差分プライバシーを備えたディープラーニング*
※4.ジュゼッペ・アテニアン、ルイージ・V・マンチーニ、アンジェロ・スポニャルディ、アントニオ・ヴィラーニ、ドメニコ・ヴィターリ、ジョバンニ・フェリーチ。 2015. スマート マシンをよりスマートなマシンでハッキング: 機械学習分類子から意味のあるデータを抽出する方法。*
※5.バルガブ・ジャヤラマンとデヴィッド・エヴァンス。 2019. 差分プライベート機械学習の実践。第28回USENIXセキュリティシンポジウム(USENIXセキュリティ19)にて。 USENIX アソシエーション、カリフォルニア州サンタクララ、1895 ~ 1912 年*
※6.有用性を失わずにメンバーシップ推論攻撃を防御*
7。 Yugeng Liu、Rui Wen、Xinlei He、Ahmed Salem、Zhikun Zhang、Michael Backes、Emiliano De Cristofaro、Mario Fritz、Yang Zhang。 2021. ML-Doctor: 機械学習モデルに対する推論攻撃の総合的なリスク評価
※8. LLM を騙して不服従に導く: 脱獄の理解、分析、防止*
※9.マリア・リガキとセバスチャン・ガルシア。 2021. 機械学習におけるプライバシー攻撃に関する調査*
※10.ニコラス・カルリーニ、フロリアン・トラマー、エリック・ウォレス、マシュー・ジャギエルスキー、アリエル・ハーバート=ヴォス、キャサリン・リー、アダム・ロバーツ、トム・ブラウン、ドーン・ソング、ウルファー・アーリンソン、アリーナ・オプレア、コリン・ラッフェル。 2021. 大規模な言語モデルからのトレーニング データの抽出*
※11.サミュエル・ゲーマン、スーチン・グルランガン、マールテン・サップ、イェジン・チョイ、ノア・A・スミス。 2020. RealToxi-city s: 言語モデルにおける神経毒性変性の研究。*
※12.ウェンロン・ファン、ピーター・アビール、ディーパック・パタック、イゴール・モルダッチ。 2022b.ゼロショットプランナーとしての言語モデル: 身体化されたエージェントのための実用的な知識を抽出します。 ICML 2022、『機械学習研究論文集』第 162 巻、9118 ~ 9147 ページ。 PMLR*
※13.イーサン・ペレス、サフラン・ファン、フランシス・ソング、トレバー・カイ、ローマン・リング、ジョン・アスラニデス、アメリア・グレイス、ナット・マカリース、ジェフリー・アーヴィング。 2022. 言語モデルと言語モデルのレッド チーム。*
※14.エリック・ウォレス、トニー・チャオ、シー・フォン、サミール・シン。 NLP モデルに対する隠蔽データポイズニング攻撃*。
15. Shaofeng Li、Tian Dong、Benjamin Zi Hao Zhao、Minhui Xue、Suguo Du、および Haojin Zhu. 2022. 自然言語処理に対するバックドア: レビュー. IEEE Security & Privacy, 20(5):50–59
*16. Yujin Huang、Terry Yue Zhuo、Qiongkai Xu、Han Hu、Xingliang Yuan、Chunyang Chen. 2023. 言語モデルに対するトレーニング不要の語彙バックドア攻撃。
※17.ソリッドゴールドコイキングをランダムな方向から見て解説※
※18.ファビオ・ペレスとイアン・リベイロ。 2022. 前を無視してください: 言語モデルの攻撃手法。 arXiv プレプリント arXiv:2211.09527.*
※19.ヤニック・キルチャー。 2022. Chatgpt: この AI は脱獄済みですか?! (信じられないほどの AI の進歩)。*
※20.バッティスタ・ビッジョとファビオ・ローリ。 2018. ワイルド パターン: 敵対的機械学習の台頭から 10 年。パターン認識 84 (2018)、317–331.*
※21. Ligeng Zhu、Zhijian Liu、Song Han。 2019. 勾配からのディープリーク。 『Advances in Neural Information Processing』 s 32、H. Wallach、H. Larochelle、A. Beygelzimer、F. d'Alché-Buc、E. Fox、および R. Garnett (編)。 Curran Associates, Inc.、バンクーバー、カナダ、14747–14756*
※22.ニコラス・ペーパーノット、パトリック・マクダニエル、アルネシュ・シンハ、マイケル・P・ウェルマン。 2018. SoK: 機械学習におけるセキュリティとプライバシー。 2018 年のセキュリティとプライバシーに関する IEEE 欧州シンポジウム (EuroS P)。 IEEE、ロンドン、英国、399–414*
※23.マイケル・ヴィール、ルーベン・ビンズ、リリアン・エドワーズ。 2018. 記憶に残るアルゴリズム: モデル反転攻撃とデータ保護法。王立協会の哲学論文 A: 数学、物理および工学科学 376、2133 (2018)、20180083*
※24.レザ・ショクリ、マルコ・ストロナティ、ソン・コンジェン、ヴィタリー・シュマチコフ。 2017. 機械学習モデルに対するメンバーシップ推論攻撃。 2017 年のセキュリティとプライバシーに関する IEEE シンポジウム (SP)。 IEEE、サンフランシスコ、カリフォルニア州、米国、3 ~ 18*
※25.久本そらみさん、マット・ポストさん、ケビン・ドゥさん。 2020. シーケンスツーシーケンスモデルに対するメンバーシップ推論攻撃: 私のデータはあなたの機械翻訳に含まれていますか?*
※26.ソン・コンジェンとヴィタリー・シュマチコフ。 2019. テキスト生成モデルにおけるデータの出所の監査。第 25 回 ACM SIGKDD 知識発見とデータ マイニングに関する国際会議 (KDD '19) の議事録。 Association for Computing Machinery、米国ニューヨーク州ニューヨーク、196 ~ 206。*
※27.ジンユアン・ジアとニール・ジェンチアン・ゴン。 2018. AttriGuard: 敵対的な機械学習による属性推論攻撃に対する実践的な防御。第27回USENIXセキュリティシンポジウム(USENIXセキュリティ18)にて*
※28.マシュー・フレドリクソン、エリック・ランツ、ソメーシュ・ジャー、サイモン・リン、デヴィッド・ペイジ、トーマス・リステンパート。 2014. 薬理遺伝学におけるプライバシー: ワルファリンの個別投与に関するエンドツーエンドのケーススタディ。*
※29.マシュー・ジャギエルスキー、ニコラス・カルリーニ、デヴィッド・ベルトロ、アレックス・クラキン、ニコラス・パペノット。 2020. ニューラル ネットワークの高精度かつ高忠実度の抽出*
※30.王炳輝と功ニール・ジェン強。 2018. 機械学習におけるハイパーパラメータの盗用。 2018 年のセキュリティとプライバシーに関する IEEE シンポジウム (SP)。 IEEE、サンフランシスコ、カリフォルニア州、米国、36–52*
※31.オ・ソン・ジュン、マックス・オーガスティン、マリオ・フリッツ、ベルント・シーレ。 2018. ブラックボックス ニューラル ネットワークのリバース エンジニアリングに向けて。第6回学習表現に関する国際会議にて。 ICLR、バンクーバー、カナダ*
※32.シンシア・ドワークとアーロン・ロス。 2013. 差分プライバシーのアルゴリズムの基礎。理論的コンピュータサイエンスの基礎と動向 9, 3-4 (2013), 211–487*