Pada 20 Maret 2023, terjadi pelanggaran data di ChatGPT, mengungkap informasi pribadi beberapa pengguna ChatGPT. Mengingat hal ini, regulator privasi Italia yakin bahwa ChatGPT diduga memproses data pribadi secara ilegal, melanggar privasi, dan melanggar peraturan GDPR yang relevan. Italia kemudian menjadi negara pertama yang melarang penggunaan ChatGPT, memicu diskusi di negara-negara UE lainnya mengenai apakah tindakan yang lebih keras diperlukan untuk mengontrol teknologi tersebut.
Hampir semua layanan online mengumpulkan data pribadi kami dan dapat menggunakan data ini untuk pelatihan LLM. Namun, bagaimana model akan menggunakan data yang digunakan untuk pelatihan sulit ditentukan. Jika data sensitif seperti lokasi geografis, catatan kesehatan, dan informasi identitas digunakan dalam pelatihan model, serangan ekstraksi data terhadap data pribadi dalam model akan menyebabkan sejumlah besar kebocoran privasi pengguna. Artikel "Apakah Model Bahasa Pra-Terlatih Besar Membocorkan Informasi Pribadi Anda?" membuktikan bahwa karena memori data pelatihan LLM, LLM memang memiliki risiko membocorkan informasi pribadi selama proses dialog, dan risikonya meningkat seiring dengan jumlah contoh. .
Ada beberapa alasan mengapa sebuah model membocorkan informasi. Beberapa di antaranya bersifat struktural dan berkaitan dengan cara model dibangun; sementara yang lain disebabkan oleh generalisasi yang buruk, hafalan data sensitif, dll. Pada artikel berikutnya, pertama-tama kami akan memperkenalkan proses kebocoran data dasar, kemudian memperkenalkan beberapa metode serangan model umum seperti serangan privasi, jailbreak, peracunan data, dan serangan pintu belakang, dan terakhir memperkenalkan beberapa penelitian terkini tentang perlindungan privasi.
I. Pemodelan Ancaman
Model ancaman LLM dasar mencakup lingkungan model umum, berbagai pelaku, dan aset sensitif. Aset sensitif meliputi kumpulan data pelatihan, parameter model, hiperparameter model, dan arsitektur. Pesertanya meliputi: pemilik data, pemilik model, konsumen model, dan musuh. Diagram berikut menggambarkan aset, aktor, aliran informasi, dan kemungkinan aliran operasional di bawah model ancaman:
Dalam pemodelan ancaman dasar seperti itu, pemilik data memiliki aset data pribadi, pemilik model memiliki parameter model dan aset konfigurasi, dan konsumen model menggunakan model melalui API atau antarmuka pengguna. Pihak yang mencuri mencoba untuk mendapatkan aset data pribadi atau aset parameter model melalui cara tertentu.
II.Serangan Privasi
Serangan privasi dibagi menjadi empat jenis utama: serangan inferensi keanggotaan, serangan rekonstruksi, serangan inferensi atribut, dan ekstraksi model.
Membership Inference Attack (MIA)
Inferensi keanggotaan mencoba untuk menentukan apakah sampel input x digunakan sebagai bagian dari set pelatihan D. Misalnya, dalam keadaan normal, data pribadi pengguna akan dirahasiakan, tetapi informasi yang tidak sensitif masih dapat digunakan untuk spekulasi. Contohnya adalah jika kita mengetahui bahwa anggota klub pribadi suka memakai kacamata hitam ungu dan sepatu kulit merah, maka kita dapat menyimpulkan bahwa dia mungkin adalah orang ini ketika kita bertemu dengan orang yang memakai kacamata hitam ungu dan sepatu kulit merah (informasi non-sensitif ).Keanggotaan klub swasta (informasi sensitif).
Serangan inferensi keanggotaan saat ini merupakan cara serangan privasi yang paling populer, yang pertama kali diusulkan oleh Shokri dkk dalam artikel "Serangan inferensi keanggotaan terhadap model pembelajaran mesin". Artikel tersebut menunjukkan bahwa serangan ini hanya mengasumsikan pengetahuan tentang vektor prediksi keluaran model dan dilakukan terhadap model pembelajaran mesin yang diawasi. Memiliki akses ke parameter model dan gradien memungkinkan serangan inferensi keanggotaan yang lebih akurat.
Metode tipikal serangan inferensi keanggotaan disebut serangan bayangan, yaitu melatih model bayangan berdasarkan kumpulan data yang diketahui dapat diakses, dan kemudian memperoleh informasi sensitif dengan menginterogasi model bayangan.
Selain model pembelajaran terawasi, model generatif seperti GAN dan VAE juga rentan terhadap serangan inferensi keanggotaan. "GAN-Leaks: Taksonomi Serangan Inferensi Keanggotaan terhadap Model Generatif" memperkenalkan masalah GAN dalam menghadapi serangan penalaran anggota; "LOGAN: Serangan inferensi keanggotaan terhadap model generatif" memperkenalkan model generatif lain dalam respon penalaran anggota terhadap serangan, dan memperkenalkan cara mengambil data pelatihan berdasarkan pemahaman komponen pembuatan data; (MLM) model juga rentan terhadap serangan MIA, yang dalam beberapa kasus dapat menentukan apakah data sampel termasuk dalam data pelatihan.
Di sisi lain, penalaran keanggotaan juga dapat digunakan untuk tinjauan keamanan model, dan pemilik data dapat menggunakan penalaran keanggotaan untuk meninjau model kotak hitam. "Serangan Inferensi Keanggotaan pada Model Sequence-to-Sequence: Is My Data In Your Machine Translation?" menjelaskan bagaimana pemilik data dapat melihat apakah data digunakan tanpa otorisasi.
"Serangan inferensi keanggotaan terhadap model pembelajaran mesin" meneliti hubungan antara overfitting dan inferensi keanggotaan black-box. Penulis mengukur dampak overfitting pada akurasi serangan dengan menggunakan kumpulan data yang sama untuk melatih model di platform MLaaS yang berbeda. . Eksperimen menunjukkan bahwa overfitting dapat menyebabkan kebocoran privasi, tetapi juga menunjukkan bahwa ini bukan satu-satunya kasus, karena beberapa model dengan tingkat generalisasi yang tinggi lebih rentan terhadap kebocoran keanggotaan.
Serangan Rekonstruksi
Serangan rekonstruksi mencoba untuk merekonstruksi beberapa sampel pelatihan bersama dengan label pelatihannya, yaitu, upaya untuk memulihkan fitur sensitif atau melengkapi sampel data yang diberikan label keluaran dan sebagian pengetahuan tentang fitur tertentu. Misalnya, melalui inversi model, informasi yang diperoleh pada antarmuka model direkonstruksi secara terbalik, dan informasi sensitif pengguna seperti karakteristik biologis dan rekam medis dalam data pelatihan dipulihkan, seperti yang ditunjukkan pada gambar berikut:
Dalam serangan rekonstruksi, kesalahan generalisasi yang lebih tinggi mengarah pada probabilitas yang lebih tinggi untuk menyimpulkan atribut data. Dalam "Pengungkap rahasia: serangan model-inversi generatif terhadap jaringan saraf yang dalam", penulis menunjukkan bahwa model dengan kekuatan prediksi tinggi lebih rentan terhadap serangan pemfaktoran ulang, berdasarkan asumsi bahwa pengetahuan musuh lebih lemah. Juga mirip dengan kerentanan dalam inferensi keanggotaan, memori dan pengambilan data di luar distribusi juga rentan terhadap serangan rekonstruksi untuk model underfitting.
Serangan Inferensi Atribut
Serangan inferensi atribut mengacu pada penggunaan atribut dan struktur yang terlihat secara publik untuk menyimpulkan data atribut yang tersembunyi atau tidak lengkap. Contohnya adalah mengekstraksi informasi tentang rasio pria dan wanita dalam kumpulan data pasien, atau untuk model yang diklasifikasikan menurut jenis kelamin untuk menyimpulkan apakah orang dalam kumpulan data pelatihan memakai kacamata. Dalam beberapa kasus, jenis kebocoran ini dapat memengaruhi privasi.
"Meretas Mesin Cerdas dengan Yang Lebih Cerdas: Cara Mengekstrak Data Bermakna dari Pengklasifikasi Pembelajaran Mesin" menyebutkan bahwa mengeksploitasi jenis data atribut tertentu juga dapat digunakan untuk mendapatkan pemahaman yang lebih dalam tentang data pelatihan, mengarahkan orang lain untuk menggunakan informasi ini untuk menyatukan sebuah gambaran yang lebih global.
Artikel "Anda adalah siapa yang Anda kenal dan bagaimana Anda berperilaku: Serangan inferensi atribut melalui teman sosial dan perilaku pengguna" memperkenalkan jenis metode serangan inferensi atribut, yaitu mengunci dan mengekstrak informasi lain dari pengguna melalui perilaku yang diketahui dari pengguna itu sendiri. "AttriGuard: Pertahanan Praktis Terhadap Serangan Inferensi Atribut melalui Pembelajaran Mesin Adversarial" memperkenalkan beberapa metode pertahanan untuk menangani serangan inferensi atribut.
Penalaran atribut bertujuan untuk mengekstrak informasi dari model yang tidak sengaja dipelajari oleh model, atau yang tidak relevan dengan tugas pelatihan. Bahkan model yang digeneralisasi dengan baik dapat mempelajari properti yang terkait dengan seluruh distribusi data input, yang terkadang tidak dapat dihindari untuk proses pembelajaran pelatihan model.
"Memanfaatkan kebocoran fitur yang tidak diinginkan dalam pembelajaran kolaboratif" menunjukkan bahwa serangan inferensi atribut dimungkinkan bahkan dengan model yang digeneralisasi dengan baik, sehingga overfitting tampaknya tidak menjadi penyebab serangan inferensi atribut. Mengenai serangan inferensi atribut, saat ini hanya ada sedikit informasi tentang apa yang menyebabkannya dan dalam keadaan apa tampaknya efektif, yang mungkin menjadi arah yang menjanjikan untuk penelitian di masa mendatang.
Serangan Ekstraksi Model
Ekstraksi model adalah kelas serangan kotak hitam di mana musuh mencoba mengekstraksi informasi dan mungkin sepenuhnya merekonstruksi model dengan membuat model pengganti yang berperilaku sangat mirip dengan model yang diserang.
"Model Extraction of BERT-based APIs", "Model Reconstruction from Model Explanations", "Knockoff nets: Stealing function of black-box models", "High Accuracy and High Fidelity Extraction of Neural Networks" beberapa makalah menjelaskan dari berbagai sudut Beberapa upaya pada serangan ekstraksi model.
Ada dua langkah utama dalam membuat model pengganti: Langkah pertama adalah ekstraksi akurasi tugas, di mana kumpulan tes yang relevan dengan tugas pembelajaran diekstraksi dari distribusi data input untuk membuat model yang cocok dengan akurasi model target. Langkah kedua adalah ekstraksi fidelitas, yaitu membuat pengganti yang dibuat cocok dengan model dalam satu set yang tidak terkait dengan tugas pembelajaran agar sesuai dengan target. Dalam ekstraksi akurat tugas, tujuannya adalah untuk membuat pengganti yang dapat mempelajari tugas yang sama dengan baik atau lebih baik dari model target. Dalam ekstraksi fidelitas, tujuannya adalah mencoba pengganti untuk mereplikasi batas keputusan setepat mungkin.
Selain membuat model pengganti, ada metode yang berfokus pada pemulihan informasi dari model target, seperti Mencuri hyperparameter dalam model target yang disebutkan dalam "Mencuri hyperparameter dalam pembelajaran mesin"; atau "Menuju Reverse-Engineering Black-Box Neural Networks" tentang mengekstraksi fungsi aktivasi, algoritme pengoptimalan, jumlah lapisan, dll. untuk berbagai arsitektur jaringan saraf, dll.
Artikel "Towards Reverse-Engineering Black-Box Neural Networks" menunjukkan bahwa ketika model dengan test set fit lebih tinggi dari 98% diserang, adalah mungkin untuk mencuri parameter model melalui serangan ekstraksi. Selain itu, ditunjukkan dalam "ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine Learning Models" bahwa model dengan kesalahan generalisasi yang lebih tinggi lebih sulit untuk dicuri, mungkin karena model tersebut mengingat kumpulan data yang tidak dimiliki oleh penyerang sampel. Faktor lain yang dapat mempengaruhi tingkat keberhasilan ekstraksi model adalah kategori data test set. Semakin banyak kategori data, maka akan menyebabkan kinerja serangan yang lebih buruk.
Gambar di atas mengilustrasikan grafik tipe serangan untuk setiap model algoritma. Di bawah setiap algoritme atau bidang pembelajaran mesin, hijau menunjukkan bahwa jenis serangan yang dapat diterapkan telah dipelajari sejauh ini, dan merah menunjukkan bahwa tidak ada jenis serangan yang dapat diterapkan yang ditemukan.
III.Jailbreak model
Model jailbreaking adalah membuat LLM menghasilkan perilaku keluaran yang merosot dalam beberapa hal, seperti keluaran ofensif, keluaran pelanggaran pengawasan konten, atau keluaran kebocoran data pribadi. Semakin banyak penelitian menunjukkan bahwa bahkan pengguna non-ahli dapat melakukan jailbreak LLM hanya dengan memanipulasi petunjuknya.
Misalnya, dalam contoh berikut, tujuan developer adalah membuat model terjemahan. Ada dua pengguna dalam skenario, pengguna pertama tidak berbahaya dan menggunakan model untuk kasus penggunaan yang dimaksudkan, sedangkan pengguna kedua mencoba mengubah tujuan model dengan memberikan input berbahaya. Dalam contoh ini, model bahasa merespons dengan "Haha pwned!!" alih-alih menerjemahkan kalimatnya. Dalam situasi jailbreak ini, respons model dapat direkayasa dengan berbagai maksud, mulai dari pembajakan target (hanya gagal melakukan tugas) hingga menghasilkan teks rasis yang menyinggung, atau bahkan memposting informasi pribadi dan hak milik.
### IV.Peracunan Data
Peracunan data adalah jenis serangan permusuhan khusus, yang merupakan teknik serangan terhadap perilaku model generatif. Pelaku jahat dapat menggunakan peracunan data untuk membuka pintu belakang ke dalam model, sehingga melewati sistem yang dikontrol secara algoritme.
Bagi mata manusia, ketiga gambar di bawah ini menunjukkan tiga hal yang berbeda: seekor burung, seekor anjing, dan seekor kuda. Tetapi untuk algoritme pembelajaran mesin, ketiganya mungkin memiliki arti yang sama: kotak putih kecil dengan batas hitam. Contoh ini mengilustrasikan sifat berbahaya dari model pembelajaran mesin yang dapat dieksploitasi untuk salah mengklasifikasikan data.
Serangan peracunan data bertujuan untuk memodifikasi set pelatihan model dengan memasukkan data yang salah label untuk mengelabui agar membuat prediksi yang salah. Serangan yang berhasil membahayakan integritas model, menghasilkan kesalahan yang konsisten dalam prediksi model. Setelah model diracuni, sangat sulit untuk pulih dari serangan itu, dan beberapa pengembang bahkan mungkin meninggalkan model tersebut.
Artikel "RealToxicitys: uating degenerasi toksik saraf dalam model bahasa" menyebutkan cara untuk menyediakan GPT-2 dengan serangkaian petunjuk berbasis teks untuk mengekspos parameter internal modelnya. "Serangan peracunan data tersembunyi pada model NLP" mengeksplorasi bagaimana data pelatihan dapat dimodifikasi untuk menyebabkan model bahasa tidak berfungsi untuk menghasilkan teks yang tidak tepat sasaran.
Meskipun peracunan data sangat berbahaya, penyerang harus memiliki akses ke saluran pelatihan model pembelajaran mesin sebelum model yang diracuni dapat didistribusikan. Oleh karena itu, model yang mengumpulkan iterasi data secara terus-menerus, atau model berdasarkan pembelajaran federasi, perlu memberi perhatian ekstra pada dampak keracunan data.
V. Serangan pintu belakang
Serangan pintu belakang mengacu pada penyisipan atau modifikasi teks secara diam-diam untuk menyebabkan keluaran berbahaya dari model bahasa. Makalah "Backdoors against natural language processing: A review" memperkenalkan masalah serangan backdoor, di mana kerentanan tertentu diteruskan ke model selama pelatihan dan dapat memicu aktivasi toksisitas model melalui penggunaan kosa kata.
Ini berbeda dari keracunan data karena fungsionalitas yang diharapkan dari model dipertahankan. "Serangan pintu belakang leksikal bebas pelatihan pada model bahasa" mengusulkan metode yang disebut serangan pintu belakang leksikal bebas pelatihan (TFLexAttack), yang melibatkan manipulasi kamus penyematan dengan memperkenalkan "pemicu" leksikal ke dalam tokenizer model bahasa.
Fenomena Magikarp Emas Padat
Fenomena SolidGoldMagikarp adalah fenomena khas serangan backdoor**,** saat memasukkan "SolidGoldMgikarp" ke dalam ChatGPT, ia hanya menjawab satu kata: "distribusikan". Ketika diminta untuk mengulangi "StreamerBot", itu menjawab: "Kamu brengsek". Saat diminta untuk mengulang "TheNitromeFan", ia menjawab "182". Dan jika Anda memberi tanda kutip tunggal di sekitar kata tersebut, jawabannya adalah "The" yang tak ada habisnya. Saat ditanya siapa TheNitromeFan itu, ChatGPT menjawab: "182 adalah angka, bukan orang. Ini sering digunakan untuk merujuk ke angka itu sendiri."
Fenomena SolidGoldMagikarp mengacu pada penggunaan tokenizer GPT OpenAI untuk mengidentifikasi token tertentu yang tidak dapat dibicarakan oleh model, serta token yang menyebabkan model mengeluarkan teks yang kacau. Artikel "Menjelaskan SolidGoldMagikarp dengan melihatnya dari arah acak" mengeksplorasi kemungkinan alasan di balik fenomena ini.
Berikut ini adalah beberapa jenis serangan backdoor yang lebih sering dan penting
A. Berbasis Perintah
a. Instruksi langsung: Serangan ini terutama dapat mengacu pada "Abaikan sebelumnya : Teknik serangan untuk model bahasa", yang hanya menginstruksikan model untuk mengabaikan petunjuk sebelumnya dan menetapkan tugas baru di lokasi saat ini.
b. Serangan Kognitif: Jenis serangan yang paling umum, di mana LLM biasanya "mengelabui" LLM untuk melakukan tindakan yang salah tempat yang tidak akan dilakukannya dengan menyediakan "ruang aman" atau menjamin respons semacam itu. "Chatgpt: Ai ini memiliki jailbreak ?!" mendokumentasikan beberapa upaya serangan semacam itu terhadap ChatGPT.
c. Pengulangan instruksi: Jenis serangan ini melibatkan memasukkan instruksi yang sama beberapa kali untuk membuatnya tampak seolah-olah penyerang sedang "memohon" model bahasa. Mengemis dalam arti harfiah juga bisa diungkapkan dengan kata-kata.
d. Defleksi Misi Tidak Langsung: Serangan ini berfokus pada penyamaran sebagai misi berbahaya lainnya. Serangan ini menargetkan model yang biasanya tidak mengikuti instruksi berbahaya
B. Berdasarkan non-instruksi
a. Transformasi Tata Bahasa: Jenis serangan ini melibatkan transformasi ortogonal dari teks serangan, seperti menggunakan LeetSpeak atau Base64, untuk melewati filter konten yang mungkin ada dalam aplikasi, dan model dapat secara inheren mengubah teks yang disandikan ini .
b. Sedikit Hacks: Pendekatan sederhana yang melibatkan paradigma pelatihan model bahasa. Dalam pendekatan ini, serangan menggabungkan beberapa fitur tekstual yang mungkin ditujukan pada model yang salah tempat. Misalnya, fenomena SolidGoldMagikarp termasuk dalam kategori ini.
c. Penyelesaian Teks sebagai Petunjuk: Serangan ini bekerja dengan memberi makan model dengan kalimat yang tidak lengkap, sehingga memaksa model untuk melengkapi kalimat dan dalam prosesnya mengabaikan petunjuk sebelumnya, yang mengakibatkan salah penempatan.
### VI.Perlindungan Model
Meneliti cara bertahan dari serangan model adalah tugas yang sulit dan penting. Sebagian besar makalah tentang analisis keamanan mengusulkan dan menguji cara untuk mengurangi serangan yang sesuai.Berikut ini adalah beberapa metode pertahanan yang khas.
Privasi Diferensial
Privasi diferensial saat ini merupakan salah satu pertahanan paling menonjol terhadap serangan inferensi keanggotaan, yang memberikan jaminan keamanan untuk data individu dalam keluaran model. Diskusi tentang privasi diferensial berasal dari makalah "Dasar-dasar algoritmik privasi diferensial".
Privasi diferensial menambah gangguan pada keluaran model, sehingga penyerang tidak mungkin membedakan dua kumpulan data secara statistik berdasarkan keluaran. Privasi diferensial pada awalnya merupakan definisi privasi untuk analisis data, yang dirancang berdasarkan gagasan "mempelajari informasi yang berguna tentang suatu populasi tanpa mengetahui individu mana pun". Privasi diferensial tidak melindungi keamanan privasi kumpulan data secara keseluruhan, tetapi melindungi data pribadi setiap individu dalam kumpulan data melalui mekanisme derau.
Definisi matematis dari privasi diferensial adalah sebagai berikut:
Privasi diferensial membuat trade-off antara perlindungan privasi dan utilitas atau akurasi model. Evaluasi dalam "Membership Inference Attack against Differentially Private Deep Learning Model" menyimpulkan bahwa model memberikan perlindungan privasi hanya jika mereka mengorbankan kegunaannya secara signifikan.
Regularisasi
Teknik regularisasi dalam machine learning bertujuan untuk mengurangi overfitting dan meningkatkan performa generalisasi model. Putus sekolah adalah bentuk regularisasi yang umum digunakan yang secara acak menjatuhkan persentase unit jaringan saraf yang telah ditentukan sebelumnya selama pelatihan. Mengingat bahwa serangan inferensi keanggotaan kotak hitam terkait dengan overfitting, ini adalah cara yang masuk akal untuk menangani serangan semacam itu, dan beberapa makalah telah mengusulkannya sebagai pertahanan dengan hasil yang baik.
Bentuk lain dari regularisasi menggunakan teknik yang menggabungkan beberapa model yang dilatih secara terpisah, seperti penumpukan model, telah menghasilkan hasil yang positif terhadap serangan inferensi. Satu keuntungan dari penumpukan model atau teknik serupa adalah bahwa mereka adalah agnostik kelas model.
Pengrusakan vektor prediksi
Karena banyak model berasumsi bahwa vektor prediksi dapat diakses selama inferensi, salah satu penanggulangan yang diusulkan adalah membatasi keluaran ke kelas top-k atau prediksi model. Namun, batasan ini, bahkan dalam bentuknya yang paling ketat (hanya mengeluarkan label kelas) tampaknya tidak sepenuhnya mengurangi serangan inferensi keanggotaan, karena kebocoran informasi masih dapat terjadi karena kesalahan klasifikasi model. Pilihan lainnya adalah mengurangi ketepatan prediksi vektor, sehingga mengurangi kebocoran informasi.
Selain itu, telah ditunjukkan bahwa menambahkan derau ke vektor keluaran juga memengaruhi serangan inferensi anggota.
Penyesuaian Gradien (Pengaturan Gradien Hilang)
Karena serangan rekonstruksi biasanya memerlukan akses ke gradien kerugian selama pelatihan, sebagian besar pertahanan terhadap serangan rekonstruksi mengusulkan teknik yang memengaruhi informasi yang diambil dari gradien ini. Menyetel semua gradien kerugian di bawah ambang batas tertentu ke nol diusulkan sebagai pertahanan terhadap serangan rekonstruksi dalam pembelajaran mendalam. Artikel "Deep Leakage from Gradients" membuktikan bahwa metode ini sangat efektif, dan jika hanya 20% gradien yang disetel ke nol, dampaknya terhadap performa model dapat diabaikan.
Mencegah Serangan Pencurian Model DNN (PRADA)
"PRADA: melindungi dari serangan pencurian model DNN" mengusulkan sebuah metode untuk mendeteksi serangan pencurian model berdasarkan permintaan model yang digunakan oleh musuh. Deteksi didasarkan pada asumsi bahwa kueri model yang berupaya menjelajahi batas keputusan akan memiliki distribusi sampel yang berbeda dari kueri normal. Meskipun pendeteksian berhasil, penulis menunjukkan bahwa ada potensi penghindaran jika musuh menyesuaikan strateginya.
Inferensi keanggotaan
"Thieves on Sesame Street! Model Extraction of BERT-based APIs" mengkaji gagasan menggunakan inferensi keanggotaan untuk bertahan dari ekstraksi model. Ini didasarkan pada premis bahwa menggunakan inferensi keanggotaan, pemilik model dapat membedakan kueri pengguna yang sah dari kueri tidak masuk akal yang tujuan utamanya adalah untuk mengekstrak model. Penulis menunjukkan bahwa jenis pertahanan ini memiliki keterbatasan, seperti berpotensi menandai kueri yang sah tetapi di luar distribusi yang dikeluarkan oleh pengguna yang sah, tetapi yang lebih penting, mereka dapat dielakkan oleh musuh yang membuat kueri adaptif.
Sesuaikan dengan prompt
Dalam "Mengontrol Ekstraksi Data yang Dihafal dari Model Bahasa Besar melalui -Tuning", sebuah metode baru diusulkan yang menggunakan penyetelan petunjuk untuk mengontrol tingkat ekstraksi konten yang dihafal di LLM. Mereka mengusulkan dua strategi pelatihan petunjuk untuk meningkatkan dan menurunkan tingkat ekstraksi, masing-masing sesuai dengan serangan dan pertahanan.
VII.Kesimpulan
LLM masih memiliki risiko keamanan dan kebocoran privasi yang relatif besar
Serangan untuk mengekstraksi struktur model dan data pada dasarnya merupakan serangan terhadap kerahasiaan model
Riset utama di civitas akademika saat ini difokuskan pada bagaimana menyerang model dan prinsip kebocoran data
Bagian dari mekanisme yang menyebabkan LLM membocorkan data masih belum jelas
Seperti privasi diferensial, perusakan vektor prediksi, dll. Dapat melindungi privasi data sampai batas tertentu, dan metode ini terkonsentrasi pada tahap pelatihan model
Tindakan perlindungan yang ada tidak sempurna dan perlu mengorbankan kinerja dan akurasi model
________
Referensi:
1. Kalpesh Krishna, Gaurav Singh Tomar, Ankur P. Parikh, Nicolas Papernot, and Mohit Iyyer. 2020. Pencuri di Sesame Street! Ekstraksi Model API berbasis BERT. Dalam Konferensi Internasional tentang Representasi Pembelajaran. ICLR, Konferensi Virtual, sebelumnya Addis Ababa, Ethiopia.
2. The secret sharer: uating dan testing unintended memorization in neural network
3. Martín Abadi, Andy Chu, Ian J. Goodfellow, HB McMahan, Ilya Mironov, Kunal Talwar, and Li Zhang. 2016. Pembelajaran mendalam dengan privasi diferensial
4. Giuseppe Athenian, Luigi V. Mancini, Angelo Spognardi, Antonio Villani, Domenico Vitali, and Giovanni Felici. 2015. Meretas Mesin Cerdas dengan Yang Lebih Cerdas: Cara Mengekstrak Data Bermakna dari Pengklasifikasi Pembelajaran Mesin.
5. Bargav Jayaraman dan David Evans. 2019. Menggunakan Pembelajaran Mesin Pribadi yang Diferensial dalam Praktik. Dalam Simposium Keamanan USENIX ke-28 (Keamanan USENIX 19). Asosiasi USENIX, Santa Clara, CA, 1895–1912
6. Mempertahankan serangan inferensi keanggotaan tanpa kehilangan utilitas
7. Yugeng Liu, Rui Wen, Xinlei He, Ahmed Salem, Zhikun Zhang, Michael Backes, Emiliano De Cristofaro, Mario Fritz, and Yang Zhang. 2021. ML-Doctor: Penilaian Risiko Holistik Serangan Inferensi Terhadap Model Pembelajaran Mesin
8. Menipu LLM menjadi Ketidaktaatan: Memahami, Menganalisis, dan Mencegah Jailbreak
9. Maria Rigaki dan Sebastian Garcia. 2021. Survei serangan privasi dalam pembelajaran mesin
10. Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ul-far Erlingsson, Alina Oprea, dan Colin Raffel. 2021. Mengekstrak data pelatihan dari model bahasa besar
11. Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi, and Noah A. Smith. 2020. RealToxi-city s: menghasilkan degenerasi toksik saraf dalam model bahasa.
12. Wenlong Huang, Pieter Abbeel, Deepak Pathak, and Igor Mordatch. 2022b. Model bahasa sebagai perencana zero-shot: Mengekstrak pengetahuan yang dapat ditindaklanjuti untuk agen yang diwujudkan. Dalam ICML 2022, volume 162 dari Proceedings of Machine Learning Research, halaman 9118–9147. PMLR
13. Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese, dan Geoffrey Irving. 2022. Model bahasa tim merah dengan model bahasa.
14. Eric Wallace, Tony Zhao, Shi Feng, dan Sameer Singh. Serangan peracunan data tersembunyi pada model NLP.
15. Shaofeng Li, Tian Dong, Benjamin Zi Hao Zhao, Minhui Xue, Suguo Du, dan Haojin Zhu. 2022. Pintu belakang terhadap pemrosesan bahasa alami: Tinjauan. Keamanan & Privasi IEEE, 20(5):50–59
16. Yujin Huang, Terry Yue Zhuo, Qiongkai Xu, Han Hu, Xingliang Yuan, dan Chunyang Chen. 2023. Serangan backdoor leksikal bebas pelatihan pada model bahasa.
17. Menjelaskan SolidGoldMagikarp dengan melihatnya dari arah acak
18. Fabio Perez dan Ian Ribeiro. 2022. Abaikan sebelumnya : Teknik serangan untuk model bahasa. pracetak arXiv arXiv:2211.09527.
19. Yannic Kilcher. 2022. Chatgpt: Ai ini memiliki jailbreak?! (kemajuan yang luar biasa).
20. Battista Biggio dan Fabio Roli. 2018. Pola liar: Sepuluh tahun setelah munculnya pembelajaran mesin permusuhan. Pengenalan Pola 84 (2018), 317–331.
21. Ligeng Zhu, Zhijian Liu, and Song Han. 2019. Kebocoran Jauh dari Gradien. Dalam Kemajuan dalam Pemrosesan Informasi Saraf s 32, H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox, dan R. Garnett (Eds.). Curran Associates, Inc., Vancouver, Kanada, 14747–14756
22. Nicholas Papernot, Patrick McDaniel, Arunesh Sinha, dan Michael P. Wellman. 2018. SoK: Keamanan dan Privasi dalam Pembelajaran Mesin. Pada tahun 2018 IEEE European Symposium on Security and Privacy (EuroS P). IEEE, London, Inggris, 399–414
23. Michael Veale, Reuben Binns, dan Lilian Edwards. 2018. Algoritma yang mengingat: model serangan inversi dan hukum perlindungan data. Transaksi Filosofis Royal Society A: Ilmu Matematika, Fisika, dan Teknik 376, 2133 (2018), 20180083
24. Reza Shokri, Marco Stronati, Congzheng Song, dan Vitaly Shmatikov. 2017. Serangan inferensi keanggotaan terhadap model pembelajaran mesin. Pada Simposium IEEE 2017 tentang Keamanan dan Privasi (SP). IEEE, San Francisco, CA, AS, 3–18
25. Sorami Hisamoto, Matt Post, dan Kevin Duh. 2020. Serangan Inferensi Keanggotaan pada Model Sequence-to-Sequence: Apakah Data Saya Di Terjemahan Mesin Anda?
26. Lagu Congzheng dan Vitaly Shmatikov. 2019. Mengaudit Provenance Data dalam Model Text-Generation. Dalam Prosiding 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD '19). Asosiasi Mesin Komputasi, New York, NY, AS, 196–206.
27. Jinyuan Jia dan Neil Zhenqiang Gong. 2018. AttriGuard: Pertahanan Praktis Terhadap Serangan Inferensi Atribut melalui Pembelajaran Mesin Musuh. Dalam Simposium Keamanan USENIX ke-27 (Keamanan USENIX 18).
28. Matthew Fredrikson, Eric Lantz, Somesh Jha, Simon Lin, David Page, and Thomas Ristenpart. 2014. Privasi dalam Farmakogenetika: Studi Kasus End-to-End tentang Dosis Warfarin yang Dipersonalisasi.
29. Matthew Jagielski, Nicholas Carlini, David Berthelot, Alex Kurakin, dan Nicolas Papernot. 2020. Akurasi Tinggi dan Ekstraksi Kesetiaan Tinggi dari Jaringan Syaraf
30. Binghui Wang dan Neil Zhenqiang Gong. 2018. Mencuri hyperparameter dalam pembelajaran mesin. Pada Simposium IEEE 2018 tentang Keamanan dan Privasi (SP). IEEE, San Francisco, CA, AS, 36–52
31. Seong Joon Oh, Max Augustin, Mario Fritz, and Bernt Schiele. 2018. Menuju Reverse-Engineering Black-Box Neural Networks. Dalam Konferensi Internasional Keenam tentang Representasi Pembelajaran. ICLR, Vancouver, Kanada.
32. Cynthia Dwork dan Aaron Roth. 2013. Fondasi algoritmik privasi diferensial. Dasar dan Tren dalam Ilmu Komputer Teoritis 9, 3-4 (2013), 211–487
Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Berbicara tentang privasi data model besar, beberapa metode serangan model umum
Sumber asli: Modal Oasis
Penulis: Vitalitas Konselor
Pada 20 Maret 2023, terjadi pelanggaran data di ChatGPT, mengungkap informasi pribadi beberapa pengguna ChatGPT. Mengingat hal ini, regulator privasi Italia yakin bahwa ChatGPT diduga memproses data pribadi secara ilegal, melanggar privasi, dan melanggar peraturan GDPR yang relevan. Italia kemudian menjadi negara pertama yang melarang penggunaan ChatGPT, memicu diskusi di negara-negara UE lainnya mengenai apakah tindakan yang lebih keras diperlukan untuk mengontrol teknologi tersebut.
Hampir semua layanan online mengumpulkan data pribadi kami dan dapat menggunakan data ini untuk pelatihan LLM. Namun, bagaimana model akan menggunakan data yang digunakan untuk pelatihan sulit ditentukan. Jika data sensitif seperti lokasi geografis, catatan kesehatan, dan informasi identitas digunakan dalam pelatihan model, serangan ekstraksi data terhadap data pribadi dalam model akan menyebabkan sejumlah besar kebocoran privasi pengguna. Artikel "Apakah Model Bahasa Pra-Terlatih Besar Membocorkan Informasi Pribadi Anda?" membuktikan bahwa karena memori data pelatihan LLM, LLM memang memiliki risiko membocorkan informasi pribadi selama proses dialog, dan risikonya meningkat seiring dengan jumlah contoh. .
Ada beberapa alasan mengapa sebuah model membocorkan informasi. Beberapa di antaranya bersifat struktural dan berkaitan dengan cara model dibangun; sementara yang lain disebabkan oleh generalisasi yang buruk, hafalan data sensitif, dll. Pada artikel berikutnya, pertama-tama kami akan memperkenalkan proses kebocoran data dasar, kemudian memperkenalkan beberapa metode serangan model umum seperti serangan privasi, jailbreak, peracunan data, dan serangan pintu belakang, dan terakhir memperkenalkan beberapa penelitian terkini tentang perlindungan privasi.
I. Pemodelan Ancaman
Model ancaman LLM dasar mencakup lingkungan model umum, berbagai pelaku, dan aset sensitif. Aset sensitif meliputi kumpulan data pelatihan, parameter model, hiperparameter model, dan arsitektur. Pesertanya meliputi: pemilik data, pemilik model, konsumen model, dan musuh. Diagram berikut menggambarkan aset, aktor, aliran informasi, dan kemungkinan aliran operasional di bawah model ancaman:
II.Serangan Privasi
Serangan privasi dibagi menjadi empat jenis utama: serangan inferensi keanggotaan, serangan rekonstruksi, serangan inferensi atribut, dan ekstraksi model.
Inferensi keanggotaan mencoba untuk menentukan apakah sampel input x digunakan sebagai bagian dari set pelatihan D. Misalnya, dalam keadaan normal, data pribadi pengguna akan dirahasiakan, tetapi informasi yang tidak sensitif masih dapat digunakan untuk spekulasi. Contohnya adalah jika kita mengetahui bahwa anggota klub pribadi suka memakai kacamata hitam ungu dan sepatu kulit merah, maka kita dapat menyimpulkan bahwa dia mungkin adalah orang ini ketika kita bertemu dengan orang yang memakai kacamata hitam ungu dan sepatu kulit merah (informasi non-sensitif ).Keanggotaan klub swasta (informasi sensitif).
Serangan inferensi keanggotaan saat ini merupakan cara serangan privasi yang paling populer, yang pertama kali diusulkan oleh Shokri dkk dalam artikel "Serangan inferensi keanggotaan terhadap model pembelajaran mesin". Artikel tersebut menunjukkan bahwa serangan ini hanya mengasumsikan pengetahuan tentang vektor prediksi keluaran model dan dilakukan terhadap model pembelajaran mesin yang diawasi. Memiliki akses ke parameter model dan gradien memungkinkan serangan inferensi keanggotaan yang lebih akurat.
Metode tipikal serangan inferensi keanggotaan disebut serangan bayangan, yaitu melatih model bayangan berdasarkan kumpulan data yang diketahui dapat diakses, dan kemudian memperoleh informasi sensitif dengan menginterogasi model bayangan.
Selain model pembelajaran terawasi, model generatif seperti GAN dan VAE juga rentan terhadap serangan inferensi keanggotaan. "GAN-Leaks: Taksonomi Serangan Inferensi Keanggotaan terhadap Model Generatif" memperkenalkan masalah GAN dalam menghadapi serangan penalaran anggota; "LOGAN: Serangan inferensi keanggotaan terhadap model generatif" memperkenalkan model generatif lain dalam respon penalaran anggota terhadap serangan, dan memperkenalkan cara mengambil data pelatihan berdasarkan pemahaman komponen pembuatan data; (MLM) model juga rentan terhadap serangan MIA, yang dalam beberapa kasus dapat menentukan apakah data sampel termasuk dalam data pelatihan.
Di sisi lain, penalaran keanggotaan juga dapat digunakan untuk tinjauan keamanan model, dan pemilik data dapat menggunakan penalaran keanggotaan untuk meninjau model kotak hitam. "Serangan Inferensi Keanggotaan pada Model Sequence-to-Sequence: Is My Data In Your Machine Translation?" menjelaskan bagaimana pemilik data dapat melihat apakah data digunakan tanpa otorisasi.
"Serangan inferensi keanggotaan terhadap model pembelajaran mesin" meneliti hubungan antara overfitting dan inferensi keanggotaan black-box. Penulis mengukur dampak overfitting pada akurasi serangan dengan menggunakan kumpulan data yang sama untuk melatih model di platform MLaaS yang berbeda. . Eksperimen menunjukkan bahwa overfitting dapat menyebabkan kebocoran privasi, tetapi juga menunjukkan bahwa ini bukan satu-satunya kasus, karena beberapa model dengan tingkat generalisasi yang tinggi lebih rentan terhadap kebocoran keanggotaan.
Serangan rekonstruksi mencoba untuk merekonstruksi beberapa sampel pelatihan bersama dengan label pelatihannya, yaitu, upaya untuk memulihkan fitur sensitif atau melengkapi sampel data yang diberikan label keluaran dan sebagian pengetahuan tentang fitur tertentu. Misalnya, melalui inversi model, informasi yang diperoleh pada antarmuka model direkonstruksi secara terbalik, dan informasi sensitif pengguna seperti karakteristik biologis dan rekam medis dalam data pelatihan dipulihkan, seperti yang ditunjukkan pada gambar berikut:
Serangan inferensi atribut mengacu pada penggunaan atribut dan struktur yang terlihat secara publik untuk menyimpulkan data atribut yang tersembunyi atau tidak lengkap. Contohnya adalah mengekstraksi informasi tentang rasio pria dan wanita dalam kumpulan data pasien, atau untuk model yang diklasifikasikan menurut jenis kelamin untuk menyimpulkan apakah orang dalam kumpulan data pelatihan memakai kacamata. Dalam beberapa kasus, jenis kebocoran ini dapat memengaruhi privasi.
"Meretas Mesin Cerdas dengan Yang Lebih Cerdas: Cara Mengekstrak Data Bermakna dari Pengklasifikasi Pembelajaran Mesin" menyebutkan bahwa mengeksploitasi jenis data atribut tertentu juga dapat digunakan untuk mendapatkan pemahaman yang lebih dalam tentang data pelatihan, mengarahkan orang lain untuk menggunakan informasi ini untuk menyatukan sebuah gambaran yang lebih global.
Artikel "Anda adalah siapa yang Anda kenal dan bagaimana Anda berperilaku: Serangan inferensi atribut melalui teman sosial dan perilaku pengguna" memperkenalkan jenis metode serangan inferensi atribut, yaitu mengunci dan mengekstrak informasi lain dari pengguna melalui perilaku yang diketahui dari pengguna itu sendiri. "AttriGuard: Pertahanan Praktis Terhadap Serangan Inferensi Atribut melalui Pembelajaran Mesin Adversarial" memperkenalkan beberapa metode pertahanan untuk menangani serangan inferensi atribut.
Penalaran atribut bertujuan untuk mengekstrak informasi dari model yang tidak sengaja dipelajari oleh model, atau yang tidak relevan dengan tugas pelatihan. Bahkan model yang digeneralisasi dengan baik dapat mempelajari properti yang terkait dengan seluruh distribusi data input, yang terkadang tidak dapat dihindari untuk proses pembelajaran pelatihan model.
"Memanfaatkan kebocoran fitur yang tidak diinginkan dalam pembelajaran kolaboratif" menunjukkan bahwa serangan inferensi atribut dimungkinkan bahkan dengan model yang digeneralisasi dengan baik, sehingga overfitting tampaknya tidak menjadi penyebab serangan inferensi atribut. Mengenai serangan inferensi atribut, saat ini hanya ada sedikit informasi tentang apa yang menyebabkannya dan dalam keadaan apa tampaknya efektif, yang mungkin menjadi arah yang menjanjikan untuk penelitian di masa mendatang.
Ekstraksi model adalah kelas serangan kotak hitam di mana musuh mencoba mengekstraksi informasi dan mungkin sepenuhnya merekonstruksi model dengan membuat model pengganti yang berperilaku sangat mirip dengan model yang diserang.
"Model Extraction of BERT-based APIs", "Model Reconstruction from Model Explanations", "Knockoff nets: Stealing function of black-box models", "High Accuracy and High Fidelity Extraction of Neural Networks" beberapa makalah menjelaskan dari berbagai sudut Beberapa upaya pada serangan ekstraksi model.
Ada dua langkah utama dalam membuat model pengganti: Langkah pertama adalah ekstraksi akurasi tugas, di mana kumpulan tes yang relevan dengan tugas pembelajaran diekstraksi dari distribusi data input untuk membuat model yang cocok dengan akurasi model target. Langkah kedua adalah ekstraksi fidelitas, yaitu membuat pengganti yang dibuat cocok dengan model dalam satu set yang tidak terkait dengan tugas pembelajaran agar sesuai dengan target. Dalam ekstraksi akurat tugas, tujuannya adalah untuk membuat pengganti yang dapat mempelajari tugas yang sama dengan baik atau lebih baik dari model target. Dalam ekstraksi fidelitas, tujuannya adalah mencoba pengganti untuk mereplikasi batas keputusan setepat mungkin.
Selain membuat model pengganti, ada metode yang berfokus pada pemulihan informasi dari model target, seperti Mencuri hyperparameter dalam model target yang disebutkan dalam "Mencuri hyperparameter dalam pembelajaran mesin"; atau "Menuju Reverse-Engineering Black-Box Neural Networks" tentang mengekstraksi fungsi aktivasi, algoritme pengoptimalan, jumlah lapisan, dll. untuk berbagai arsitektur jaringan saraf, dll.
Artikel "Towards Reverse-Engineering Black-Box Neural Networks" menunjukkan bahwa ketika model dengan test set fit lebih tinggi dari 98% diserang, adalah mungkin untuk mencuri parameter model melalui serangan ekstraksi. Selain itu, ditunjukkan dalam "ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine Learning Models" bahwa model dengan kesalahan generalisasi yang lebih tinggi lebih sulit untuk dicuri, mungkin karena model tersebut mengingat kumpulan data yang tidak dimiliki oleh penyerang sampel. Faktor lain yang dapat mempengaruhi tingkat keberhasilan ekstraksi model adalah kategori data test set. Semakin banyak kategori data, maka akan menyebabkan kinerja serangan yang lebih buruk.
III.Jailbreak model
Model jailbreaking adalah membuat LLM menghasilkan perilaku keluaran yang merosot dalam beberapa hal, seperti keluaran ofensif, keluaran pelanggaran pengawasan konten, atau keluaran kebocoran data pribadi. Semakin banyak penelitian menunjukkan bahwa bahkan pengguna non-ahli dapat melakukan jailbreak LLM hanya dengan memanipulasi petunjuknya.
Misalnya, dalam contoh berikut, tujuan developer adalah membuat model terjemahan. Ada dua pengguna dalam skenario, pengguna pertama tidak berbahaya dan menggunakan model untuk kasus penggunaan yang dimaksudkan, sedangkan pengguna kedua mencoba mengubah tujuan model dengan memberikan input berbahaya. Dalam contoh ini, model bahasa merespons dengan "Haha pwned!!" alih-alih menerjemahkan kalimatnya. Dalam situasi jailbreak ini, respons model dapat direkayasa dengan berbagai maksud, mulai dari pembajakan target (hanya gagal melakukan tugas) hingga menghasilkan teks rasis yang menyinggung, atau bahkan memposting informasi pribadi dan hak milik.
Peracunan data adalah jenis serangan permusuhan khusus, yang merupakan teknik serangan terhadap perilaku model generatif. Pelaku jahat dapat menggunakan peracunan data untuk membuka pintu belakang ke dalam model, sehingga melewati sistem yang dikontrol secara algoritme.
Bagi mata manusia, ketiga gambar di bawah ini menunjukkan tiga hal yang berbeda: seekor burung, seekor anjing, dan seekor kuda. Tetapi untuk algoritme pembelajaran mesin, ketiganya mungkin memiliki arti yang sama: kotak putih kecil dengan batas hitam. Contoh ini mengilustrasikan sifat berbahaya dari model pembelajaran mesin yang dapat dieksploitasi untuk salah mengklasifikasikan data.
Artikel "RealToxicitys: uating degenerasi toksik saraf dalam model bahasa" menyebutkan cara untuk menyediakan GPT-2 dengan serangkaian petunjuk berbasis teks untuk mengekspos parameter internal modelnya. "Serangan peracunan data tersembunyi pada model NLP" mengeksplorasi bagaimana data pelatihan dapat dimodifikasi untuk menyebabkan model bahasa tidak berfungsi untuk menghasilkan teks yang tidak tepat sasaran.
Meskipun peracunan data sangat berbahaya, penyerang harus memiliki akses ke saluran pelatihan model pembelajaran mesin sebelum model yang diracuni dapat didistribusikan. Oleh karena itu, model yang mengumpulkan iterasi data secara terus-menerus, atau model berdasarkan pembelajaran federasi, perlu memberi perhatian ekstra pada dampak keracunan data.
V. Serangan pintu belakang
Serangan pintu belakang mengacu pada penyisipan atau modifikasi teks secara diam-diam untuk menyebabkan keluaran berbahaya dari model bahasa. Makalah "Backdoors against natural language processing: A review" memperkenalkan masalah serangan backdoor, di mana kerentanan tertentu diteruskan ke model selama pelatihan dan dapat memicu aktivasi toksisitas model melalui penggunaan kosa kata.
Ini berbeda dari keracunan data karena fungsionalitas yang diharapkan dari model dipertahankan. "Serangan pintu belakang leksikal bebas pelatihan pada model bahasa" mengusulkan metode yang disebut serangan pintu belakang leksikal bebas pelatihan (TFLexAttack), yang melibatkan manipulasi kamus penyematan dengan memperkenalkan "pemicu" leksikal ke dalam tokenizer model bahasa.
Fenomena Magikarp Emas Padat
Fenomena SolidGoldMagikarp adalah fenomena khas serangan backdoor**,** saat memasukkan "SolidGoldMgikarp" ke dalam ChatGPT, ia hanya menjawab satu kata: "distribusikan". Ketika diminta untuk mengulangi "StreamerBot", itu menjawab: "Kamu brengsek". Saat diminta untuk mengulang "TheNitromeFan", ia menjawab "182". Dan jika Anda memberi tanda kutip tunggal di sekitar kata tersebut, jawabannya adalah "The" yang tak ada habisnya. Saat ditanya siapa TheNitromeFan itu, ChatGPT menjawab: "182 adalah angka, bukan orang. Ini sering digunakan untuk merujuk ke angka itu sendiri."
Fenomena SolidGoldMagikarp mengacu pada penggunaan tokenizer GPT OpenAI untuk mengidentifikasi token tertentu yang tidak dapat dibicarakan oleh model, serta token yang menyebabkan model mengeluarkan teks yang kacau. Artikel "Menjelaskan SolidGoldMagikarp dengan melihatnya dari arah acak" mengeksplorasi kemungkinan alasan di balik fenomena ini.
Berikut ini adalah beberapa jenis serangan backdoor yang lebih sering dan penting
A. Berbasis Perintah
a. Instruksi langsung: Serangan ini terutama dapat mengacu pada "Abaikan sebelumnya : Teknik serangan untuk model bahasa", yang hanya menginstruksikan model untuk mengabaikan petunjuk sebelumnya dan menetapkan tugas baru di lokasi saat ini.
b. Serangan Kognitif: Jenis serangan yang paling umum, di mana LLM biasanya "mengelabui" LLM untuk melakukan tindakan yang salah tempat yang tidak akan dilakukannya dengan menyediakan "ruang aman" atau menjamin respons semacam itu. "Chatgpt: Ai ini memiliki jailbreak ?!" mendokumentasikan beberapa upaya serangan semacam itu terhadap ChatGPT.
c. Pengulangan instruksi: Jenis serangan ini melibatkan memasukkan instruksi yang sama beberapa kali untuk membuatnya tampak seolah-olah penyerang sedang "memohon" model bahasa. Mengemis dalam arti harfiah juga bisa diungkapkan dengan kata-kata.
d. Defleksi Misi Tidak Langsung: Serangan ini berfokus pada penyamaran sebagai misi berbahaya lainnya. Serangan ini menargetkan model yang biasanya tidak mengikuti instruksi berbahaya
B. Berdasarkan non-instruksi
a. Transformasi Tata Bahasa: Jenis serangan ini melibatkan transformasi ortogonal dari teks serangan, seperti menggunakan LeetSpeak atau Base64, untuk melewati filter konten yang mungkin ada dalam aplikasi, dan model dapat secara inheren mengubah teks yang disandikan ini .
b. Sedikit Hacks: Pendekatan sederhana yang melibatkan paradigma pelatihan model bahasa. Dalam pendekatan ini, serangan menggabungkan beberapa fitur tekstual yang mungkin ditujukan pada model yang salah tempat. Misalnya, fenomena SolidGoldMagikarp termasuk dalam kategori ini.
c. Penyelesaian Teks sebagai Petunjuk: Serangan ini bekerja dengan memberi makan model dengan kalimat yang tidak lengkap, sehingga memaksa model untuk melengkapi kalimat dan dalam prosesnya mengabaikan petunjuk sebelumnya, yang mengakibatkan salah penempatan.
Meneliti cara bertahan dari serangan model adalah tugas yang sulit dan penting. Sebagian besar makalah tentang analisis keamanan mengusulkan dan menguji cara untuk mengurangi serangan yang sesuai.Berikut ini adalah beberapa metode pertahanan yang khas.
Privasi diferensial saat ini merupakan salah satu pertahanan paling menonjol terhadap serangan inferensi keanggotaan, yang memberikan jaminan keamanan untuk data individu dalam keluaran model. Diskusi tentang privasi diferensial berasal dari makalah "Dasar-dasar algoritmik privasi diferensial".
Privasi diferensial menambah gangguan pada keluaran model, sehingga penyerang tidak mungkin membedakan dua kumpulan data secara statistik berdasarkan keluaran. Privasi diferensial pada awalnya merupakan definisi privasi untuk analisis data, yang dirancang berdasarkan gagasan "mempelajari informasi yang berguna tentang suatu populasi tanpa mengetahui individu mana pun". Privasi diferensial tidak melindungi keamanan privasi kumpulan data secara keseluruhan, tetapi melindungi data pribadi setiap individu dalam kumpulan data melalui mekanisme derau.
Definisi matematis dari privasi diferensial adalah sebagai berikut:
Teknik regularisasi dalam machine learning bertujuan untuk mengurangi overfitting dan meningkatkan performa generalisasi model. Putus sekolah adalah bentuk regularisasi yang umum digunakan yang secara acak menjatuhkan persentase unit jaringan saraf yang telah ditentukan sebelumnya selama pelatihan. Mengingat bahwa serangan inferensi keanggotaan kotak hitam terkait dengan overfitting, ini adalah cara yang masuk akal untuk menangani serangan semacam itu, dan beberapa makalah telah mengusulkannya sebagai pertahanan dengan hasil yang baik.
Bentuk lain dari regularisasi menggunakan teknik yang menggabungkan beberapa model yang dilatih secara terpisah, seperti penumpukan model, telah menghasilkan hasil yang positif terhadap serangan inferensi. Satu keuntungan dari penumpukan model atau teknik serupa adalah bahwa mereka adalah agnostik kelas model.
Karena banyak model berasumsi bahwa vektor prediksi dapat diakses selama inferensi, salah satu penanggulangan yang diusulkan adalah membatasi keluaran ke kelas top-k atau prediksi model. Namun, batasan ini, bahkan dalam bentuknya yang paling ketat (hanya mengeluarkan label kelas) tampaknya tidak sepenuhnya mengurangi serangan inferensi keanggotaan, karena kebocoran informasi masih dapat terjadi karena kesalahan klasifikasi model. Pilihan lainnya adalah mengurangi ketepatan prediksi vektor, sehingga mengurangi kebocoran informasi.
Selain itu, telah ditunjukkan bahwa menambahkan derau ke vektor keluaran juga memengaruhi serangan inferensi anggota.
Karena serangan rekonstruksi biasanya memerlukan akses ke gradien kerugian selama pelatihan, sebagian besar pertahanan terhadap serangan rekonstruksi mengusulkan teknik yang memengaruhi informasi yang diambil dari gradien ini. Menyetel semua gradien kerugian di bawah ambang batas tertentu ke nol diusulkan sebagai pertahanan terhadap serangan rekonstruksi dalam pembelajaran mendalam. Artikel "Deep Leakage from Gradients" membuktikan bahwa metode ini sangat efektif, dan jika hanya 20% gradien yang disetel ke nol, dampaknya terhadap performa model dapat diabaikan.
"PRADA: melindungi dari serangan pencurian model DNN" mengusulkan sebuah metode untuk mendeteksi serangan pencurian model berdasarkan permintaan model yang digunakan oleh musuh. Deteksi didasarkan pada asumsi bahwa kueri model yang berupaya menjelajahi batas keputusan akan memiliki distribusi sampel yang berbeda dari kueri normal. Meskipun pendeteksian berhasil, penulis menunjukkan bahwa ada potensi penghindaran jika musuh menyesuaikan strateginya.
"Thieves on Sesame Street! Model Extraction of BERT-based APIs" mengkaji gagasan menggunakan inferensi keanggotaan untuk bertahan dari ekstraksi model. Ini didasarkan pada premis bahwa menggunakan inferensi keanggotaan, pemilik model dapat membedakan kueri pengguna yang sah dari kueri tidak masuk akal yang tujuan utamanya adalah untuk mengekstrak model. Penulis menunjukkan bahwa jenis pertahanan ini memiliki keterbatasan, seperti berpotensi menandai kueri yang sah tetapi di luar distribusi yang dikeluarkan oleh pengguna yang sah, tetapi yang lebih penting, mereka dapat dielakkan oleh musuh yang membuat kueri adaptif.
Dalam "Mengontrol Ekstraksi Data yang Dihafal dari Model Bahasa Besar melalui -Tuning", sebuah metode baru diusulkan yang menggunakan penyetelan petunjuk untuk mengontrol tingkat ekstraksi konten yang dihafal di LLM. Mereka mengusulkan dua strategi pelatihan petunjuk untuk meningkatkan dan menurunkan tingkat ekstraksi, masing-masing sesuai dengan serangan dan pertahanan.
VII.Kesimpulan
LLM masih memiliki risiko keamanan dan kebocoran privasi yang relatif besar
Serangan untuk mengekstraksi struktur model dan data pada dasarnya merupakan serangan terhadap kerahasiaan model
Riset utama di civitas akademika saat ini difokuskan pada bagaimana menyerang model dan prinsip kebocoran data
Bagian dari mekanisme yang menyebabkan LLM membocorkan data masih belum jelas
Seperti privasi diferensial, perusakan vektor prediksi, dll. Dapat melindungi privasi data sampai batas tertentu, dan metode ini terkonsentrasi pada tahap pelatihan model
Tindakan perlindungan yang ada tidak sempurna dan perlu mengorbankan kinerja dan akurasi model
________
Referensi:
1. Kalpesh Krishna, Gaurav Singh Tomar, Ankur P. Parikh, Nicolas Papernot, and Mohit Iyyer. 2020. Pencuri di Sesame Street! Ekstraksi Model API berbasis BERT. Dalam Konferensi Internasional tentang Representasi Pembelajaran. ICLR, Konferensi Virtual, sebelumnya Addis Ababa, Ethiopia.
2. The secret sharer: uating dan testing unintended memorization in neural network
3. Martín Abadi, Andy Chu, Ian J. Goodfellow, HB McMahan, Ilya Mironov, Kunal Talwar, and Li Zhang. 2016. Pembelajaran mendalam dengan privasi diferensial
4. Giuseppe Athenian, Luigi V. Mancini, Angelo Spognardi, Antonio Villani, Domenico Vitali, and Giovanni Felici. 2015. Meretas Mesin Cerdas dengan Yang Lebih Cerdas: Cara Mengekstrak Data Bermakna dari Pengklasifikasi Pembelajaran Mesin.
5. Bargav Jayaraman dan David Evans. 2019. Menggunakan Pembelajaran Mesin Pribadi yang Diferensial dalam Praktik. Dalam Simposium Keamanan USENIX ke-28 (Keamanan USENIX 19). Asosiasi USENIX, Santa Clara, CA, 1895–1912
6. Mempertahankan serangan inferensi keanggotaan tanpa kehilangan utilitas
7. Yugeng Liu, Rui Wen, Xinlei He, Ahmed Salem, Zhikun Zhang, Michael Backes, Emiliano De Cristofaro, Mario Fritz, and Yang Zhang. 2021. ML-Doctor: Penilaian Risiko Holistik Serangan Inferensi Terhadap Model Pembelajaran Mesin
8. Menipu LLM menjadi Ketidaktaatan: Memahami, Menganalisis, dan Mencegah Jailbreak
9. Maria Rigaki dan Sebastian Garcia. 2021. Survei serangan privasi dalam pembelajaran mesin
10. Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ul-far Erlingsson, Alina Oprea, dan Colin Raffel. 2021. Mengekstrak data pelatihan dari model bahasa besar
11. Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi, and Noah A. Smith. 2020. RealToxi-city s: menghasilkan degenerasi toksik saraf dalam model bahasa.
12. Wenlong Huang, Pieter Abbeel, Deepak Pathak, and Igor Mordatch. 2022b. Model bahasa sebagai perencana zero-shot: Mengekstrak pengetahuan yang dapat ditindaklanjuti untuk agen yang diwujudkan. Dalam ICML 2022, volume 162 dari Proceedings of Machine Learning Research, halaman 9118–9147. PMLR
13. Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese, dan Geoffrey Irving. 2022. Model bahasa tim merah dengan model bahasa.
14. Eric Wallace, Tony Zhao, Shi Feng, dan Sameer Singh. Serangan peracunan data tersembunyi pada model NLP.
15. Shaofeng Li, Tian Dong, Benjamin Zi Hao Zhao, Minhui Xue, Suguo Du, dan Haojin Zhu. 2022. Pintu belakang terhadap pemrosesan bahasa alami: Tinjauan. Keamanan & Privasi IEEE, 20(5):50–59
16. Yujin Huang, Terry Yue Zhuo, Qiongkai Xu, Han Hu, Xingliang Yuan, dan Chunyang Chen. 2023. Serangan backdoor leksikal bebas pelatihan pada model bahasa.
17. Menjelaskan SolidGoldMagikarp dengan melihatnya dari arah acak
18. Fabio Perez dan Ian Ribeiro. 2022. Abaikan sebelumnya : Teknik serangan untuk model bahasa. pracetak arXiv arXiv:2211.09527.
19. Yannic Kilcher. 2022. Chatgpt: Ai ini memiliki jailbreak?! (kemajuan yang luar biasa).
20. Battista Biggio dan Fabio Roli. 2018. Pola liar: Sepuluh tahun setelah munculnya pembelajaran mesin permusuhan. Pengenalan Pola 84 (2018), 317–331.
21. Ligeng Zhu, Zhijian Liu, and Song Han. 2019. Kebocoran Jauh dari Gradien. Dalam Kemajuan dalam Pemrosesan Informasi Saraf s 32, H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox, dan R. Garnett (Eds.). Curran Associates, Inc., Vancouver, Kanada, 14747–14756
22. Nicholas Papernot, Patrick McDaniel, Arunesh Sinha, dan Michael P. Wellman. 2018. SoK: Keamanan dan Privasi dalam Pembelajaran Mesin. Pada tahun 2018 IEEE European Symposium on Security and Privacy (EuroS P). IEEE, London, Inggris, 399–414
23. Michael Veale, Reuben Binns, dan Lilian Edwards. 2018. Algoritma yang mengingat: model serangan inversi dan hukum perlindungan data. Transaksi Filosofis Royal Society A: Ilmu Matematika, Fisika, dan Teknik 376, 2133 (2018), 20180083
24. Reza Shokri, Marco Stronati, Congzheng Song, dan Vitaly Shmatikov. 2017. Serangan inferensi keanggotaan terhadap model pembelajaran mesin. Pada Simposium IEEE 2017 tentang Keamanan dan Privasi (SP). IEEE, San Francisco, CA, AS, 3–18
25. Sorami Hisamoto, Matt Post, dan Kevin Duh. 2020. Serangan Inferensi Keanggotaan pada Model Sequence-to-Sequence: Apakah Data Saya Di Terjemahan Mesin Anda?
26. Lagu Congzheng dan Vitaly Shmatikov. 2019. Mengaudit Provenance Data dalam Model Text-Generation. Dalam Prosiding 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD '19). Asosiasi Mesin Komputasi, New York, NY, AS, 196–206.
27. Jinyuan Jia dan Neil Zhenqiang Gong. 2018. AttriGuard: Pertahanan Praktis Terhadap Serangan Inferensi Atribut melalui Pembelajaran Mesin Musuh. Dalam Simposium Keamanan USENIX ke-27 (Keamanan USENIX 18).
28. Matthew Fredrikson, Eric Lantz, Somesh Jha, Simon Lin, David Page, and Thomas Ristenpart. 2014. Privasi dalam Farmakogenetika: Studi Kasus End-to-End tentang Dosis Warfarin yang Dipersonalisasi.
29. Matthew Jagielski, Nicholas Carlini, David Berthelot, Alex Kurakin, dan Nicolas Papernot. 2020. Akurasi Tinggi dan Ekstraksi Kesetiaan Tinggi dari Jaringan Syaraf
30. Binghui Wang dan Neil Zhenqiang Gong. 2018. Mencuri hyperparameter dalam pembelajaran mesin. Pada Simposium IEEE 2018 tentang Keamanan dan Privasi (SP). IEEE, San Francisco, CA, AS, 36–52
31. Seong Joon Oh, Max Augustin, Mario Fritz, and Bernt Schiele. 2018. Menuju Reverse-Engineering Black-Box Neural Networks. Dalam Konferensi Internasional Keenam tentang Representasi Pembelajaran. ICLR, Vancouver, Kanada.
32. Cynthia Dwork dan Aaron Roth. 2013. Fondasi algoritmik privasi diferensial. Dasar dan Tren dalam Ilmu Komputer Teoritis 9, 3-4 (2013), 211–487