Büyük model veri gizliliği hakkında konuşmak, birkaç yaygın model saldırı yöntemi

Orijinal kaynak: Oasis Capital

Yazar: Danışman Vitality

Görsel kaynağı: Unbounded AI‌ tarafından oluşturuldu

20 Mart 2023'te ChatGPT'de bazı ChatGPT kullanıcılarının kişisel bilgilerinin açığa çıkmasına neden olan bir veri ihlali meydana geldi. Bunun ışığında, İtalya'nın gizlilik düzenleyicisi, ChatGPT'nin kişisel verileri yasa dışı bir şekilde işlediğinden, gizliliği ihlal ettiğinden ve ilgili GDPR düzenlemelerini ihlal ettiğinden şüphelenildiğine inanıyor. Daha sonra İtalya, ChatGPT kullanımını yasaklayan ilk ülke oldu ve diğer AB ülkelerinde teknolojiyi kontrol etmek için daha sert önlemlerin gerekli olup olmadığı konusunda tartışmalara yol açtı.

Neredeyse tüm çevrimiçi hizmetler kişisel verilerimizi topluyor ve bu verileri LLM eğitimi için kullanabilir. Ancak, modelin eğitim için kullanılan verileri nasıl kullanacağını belirlemek zordur. Model eğitiminde coğrafi konum, sağlık kayıtları ve kimlik bilgileri gibi hassas veriler kullanılırsa, modeldeki özel verilere yönelik veri çıkarma saldırıları çok sayıda kullanıcı gizliliği sızıntısına neden olur. "Önceden Eğitilmiş Büyük Dil Modelleri Kişisel Bilgilerinizi Sızdırıyor mu?" makalesi, LLM'nin eğitim verilerinin hafızası nedeniyle, LLM'nin diyalog sürecinde kişisel bilgileri sızdırma riskinin olduğunu ve örnek sayısı arttıkça riskinin arttığını kanıtlamaktadır. .

Bir modelin bilgi sızdırmasının birkaç nedeni vardır. Bunlardan bazıları yapısaldır ve modelin oluşturulma şekliyle ilgilidir; diğerleri ise yetersiz genellemeden, hassas verilerin ezberlenmesinden vb. kaynaklanır. Bir sonraki makalede, önce temel veri sızıntısı sürecini tanıtacağız, ardından gizlilik saldırısı, jailbreak, veri zehirlenmesi ve arka kapı saldırısı gibi birkaç yaygın model saldırı yöntemini tanıtacağız ve son olarak da gizliliğin korunmasına ilişkin bazı güncel araştırmaları tanıtacağız.

I. Tehdit Modellemesi

Temel bir LLM tehdit modeli, genel bir model ortamı, çeşitli aktörler ve hassas varlıklar içerir. Hassas varlıklar arasında eğitim veri kümeleri, model parametreleri, model hiperparametreleri ve mimari bulunur. Katılımcılar şunları içerir: veri sahibi, model sahibi, model tüketicisi ve rakip. Aşağıdaki diyagram, bir tehdit modeli altındaki varlıkları, aktörleri, bilgi akışını ve olası operasyonel akışı göstermektedir:

Bu tür temel bir tehdit modellemesinde, veri sahipleri özel veri varlıklarına, model sahipleri model parametrelerine ve yapılandırma varlıklarına sahiptir ve model tüketicileri, modeli API veya kullanıcı arabirimi aracılığıyla kullanır. Çalan taraf, özel veri varlıklarını veya model parametre varlıklarını belirli yollarla elde etmeye çalışır.

II.Gizlilik Saldırısı

Gizlilik saldırıları dört ana türe ayrılır: üyelik çıkarımı saldırıları, yeniden yapılandırma saldırıları, öznitelik çıkarımı saldırıları ve model çıkarma.

  1. Üyelik Çıkarımı Saldırısı (MIA)

Üyelik çıkarımı, eğitim kümesi D'nin bir parçası olarak bir girdi örneği x'in kullanılıp kullanılmadığını belirlemeye çalışır. Örneğin, normal şartlar altında kullanıcının özel verileri gizli tutulacaktır, ancak hassas olmayan bilgiler yine de spekülasyon için kullanılabilir. Örneğin, özel bir kulübün üyelerinin mor güneş gözlüğü ve kırmızı deri ayakkabı giymeyi sevdiğini biliyorsak, mor güneş gözlüğü ve kırmızı deri ayakkabı giyen bir kişiyle karşılaştığımızda muhtemelen bu kişi olduğu sonucuna varabiliriz (hassas olmayan bilgi). ) Özel kulüp üyeliği (hassas bilgi).

Üyelik çıkarımı saldırısı, ilk olarak Shokri ve arkadaşları tarafından "Makine öğrenme modellerine karşı üyelik çıkarımı saldırıları" başlıklı makalede önerilen gizlilik saldırısının şu anda en popüler yoludur. Makale, bu saldırının yalnızca modelin çıktı tahmin vektörü bilgisini varsaydığını ve denetimli makine öğrenimi modellerine karşı gerçekleştirildiğini belirtiyor. Model parametrelerine ve gradyanlara erişim, daha doğru üyelik çıkarımı saldırılarına izin verir.

Üyelik çıkarımı saldırısının tipik bir yöntemine gölge saldırısı denir, yani bilinen erişilebilir veri kümelerine dayalı olarak bir gölge modeli eğitmek ve ardından gölge modeli sorgulayarak hassas bilgiler elde etmek.

Denetimli öğrenme modellerine ek olarak, GAN'lar ve VAE'ler gibi üretken modeller de üyelik çıkarımı saldırılarına karşı savunmasızdır. "GAN-Leaks: A Taxonomy of Membership Inference Attacks Against Generative Models", üye akıl yürütme saldırıları karşısında GAN'ın sorunlarını ortaya koyuyor; "LOGAN: Üretken modellere karşı üyelik çıkarım saldırıları", üye muhakemesine Response to attack ve veri oluşturma bileşenlerinin anlaşılmasına dayalı olarak eğitim verilerinin nasıl alınacağını tanıtır; (MLM) modelleri, bazı durumlarda örnek verilerin eğitim verilerine ait olup olmadığını belirleyebilen MIA saldırılarına karşı da savunmasızdır.

Öte yandan, üyelik muhakemesi, model güvenlik incelemesi için de kullanılabilir ve veri sahipleri, kara kutu modellerini incelemek için üyelik muhakemesini kullanabilir. "Diziden Diziye Modellerde Üyelik Çıkarımı Saldırıları: Verilerim Makine Çevirinizde mi?", veri sahiplerinin verilerin izinsiz kullanılıp kullanılmadığını nasıl görebileceğini açıklar.

"Makine öğrenme modellerine karşı üyelik çıkarımı saldırıları", fazla uydurma ve kara kutu üyeliği çıkarımı arasındaki bağlantıyı inceler. Yazarlar, farklı MLaaS platformlarındaki modelleri eğitmek için aynı veri setini kullanarak fazla uydurmanın saldırı doğruluğu üzerindeki etkisini ölçer. Deneyler, fazla uydurmanın mahremiyet sızıntısına yol açabileceğini gösteriyor, ancak bunun tek durum olmadığına, çünkü yüksek genelleme derecesine sahip bazı modellerin üyelik sızıntısına daha yatkın olduğuna da işaret ediyor.

  1. Yeniden İnşa Saldırıları

Yeniden oluşturma saldırıları, eğitim etiketleriyle birlikte birden çok eğitim örneğini yeniden oluşturmaya çalışır, yani hassas özellikleri kurtarmaya veya çıktı etiketleri ve belirli özelliklere ilişkin kısmi bilgi verilen veri örneklerini tamamlamaya çalışır. Örneğin, model ters çevirme yoluyla, model arayüzünde elde edilen bilgiler tersten yeniden oluşturulur ve aşağıdaki şekilde gösterildiği gibi eğitim verilerindeki biyolojik özellikler ve tıbbi kayıtlar gibi kullanıcıya duyarlı bilgiler kurtarılır:

Yeniden oluşturma saldırılarında, daha yüksek genelleme hataları, veri özniteliklerinin daha yüksek çıkarım yapılmasına yol açar. Yazarlar, "Gizli ifşa edici: derin sinir ağlarına karşı üretken model ters çevirme saldırıları"nda, yüksek tahmin gücüne sahip modellerin, düşmanın bilgisinin daha zayıf olduğu varsayımına dayanarak yeniden düzenleme saldırılarına karşı daha savunmasız olduğunu gösteriyor. Ayrıca üyelik çıkarımındaki güvenlik açığına benzer şekilde, bellek ve dağıtım dışı verilerin alınması da uygun olmayan modellere yönelik yeniden yapılandırma saldırılarına karşı savunmasızdır.

  1. Öznitelik Çıkarım Saldırıları

Öznitelik çıkarımı saldırıları, gizli veya eksik öznitelik verilerinin çıkarımını yapmak için herkes tarafından görülebilen özniteliklerin ve yapıların kullanılması anlamına gelir. Bir hasta veri kümesindeki erkeklerin kadınlara oranı hakkında bilgi çıkarmak veya cinsiyete göre sınıflandırılmış bir model için bir eğitim veri kümesindeki kişilerin gözlük takıp takmadığına dair çıkarım yapmak buna bir örnektir. Bazı durumlarda, bu tür bir sızıntı mahremiyeti etkileyebilir.

"Akıllı Makineleri Daha Akıllı Makinelerle Hacklemek: Makine Öğrenimi Sınıflandırıcılarından Anlamlı Veriler Nasıl Çıkarılır", belirli türdeki öznitelik verilerinden yararlanmanın, eğitim verilerinin daha derin bir şekilde anlaşılmasını sağlamak için de kullanılabileceğini ve diğerlerinin bu bilgileri parçaları bir araya getirmek için kullanmasına yol açabileceğini belirtiyor. daha küresel resim.

"Sen kimsin ve nasıl davranıyorsun: Kullanıcıların sosyal arkadaşları ve davranışları aracılığıyla öznitelik çıkarım saldırıları" makalesi, kullanıcının bilinen davranışı aracılığıyla diğer bilgileri kilitlemek ve çıkarmak olan bir tür öznitelik çıkarım saldırısı yöntemini tanıtıyor. kullanıcının kendisi. "AttriGuard: Rakip Makine Öğrenimi Yoluyla Öznitelik Çıkarımı Saldırılarına Karşı Pratik Bir Savunma", öznitelik çıkarımı saldırılarıyla başa çıkmak için bazı savunma yöntemleri sunar.

Nitelik muhakemesi, model tarafından istemeden öğrenilen veya eğitim göreviyle ilgisi olmayan bilgileri modelden çıkarmayı amaçlar. İyi genelleştirilmiş modeller bile, model eğitiminin öğrenme süreci için bazen kaçınılmaz olan tüm girdi verisi dağılımıyla ilgili özellikleri öğrenebilir.

"İşbirlikçi öğrenmede istenmeyen özellik sızıntısından yararlanma", öznitelik çıkarım saldırılarının iyi genelleştirilmiş modellerde bile mümkün olduğunu gösterir, bu nedenle fazla uydurma, öznitelik çıkarım saldırılarının nedeni gibi görünmemektedir. Nitelik çıkarım saldırıları ile ilgili olarak, şu anda bunlara neyin sebep olduğu ve hangi koşullar altında etkili göründükleri hakkında çok az bilgi var ve bu, gelecekteki araştırmalar için umut verici bir yön olabilir.

  1. Model Çıkarma Saldırısı

Model çıkarma, bir saldırganın saldırı altındaki modele çok benzer şekilde davranan bir vekil model oluşturarak bilgi çıkarmaya ve muhtemelen bir modeli tamamen yeniden oluşturmaya çalıştığı bir kara kutu saldırıları sınıfıdır.

"BERT tabanlı API'lerin Model Çıkartılması", "Model Açıklamalarından Model Yeniden Oluşturma", "Knockoff ağları: Kara kutu modellerinin işlevselliğini çalmak", "Yüksek Doğruluk ve Yüksek Doğrulukta Yapay Sinir Ağlarının Çıkartılması", farklı açılardan açıklanan birkaç makale model çıkarma saldırılarında.

Bir vekil model oluşturmanın iki ana adımı vardır: İlk adım, hedef modelin doğruluğuyla eşleşen bir model oluşturmak için girdi verisi dağılımından öğrenme göreviyle ilgili bir test setinin çıkarıldığı görev doğruluğunun çıkarılmasıdır. İkinci adım aslına uygunluk çıkarımıdır, yani oluşturulan vekillerin hedefe uyması için öğrenme göreviyle ilgisiz bir dizi modelle eşleşmesini sağlamak. Görev-doğrulukta çıkarmada amaç, aynı görevi hedef modelden daha iyi veya daha iyi öğrenebilen bir vekil oluşturmaktır. Aslına uygunluk çıkarımında amaç, vekilin karar sınırını mümkün olduğu kadar aslına uygun şekilde çoğaltmasını denemektir.

Vekil modeller oluşturmaya ek olarak, "Makine öğreniminde hiperparametrelerin çalınması" veya "Tersine Mühendislik Kara Kutu Sinir Ağlarına Doğru" bölümünde belirtilen hedef modeldeki hiperparametrelerin çalınması gibi hedef modelden bilgi kurtarmaya odaklanan yöntemler vardır. çeşitli sinir ağı mimarileri vb. için aktivasyon fonksiyonlarının, optimizasyon algoritmalarının, katman sayısının vb. çıkarılması hakkında.

"Tersine Mühendislik Kara Kutu Sinir Ağlarına Doğru" makalesi, %98'den daha yüksek bir test setine sahip bir modele saldırıldığında, bir çıkarma saldırısı yoluyla model parametrelerini çalmanın mümkün olduğunu göstermektedir. Ayrıca, "ML-Doctor: Makine Öğrenimi Modellerine Karşı Çıkarım Saldırılarının Bütünsel Risk Değerlendirmesi"nde, daha yüksek genelleme hatasına sahip modellerin çalınmasının daha zor olduğu, muhtemelen modelin örneklerin saldırganına ait olmayan veri kümelerini ezberlemesi nedeniyle gösterilmiştir. Model çıkarmanın başarı oranını etkileyebilecek bir diğer faktör de test seti veri kategorisidir.Daha fazla veri kategorisi olduğunda, daha kötü saldırı performansına yol açacaktır.

Yukarıdaki şekil, her bir model algoritması için saldırı türü grafiğini göstermektedir. Her bir makine öğrenimi algoritmasının veya alanının altında yeşil, uygulanabilir saldırı türlerinin şu ana kadar incelendiğini ve kırmızı, uygulanabilir saldırı türlerinin bulunmadığını gösterir.

III.Model jailbreak

Model jailbreak, LLM'nin saldırgan çıktı, içerik denetimi çıktısının ihlali veya özel veri sızıntısı çıktısı gibi bazı yollarla dejenere çıktı davranışları üretmesini sağlamaktır. Giderek daha fazla araştırma, uzman olmayan kullanıcıların bile istemleri değiştirerek LLM'yi jailbreak yapabildiğini gösteriyor.

Örneğin, aşağıdaki örnekte, geliştiricinin amacı bir çeviri modeli oluşturmaktır. Senaryoda iki kullanıcı vardır, birinci kullanıcı iyi huyludur ve modeli amaçlanan kullanım durumu için kullanırken, ikinci kullanıcı kötü amaçlı girdi sağlayarak modelin hedefini değiştirmeye çalışmaktadır. Bu örnekte, dil modeli cümleyi gerçekten çevirmek yerine "Haha pwned!!" ile yanıt verir. Bu jailbreak durumunda, modelin tepkisi, hedefi kaçırmaktan (basitçe görevi yerine getirmemek), saldırgan ırkçı metin oluşturmaya ve hatta özel, özel bilgileri yayınlamaya kadar çeşitli amaçlarla tasarlanabilir.

### IV.Veri Zehirlenmesi

Veri zehirlenmesi, üretken modellerin davranışına karşı bir saldırı tekniği olan özel bir düşman saldırısı türüdür. Kötü niyetli aktörler, modele bir arka kapı açmak için veri zehirlenmesini kullanabilir ve böylece algoritmik olarak kontrol edilen sistemleri atlayabilir.

İnsan gözü için aşağıdaki üç resim üç farklı şeyi gösteriyor: bir kuş, bir köpek ve bir at. Ancak makine öğrenimi algoritmaları için üçü de muhtemelen aynı anlama gelir: siyah kenarlıklı küçük beyaz bir kutu. Bu örnek, verileri yanlış sınıflandırmak için istismar edilebilecek makine öğrenimi modellerinin tehlikeli bir özelliğini göstermektedir.

Veri zehirlenmesi saldırıları, yanlış tahminler yapması için onu kandırmak amacıyla yanlış etiketlenmiş verileri ekleyerek bir modelin eğitim setini değiştirmeyi amaçlar. Başarılı bir saldırı, modelin tahminlerinde tutarlı hatalar üreterek modelin bütünlüğünü tehlikeye atar. Bir model zehirlendiğinde saldırıdan kurtulmak çok zordur ve hatta bazı geliştiriciler modeli terk edebilir.

"RealToxicitys: dil modellerinde nöral toksik dejenerasyonu kullanmak" makalesinde, modelinin dahili parametrelerini ortaya çıkarmak için GPT-2'ye bir dizi metin tabanlı bilgi istemi sağlamanın bir yolundan bahsediliyordu. "NLP modellerinde gizli veri zehirlenmesi saldırıları", eğitim verilerinin hedefte olmayan bir metin oluşturmak için dil modellerinin arızalanmasına neden olacak şekilde nasıl değiştirilebileceğini araştırıyor.

Veri zehirlenmesi çok tehlikeli olsa da, zehirlenen modelin dağıtılabilmesi için saldırganın makine öğrenimi modelinin eğitim ardışık düzenine erişmesi gerekir. Bu nedenle, sürekli olarak veri yinelemelerini toplayan modellerin veya birleşik öğrenmeye dayalı modellerin, veri zehirlenmesinin etkisine ekstra dikkat etmesi gerekir.

V. Arka kapı saldırısı

Bir arka kapı saldırısı, bir dil modelinden kötü amaçlı çıktıya neden olmak için gizlice metin eklemek veya değiştirmek anlamına gelir. "Doğal dil işlemeye karşı arka kapılar: Bir inceleme" makalesi, eğitim sırasında belirli güvenlik açıklarının modele iletildiği ve kelime dağarcığı kullanımı yoluyla model toksisitesinin aktivasyonunu tetikleyebildiği arka kapı saldırıları sorununu ortaya koymaktadır.

Modelin beklenen işlevselliğinin korunması bakımından veri zehirlenmesinden farklıdır. "Dil modellerinde eğitim gerektirmeyen sözcüksel arka kapı saldırıları", eğitim içermeyen sözcüksel arka kapı saldırısı (TFLexAttack) adı verilen ve dil modelinin simgeleyicisine sözcüksel "tetikleyiciler" ekleyerek gömme sözlüğünün manipüle edilmesini içeren bir yöntem önerir.

SolidGoldMagikarp fenomeni

SolidGoldMagikarp olgusu, tipik bir arka kapı saldırısı olgusudur**,** ChatGPT'ye "SolidGoldMgikarp" girildiğinde, yalnızca bir kelimeyi yanıtlar: "dağıt". "StreamerBot"u tekrarlaması istendiğinde, "Sen bir pisliksin" diye yanıt verir. "TheNitromeFan"ı tekrarlaması istendiğinde "182" yanıtını verdi. Ve kelimenin etrafına tek tırnak koyarsanız, cevabı sonsuz bir "The" olur. TheNitromeFan'ın kim olduğu sorulduğunda ChatGPT, "182 bir kişi değil, bir sayıdır. Genellikle sayının kendisine atıfta bulunmak için kullanılır."

SolidGoldMagikarp fenomeni, modelin hakkında konuşamayacağı belirli belirteçlerin yanı sıra modelin bozuk metin çıktısına neden olan belirteçleri tanımlamak için OpenAI'nin GPT belirteç oluşturucusunun kullanılması anlamına gelir. "SolidGoldMagikarp'a rastgele yönlerden bakarak açıklama" makalesi, bu fenomenin arkasındaki olası nedenleri araştırıyor.

Aşağıda, arka kapı saldırılarının daha sık ve önemli türlerinden bazıları verilmiştir.

A. Komut Tabanlı

a. Doğrudan talimatlar: Bu saldırılar, temel olarak, modele önceki ipuçlarını yok sayması ve geçerli konumda yeni görevler ataması talimatını veren "Öncekileri göz ardı et: Dil modelleri için saldırı teknikleri"ne atıfta bulunabilir.

b. Bilişsel Saldırılar: LLM'nin tipik olarak, bir "güvenli alan" sağlayarak veya böyle bir yanıtı garanti ederek, aksi takdirde gerçekleştiremeyeceği yanlış eylemler gerçekleştirmesi için onu "kandırdığı" en yaygın saldırı türü. "Chatgpt: Bu yapay zekanın jailbreak'i var mı?!", ChatGPT'ye yönelik bu tür saldırılara yönelik bazı girişimleri belgeliyor.

c.Talimat tekrarı: Bu tür saldırılar, saldırganın dil modeline "yalvarıyor" gibi görünmesini sağlamak için aynı talimatın birden çok kez girilmesini içerir. Gerçek anlamda dilencilik sözle de ifade edilebilir.

d. Dolaylı Görev Saptırma: Bu saldırı, başka bir kötü niyetli görev kılığına girmeye odaklanır. Bu saldırı, genellikle kötü amaçlı yönergeleri izlemeyen modelleri hedefler.

B. Talimat dışı esaslara göre

a. Dilbilgisel Dönüşüm: Bu saldırı türü, uygulamada bulunabilecek içerik filtrelerini atlamak için LeetSpeak veya Base64 kullanmak gibi saldırı metninin ortogonal bir dönüşümünü içerir ve model bu kodlanmış metni doğası gereği dönüştürebilir .

b. Birkaç Hack: Dil modeli eğitimi paradigmalarını içeren basit bir yaklaşım. Bu yaklaşımda saldırı, kötü amaçlarla yanlış yerleştirilmiş modelleri hedef alabilecek çeşitli metinsel özellikler içerir. Örneğin, SolidGoldMagikarp fenomeni bu kategoriye girer.

c.Talimat Olarak Metin Tamamlama: Bu saldırılar, modeli tamamlanmamış cümlelerle besleyerek çalışır, böylece modeli cümleyi tamamlamaya zorlar ve bu süreçte önceki talimatlarını göz ardı ederek yanlış yerleştirmeye neden olur.

### VI.Model Koruması

Model saldırılara karşı nasıl savunulacağını araştırmak zor ve önemli bir iştir. Güvenlik analiziyle ilgili çoğu makale, karşılık gelen saldırıları azaltmanın yollarını önerir ve test eder.Aşağıda bazı tipik savunma yöntemleri verilmiştir.

  1. Farklı Gizlilik

Diferansiyel gizlilik, şu anda model çıktısındaki bireysel veriler için güvenlik garantileri sağlayan üyelik çıkarımı saldırılarına karşı en belirgin savunmalardan biridir. Diferansiyel mahremiyet hakkındaki tartışma, "Diferansiyel mahremiyetin algoritmik temelleri" makalesinden gelmektedir.

Diferansiyel gizlilik, modelin çıktısına gürültü ekler ve saldırganın çıktıya dayalı olarak iki veri kümesini kesin olarak istatistiksel olarak ayırt etmesini imkansız hale getirir. Diferansiyel mahremiyet, başlangıçta, "hiçbir bireyi tanımadan bir popülasyon hakkında yararlı bilgiler öğrenmek" fikrinden yola çıkarak tasarlanan veri analizi için bir mahremiyet tanımıydı. Diferansiyel mahremiyet, genel veri setinin mahremiyet güvenliğini korumaz, ancak gürültü mekanizması aracılığıyla veri setindeki her bireyin özel verilerini korur.

Diferansiyel mahremiyetin matematiksel tanımı aşağıdaki gibidir:

Diferansiyel mahremiyet, mahremiyet koruması ile yardımcı program veya model doğruluğu arasında bir değiş tokuş yapar. "Diferansiyel Olarak Özel Derin Öğrenme Modeline Karşı Üyelik Çıkarımı Saldırısı"ndaki değerlendirmeler, modellerin yalnızca faydalarından önemli ölçüde ödün vermeleri durumunda gizlilik koruması sağladığı sonucuna varmıştır.

  1. Düzenleme

Makine öğrenimindeki düzenlileştirme teknikleri, aşırı uydurmayı azaltmayı ve model genelleştirme performansını iyileştirmeyi amaçlar. Bırakma, eğitim sırasında sinir ağı birimlerinin önceden tanımlanmış bir yüzdesini rastgele düşüren, yaygın olarak kullanılan bir düzenlileştirme biçimidir. Kara kutu üyeliği çıkarımı saldırılarının aşırı uydurma ile ilgili olduğu göz önüne alındığında, bu, bu tür saldırılarla başa çıkmanın mantıklı bir yoludur ve birkaç makale, bunu iyi sonuçları olan bir savunma olarak önermiştir.

Model istifleme gibi ayrı ayrı eğitilmiş birden fazla modeli birleştiren teknikleri kullanan başka bir düzenlileştirme biçimi, çıkarım saldırılarına karşı olumlu sonuçlar vermiştir. Model istifleme veya benzer tekniklerin bir avantajı, model sınıfı agnostik olmalarıdır.

  1. Tahmin vektörü kurcalama

Pek çok model, çıkarım sırasında tahmin vektörünün erişilebilir olduğunu varsaydığından, önerilen karşı önlemlerden biri, çıktıyı modelin üst-k sınıfı veya tahminleriyle sınırlamaktır. Bununla birlikte, bu sınırlama, en katı biçiminde bile (yalnızca çıktı sınıf etiketleri), modelin yanlış sınıflandırılması nedeniyle bilgi sızıntısı meydana gelebileceğinden, üyelik çıkarımı saldırılarını tam olarak azaltmıyor gibi görünmektedir. Diğer bir seçenek de, tahmin edilen vektörlerin kesinliğini azaltmak ve böylece bilgi sızıntısını azaltmaktır.

Ek olarak, çıktı vektörüne gürültü eklenmesinin üyelik çıkarım saldırılarını da etkilediği gösterilmiştir.

  1. Eğim ayarı (Kayıp gradyan ayarı)

Yeniden oluşturma saldırıları tipik olarak eğitim sırasında kayıp gradyanlarına erişim gerektirdiğinden, yeniden yapılandırma saldırılarına karşı çoğu savunma, bu gradyanlardan alınan bilgileri etkileyen teknikler önerir. Belirli bir eşiğin altındaki tüm kayıp gradyanlarının sıfıra ayarlanması, derin öğrenmede yeniden yapılandırma saldırılarına karşı bir savunma olarak önerilmektedir. "Degradelerden Derin Sızıntı" makalesi, bu yöntemin çok etkili olduğunu ve eğimlerin yalnızca %20'si sıfıra ayarlandığında, model performansı üzerindeki etkinin ihmal edilebilir düzeyde olduğunu kanıtlıyor.

  1. DNN Modeli Çalma Saldırılarını Önleme (PRADA)

"PRADA: DNN modeli çalma saldırılarına karşı koruma", düşman tarafından kullanılan model sorgularına dayalı olarak model çalma saldırılarını tespit etmek için bir yöntem önerir. Algılama, karar sınırlarını keşfetmeye çalışan model sorgularının normal sorgulardan farklı bir örnek dağılımına sahip olacağı varsayımına dayanır. Tespit başarılı olsa da, yazarlar, düşmanın stratejisini ayarlaması durumunda bir kaçınma potansiyeli olduğuna dikkat çekiyor.

  1. Üyelik çıkarımı

"Susam Sokağındaki Hırsızlar! BERT tabanlı API'lerin Model Çıkarımı", model çıkarımına karşı savunma yapmak için üyelik çıkarımını kullanma fikrini inceliyor. Üyelik çıkarımını kullanarak, model sahiplerinin meşru kullanıcı sorgularını, tek amacı modelleri çıkarmak olan anlamsız sorgulardan ayırt edebileceği öncülüne dayanır. Yazarlar, bu tür bir savunmanın, meşru kullanıcılar tarafından yayınlanan meşru ancak dağıtım dışı sorguları potansiyel olarak işaretlemek gibi sınırlamaları olduğuna, ancak daha da önemlisi, uyarlamalı sorgular yapan rakipler tarafından atlatılabileceğine dikkat çekiyor.

  1. Talep ile ayarlayın

"-Tuning aracılığıyla Büyük Dil Modellerinden Ezberlenen Verilerin Çıkartılmasının Kontrol Edilmesi"nde, LLM'de ezberlenen içeriğin çıkarma oranını kontrol etmek için ipucu ayarını kullanan yeni bir yöntem önerilmiştir. Sırasıyla saldırı ve savunmaya karşılık gelen çıkarma oranını artırmak ve azaltmak için iki ipucu eğitim stratejisi öneriyorlar.

VII.Sonuç

  1. LLM hala nispeten büyük bir güvenlik riskine ve gizlilik sızıntısı riskine sahiptir

  2. Model yapısını ve verilerini çıkarmaya yönelik saldırı, esasen modelin gizliliğine yönelik bir saldırıdır.

  3. Akademik topluluktaki ana araştırma, şu anda modele ve veri sızıntısı ilkesine nasıl saldırılacağına odaklanmıştır.

  4. LLM'nin veri sızdırmasına neden olan mekanizmanın bir kısmı hala net değil

  5. Diferansiyel gizlilik, tahmin vektörü kurcalama vb. gibi veri gizliliğini bir dereceye kadar koruyabilir ve bu yöntemler modelin eğitim aşamasında yoğunlaşmıştır.

  6. Mevcut koruma önlemleri mükemmel değildir ve model performansından ve doğruluğundan ödün verilmesi gerekir.

________

Referans:

1. Kalpesh Krishna, Gaurav Singh Tomar, Ankur P. Parikh, Nicolas Papernot ve Mohit Iyyer. 2020. Hırsızlar Susam Sokağı'nda! BERT tabanlı API'lerin Model Çıkarımı. Uluslararası Öğrenme Temsilleri Konferansında. ICLR, Sanal Konferans, eski adıyla Addis Ababa, Etiyopya.

2. Gizli paylaşımcı: sinir ağlarında istenmeyen ezberlemeyi kullanma ve test etme

3. Martín Abadi, Andy Chu, Ian J. Goodfellow, HB McMahan, Ilya Mironov, Kunal Talwar ve Li Zhang. 2016. Farklı gizlilikle derin öğrenme

4. Giuseppe Athenian, Luigi V. Mancini, Angelo Spognardi, Antonio Villani, Domenico Vitali ve Giovanni Felici. 2015. Akıllı Makineleri Daha Akıllı Olanlarla Hacklemek: Makine Öğrenimi Sınıflandırıcılarından Anlamlı Veriler Nasıl Çıkarılır.

5. Bargav Jayaraman ve David Evans. 2019. Diferansiyel Olarak Özel Makine Öğrenimini Uygulamada Kullanma. 28. USENIX Güvenlik Sempozyumunda (USENIX Security 19). USENIX Derneği, Santa Clara, CA, 1895–1912

6. Faydayı kaybetmeden üyelik çıkarım saldırılarını savunma

7. Yugeng Liu, Rui Wen, Xinlei He, Ahmed Salem, Zhikun Zhang, Michael Backes, Emiliano De Cristofaro, Mario Fritz ve Yang Zhang. 2021. ML-Doctor: Makine Öğrenimi Modellerine Yönelik Çıkarım Saldırılarının Bütünsel Risk Değerlendirmesi

8. LLM'leri İtaatsizlik İçin Kandırmak: Jailbreak'leri Anlamak, Analiz Etmek ve Önlemek

9. Maria Rigaki ve Sebastian Garcia. 2021. Makine öğrenimindeki gizlilik saldırılarına ilişkin bir anket

10. Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ul-far Erlingsson, Alina Oprea ve Colin Raffel. 2021. Eğitim verilerini büyük dil modellerinden çıkarma

11. Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi ve Noah A. Smith. 2020. RealToxi-city s: dil modellerinde nöral toksik dejenerasyonu kullanmak.

12. Wenlong Huang, Pieter Abbeel, Deepak Pathak ve Igor Mordatch. 2022b. Sıfır atış planlayıcıları olarak dil modelleri: Somutlaştırılmış aracılar için eyleme dönüştürülebilir bilgi çıkarma. ICML 2022'de, Proceedings of Machine Learning Research'ün 162. cildi, 9118-9147. sayfalar. PMLR

13. Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese ve Geoffrey Irving. 2022. Dil modelleriyle birlikte kırmızı takım dil modelleri.

14. Eric Wallace, Tony Zhao, Shi Feng ve Sameer Singh. NLP modellerinde gizli veri zehirlenmesi saldırıları.

15. Shaofeng Li, Tian Dong, Benjamin Zi Hao Zhao, Minhui Xue, Suguo Du ve Haojin Zhu. 2022. Doğal dil işlemeye karşı arka kapılar: Bir inceleme. IEEE Security & Privacy, 20(5):50–59

16. Yujin Huang, Terry Yue Zhuo, Qiongkai Xu, Han Hu, Xingliang Yuan ve Chunyang Chen. 2023. Dil modellerinde eğitim gerektirmeyen sözcüksel arka kapı saldırıları.

17. SolidGoldMagikarp'a rastgele yönlerden bakarak açıklama

18. Fábio Perez ve Ian Ribeiro. 2022. Öncekileri göz ardı edin: Dil modelleri için saldırı teknikleri. arXiv ön baskısı arXiv:2211.09527.

19. Yannic Kilcher. 2022. Chatgpt: Bu yapay zekada jailbreak mi var?! (inanılmaz yapay zeka ilerlemesi).

20. Battista Biggio ve Fabio Roli. 2018. Vahşi modeller: Rakip makine öğreniminin yükselişinden on yıl sonra. Örüntü Tanıma 84 (2018), 317–331.

21. Ligeng Zhu, Zhijian Liu ve Song Han. 2019. Eğimlerden Derin Sızıntı. Advances in Neural Information Processing s 32, H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox ve R. Garnett (Eds.). Curran Associates, Inc., Vancouver, Kanada, 14747–14756

22. Nicholas Papernot, Patrick McDaniel, Arunesh Sinha ve Michael P. Wellman. 2018. SoK: Makine Öğreniminde Güvenlik ve Gizlilik. 2018'de IEEE Avrupa Güvenlik ve Gizlilik Sempozyumu (EuroS P). IEEE, Londra, Birleşik Krallık, 399–414

23. Michael Veale, Reuben Binns ve Lilian Edwards. 2018. Hatırlayan algoritmalar: model ters çevirme saldırıları ve veri koruma yasası. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences 376, 2133 (2018), 20180083

24. Reza Shokri, Marco Stronati, Congzheng Song ve Vitaly Shmatikov. 2017. Makine öğrenimi modellerine yönelik üyelik çıkarımı saldırıları. 2017'de IEEE Güvenlik ve Gizlilik Sempozyumu (SP). IEEE, San Francisco, CA, ABD, 3–18

25. Sorami Hisamoto, Matt Post ve Kevin Duh. 2020. Diziden Diziye Modellerde Üyelik Çıkarımı Saldırıları: Verilerim Makine Çevirinizde mi?

26. Congzheng Song ve Vitaly Shmatikov. 2019. Metin Oluşturma Modellerinde Veri Kaynaklarının Denetimi. 25. ACM SIGKDD Uluslararası Bilgi Keşfi ve Veri Madenciliği Konferansı Bildiri Kitabında (KDD '19). Association for Computing Machinery, New York, NY, ABD, 196–206.

27. Jinyuan Jia ve Neil Zhenqiang Gong. 2018. AttriGuard: Rakip Makine Öğrenimi Yoluyla Nitelik Çıkarımı Saldırılarına Karşı Pratik Bir Savunma. 27. USENIX Güvenlik Sempozyumunda (USENIX Security 18).

28. Matthew Fredrikson, Eric Lantz, Somesh Jha, Simon Lin, David Page ve Thomas Ristenpart. 2014. Farmakogenetikte Gizlilik: Kişiselleştirilmiş Varfarin Dozu Konusunda Uçtan Uca Bir Vaka Çalışması.

29. Matthew Jagielski, Nicholas Carlini, David Berthelot, Alex Kurakin ve Nicolas Papernot. 2020. Sinir Ağlarının Yüksek Doğruluk ve Yüksek Doğrulukta Çıkarımı

30. Binghui Wang ve Neil Zhenqiang Gong. 2018. Makine öğreniminde hiperparametrelerin çalınması. 2018'de IEEE Güvenlik ve Gizlilik Sempozyumu (SP). IEEE, San Francisco, CA, ABD, 36–52

31. Seong Joon Oh, Max Augustin, Mario Fritz ve Bernt Schiele. 2018. Tersine Mühendislik Kara Kutu Sinir Ağlarına Doğru. Altıncı Uluslararası Öğrenme Temsilleri Konferansında. ICLR, Vancouver, Kanada.

32. Cynthia Dwork ve Aaron Roth. 2013. Diferansiyel gizliliğin algoritmik temelleri. Teorik Bilgisayar Biliminde Temeller ve Eğilimler 9, 3-4 (2013), 211–487

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)