ChatGPT, Llama-2 ve diğer büyük modeller gizlilik verilerinizi çıkarabilir!

2023-10-31 04:04:27

Orijinal kaynak: AIGC Açık Topluluğu

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

ChatGPT gibi büyük dil modelleri akıl yürütme için ne kadar güçlü? Yaptığınız paylaşımlardan veya bazı özel verilerinizden adresinizi, yaşınızı, cinsiyetinizi, mesleğinizi, gelirinizi ve diğer özel verilerinizi çıkarabilirsiniz.

İsviçre Federal Teknoloji Enstitüsü, yaş, eğitim, cinsiyet, meslek, medeni durum, ikamet yeri, doğum yeri ve gelir gibi özel veriler dahil olmak üzere 520 Reddit kullanıcısından oluşan gerçek bir veri kümesi olan PersonalReddit'i topladı ve manuel olarak açıklama ekledi.

Daha sonra araştırmacılar, PersonalReddit veri kümesi üzerinde belirli sorgulama ve gizlilik veri çıkarımı gerçekleştirmek için GPT-4, Claude-2 ve Llama-2 dahil olmak üzere dokuz ana akım büyük dil modeli kullandılar.

Sonuçlar, bu modellerin ilk 1 ve %95,8 ilk 3 doğruluk oranına ulaşabildiğini ve yalnızca kullanıcının metin içeriğini analiz ederek metinde gizlenmiş çeşitli gerçek gizlilik verilerini otomatik olarak çıkarabildiğini gösteriyor. **

Adres:

Araştırmacılar ayrıca, Amerika Birleşik Devletleri'nde, nüfusun yarısının tam kimliğini belirlemek için konum, cinsiyet ve doğum tarihi gibi yalnızca bir avuç özelliğe ihtiyaç duyulduğunu belirtti.

Bu, yasadışı bir kişinin internette birileri tarafından yapılan bir gönderiyi veya bazı kişisel bilgileri ele geçirmesi ve bunu akıl yürütmek için büyük bir dil modeli kullanması durumunda, günlük hobileri, iş ve dinlenme alışkanlıkları, iş mesleği ve ev adresi gibi hassas gizlilik verilerini kolayca elde edebileceği anlamına gelir.

PersonalReddit Veri Kümesi Oluşturma

Araştırmacılar, gerçek Reddit kullanıcılarının kişisel özelliklerinden oluşan bir veri kümesi oluşturdular. Veri seti, toplam 5.814 yorumla 520 Reddit kullanıcısının biyografilerini içerir. İnceleme, 2012'den 2016'ya kadar olan dönemi kapsamaktadır.

Yaş, eğitim, cinsiyet, meslek, medeni durum, ikamet yeri, doğum yeri ve gelir dahil olmak üzere 8 kişisel özellik kategorisi vardır. Araştırmacılar, modelin çıkarım etkisini test etmek için gerçek veriler olarak doğru öznitelik etiketleri elde etmek için her kullanıcı profiline manuel olarak açıklama eklediler.

Veri kümesi oluşturma iki temel ilke tarafından yönlendirilir:

Yorumların içeriği, internette kullanılan dilin özelliklerini gerçekten yansıtmalıdır. Kullanıcılar çoğunlukla çevrimiçi platformlar aracılığıyla dil modelleriyle etkileşime girdiğinden, çevrimiçi derlemler temsili ve evrenseldir.
Kişisel nitelik türlerinin, farklı gizlilik koruma düzenlemelerinin gereksinimlerini yansıtmak için farklı olması gerekir. Mevcut veri kümeleri genellikle yalnızca 1-2 öznitelik kategorisi içerir ve araştırmanın modelin daha geniş bir kişisel bilgi yelpazesini çıkarma yeteneğini değerlendirmesi gerekir.

Ek olarak, araştırmacılar açıklayıcılardan her bir özniteliği derecelendirmelerini istediler, bu da açıklama eklemenin ne kadar kolay olduğunu ve açıklayıcının ne kadar kendinden emin olduğunu gösterdi. Zorluk seviyesi 1 (çok kolay) ile 5 (çok zor) arasında değişmektedir. Öznitelik bilgisi doğrudan metinden mevcut değilse, açıklayıcıların geleneksel bir arama motoru kullanarak bunu kontrol etmesine izin verilir.

Çekişmeli Etkileşim

Artan sayıda dilsel chatbot uygulaması göz önüne alındığında, araştırmacılar gerçek dünyadaki etkileşimleri simüle etmek için çekişmeli bir konuşma senaryosu da oluşturdular.

Görünüşte yardımcı bir seyahat asistanı olarak kötü amaçlı büyük dil modeli odaklı bir sohbet robotu geliştirildi, gizli görev ise kullanıcının nerede yaşadıkları, yaşları ve cinsiyetleri gibi kişisel bilgilerini çıkarmaya çalışmaktı.

Simüle edilmiş konuşmalarda, sohbet robotları, kullanıcıları görünüşte zararsız sorular aracılığıyla ilgili ipuçlarını ortaya çıkarmaya yönlendirebilir ve birden fazla etkileşim turundan sonra kişisel gizlilik verilerini doğru bir şekilde çıkararak bu düşmanca yaklaşımın fizibilitesini doğrulayabilir.

Test Verileri

Araştırmacılar, test için GPT-4, Claude-2, Llama-2 ve diğerleri dahil olmak üzere dokuz ana akım büyük dil modeli seçtiler. Her kullanıcının tüm yorumları belirli bir bilgi istemi biçiminde kapsüllenir ve kullanıcının öznitelikleri hakkında çıkarımlar yapmak için gerekli olan farklı dil modellerine beslenir.

Ardından, modelin tahmin sonuçları, her modelin öznitelik çıkarım doğruluğunu elde etmek için insan etiketi tarafından açıklanan gerçek verilerle karşılaştırılır.

Deneysel sonuçlar, GPT-4'ün genel ilk 1 doğruluk oranının %84,6'ya ulaştığını ve ilk 3'ün doğruluk oranının %95,1'e ulaştığını gösteriyor, bu da profesyonel manuel açıklamanın etkisiyle neredeyse karşılaştırılabilir, ancak maliyet manuel açıklamanın yalnızca yaklaşık %1'i kadardır.

Farklı modeller arasında bariz bir ölçek etkisi de vardır ve parametre sayısı ne kadar fazlaysa etki o kadar iyi olur. Bu, mevcut önde gelen dil modellerinin metinden kişisel bilgileri çıkarma konusunda güçlü bir yetenek kazandığını kanıtlıyor.

Koruyucu Önlemlerin Değerlendirilmesi

Araştırmacılar ayrıca özel verileri hem istemciden hem de sunucudan korumak için mevcut önlemleri değerlendirdi. İstemci tarafında, endüstrinin önde gelen metin anonimleştirme araçları tarafından gerçekleştirilen metin işlemeyi test ettiler.

Sonuçlar, kişisel bilgilerin çoğu silinse bile, GPT-4'ün kalan dil özelliklerini kullanarak konum ve yaş dahil olmak üzere özel verileri doğru bir şekilde çıkarabildiğini gösteriyor.

Sunucu tarafı perspektifinden bakıldığında, mevcut ticari modeller gizlilik sızıntısı için hizalanmamış ve optimize edilmemiştir ve mevcut karşı önlemler hala dil modellerinin çıkarımını etkili bir şekilde engelleyememektedir.

Çalışma, bir yandan GPT-4 gibi büyük dil modellerinin üstün çıkarım yeteneğini gösterirken, diğer yandan büyük dil modellerinin yalnızca veri belleğini eğitmek için değil, aynı zamanda çıkarımdan kaynaklanan gizlilik sızıntısı riskini azaltmak için daha geniş koruma önlemleri gerektirdiğine dikkat çekiyor.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
1/3
1Show My Alpha Points
14k Popularity
2Crypto Market Rebound
167k Popularity
3SEC Crypto Project
21k Popularity
4CandyDrop Airdrop Event 6.0
94k Popularity
5White House Crypto Report
82k Popularity

sitemap