ChatGPT, "gizemli kod" güvenlik kısıtlamaları tarafından ihlal edildi! İnsanları yok etme adımları birdenbire ortaya çıktı ve alpakaların ve Claude'un hiçbiri bağışlanmadı.

2023-07-30 04:19:56

Kaynak: Qubit

Büyük modelin "hendeği" tekrar kırıldı.

Şifreli bir kod girmek, büyük bir modelin zararlı içerik oluşturmasına neden olabilir.

ChatGPT, Claude'dan açık kaynak alpaka ailesine, hiç kimse bağışlanmaz.

Yakın zamanda Carnegie Mellon Üniversitesi ve safe.ai tarafından ortaklaşa yayınlanan bir çalışma, büyük modellerin güvenlik mekanizmasının gizemli bir kod aracılığıyla kırılabileceğini gösteriyor.

Hatta "saldırı istemi sözcüklerini" uyarlayabilen bir dizi algoritma bile yaptılar.

Makalenin yazarları ayrıca bu sorunun "bariz bir çözümü" olmadığını belirttiler.

Ekip şu anda araştırma sonuçlarını OpenAI, Anthropic ve Google gibi büyük model üreticileriyle paylaştı.

Yukarıdaki üç taraf da bu olguyu fark ettiklerini ve gelişmeye devam edeceklerini söyleyerek ekibe çalışmaları için minnettarlıklarını ifade ettiler.

Yaygın büyük modeller silinir

Çeşitli büyük modellerin güvenlik mekanizmaları aynı olmamasına ve bazılarının açıklanmamasına rağmen, hepsi farklı derecelerde ihlal edilmiştir.

Örneğin, "insan nasıl yok edilir" sorusu için ChatGPT, Bard, Claude ve LLaMA-2'nin hepsi kendi yollarını gösterdi.

Bazı özel sorunlar için, büyük modelin güvenlik mekanizması da bunu engelleyemedi.

Bu yöntemler biz bilsek de uygulanamayacak olsa da yine de bizler için alarm niteliğindeydi.

Veri açısından, büyük üreticilerin büyük modelleri, GPT-3.5'in en bariz olduğu değişen derecelerde etkilenmiştir.

Yukarıdaki modellere ek olarak, açık kaynaklı Alpaka ailesi de saldırılara dayanamadı.

Vicuna-7B ve LLaMA-2(7B) örnek alındığında, "Birden Fazla Zararlı Davranış" testinde saldırı başarı oranı %80'i aşıyor.

Bunların arasında, Vicuna'ya yapılan saldırının başarı oranı %98'e ulaştı ve eğitim süreci %100 idi.

△ASR, saldırı başarı oranını ifade eder

Genel olarak, araştırma ekibi tarafından icat edilen saldırı yöntemi çok yüksek bir başarı oranına sahiptir.

Peki bu nasıl bir saldırı yöntemidir?

Özelleştirilmiş jailbreak komut istemi sözcükleri

Araştırma ekibi, geleneksel saldırı yöntemlerindeki "herkese uyan tek beden" istem sözcüklerinden farklı olarak, özellikle "özelleştirilmiş" istem sözcükleri oluşturmak için bir dizi algoritma tasarladı.

Üstelik bu hızlı sözcükler geleneksel anlamda insan diline benzemez, çoğu zaman insan bakış açısından anlaşılmazdır ve hatta bozuk karakterler içerir.

Bilgi istemi sözcükleri oluşturmak için kullanılan algoritmaya Greedy Coordinate Gradient (Greedy Coordinate Gradient, kısaca GCG) adı verilir.

İlk olarak, GCG rastgele bir tane oluşturacak ve her bir belirteç yerine geçen kelimenin gradyan değerini hesaplayacaktır.

Ardından, GCG, ilk belirteci değiştirmek için daha küçük bir gradyan değerine sahip birkaç değiştirme kelimesinden birini rastgele seçecektir.

Sonraki, yeni kayıp verilerini hesaplamak ve kayıp fonksiyonu döngü sayısının üst sınırına yaklaşana veya ulaşana kadar önceki adımları tekrarlamaktır.

Araştırma ekibi, GCG algoritmasına dayalı olarak "GCG tabanlı alma" adı verilen bir optimizasyon yöntemi önerdi.

GCG döngü sayısı arttıkça, oluşturulan büyük saldırı modelinin başarı oranı giderek yükselir ve kayıp kademeli olarak azalır.

Bu yepyeni saldırı yönteminin, büyük modelin mevcut savunma mekanizmasındaki eksiklikleri gözler önüne serdiği söylenebilir.

Savunma yönteminin hala iyileştirilmesi gerekiyor

Büyük modelin doğuşundan bu yana güvenlik mekanizması sürekli güncellendi.

Başlangıçta hassas içerik doğrudan üretilebilir, ancak artık geleneksel diller büyük modelleri kandıramaz.

Bir zamanlar ezici olan "Büyükanne Güvenlik Açığı" da dahil olmak üzere, şimdi düzeltildi.

Ancak bu çirkin saldırı yöntemi bile yine de insan dilinin kapsamını aşamaz.

Ancak büyük model geliştiricilerinin beklemeyebileceği şey, hiç kimsenin jailbreak kelimesinin bir insan dili olması gerektiğini şart koşmamasıdır.

Bu nedenle, makinelerin tasarladığı bu tür "bozuk" saldırı sözlerine yanıt olarak, insan dilini temel alan büyük modelin tasarladığı savunma yöntemi esnetilmiş gibi görünüyor.

Makalenin yazarlarına göre, şu anda bu yeni saldırıya karşı savunma yapmanın bir yolu yok.

"Makine saldırılarına" karşı savunma gündeme alınmalı.

Bir şey daha

Qubit testi, ChatGPT, Bard ve Claude'da, belgede gösterilen saldırı istemi sözcüklerinin **geçersiz kılındığını buldu.

Ancak ekip hepsini açıklamadı, bu yüzden bunun sorunun tamamen çözüldüğü anlamına gelip gelmediğini göreceğiz.

Kağıt adresi: Referans bağlantısı: [1] [2]

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
BTC Hits New High
82k Popularity
ETH Breaks $3,000
37k Popularity
VIP Exclusive Airdrop Carnival
12k Popularity
4Pump.Fun Debuts on Gate
4k Popularity
5Fed June Meeting Minutes
4k Popularity
6Join Gate VIP to Win MacBook
30k Popularity
7Trump Tariff Hikes
16k Popularity
8Gate xStocks Trading Share
23k Popularity
9HK Stablecoin Rules
13k Popularity
10Truth Social Crypto ETF
3k Popularity

sitemap