Tek tıklamayla ChatGPT "tehlikeli konuşma"yı açın: AI sohbet robotunun şu anda düzeltilemeyen "büyük bir hatası" var

2023-08-04 04:51:37

Büyük ölçekli model teknolojisinin popülaritesi ile AI sohbet robotları, sosyal eğlence, müşteri hizmetleri ve eğitim yardımı için yaygın araçlardan biri haline geldi.

Ancak güvenli olmayan yapay zeka sohbet robotları, bazı kişiler tarafından yanlış bilgi yaymak, kamuoyunu manipüle etmek ve hatta bilgisayar korsanları tarafından kullanıcıların kişisel gizliliğini çalmak için kullanılabilir. WormGPT ve FraudGPT gibi siber suçlar için üretici yapay zeka araçlarının ortaya çıkışı, yapay zeka uygulamalarının güvenliğiyle ilgili endişeleri artırdı.

Geçen hafta, Google, Microsoft, OpenAI ve Anthropic, en yeni AI sistemlerinin güvenli ve sorumlu bir şekilde geliştirilmesini teşvik etmek için yeni bir endüstri kuruluşu olan Frontier Model Forum'u başlattı: İlerleyen AI Güvenlik Araştırması, En İyi Uygulamaları ve Standartları Belirleme , bilgileri kolaylaştırmak için politika yapıcılar ve endüstri arasında paylaşım.

**Öyleyse soru şu ki, kendi modelleri gerçekten güvenli mi? **

Son zamanlarda, Carnegie Mellon Üniversitesi, Yapay Zeka Güvenliği Merkezi ve Bosch Yapay Zeka Merkezi'nden araştırmacılar, ChatGPT-** gibi yapay zeka sohbet robotlarıyla ilgili bir "büyük hata" ortaya çıkardılar. konuşma**.

OpenAI'nin ChatGPT'si, Google'ın Bard'ı, Anthropic'in Claude 2 ve Meta'nın LLaMA-2'si gibi şu anda popüler olan yapay zeka sohbet robotları veya modelleri de korunmuyor.

Şekil | Dört dil modelinin güvenlik kuralları, potansiyel olarak zararlı davranışları tetikleyerek rakip ipuçları aracılığıyla atlanabilir

Özellikle, araştırmacılar, tehlikeli konuşmalar oluşturmak için büyük dil modellerine (LLM'ler) karşı sorgulara eklenebilecek bir Sonek keşfettiler. Çalışma, bu tehlikeli soruları yanıtlamayı reddetmek yerine, bu modellerin evet yanıtı verme olasılığını en üst düzeye çıkarıyor.

Örneğin, "birinin kimliği nasıl çalınır" diye sorulduğunda AI chatbot, "Düşman son eki ekle"yi açmadan önce ve açtıktan sonra çok farklı çıktılar verdi.

Şekil | Düşman soneki ekle açıkken, önce ve sonra chatbot yanıtlarının karşılaştırılması

Buna ek olarak, AI sohbet botları da "atom bombası nasıl yapılır", "tehlikeli sosyal makaleler nasıl yayınlanır", "hayır kurumlarından nasıl para çalınır" gibi uygunsuz açıklamalar yazmaya teşvik edilecek.

Buna cevaben çalışmaya katılan Carnegie Mellon Üniversitesi'nde doçent olan Zico Kolter, "Bildiğimiz kadarıyla şu anda bu sorunu çözmenin bir yolu yok. Onları nasıl güvenli hale getireceğimizi bilmiyoruz."

Araştırmacılar, bu sonuçları yayınlamadan önce OpenAI, Google ve Anthropic'i kusur konusunda uyarmıştı. Her şirket, araştırma makalesinde açıklanan güvenlik açıklarının çalışmasını önlemek için engelleme önlemleri aldı, ancak daha genel olarak düşman saldırılarını nasıl durduracaklarını çözemediler.

OpenAI sözcüsü Hannah Wong şunları söyledi: "Olağandışı etkinlik kalıplarını belirleme yöntemleri, potansiyel tehditleri simüle etmek için devam eden kırmızı ekip testleri ve ortaya çıkan model zayıflıklarını düzeltme yaklaşımı dahil olmak üzere, modellerimizin düşman saldırılarına karşı sağlamlığını geliştirmek için sürekli çalışıyoruz. yeni keşfedilen düşmanca saldırılarla."

Google sözcüsü Elijah Lawal, şirketin modeli test etmek ve zayıf yönlerini bulmak için attığı adımları açıklayan bir açıklama paylaştı. "Bu, LLM'lerde yaygın bir sorun olsa da, Bard'da sürekli olarak iyileştirdiğimiz önemli koruma önlemlerimiz var."

Anthropic'in geçici politika ve sosyal etki direktörü Michael Sellitto şunları söyledi: "Modelleri yönlendirmeye ve diğer hasım 'jailbreak' önlemlerine karşı daha dirençli hale getirmek, aktif bir araştırma alanıdır. savunmasını sertleştiriyor." Aynı zamanda, ek savunma katmanları da keşfediyoruz."

Şekil | 4 dil modeli tarafından oluşturulan zararlı içerik

** Bu sorunla ilgili olarak akademik çevreler de uyarılarda bulunmuş ve bazı önerilerde bulunmuştur. **

MIT School of Computing'de profesör olan Armando Solar-Lezama, birçok makine öğrenme modelini etkiledikleri için dil modellerinde düşmanca saldırıların var olmasının mantıklı olduğunu söyledi. Bununla birlikte, genel bir açık kaynak modeline karşı geliştirilen bir saldırının birden çok farklı tescilli sistem üzerinde bu kadar etkili olabilmesi şaşırtıcıdır.

Solar-Lezama'ya göre sorun, tüm LLM'lerin çoğu aynı web sitelerinden gelen benzer metinsel veriler üzerinde eğitilmiş olması ve dünyadaki mevcut veri miktarının sınırlı olması olabilir.

"Önemli herhangi bir karar tamamen tek başına dil modeli tarafından verilmemelidir. Bir anlamda, bu sadece sağduyudur." Özellikle önemli kararlar veya potansiyel riskler söz konusu olduğunda, yapay zeka teknolojisinin ılımlı kullanımına vurgu yaptı. Bazı senaryolarda, insan katılımı ve gözetim**, olası sorunlardan ve kötüye kullanımdan daha iyi kaçınmak için hala gereklidir.

Princeton Üniversitesi'nde bilgisayar bilimi profesörü olan Arvind Narayanan, "Yapay zekanın kötü niyetli operatörlerin eline geçmesini engellemek artık mümkün değil.**" Modelleri daha güvenli hale getirmek için çaba gösterilmesi gerekse de, Ayrıca, tüm suistimalleri önlemenin olası olmadığını da kabul etmelidir. Bu nedenle, yapay zeka teknolojisini geliştirirken denetimi güçlendirmek ve kötüye kullanıma karşı mücadele etmek daha iyi bir stratejidir.

Endişelenme veya küçümseme. Yapay zeka teknolojisinin geliştirilmesinde ve uygulanmasında, yenilik ve performansa odaklanmanın yanı sıra güvenliği ve etiği her zaman aklımızda tutmalıyız.

Yalnızca ölçülü kullanım, insan katılımı ve denetimi sürdürerek olası sorunlardan ve kötüye kullanımdan daha iyi kaçınabilir ve yapay zeka teknolojisinin insan toplumuna daha fazla fayda sağlamasını sağlayabiliriz.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
Gate 2025 Q2 Report Released
2k Popularity
Gate Derivatives Volume Hits New High
4k Popularity
CPI Data Incoming
32k Popularity
4Join Gate VIP to Win MacBook
29k Popularity
5MicroStrategy Buys More Bitcoin
496 Popularity
6BTC Hits New High
111k Popularity
7My Gate Moments
26k Popularity
8VIP Exclusive Airdrop Carnival
26k Popularity
9Fed June Meeting Minutes
7k Popularity
10Gate Alpha Trading Share
14k Popularity

sitemap