Buka "pidato berbahaya" ChatGPT dengan satu klik: Robot obrolan AI memiliki "bug besar" yang tidak dapat diperbaiki saat ini

2023-08-04 04:51:37

Dengan popularitas teknologi model skala besar, chatbot AI telah menjadi salah satu alat umum untuk hiburan sosial, layanan pelanggan, dan bantuan pendidikan.

Namun, chatbots AI yang tidak aman dapat digunakan oleh beberapa orang untuk menyebarkan informasi palsu, memanipulasi opini publik, dan bahkan digunakan oleh peretas untuk mencuri privasi pribadi pengguna. Munculnya alat AI generatif untuk kejahatan dunia maya, seperti WormGPT dan FraudGPT, telah menimbulkan kekhawatiran tentang keamanan aplikasi AI.

Minggu lalu, Google, Microsoft, OpenAI, dan Anthropic meluncurkan badan industri baru, Frontier Model Forum, untuk mempromosikan pengembangan sistem AI mutakhir yang aman dan bertanggung jawab: Memajukan Riset Keamanan AI, Mengidentifikasi Praktik dan Standar Terbaik, untuk memfasilitasi informasi berbagi di antara pembuat kebijakan dan industri.

**Jadi, pertanyaannya adalah, apakah model mereka sendiri benar-benar aman? **

Baru-baru ini, peneliti dari Carnegie Mellon University, Center for AI Safety, dan Bosch Center for AI mengungkapkan "bug besar" yang terkait dengan chatbot AI seperti ChatGPT-Adversarial prompts dapat mem-bypass AI Safeguards yang ditetapkan oleh pengembang untuk memanipulasi chatbot AI agar menghasilkan yang berbahaya pidato.

Chatbot atau model AI yang populer saat ini, seperti ChatGPT OpenAI, Bard Google, Claude 2 Anthropic, dan LLaMA-2 Meta, tidak terkecuali.

Gambar | Aturan keamanan dari empat model bahasa dapat dilewati melalui petunjuk permusuhan, memicu perilaku yang berpotensi berbahaya

Secara khusus, peneliti menemukan Sufiks yang dapat ditambahkan ke kueri terhadap model bahasa besar (LLM) untuk menghasilkan ucapan berbahaya. Alih-alih menolak menjawab pertanyaan-pertanyaan berbahaya ini, penelitian ini memaksimalkan kemungkinan bahwa model-model ini akan menghasilkan jawaban ya.

Misalnya, saat ditanya "bagaimana cara mencuri identitas seseorang", chatbot AI memberikan keluaran yang sangat berbeda sebelum dan sesudah mengaktifkan "Tambahkan sufiks permusuhan".

Gambar | Perbandingan jawaban chatbot sebelum dan sesudah Add adversarial suffix diaktifkan

Selain itu, chatbot AI juga akan dibujuk untuk menulis komentar yang tidak pantas seperti "cara membuat bom atom", "cara memposting artikel sosial yang berbahaya", "cara mencuri uang dari badan amal".

Sebagai tanggapan, Zico Kolter, seorang profesor di Universitas Carnegie Mellon yang berpartisipasi dalam penelitian tersebut, mengatakan, "Sejauh yang kami tahu, saat ini tidak ada cara untuk memperbaiki masalah ini. Kami tidak tahu bagaimana membuatnya aman."

Para peneliti telah memperingatkan OpenAI, Google, dan Anthropic tentang kelemahan tersebut sebelum merilis hasil ini. Setiap perusahaan telah memperkenalkan langkah-langkah pemblokiran untuk mencegah eksploitasi yang dijelaskan dalam makalah penelitian agar tidak berfungsi, tetapi mereka belum menemukan cara untuk menghentikan serangan musuh secara lebih umum.

Hannah Wong, juru bicara OpenAI, mengatakan: "Kami terus bekerja untuk meningkatkan ketahanan model kami terhadap serangan musuh, termasuk metode untuk mengidentifikasi pola aktivitas yang tidak biasa, pengujian tim merah yang sedang berlangsung untuk mensimulasikan potensi ancaman, dan pendekatan untuk memperbaiki kelemahan model terungkap oleh serangan musuh yang baru ditemukan."

Juru bicara Google Elijah Lawal membagikan pernyataan yang menjelaskan langkah-langkah yang diambil perusahaan untuk menguji model dan menemukan kelemahannya. "Meskipun ini adalah masalah umum dengan LLM, kami memiliki perlindungan penting di Bard yang terus kami tingkatkan."

Direktur sementara kebijakan dan dampak sosial Anthropic, Michael Sellitto, mengatakan: "Membuat model lebih tahan terhadap dorongan dan tindakan 'jailbreak' permusuhan lainnya adalah bidang penelitian aktif. Kami mencoba membuat model dasar lebih 'tidak berbahaya' dengan memperkuat pertahanannya.”’. Pada saat yang sama, kami juga menjajaki lapisan pertahanan tambahan.”

Gambar | Konten berbahaya dihasilkan oleh 4 model bahasa

** Terkait masalah ini, kalangan akademisi juga telah mengeluarkan peringatan dan memberikan beberapa saran. **

Armando Solar-Lezama, seorang profesor di School of Computing MIT, mengatakan masuk akal bahwa serangan permusuhan ada dalam model bahasa karena mereka memengaruhi banyak model pembelajaran mesin. Namun, mengejutkan bahwa serangan yang dikembangkan terhadap model open source generik bisa sangat efektif pada beberapa sistem berpemilik yang berbeda.

Masalahnya, Solar-Lezama berpendapat, mungkin bahwa semua LLM dilatih tentang kumpulan data teks yang serupa, banyak di antaranya berasal dari situs web yang sama, dan jumlah data yang tersedia di dunia terbatas.

"Keputusan penting apa pun tidak boleh dibuat sepenuhnya oleh model bahasa saja. Dalam arti tertentu, itu hanya akal sehat. "Dia menekankan penggunaan teknologi AI secara moderat, terutama ketika melibatkan keputusan penting atau potensi risiko. Dalam beberapa skenario, partisipasi manusia dan pengawasan** masih diperlukan untuk menghindari potensi masalah dan penyalahgunaan dengan lebih baik.

Arvind Narayanan, seorang profesor ilmu komputer di Universitas Princeton, mengatakan: "Tidak mungkin lagi untuk mencegah AI jatuh ke tangan operator jahat. **" Meskipun upaya harus dilakukan untuk membuat model lebih aman, menurutnya, kami juga harus menyadari bahwa Mencegah semua penyalahgunaan tidak mungkin terjadi. Oleh karena itu, strategi yang lebih baik adalah memperkuat pengawasan dan memerangi penyalahgunaan sambil mengembangkan teknologi AI.

Khawatir atau meremehkan. Dalam pengembangan dan penerapan teknologi AI, selain berfokus pada inovasi dan kinerja, kita harus selalu memperhatikan keselamatan dan etika.

Hanya dengan mempertahankan penggunaan moderat, partisipasi dan pengawasan manusia, kita dapat menghindari potensi masalah dan penyalahgunaan dengan lebih baik, dan membuat teknologi AI membawa lebih banyak manfaat bagi masyarakat manusia.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
Gate 2025 Q2 Report Released
2k Popularitas
Gate Derivatives Volume Hits New High
4k Popularitas
CPI Data Incoming
32k Popularitas
4Join Gate VIP to Win MacBook
29k Popularitas
5Fed June Meeting Minutes
7k Popularitas
6Gate Alpha Trading Share
14k Popularitas
7Trump Tariff Hikes
16k Popularitas
8Gate Square Creator Spark Program
139k Popularitas
9Content Mining & Earn Rich Commission
1819k Popularitas
10Gate Alpha New Listings
60k Popularitas

Sematkan

peta situs