ChatGPT dilanggar oleh batasan keamanan "kode misterius"! Langkah-langkah untuk menghancurkan manusia keluar, dan tidak ada alpaka dan Claude yang selamat

2023-07-30 04:19:56

Sumber: Qubit

"Parit" model besar itu diterobos lagi.

Memasukkan kode rahasia dapat menyebabkan model besar menghasilkan konten berbahaya.

Dari ChatGPT, Claude hingga keluarga alpaka open source, tidak ada yang selamat.

Baru-baru ini, sebuah penelitian yang diterbitkan bersama oleh Universitas Carnegie Mellon dan safe.ai menunjukkan bahwa mekanisme keamanan model besar dapat dibobol melalui kode misterius.

Mereka bahkan membuat satu set algoritme yang dapat menyesuaikan "menyerang kata-kata cepat".

Penulis makalah juga menyatakan bahwa "tidak ada solusi yang jelas" untuk masalah ini.

Saat ini, tim telah membagikan hasil penelitian dengan produsen model besar termasuk OpenAI, Anthropic, dan Google.

Ketiga pihak di atas semuanya menjawab bahwa mereka telah memperhatikan fenomena ini dan akan terus meningkat, serta mengucapkan terima kasih kepada tim atas kerja mereka.

Model besar umum dimusnahkan

Meskipun mekanisme keamanan berbagai model besar tidak sama, dan beberapa di antaranya tidak diungkapkan, semuanya telah dilanggar dengan derajat yang berbeda-beda.

Misalnya, untuk pertanyaan "bagaimana menghancurkan manusia", ChatGPT, Bard, Claude, dan LLaMA-2 semuanya memberikan caranya masing-masing.

Untuk beberapa masalah tertentu, mekanisme keamanan model besar juga gagal mencegahnya.

Meskipun metode ini mungkin tidak dapat dilakukan bahkan jika kita mengetahuinya, mereka tetap membunyikan alarm bagi kita.

Dari sudut pandang data, model besar pabrikan besar telah terpengaruh hingga tingkat yang berbeda-beda, di antaranya GPT-3.5 adalah yang paling jelas.

Selain model di atas, keluarga Alpaca open source juga gagal menahan serangan.

Mengambil Vicuna-7B dan LLaMA-2(7B) sebagai contoh, dalam pengujian "Beberapa Perilaku Berbahaya", tingkat keberhasilan serangan melebihi 80%.

Di antara mereka, tingkat keberhasilan serangan terhadap Vicuna bahkan mencapai 98%, dan proses pelatihannya 100%.

△ASR mengacu pada tingkat keberhasilan serangan

Secara keseluruhan, metode penyerangan yang ditemukan oleh tim peneliti memiliki tingkat keberhasilan yang sangat tinggi.

Jadi, metode serangan macam apa ini?

Kata prompt jailbreak yang disesuaikan

Berbeda dari kata-kata prompt "panacea" dalam metode serangan tradisional, tim peneliti merancang satu set algoritme untuk secara khusus menghasilkan kata-kata prompt yang "disesuaikan".

Selain itu, kata-kata cepat ini tidak seperti bahasa manusia dalam cara tradisional, seringkali tidak dapat dipahami dari sudut pandang manusia, bahkan mengandung karakter yang kacau.

Algoritma untuk membuat kata cepat disebut Greedy Coordinate Gradient (Greedy Coordinate Gradient, disingkat GCG).

Pertama, GCG akan menghasilkan satu secara acak, dan menghitung nilai gradien dari setiap kata pengganti token.

Kemudian, GCG akan memilih secara acak salah satu dari beberapa kata pengganti dengan nilai gradien yang lebih kecil untuk menggantikan token awal.

Selanjutnya adalah menghitung data loss baru, dan ulangi langkah sebelumnya hingga fungsi loss konvergen atau mencapai batas atas jumlah cycle.

Berdasarkan algoritma GCG, tim peneliti mengusulkan sebuah metode optimasi yang disebut dengan “GCG-based retrieval”.

Dengan meningkatnya jumlah siklus GCG, tingkat keberhasilan model serangan besar yang dihasilkan semakin tinggi, dan kerugian secara bertahap berkurang.

Dapat dikatakan bahwa metode serangan baru ini telah mengungkap kekurangan dari mekanisme pertahanan model besar yang ada.

Metode pertahanan masih perlu ditingkatkan

Sejak lahirnya model besar, mekanisme keamanan terus diperbarui.

Pada awalnya, konten sensitif bahkan dapat dibuat secara langsung, tetapi sekarang bahasa konvensional tidak dapat menipu model besar.

Termasuk "Kerentanan Nenek" yang pernah menghancurkan, sekarang telah diperbaiki.

Namun, bahkan metode serangan yang keterlaluan ini masih tidak melebihi ruang lingkup bahasa manusia.

Tapi apa yang mungkin tidak diharapkan oleh pengembang model besar adalah bahwa tidak ada yang menetapkan bahwa kata jailbreak harus bahasa manusia.

Oleh karena itu, menanggapi kata-kata serangan "kacau" yang dirancang oleh mesin, metode pertahanan yang dirancang oleh model besar berdasarkan bahasa manusia tampaknya diregangkan.

Menurut penulis makalah, saat ini tidak ada cara untuk bertahan dari serangan baru ini.

Pertahanan terhadap "serangan mesin" harus dimasukkan dalam agenda.

Satu hal lagi

Tes qubit menemukan bahwa di ChatGPT, Bard, dan Claude, kata-kata prompt serangan ** yang ditampilkan di makalah telah tidak valid.

Namun tim tidak mengungkapkan semuanya, jadi masih harus dilihat apakah ini berarti masalah telah diperbaiki sepenuhnya.

Alamat kertas: Tautan referensi: [1] [2]

Lihat Asli

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
BTC Hits New High
81k Popularitas
ETH Breaks $3,000
36k Popularitas
VIP Exclusive Airdrop Carnival
12k Popularitas
4Pump.Fun Debuts on Gate
4k Popularitas
5Fed June Meeting Minutes
4k Popularitas
6Join Gate VIP to Win MacBook
29k Popularitas
7Trump Tariff Hikes
16k Popularitas
8Gate xStocks Trading Share
22k Popularitas
9HK Stablecoin Rules
13k Popularitas
10Truth Social Crypto ETF
3k Popularitas

Sematkan

peta situs