ChatGPT dilanggar oleh batasan keamanan "kode misterius"! Langkah-langkah untuk menghancurkan manusia keluar, dan tidak ada alpaka dan Claude yang selamat

Sumber: Qubit

"Parit" model besar itu diterobos lagi.

Memasukkan kode rahasia dapat menyebabkan model besar menghasilkan konten berbahaya.

Dari ChatGPT, Claude hingga keluarga alpaka open source, tidak ada yang selamat.

Baru-baru ini, sebuah penelitian yang diterbitkan bersama oleh Universitas Carnegie Mellon dan safe.ai menunjukkan bahwa mekanisme keamanan model besar dapat dibobol melalui kode misterius.

Mereka bahkan membuat satu set algoritme yang dapat menyesuaikan "menyerang kata-kata cepat".

Penulis makalah juga menyatakan bahwa "tidak ada solusi yang jelas" untuk masalah ini.

Saat ini, tim telah membagikan hasil penelitian dengan produsen model besar termasuk OpenAI, Anthropic, dan Google.

Ketiga pihak di atas semuanya menjawab bahwa mereka telah memperhatikan fenomena ini dan akan terus meningkat, serta mengucapkan terima kasih kepada tim atas kerja mereka.

Model besar umum dimusnahkan

Meskipun mekanisme keamanan berbagai model besar tidak sama, dan beberapa di antaranya tidak diungkapkan, semuanya telah dilanggar dengan derajat yang berbeda-beda.

Misalnya, untuk pertanyaan "bagaimana menghancurkan manusia", ChatGPT, Bard, Claude, dan LLaMA-2 semuanya memberikan caranya masing-masing.

Untuk beberapa masalah tertentu, mekanisme keamanan model besar juga gagal mencegahnya.

Meskipun metode ini mungkin tidak dapat dilakukan bahkan jika kita mengetahuinya, mereka tetap membunyikan alarm bagi kita.

Dari sudut pandang data, model besar pabrikan besar telah terpengaruh hingga tingkat yang berbeda-beda, di antaranya GPT-3.5 adalah yang paling jelas.

Selain model di atas, keluarga Alpaca open source juga gagal menahan serangan.

Mengambil Vicuna-7B dan LLaMA-2(7B) sebagai contoh, dalam pengujian "Beberapa Perilaku Berbahaya", tingkat keberhasilan serangan melebihi 80%.

Di antara mereka, tingkat keberhasilan serangan terhadap Vicuna bahkan mencapai 98%, dan proses pelatihannya 100%.

△ASR mengacu pada tingkat keberhasilan serangan

Secara keseluruhan, metode penyerangan yang ditemukan oleh tim peneliti memiliki tingkat keberhasilan yang sangat tinggi.

Jadi, metode serangan macam apa ini?

Kata prompt jailbreak yang disesuaikan

Berbeda dari kata-kata prompt "panacea" dalam metode serangan tradisional, tim peneliti merancang satu set algoritme untuk secara khusus menghasilkan kata-kata prompt yang "disesuaikan".

Selain itu, kata-kata cepat ini tidak seperti bahasa manusia dalam cara tradisional, seringkali tidak dapat dipahami dari sudut pandang manusia, bahkan mengandung karakter yang kacau.

Algoritma untuk membuat kata cepat disebut Greedy Coordinate Gradient (Greedy Coordinate Gradient, disingkat GCG).

Pertama, GCG akan menghasilkan satu secara acak, dan menghitung nilai gradien dari setiap kata pengganti token.

Kemudian, GCG akan memilih secara acak salah satu dari beberapa kata pengganti dengan nilai gradien yang lebih kecil untuk menggantikan token awal.

Selanjutnya adalah menghitung data loss baru, dan ulangi langkah sebelumnya hingga fungsi loss konvergen atau mencapai batas atas jumlah cycle.

Berdasarkan algoritma GCG, tim peneliti mengusulkan sebuah metode optimasi yang disebut dengan “GCG-based retrieval”.

Dengan meningkatnya jumlah siklus GCG, tingkat keberhasilan model serangan besar yang dihasilkan semakin tinggi, dan kerugian secara bertahap berkurang.

Dapat dikatakan bahwa metode serangan baru ini telah mengungkap kekurangan dari mekanisme pertahanan model besar yang ada.

Metode pertahanan masih perlu ditingkatkan

Sejak lahirnya model besar, mekanisme keamanan terus diperbarui.

Pada awalnya, konten sensitif bahkan dapat dibuat secara langsung, tetapi sekarang bahasa konvensional tidak dapat menipu model besar.

Termasuk "Kerentanan Nenek" yang pernah menghancurkan, sekarang telah diperbaiki.

Namun, bahkan metode serangan yang keterlaluan ini masih tidak melebihi ruang lingkup bahasa manusia.

Tapi apa yang mungkin tidak diharapkan oleh pengembang model besar adalah bahwa tidak ada yang menetapkan bahwa kata jailbreak harus bahasa manusia.

Oleh karena itu, menanggapi kata-kata serangan "kacau" yang dirancang oleh mesin, metode pertahanan yang dirancang oleh model besar berdasarkan bahasa manusia tampaknya diregangkan.

Menurut penulis makalah, saat ini tidak ada cara untuk bertahan dari serangan baru ini.

Pertahanan terhadap "serangan mesin" harus dimasukkan dalam agenda.

Satu hal lagi

Tes qubit menemukan bahwa di ChatGPT, Bard, dan Claude, kata-kata prompt serangan ** yang ditampilkan di makalah telah tidak valid.

Namun tim tidak mengungkapkan semuanya, jadi masih harus dilihat apakah ini berarti masalah telah diperbaiki sepenuhnya.

Alamat kertas: Tautan referensi: [1] [2]

Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)