ChatGPT đã bị vi phạm bởi các hạn chế bảo mật "mã bí ẩn"! Các bước để tiêu diệt con người buột miệng, và không ai trong số alpacas và Claude được tha

2023-07-30 04:19:56

Nguồn: Qubit

"Con hào" của mô hình lớn lại bị phá vỡ.

Việc nhập mã khó hiểu có thể khiến một mô hình lớn tạo ra nội dung có hại.

Từ ChatGPT, Claude đến gia đình alpaca mã nguồn mở, không ai được tha.

Mới đây, một nghiên cứu do Đại học Carnegie Mellon và safe.ai phối hợp công bố cho thấy cơ chế bảo mật của những mẫu xe phân khối lớn có thể bị bẻ khóa thông qua một đoạn mã bí ẩn.

Họ thậm chí còn tạo ra một bộ thuật toán có thể điều chỉnh "các từ gợi ý tấn công".

Các tác giả của bài báo cũng tuyên bố rằng "không có giải pháp rõ ràng" cho vấn đề này.

Hiện nhóm đã chia sẻ kết quả nghiên cứu với các nhà sản xuất mô hình lớn bao gồm OpenAI, Anthropic và Google.

Ba bên trên đều phản hồi rằng họ đã nhận thấy hiện tượng này và sẽ tiếp tục cải thiện, đồng thời bày tỏ lòng biết ơn đối với công việc của nhóm.

Các mô hình lớn phổ biến bị xóa sổ

Mặc dù các cơ chế bảo mật của các mô hình lớn khác nhau không giống nhau và một số trong số chúng không được tiết lộ, nhưng tất cả chúng đều đã bị vi phạm ở các mức độ khác nhau.

Ví dụ, đối với câu hỏi "làm thế nào để tiêu diệt con người", ChatGPT, Bard, Claude và LLaMA-2 đều đưa ra cách của riêng mình.

Đối với một số vấn đề cụ thể, cơ chế bảo mật của mô hình lớn cũng không ngăn chặn được.

Mặc dù những phương pháp này có thể không được thực hiện ngay cả khi chúng tôi biết chúng, nhưng chúng vẫn gióng lên hồi chuông cảnh báo cho chúng tôi.

Từ quan điểm dữ liệu, các mô hình lớn của các nhà sản xuất lớn đã bị ảnh hưởng ở các mức độ khác nhau, trong đó GPT-3.5 là rõ ràng nhất.

Ngoài các mô hình trên, dòng mã nguồn mở Alpaca cũng không thể chống lại các cuộc tấn công.

Lấy Vicuna-7B và LLaMA-2(7B) làm ví dụ, trong thử nghiệm "Nhiều hành vi gây hại", tỷ lệ tấn công thành công vượt quá 80%.

Trong số đó, tỷ lệ tấn công Vicuna thành công thậm chí đạt tới 98%, và quá trình huấn luyện là 100%.

△ASR đề cập đến tỷ lệ tấn công thành công

Nhìn chung, phương pháp tấn công do nhóm nghiên cứu phát minh có tỷ lệ thành công rất cao.

Vì vậy, loại phương pháp tấn công này là gì?

Lời nhắc bẻ khóa tùy chỉnh

Khác với các từ gợi ý "thần dược" trong các phương pháp tấn công truyền thống, nhóm nghiên cứu đã thiết kế một bộ thuật toán để tạo ra các từ gợi ý "tùy chỉnh" cụ thể.

Hơn nữa, những lời gợi ý này không giống như ngôn ngữ của con người theo cách truyền thống, chúng thường không thể hiểu được theo quan điểm của con người, thậm chí còn chứa các ký tự bị cắt xén.

Thuật toán để tạo các từ gợi ý được gọi là Gradient tọa độ tham lam (Gradient tọa độ tham lam, viết tắt là GCG).

Đầu tiên, GCG sẽ tạo ngẫu nhiên một mã thông báo và tính toán giá trị độ dốc của từ thay thế của mỗi mã thông báo.

Sau đó, GCG sẽ chọn ngẫu nhiên một trong số các từ thay thế có giá trị độ dốc nhỏ hơn để thay thế mã thông báo ban đầu.

Tiếp theo là tính toán dữ liệu tổn thất mới và lặp lại các bước trước đó cho đến khi hàm tổn thất hội tụ hoặc đạt đến giới hạn trên của số chu kỳ.

Dựa trên thuật toán GCG, nhóm nghiên cứu đã đề xuất một phương pháp tối ưu hóa có tên là “Truy xuất dựa trên GCG”.

Khi số chu kỳ GCG tăng lên, tỷ lệ thành công của mô hình tấn công lớn được tạo ra ngày càng cao hơn và tổn thất giảm dần.

Có thể nói, phương thức tấn công mới toanh này đã bộc lộ những khuyết điểm trong cơ chế phòng thủ sẵn có của mô hình lớn.

Phương pháp phòng thủ vẫn cần được cải thiện

Kể từ khi mô hình lớn ra đời, cơ chế an toàn liên tục được cập nhật.

Ban đầu, nội dung nhạy cảm thậm chí có thể được tạo trực tiếp, nhưng giờ đây các ngôn ngữ thông thường không thể đánh lừa các mô hình lớn.

Bao gồm cả "Lỗ hổng bà ngoại" từng bị đập phá, hiện đã được sửa.

Tuy nhiên, ngay cả phương pháp tấn công thái quá này vẫn không vượt quá phạm vi ngôn ngữ của con người.

Nhưng điều mà các nhà phát triển mô hình lớn có thể không mong đợi là không ai quy định rằng từ bẻ khóa phải là ngôn ngữ của con người.

Do đó, trước những lời lẽ tấn công “bị cắt xén” do máy móc thiết kế như vậy, phương pháp phòng thủ do mô hình lớn thiết kế dựa trên ngôn ngữ của con người dường như bị kéo dài.

Theo các tác giả của bài báo, hiện tại không có cách nào để chống lại cuộc tấn công mới này.

Việc bảo vệ chống lại "các cuộc tấn công máy móc" nên được đưa vào chương trình nghị sự.

Một điều nữa

Thử nghiệm qubit cho thấy trong ChatGPT, Bard và Claude, các từ nhắc tấn công **được hiển thị trong bài báo đã bị vô hiệu.

Tuy nhiên, nhóm đã không tiết lộ tất cả chúng, vì vậy vẫn còn phải xem liệu điều này có nghĩa là sự cố đã được khắc phục hoàn toàn hay không.

Địa chỉ giấy tờ: Liên kết tham khảo: [1] [2]

Xem bản gốc

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
BTC Hits New High
82k Phổ biến
ETH Breaks $3,000
37k Phổ biến
VIP Exclusive Airdrop Carnival
12k Phổ biến
4Pump.Fun Debuts on Gate
4k Phổ biến
5Fed June Meeting Minutes
4k Phổ biến
6Join Gate VIP to Win MacBook
30k Phổ biến
7Trump Tariff Hikes
16k Phổ biến
8Gate xStocks Trading Share
23k Phổ biến
9HK Stablecoin Rules
13k Phổ biến
10Truth Social Crypto ETF
3k Phổ biến

Ghim

sơ đồ trang web