Mở "ngôn ngữ nguy hiểm" ChatGPT bằng một cú nhấp chuột: Robot trò chuyện AI có "lỗi lớn" hiện tại chưa thể sửa

2023-08-04 04:51:37

Với sự phổ biến của công nghệ mô hình quy mô lớn, chatbot AI đã trở thành một trong những công cụ phổ biến để giải trí xã hội, dịch vụ khách hàng và hỗ trợ giáo dục.

Tuy nhiên, một số người có thể sử dụng chatbot AI không an toàn để truyền bá thông tin sai lệch, thao túng dư luận và thậm chí bị tin tặc sử dụng để đánh cắp quyền riêng tư của người dùng. Sự xuất hiện của các công cụ AI tổng quát dành cho tội phạm mạng, chẳng hạn như WormGPT và FraudGPT, đã làm dấy lên mối lo ngại về tính bảo mật của các ứng dụng AI.

Tuần trước, Google, Microsoft, OpenAI và Anthropic đã ra mắt một cơ quan công nghiệp mới, Diễn đàn Mô hình Biên giới, để thúc đẩy sự phát triển an toàn và có trách nhiệm của các hệ thống AI tiên tiến: Thúc đẩy Nghiên cứu An toàn AI, Xác định Tiêu chuẩn và Thực tiễn Tốt nhất, để tạo điều kiện thông tin chia sẻ giữa các nhà hoạch định chính sách và ngành công nghiệp.

**Vậy, câu hỏi đặt ra là mô hình của họ có thực sự an toàn? **

Gần đây, các nhà nghiên cứu từ Đại học Carnegie Mellon, Trung tâm An toàn AI và Trung tâm AI của Bosch đã tiết lộ một "lỗi lớn" liên quan đến các chatbot AI như ChatGPT-Lời nhắc của đối thủ có thể vượt qua các biện pháp Bảo vệ AI do các nhà phát triển thiết lập để thao túng các chatbot AI tạo ra nguy hiểm lời nói.

Các mô hình hoặc chatbot AI phổ biến hiện nay, chẳng hạn như ChatGPT của OpenAI, Bard của Google, Claude 2 của Anthropic và LLaMA-2 của Meta, cũng không nằm ngoài số đó.

Hình | Các quy tắc bảo mật của bốn mô hình ngôn ngữ có thể bị bỏ qua thông qua các gợi ý đối nghịch, kích hoạt hành vi có thể gây hại

Cụ thể, các nhà nghiên cứu đã phát hiện ra một Hậu tố có thể được thêm vào các truy vấn đối với các mô hình ngôn ngữ lớn (LLM) để tạo ra lời nói nguy hiểm. Thay vì từ chối trả lời những câu hỏi nguy hiểm này, nghiên cứu tối đa hóa khả năng các mô hình này sẽ tạo ra câu trả lời có.

Chẳng hạn, khi được hỏi "làm thế nào để đánh cắp danh tính của ai đó", AI chatbot đã đưa ra kết quả đầu ra rất khác trước và sau khi bật "Add adversarial suffix".

Hình | So sánh câu trả lời của chatbot trước và sau khi bật Add adversarial suffix

Ngoài ra, các chatbot AI cũng sẽ bị xúi giục viết những nhận xét không phù hợp như "cách chế tạo bom nguyên tử", "cách đăng các bài báo xã hội nguy hiểm", "cách ăn cắp tiền từ các tổ chức từ thiện".

Đáp lại, Zico Kolter, phó giáo sư tại Đại học Carnegie Mellon, người tham gia nghiên cứu, cho biết: "Theo những gì chúng tôi biết, hiện tại không có cách nào khắc phục vấn đề này. Chúng tôi không biết làm thế nào để làm cho chúng an toàn."

Các nhà nghiên cứu đã cảnh báo OpenAI, Google và Anthropic về lỗ hổng trước khi công bố những kết quả này. Mỗi công ty đã đưa ra các biện pháp ngăn chặn để ngăn chặn các khai thác được mô tả trong tài liệu nghiên cứu hoạt động, nhưng họ chưa tìm ra cách ngăn chặn các cuộc tấn công đối nghịch một cách tổng quát hơn.

Hannah Wong, người phát ngôn của OpenAI, cho biết: "Chúng tôi không ngừng nỗ lực để cải thiện tính mạnh mẽ của các mô hình chống lại các cuộc tấn công bất lợi, bao gồm các phương pháp xác định các mẫu hoạt động bất thường, thử nghiệm đội đỏ đang diễn ra để mô phỏng các mối đe dọa tiềm ẩn và phương pháp khắc phục các điểm yếu của mô hình đã lộ ra bởi các cuộc tấn công đối thủ mới được phát hiện."

Người phát ngôn của Google, Elijah Lawal, đã chia sẻ một tuyên bố giải thích các bước mà công ty đã thực hiện để kiểm tra mô hình và tìm ra điểm yếu của nó. "Mặc dù đây là một vấn đề phổ biến với LLM, nhưng chúng tôi có các biện pháp bảo vệ quan trọng tại Bard mà chúng tôi đang tiếp tục cải thiện."

Giám đốc tạm thời về chính sách và tác động xã hội của Anthropic, Michael Sellitto, cho biết: "Làm cho các mô hình chống lại sự nhắc nhở và các biện pháp 'vượt ngục' đối nghịch khác là một lĩnh vực nghiên cứu tích cực. Chúng tôi đang cố gắng làm cho mô hình cơ sở trở nên 'vô hại' hơn bằng cách tăng cường khả năng phòng thủ của nó.” ’. Đồng thời, chúng tôi cũng đang khám phá các lớp phòng thủ bổ sung.”

Hình | Nội dung độc hại do 4 mô hình ngôn ngữ tạo ra

** Liên quan đến vấn đề này, giới học thuật cũng đã đưa ra những cảnh báo và đưa ra một số gợi ý. **

Armando Solar-Lezama, giáo sư tại Trường Điện toán của MIT, cho biết việc các cuộc tấn công đối nghịch tồn tại trong các mô hình ngôn ngữ là hợp lý vì chúng ảnh hưởng đến nhiều mô hình máy học. Tuy nhiên, điều đáng ngạc nhiên là một cuộc tấn công được phát triển nhằm vào một mô hình mã nguồn mở chung lại có thể hiệu quả đến vậy trên nhiều hệ thống độc quyền khác nhau.

Solar-Lezama lập luận rằng vấn đề có thể là tất cả các LLM đều được đào tạo trên các kho dữ liệu văn bản giống nhau, nhiều dữ liệu trong số đó đến từ cùng một trang web và lượng dữ liệu có sẵn trên thế giới là có hạn.

"Không nên đưa ra bất kỳ quyết định quan trọng nào hoàn toàn chỉ bằng mô hình ngôn ngữ. Theo một nghĩa nào đó, đó chỉ là lẽ thường." và giám sát** vẫn được yêu cầu để tránh các vấn đề tiềm ẩn và sử dụng sai hiệu quả hơn.

Arvind Narayanan, giáo sư khoa học máy tính tại Đại học Princeton, cho biết: "Không thể giữ cho AI không rơi vào tay những kẻ điều hành độc hại.**" Trong khi cần nỗ lực để làm cho các mô hình trở nên an toàn hơn, ông lập luận, chúng tôi cũng nên nhận ra rằng việc ngăn chặn tất cả các hành vi lạm dụng là không thể. Do đó, một chiến lược tốt hơn là tăng cường giám sát và chống lạm dụng trong khi phát triển công nghệ AI.

Lo lắng hoặc khinh thường. Trong quá trình phát triển và ứng dụng công nghệ AI, bên cạnh việc tập trung vào đổi mới và hiệu suất, chúng ta phải luôn lưu ý đến vấn đề an toàn và đạo đức.

Chỉ bằng cách duy trì việc sử dụng vừa phải, sự tham gia và giám sát của con người, chúng ta mới có thể tránh được các vấn đề và lạm dụng tiềm ẩn tốt hơn, đồng thời khiến công nghệ AI mang lại nhiều lợi ích hơn cho xã hội loài người.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
Gate 2025 Q2 Report Released
2k Phổ biến
Gate Derivatives Volume Hits New High
4k Phổ biến
CPI Data Incoming
32k Phổ biến
4Join Gate VIP to Win MacBook
29k Phổ biến
5MicroStrategy Buys More Bitcoin
496 Phổ biến
6BTC Hits New High
111k Phổ biến
7My Gate Moments
26k Phổ biến
8VIP Exclusive Airdrop Carnival
26k Phổ biến
9Fed June Meeting Minutes
7k Phổ biến
10Gate Alpha Trading Share
14k Phổ biến

Ghim

sơ đồ trang web