Bây giờ, mô hình lớn cũng đã học cách "ăn một cái rãnh và phát triển một trí tuệ".
Nghiên cứu mới từ Đại học Khoa học và Công nghệ Hồng Kông và Phòng thí nghiệm Noah's Ark của Huawei đã tìm thấy:
Thay vì mù quáng tránh dữ liệu "độc hại", chiến đấu với chất độc bằng chất độc, chỉ cần cho mô hình lớn ăn một số văn bản sai, sau đó để mô hình phân tích và suy ngẫm về lý do lỗi, có thể làm cho mô hình thực sự hiểu "điều gì sai", và sau đó tránh những điều vô nghĩa.
Cụ thể, các nhà nghiên cứu đã đề xuất một khuôn khổ liên kết "học hỏi từ những sai lầm" và được chứng minh thông qua các thí nghiệm:
Cho phép các mô hình lớn "ăn một rãnh và phát triển khôn ngoan hơn" vượt qua các phương pháp SFT và RLHF trong việc sửa chữa các mô hình bị lệch, và cũng có lợi thế trong việc bảo vệ chống lại các cuộc tấn công lệnh tiên tiến trên các mô hình thẳng hàng.
Chúng ta hãy xem xét các chi tiết.
**Khung căn chỉnh để học hỏi từ những sai lầm **
Các thuật toán căn chỉnh mô hình ngôn ngữ lớn hiện có chủ yếu được chia thành hai loại:
Tinh chỉnh có giám sát (SFT)
Học tăng cường cho phản hồi của con người (RLHF)
Phương pháp SFT chủ yếu dựa vào một số lượng lớn các cặp câu hỏi và câu trả lời do con người chú thích, để làm cho mô hình học được "câu trả lời hoàn hảo". Tuy nhiên, nhược điểm là mô hình khó nhận ra "phản ứng xấu" từ phương pháp này, điều này có thể hạn chế khả năng khái quát hóa của nó.
Phương pháp RLHF đào tạo mô hình bằng cách chấm điểm các phản hồi bởi một chú thích của con người, để nó có thể phân biệt chất lượng tương đối của các phản hồi. Trong chế độ này, các mô hình học cách phân biệt giữa câu trả lời cao và thấp, nhưng họ có ít hiểu biết về "nguyên nhân tốt" và "nguyên nhân xấu" đằng sau chúng.
Nhìn chung, các thuật toán căn chỉnh này bị ám ảnh bởi việc làm cho mô hình học được "phản hồi tốt", nhưng chúng bỏ lỡ một phần quan trọng của quá trình làm sạch dữ liệu - học hỏi từ những sai lầm.
Chúng ta có thể tạo ra các mô hình lớn như con người, "ăn một rãnh, phát triển khôn ngoan hơn", nghĩa là thiết kế một phương pháp căn chỉnh để các mô hình lớn có thể học hỏi từ những sai lầm mà không bị ảnh hưởng bởi các chuỗi văn bản có lỗi?
** △ Khung căn chỉnh mô hình ngôn ngữ lớn "Học hỏi từ những sai lầm", bao gồm 4 bước, cụ thể là: (1) cảm ứng lỗi, (2) phân tích lỗi dựa trên hướng dẫn kịp thời, (3) tinh chỉnh mô hình mà không cần hướng dẫn và (4) tạo phản hồi dựa trên hướng dẫn nhanh chóng **
Một nhóm nghiên cứu từ Đại học Khoa học và Công nghệ Hồng Kông và Phòng thí nghiệm Noah's Ark của Huawei đã tiến hành một thí nghiệm.
Thông qua phân tích thực nghiệm của ba mô hình, Alpaca-7B, GPT-3 và GPT-3.5, họ đã đi đến một kết luận thú vị:
Đối với các mô hình này, việc xác định các phản hồi không chính xác thường dễ dàng hơn là tránh chúng khi tạo phản hồi.
** △ Phân biệt đối xử dễ dàng hơn thế hệ
Ngoài ra, thí nghiệm tiếp tục tiết lộ rằng độ chính xác của mô hình trong việc xác định lỗi có thể được cải thiện đáng kể bằng cách cung cấp thông tin hướng dẫn thích hợp, chẳng hạn như gợi ý rằng có thể có lỗi trong các phản hồi.
Dựa trên những phát hiện này, nhóm nghiên cứu đã thiết kế một khung căn chỉnh mới sử dụng khả năng phân biệt lỗi của mô hình để tối ưu hóa khả năng tạo ra của nó.
Quá trình căn chỉnh trông như thế này:
(1) Cảm ứng lỗi
Mục tiêu của bước này là gây ra lỗi trong mô hình và tìm ra điểm yếu của mô hình để các lỗi có thể được phân tích và sửa chữa sau này.
Các trường hợp lỗi này có thể đến từ dữ liệu chú thích hiện có hoặc từ các lỗi do người dùng phát hiện trong hoạt động thực tế của mô hình.
Nghiên cứu cho thấy rằng thông qua các biện pháp tấn công nhóm đỏ đơn giản, chẳng hạn như thêm một số từ khóa gây ra (chẳng hạn như "phi đạo đức" và "xúc phạm") vào hướng dẫn của mô hình, như thể hiện trong Hình (a) bên dưới, mô hình có xu hướng tạo ra một số lượng lớn các phản ứng không phù hợp.
**(2) Phân tích lỗi dựa trên hướng dẫn nhanh chóng **
Khi thu thập đủ các cặp câu hỏi-câu trả lời có chứa lỗi, phương pháp chuyển sang bước thứ hai, đó là hướng dẫn mô hình thực hiện phân tích chuyên sâu về các cặp câu hỏi-câu trả lời này.
Cụ thể, nghiên cứu yêu cầu mô hình giải thích lý do tại sao những phản ứng này có thể không chính xác hoặc phi đạo đức.
Như thể hiện trong Hình (b) bên dưới, mô hình thường có thể cung cấp một lời giải thích hợp lý bằng cách cung cấp hướng dẫn phân tích rõ ràng cho mô hình, chẳng hạn như hỏi "tại sao câu trả lời này có thể sai".
**(3) Tinh chỉnh mô hình không có hướng dẫn **
Sau khi thu thập một số lượng lớn các cặp câu hỏi-câu trả lời lỗi và phân tích của chúng, nghiên cứu đã sử dụng dữ liệu để tinh chỉnh thêm mô hình. Ngoài những cặp câu hỏi và câu trả lời có lỗi, các cặp câu hỏi-câu trả lời được gắn nhãn con người thông thường cũng được thêm vào dưới dạng dữ liệu đào tạo.
Như thể hiện trong Hình (c) bên dưới, ở bước này, nghiên cứu không đưa ra bất kỳ gợi ý trực tiếp nào về việc liệu các phản hồi có chứa lỗi hay không. Mục đích là để khuyến khích người mẫu suy nghĩ, đánh giá và tự hiểu những gì đã sai.
**(4) Tạo trả lời có hướng dẫn nhanh chóng **
Giai đoạn suy luận sử dụng chiến lược tạo phản ứng dựa trên hướng dẫn, nhắc nhở rõ ràng mô hình tạo ra các phản hồi "chính xác, đạo đức và không gây khó chịu", do đó đảm bảo rằng mô hình tuân thủ các chuẩn mực đạo đức và không bị ảnh hưởng bởi các chuỗi văn bản không chính xác.
Đó là, trong quá trình suy luận, mô hình thực hiện tạo có điều kiện dựa trên hướng dẫn sinh sản phù hợp với giá trị của con người, để tạo ra đầu ra phù hợp.
** △ "Học hỏi từ những sai lầm" Ví dụ hướng dẫn khung căn chỉnh mô hình ngôn ngữ lớn **
Khung căn chỉnh ở trên không yêu cầu chú thích của con người và sự tham gia của các mô hình bên ngoài (chẳng hạn như mô hình phần thưởng), tạo điều kiện thuận lợi cho việc tạo ra chúng bằng cách phân tích lỗi bằng cách sử dụng khả năng xác định lỗi của chúng.
Bằng cách này, "học hỏi từ những sai lầm" có thể xác định chính xác các rủi ro tiềm ẩn trong hướng dẫn sử dụng và phản hồi với độ chính xác hợp lý:
Kết quả thí nghiệm
Nhóm nghiên cứu đã tiến hành thí nghiệm trên hai kịch bản ứng dụng thực tế để xác minh hiệu quả thực tế của phương pháp mới.
Tình huống 1: Mô hình ngôn ngữ lớn không liên kết
Lấy mô hình Alpaca-7B làm đường cơ sở, bộ dữ liệu Tập dữ liệu PKU-SafeRLHF đã được sử dụng cho các thí nghiệm và phân tích so sánh được thực hiện với nhiều phương pháp căn chỉnh.
Kết quả của thí nghiệm được hiển thị trong bảng dưới đây:
Khi tính hữu ích của mô hình được duy trì, thuật toán căn chỉnh "học hỏi từ lỗi" cải thiện tỷ lệ vượt qua an toàn khoảng 10% so với SFT, COH và RLHF và 21,6% so với mô hình ban đầu.
Đồng thời, nghiên cứu cho thấy các lỗi do chính mô hình tạo ra cho thấy sự liên kết tốt hơn so với các cặp câu hỏi và câu trả lời lỗi từ các nguồn dữ liệu khác.
** △ Kết quả thử nghiệm của các mô hình ngôn ngữ lớn không liên kết **
** Tình huống 2: Các mô hình được căn chỉnh phải đối mặt với các cuộc tấn công lệnh mới **
Nhóm nghiên cứu tiếp tục khám phá cách củng cố mô hình đã được liên kết để đối phó với các mô hình tấn công hướng dẫn mới nổi.
Tại đây, ChatGLM-6B đã được chọn làm mô hình cơ sở. ChatGLM-6B đã được căn chỉnh an toàn, nhưng nó vẫn có thể tạo ra đầu ra không phù hợp với giá trị của con người khi phải đối mặt với các cuộc tấn công lệnh cụ thể.
Các nhà nghiên cứu đã sử dụng mô hình tấn công "chiếm quyền điều khiển mục tiêu" làm ví dụ và sử dụng 500 mẩu dữ liệu có chứa mẫu tấn công này để tinh chỉnh thí nghiệm. Như thể hiện trong bảng dưới đây, thuật toán liên kết "học hỏi từ những sai lầm" cho thấy khả năng phòng thủ mạnh mẽ khi đối mặt với các cuộc tấn công hướng dẫn mới: ngay cả khi chỉ có một số lượng nhỏ dữ liệu mẫu tấn công mới, mô hình duy trì thành công các khả năng chung và đạt được sự cải thiện 16,9% trong phòng thủ chống lại các cuộc tấn công mới (chiếm quyền điều khiển mục tiêu).
Các thí nghiệm tiếp tục chứng minh rằng khả năng phòng thủ có được thông qua chiến lược "học hỏi từ những sai lầm" không chỉ hiệu quả mà còn có tính khái quát mạnh mẽ, có thể giải quyết một loạt các chủ đề khác nhau trong cùng một chế độ tấn công.
** △ Các mô hình được căn chỉnh bảo vệ chống lại các loại tấn công mới **
Liên kết giấy:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Ăn dữ liệu "độc hại", người mẫu lớn ngoan ngoãn hơn! Thông tin từ HKUST &; Huawei Noah's Ark Laboratory
Nguồn: Qubits
Nghiên cứu mới từ Đại học Khoa học và Công nghệ Hồng Kông và Phòng thí nghiệm Noah's Ark của Huawei đã tìm thấy:
Thay vì mù quáng tránh dữ liệu "độc hại", chiến đấu với chất độc bằng chất độc, chỉ cần cho mô hình lớn ăn một số văn bản sai, sau đó để mô hình phân tích và suy ngẫm về lý do lỗi, có thể làm cho mô hình thực sự hiểu "điều gì sai", và sau đó tránh những điều vô nghĩa.
Chúng ta hãy xem xét các chi tiết.
**Khung căn chỉnh để học hỏi từ những sai lầm **
Các thuật toán căn chỉnh mô hình ngôn ngữ lớn hiện có chủ yếu được chia thành hai loại:
Phương pháp SFT chủ yếu dựa vào một số lượng lớn các cặp câu hỏi và câu trả lời do con người chú thích, để làm cho mô hình học được "câu trả lời hoàn hảo". Tuy nhiên, nhược điểm là mô hình khó nhận ra "phản ứng xấu" từ phương pháp này, điều này có thể hạn chế khả năng khái quát hóa của nó.
Phương pháp RLHF đào tạo mô hình bằng cách chấm điểm các phản hồi bởi một chú thích của con người, để nó có thể phân biệt chất lượng tương đối của các phản hồi. Trong chế độ này, các mô hình học cách phân biệt giữa câu trả lời cao và thấp, nhưng họ có ít hiểu biết về "nguyên nhân tốt" và "nguyên nhân xấu" đằng sau chúng.
Nhìn chung, các thuật toán căn chỉnh này bị ám ảnh bởi việc làm cho mô hình học được "phản hồi tốt", nhưng chúng bỏ lỡ một phần quan trọng của quá trình làm sạch dữ liệu - học hỏi từ những sai lầm.
Chúng ta có thể tạo ra các mô hình lớn như con người, "ăn một rãnh, phát triển khôn ngoan hơn", nghĩa là thiết kế một phương pháp căn chỉnh để các mô hình lớn có thể học hỏi từ những sai lầm mà không bị ảnh hưởng bởi các chuỗi văn bản có lỗi?
**
△ Khung căn chỉnh mô hình ngôn ngữ lớn "Học hỏi từ những sai lầm", bao gồm 4 bước, cụ thể là: (1) cảm ứng lỗi, (2) phân tích lỗi dựa trên hướng dẫn kịp thời, (3) tinh chỉnh mô hình mà không cần hướng dẫn và (4) tạo phản hồi dựa trên hướng dẫn nhanh chóng **
Một nhóm nghiên cứu từ Đại học Khoa học và Công nghệ Hồng Kông và Phòng thí nghiệm Noah's Ark của Huawei đã tiến hành một thí nghiệm.
Thông qua phân tích thực nghiệm của ba mô hình, Alpaca-7B, GPT-3 và GPT-3.5, họ đã đi đến một kết luận thú vị:
Đối với các mô hình này, việc xác định các phản hồi không chính xác thường dễ dàng hơn là tránh chúng khi tạo phản hồi.
**
△ Phân biệt đối xử dễ dàng hơn thế hệ
Ngoài ra, thí nghiệm tiếp tục tiết lộ rằng độ chính xác của mô hình trong việc xác định lỗi có thể được cải thiện đáng kể bằng cách cung cấp thông tin hướng dẫn thích hợp, chẳng hạn như gợi ý rằng có thể có lỗi trong các phản hồi.
Dựa trên những phát hiện này, nhóm nghiên cứu đã thiết kế một khung căn chỉnh mới sử dụng khả năng phân biệt lỗi của mô hình để tối ưu hóa khả năng tạo ra của nó.
Quá trình căn chỉnh trông như thế này:
(1) Cảm ứng lỗi
Mục tiêu của bước này là gây ra lỗi trong mô hình và tìm ra điểm yếu của mô hình để các lỗi có thể được phân tích và sửa chữa sau này.
Các trường hợp lỗi này có thể đến từ dữ liệu chú thích hiện có hoặc từ các lỗi do người dùng phát hiện trong hoạt động thực tế của mô hình.
Nghiên cứu cho thấy rằng thông qua các biện pháp tấn công nhóm đỏ đơn giản, chẳng hạn như thêm một số từ khóa gây ra (chẳng hạn như "phi đạo đức" và "xúc phạm") vào hướng dẫn của mô hình, như thể hiện trong Hình (a) bên dưới, mô hình có xu hướng tạo ra một số lượng lớn các phản ứng không phù hợp.
**(2) Phân tích lỗi dựa trên hướng dẫn nhanh chóng **
Khi thu thập đủ các cặp câu hỏi-câu trả lời có chứa lỗi, phương pháp chuyển sang bước thứ hai, đó là hướng dẫn mô hình thực hiện phân tích chuyên sâu về các cặp câu hỏi-câu trả lời này.
Cụ thể, nghiên cứu yêu cầu mô hình giải thích lý do tại sao những phản ứng này có thể không chính xác hoặc phi đạo đức.
Như thể hiện trong Hình (b) bên dưới, mô hình thường có thể cung cấp một lời giải thích hợp lý bằng cách cung cấp hướng dẫn phân tích rõ ràng cho mô hình, chẳng hạn như hỏi "tại sao câu trả lời này có thể sai".
**(3) Tinh chỉnh mô hình không có hướng dẫn **
Sau khi thu thập một số lượng lớn các cặp câu hỏi-câu trả lời lỗi và phân tích của chúng, nghiên cứu đã sử dụng dữ liệu để tinh chỉnh thêm mô hình. Ngoài những cặp câu hỏi và câu trả lời có lỗi, các cặp câu hỏi-câu trả lời được gắn nhãn con người thông thường cũng được thêm vào dưới dạng dữ liệu đào tạo.
Như thể hiện trong Hình (c) bên dưới, ở bước này, nghiên cứu không đưa ra bất kỳ gợi ý trực tiếp nào về việc liệu các phản hồi có chứa lỗi hay không. Mục đích là để khuyến khích người mẫu suy nghĩ, đánh giá và tự hiểu những gì đã sai.
**(4) Tạo trả lời có hướng dẫn nhanh chóng **
Giai đoạn suy luận sử dụng chiến lược tạo phản ứng dựa trên hướng dẫn, nhắc nhở rõ ràng mô hình tạo ra các phản hồi "chính xác, đạo đức và không gây khó chịu", do đó đảm bảo rằng mô hình tuân thủ các chuẩn mực đạo đức và không bị ảnh hưởng bởi các chuỗi văn bản không chính xác.
Đó là, trong quá trình suy luận, mô hình thực hiện tạo có điều kiện dựa trên hướng dẫn sinh sản phù hợp với giá trị của con người, để tạo ra đầu ra phù hợp.
**
△ "Học hỏi từ những sai lầm" Ví dụ hướng dẫn khung căn chỉnh mô hình ngôn ngữ lớn **
Khung căn chỉnh ở trên không yêu cầu chú thích của con người và sự tham gia của các mô hình bên ngoài (chẳng hạn như mô hình phần thưởng), tạo điều kiện thuận lợi cho việc tạo ra chúng bằng cách phân tích lỗi bằng cách sử dụng khả năng xác định lỗi của chúng.
Bằng cách này, "học hỏi từ những sai lầm" có thể xác định chính xác các rủi ro tiềm ẩn trong hướng dẫn sử dụng và phản hồi với độ chính xác hợp lý:
Kết quả thí nghiệm
Nhóm nghiên cứu đã tiến hành thí nghiệm trên hai kịch bản ứng dụng thực tế để xác minh hiệu quả thực tế của phương pháp mới.
Tình huống 1: Mô hình ngôn ngữ lớn không liên kết
Lấy mô hình Alpaca-7B làm đường cơ sở, bộ dữ liệu Tập dữ liệu PKU-SafeRLHF đã được sử dụng cho các thí nghiệm và phân tích so sánh được thực hiện với nhiều phương pháp căn chỉnh.
Kết quả của thí nghiệm được hiển thị trong bảng dưới đây:
Khi tính hữu ích của mô hình được duy trì, thuật toán căn chỉnh "học hỏi từ lỗi" cải thiện tỷ lệ vượt qua an toàn khoảng 10% so với SFT, COH và RLHF và 21,6% so với mô hình ban đầu.
Đồng thời, nghiên cứu cho thấy các lỗi do chính mô hình tạo ra cho thấy sự liên kết tốt hơn so với các cặp câu hỏi và câu trả lời lỗi từ các nguồn dữ liệu khác.
**
△ Kết quả thử nghiệm của các mô hình ngôn ngữ lớn không liên kết **
** Tình huống 2: Các mô hình được căn chỉnh phải đối mặt với các cuộc tấn công lệnh mới **
Nhóm nghiên cứu tiếp tục khám phá cách củng cố mô hình đã được liên kết để đối phó với các mô hình tấn công hướng dẫn mới nổi.
Tại đây, ChatGLM-6B đã được chọn làm mô hình cơ sở. ChatGLM-6B đã được căn chỉnh an toàn, nhưng nó vẫn có thể tạo ra đầu ra không phù hợp với giá trị của con người khi phải đối mặt với các cuộc tấn công lệnh cụ thể.
Các nhà nghiên cứu đã sử dụng mô hình tấn công "chiếm quyền điều khiển mục tiêu" làm ví dụ và sử dụng 500 mẩu dữ liệu có chứa mẫu tấn công này để tinh chỉnh thí nghiệm. Như thể hiện trong bảng dưới đây, thuật toán liên kết "học hỏi từ những sai lầm" cho thấy khả năng phòng thủ mạnh mẽ khi đối mặt với các cuộc tấn công hướng dẫn mới: ngay cả khi chỉ có một số lượng nhỏ dữ liệu mẫu tấn công mới, mô hình duy trì thành công các khả năng chung và đạt được sự cải thiện 16,9% trong phòng thủ chống lại các cuộc tấn công mới (chiếm quyền điều khiển mục tiêu).
Các thí nghiệm tiếp tục chứng minh rằng khả năng phòng thủ có được thông qua chiến lược "học hỏi từ những sai lầm" không chỉ hiệu quả mà còn có tính khái quát mạnh mẽ, có thể giải quyết một loạt các chủ đề khác nhau trong cùng một chế độ tấn công.
**
△ Các mô hình được căn chỉnh bảo vệ chống lại các loại tấn công mới **
Liên kết giấy: