Làm thế nào để đánh giá liệu một mô hình ngôn ngữ lớn có đáng tin cậy hay không? Dưới đây là bản tóm tắt của bảy chiều

Question

> Bài viết này đề xuất 7 khía cạnh chính để đánh giá toàn diện độ tin cậy của LLM.Trong triển khai thực tế, làm thế nào để “căn chỉnh” một mô hình ngôn ngữ lớn (LLM, Mô hình ngôn ngữ lớn), tức là làm cho hành vi của mô hình phù hợp với ý định của con người [2,3], đã trở thành một nhiệm vụ then chốt. Ví dụ: OpenAI đã dành sáu tháng để điều chỉnh GPT-4 trước khi nó được phát hành [1] . Tuy nhiên, thách thức mà những người thực hành phải đối mặt là thiếu hướng dẫn rõ ràng để đánh giá liệu đầu ra LLM có tuân thủ các chuẩn mực, giá trị và quy định xã hội hay không; điều này cản trở việc lặp lại và triển khai LLM.Để giải quyết vấn đề này, Liu Yang và các nhà nghiên cứu khác từ nhóm Nghiên cứu ByteDance đã cung cấp một cuộc khảo sát toàn diện về các khía cạnh chính cần được xem xét khi đánh giá độ tin cậy của LLM. Cuộc khảo sát bao gồm 7 hạng mục chính về độ tin cậy của LLM: Độ tin cậy, An toàn, Công bằng, Chống lạm dụng, Khả năng giải thích & Lý trí, Tuân thủ Chuẩn mực xã hội và Tính mạnh mẽ.Mỗi danh mục chính lại được chia nhỏ thành các danh mục phụ, tổng cộng có 29 danh mục phụ. Ngoài ra, nhà nghiên cứu đã lựa chọn 8 hạng mục con để nghiên cứu đánh giá tương ứng. Kết quả đánh giá cho thấy, nhìn chung, các mô hình có độ liên kết cao hơn sẽ hoạt động tốt hơn về độ tin cậy tổng thể. Tuy nhiên, hiệu quả của việc liên kết thể hiện khác nhau ở các khía cạnh khác nhau. Điều này minh họa sự cần thiết phải phân tích, thử nghiệm và cải thiện sự liên kết LLM chi tiết hơn. Bài viết này nhằm mục đích cung cấp cho những người thực hành trong lĩnh vực này những hiểu biết và hướng dẫn có giá trị bằng cách tóm tắt các khía cạnh chính của LLM đáng tin cậy, điều rất quan trọng để hiểu cách triển khai LLM một cách đáng tin cậy và hợp lý trong các ứng dụng khác nhau.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-84c47740dd-dd1a6f-69ad2a) Địa chỉ giấy:## **Phân loại căn chỉnh mô hình ngôn ngữ lớn**Hình 1 cho thấy phân loại liên kết độ tin cậy của mô hình ngôn ngữ lớn được đề xuất trong bài viết này: có 7 danh mục chính, mỗi danh mục lại được chia nhỏ thành các cuộc thảo luận chi tiết hơn, tổng cộng có 29 danh mục phụ. Bài viết tiếp tục với phần tổng quan về từng danh mục:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-95a5489852-dd1a6f-69ad2a) *Hình 1: Phân loại căn chỉnh độ tin cậy của mô hình ngôn ngữ lớn được đề xuất trong văn bản. *1. Độ tin cậy => {thông tin sai lệch, ảo tưởng mô hình ngôn ngữ, mâu thuẫn, tính sai, xu nịnh}* a. Tạo đầu ra chính xác, thực tế và nhất quán với độ không đảm bảo phù hợp.2. An toàn => {bạo lực, bất hợp pháp, gây thương tích cho trẻ vị thành niên, nội dung người lớn, vấn đề sức khỏe tâm thần, xâm phạm quyền riêng tư}* a. Tránh tạo ra sản phẩm không an toàn và bất hợp pháp, đồng thời tránh tiết lộ thông tin cá nhân.3. Công bằng => {bất công, thiên vị khuôn mẫu, thiên vị ưu tiên, khác biệt về hiệu suất}* a. Tránh thiên vị và đảm bảo rằng sự khác biệt về hiệu suất giữa các nhóm người khác nhau là không đáng kể.4. Chống lại sự lạm dụng => {Tuyên truyền, tấn công mạng, kỹ thuật xã hội, rò rỉ bản quyền}* a. Nghiêm cấm những kẻ tấn công có ác tâm lạm dụng.5. Khả năng giải thích và lý luận => {Khả năng giải thích không đủ, khả năng logic không đủ, khả năng nhân quả không đủ}* a. Khả năng giải thích đầu ra cho người dùng và lý luận một cách chính xác.6. Chuẩn mực xã hội => {Ngôn ngữ độc ác, vô cảm về mặt cảm xúc, vô cảm về văn hóa}* a. Phản ánh những giá trị chung của con người.7. Mạnh mẽ => {Tấn công nhanh chóng, thay đổi mô hình và phân phối, hiệu ứng can thiệp, tấn công đầu độc}* a. Chống lại các cuộc tấn công của đối thủ và những thay đổi về phân phối.Phân tích của bài viết này dựa trên những thách thức về bảo mật và triển khai đáng tin cậy nảy sinh trong kỷ nguyên của các mô hình lớn, đồng thời xem xét cuộc thảo luận về trí tuệ nhân tạo đáng tin cậy trong tài liệu hiện có. Đồng thời, việc định nghĩa và phân chia các loại chính đề cập đến việc áp dụng các mô hình lớn trong xã hội và cố gắng đảm bảo rằng mỗi chiều đánh giá đều có mức độ liên quan và tầm quan trọng nhất định trong các ứng dụng mô hình lớn chính thống. Tài liệu và thảo luận cụ thể trong từng danh mục và các danh mục con của nó được cung cấp trong bài viết.Đối với mỗi tiểu mục, bài viết tiến hành nghiên cứu và thảo luận có liên quan, đồng thời cung cấp các nghiên cứu điển hình để minh họa các vấn đề của các mô hình liên quan ở các khía cạnh độ tin cậy liên quan. Ví dụ: ví dụ sau cho thấy một số lỗi do ChatGPT mắc phải đối với các câu hỏi thực tế:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4e65b763d8-dd1a6f-69ad2a) Sử dụng ví dụ sau, bài viết này thảo luận về thông tin bất hợp pháp có thể tồn tại trong đầu ra mô hình lớn:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aa52a42ee6-dd1a6f-69ad2a)## **Nghiên cứu đánh giá**Bài viết này lựa chọn 8 tiểu mục và thiết kế các nghiên cứu đánh giá tương ứng. Các danh mục phụ mục tiêu bao gồm:* Độ tin cậy: Ảo ảnh mô hình ngôn ngữ* Các chuẩn mực về an toàn và xã hội: các chủ đề liên quan đến an toàn (như bạo lực, phân biệt đối xử, lời nói căm thù, v.v.)* Công bằng: (Giới) Định kiến* Độ tin cậy: Lỗi hiệu chuẩn* Chống lạm dụng: lạm dụng tuyên truyền và tấn công mạng* Chống lạm dụng: rò rỉ bản quyền* Tính giải nghĩa: lý luận nhân quả* Robustness: Mạnh mẽ trước các cuộc tấn công sai chính tảBài viết lấy “chuẩn mực an ninh và xã hội” làm ví dụ, đầu tiên bắt đầu từ bộ dữ liệu đội đỏ Anthropic RLHF hiện có [4] Trích xuất một số từ khóa liên quan đến bảo mật (xem bài viết gốc để biết chi tiết), sau đó sử dụng LLM khác để tạo các từ hướng dẫn () cho các hướng dẫn không an toàn làm câu hỏi kiểm tra.Với mục đích này, bài viết chọn text-davinci-003 làm mô hình vì: (1) Đây là mô hình được căn chỉnh, nhưng không được căn chỉnh nhiều về khía cạnh bảo mật như ChatGPT, nên sẽ tốt hơn trong việc tạo ra các câu trả lời gây tranh cãi và phản cảm;(2 ) Các mô hình hoàn toàn sai lệch (chẳng hạn như davinci) không thể hiểu rõ nhiệm vụ và làm theo hướng dẫn của con người.Cụ thể, nhà nghiên cứu đã hỏi text-davinci-003: "Viết câu hỏi liên quan đến ." Chọn từ "phi đạo đức", "nguy hiểm", "bất hợp pháp" hoặc "nóng tính". là những từ khóa được trích xuất trước đó. Ví dụ:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cc539d566e-dd1a6f-69ad2a) Bài viết này sử dụng các câu hỏi do text-davinci-003 tạo ra làm câu hỏi kiểm tra.Cuối cùng, bài viết sử dụng GPT-4 để xác định xem mô hình thử nghiệm có từ chối phản hồi các câu hỏi không an toàn hay không, như sau:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e5a0939d6d-dd1a6f-69ad2a) Các nhà nghiên cứu đã đánh giá 6 LLM: davinci, OPT-1.3B, text-davinci-003, flan-t5-xxl, gpt-3.5-turbo (ChatGPT) và GPT-4. Hình 2 cho thấy tỷ lệ của từng LLM trong bộ thử nghiệm được GPT-4 coi là câu trả lời an toàn. Từ trái sang phải trên trục x, phạm vi từ không được căn chỉnh hoàn toàn (davinci) đến một trong những LLM được căn chỉnh hoàn hảo nhất hiện có (GPT-4) được hiển thị.Xu hướng đúng như mong đợi: khi LLM được căn chỉnh nhiều hơn, nó có nhiều khả năng từ chối trả lời các hướng dẫn không an toàn hơn. Gpt-3.5-turbo (ChatGPT) và GPT-4 có tỷ lệ bảo mật gần như 100%.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c7c925173b-dd1a6f-69ad2a) *Hình 2: Kết quả đánh giá bảo mật LLM. Đúng như mong đợi, khi LLM được căn chỉnh tốt hơn, nó có nhiều khả năng từ chối câu trả lời cho các câu hỏi không an toàn. *Về phương pháp đánh giá, chi tiết và kết quả của các chiều khác, vui lòng tham khảo bài viết gốc.## **Trợ giúp căn chỉnh**Những dữ liệu đánh giá được tạo ra này cũng có thể hỗ trợ việc thu thập dữ liệu phù hợp.Lấy bảo mật làm ví dụ, để tạo dữ liệu đào tạo phù hợp, các câu trả lời được chú thích bằng LLM sẽ được sử dụng trực tiếp. Nếu GPT-4 xác định rằng đầu ra của mô hình chứa thông tin có hại thì các nhà nghiên cứu sẽ coi đầu ra đó được ghép nối với câu hỏi và đóng vai trò là mẫu âm tính trong tập dữ liệu đã căn chỉnh. Mặt khác, nếu không phát hiện được thông tin có hại, nhà nghiên cứu coi cặp vấn đề-đầu ra là một mẫu dương tính.Sau khi các nhà nghiên cứu căn chỉnh dữ liệu được tạo ra, họ sử dụng GPT-4 để so sánh kết quả đầu ra trước và sau khi căn chỉnh, cho phép họ xác định câu trả lời nào tốt hơn về tính hữu ích, tính trung thực và vô hại.Bảng 1 cho thấy trên GPT-2, sau khi các nhà nghiên cứu hoàn thành RLHF (Học tăng cường từ phản hồi của con người, học tăng cường dựa trên phản hồi của con người), tỷ lệ trong bộ dữ liệu thử nghiệm được GPT-4 cho là tốt hơn. So với mô hình ban đầu, mô hình căn chỉnh đã được cải thiện rất nhiều.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c93483490c-dd1a6f-69ad2a) *Bảng 1: Sau khi căn chỉnh dữ liệu do nhà nghiên cứu tạo ra trên * *GPT-2* *, tỷ lệ đầu ra được GPT-4 coi là tốt hơn. So với mô hình ban đầu (Vanilla), mô hình sau SFT và PPO đã được cải tiến rất nhiều. *Bài viết cũng sử dụng dữ liệu đánh giá được tạo ra để tiến hành Tinh chỉnh có giám sát trên LLaMA-7B và nhận thấy rằng 78% đầu ra sau khi tinh chỉnh được coi là tốt hơn trước khi tinh chỉnh.## **Tóm lại là**Bài viết này cung cấp cho những người thực hành một bản khảo sát về khía cạnh độ tin cậy của LLM, đồng thời phân tích toàn diện các phương hướng, vấn đề cần xem xét, chú ý trong quá trình xây dựng một mô hình lớn đáng tin cậy. Kết quả đánh giá của bài viết cho thấy hiệu quả của việc liên kết không nhất quán ở các khía cạnh khác nhau, vì vậy những người thực hành nên tiến hành thử nghiệm chi tiết hơn và cải thiện việc liên kết LLM. Đồng thời, nghiên cứu trong bài viết này cho thấy dữ liệu tạo ra từ quá trình đánh giá cũng có thể giúp hoàn thành nhiệm vụ căn chỉnh của các mô hình lớn.Những người thực hành rất cần những cách tiếp cận mang tính nguyên tắc hơn để đánh giá và thực hiện sự liên kết LLM, đảm bảo rằng các mô hình này tuân thủ các giá trị xã hội và các cân nhắc về đạo đức. Khi lĩnh vực này tiến bộ, việc giải quyết những vấn đề chưa được giải quyết này sẽ rất quan trọng để xây dựng LLM ngày càng đáng tin cậy và có trách nhiệm.Cảm ơn Li Hang vì những gợi ý và giúp đỡ trong việc sửa đổi bài viết này.*người giới thiệu** [1] OpenAI. Gpt-4. 2023** [2] Long Ouyang, Jeffrey Wu,* *Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, và những người khác. Đào tạo các mô hình ngôn ngữ để làm theo hướng dẫn với phản hồi của con người. Những tiến bộ trong thần kinh* *Xử lý thông tin s, 35:27730–27744, 2022** [3] Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik và Geoffrey Irving. Sự sắp xếp của các tác nhân ngôn ngữ. bản in trước arXiv arXiv:2103.14659, 2021.** [4] *