Bạn có thể sắp xếp khả năng diễn giải mô hình lớn không? Bài đánh giá ở đây, một bài viết để trả lời câu hỏi của bạn

Nguồn hình ảnh: Được tạo bởi AI không giới hạn

Các mô hình ngôn ngữ quy mô lớn thể hiện khả năng suy luận đáng ngạc nhiên trong xử lý ngôn ngữ tự nhiên, nhưng cơ chế cơ bản của chúng vẫn chưa rõ ràng. Với việc áp dụng rộng rãi các mô hình ngôn ngữ quy mô lớn, việc làm sáng tỏ cơ chế vận hành của các mô hình là rất quan trọng đối với tính bảo mật của ứng dụng, các hạn chế về hiệu suất và các tác động xã hội có thể kiểm soát được.

Gần đây, nhiều tổ chức nghiên cứu ở Trung Quốc và Hoa Kỳ (Viện Công nghệ New Jersey, Đại học Johns Hopkins, Đại học Wake Forest, Đại học Georgia, Đại học Shanghai Jiao Tong, Baidu, v.v.) đã cùng đưa ra bản đánh giá về công nghệ diễn giải mô hình lớn, Các kỹ thuật có thể diễn giải của các mô hình tinh chỉnh truyền thống và các mô hình rất lớn dựa trên ing được xem xét toàn diện, đồng thời thảo luận các tiêu chí đánh giá cũng như những thách thức nghiên cứu trong tương lai về diễn giải mô hình.

* Link giấy: *Liên kết Github:

**Những khó khăn trong việc diễn giải các mô hình lớn là gì? **

Tại sao việc giải thích các mô hình lớn lại khó đến vậy? Hiệu suất đáng kinh ngạc của các mô hình ngôn ngữ lớn trong các tác vụ xử lý ngôn ngữ tự nhiên đã thu hút sự chú ý rộng rãi của xã hội. Đồng thời, làm thế nào để giải thích hiệu suất tuyệt vời của các mô hình lớn trong các nhiệm vụ là một trong những thách thức cấp bách mà giới học thuật phải đối mặt. Khác với các mô hình học máy hoặc học sâu truyền thống, kiến trúc mô hình cực lớn và tài liệu học tập khổng lồ cho phép các mô hình lớn có khả năng suy luận và khái quát hóa mạnh mẽ. Một số khó khăn lớn trong việc cung cấp khả năng diễn giải cho các mô hình ngôn ngữ lớn (LLM) bao gồm:

  • Độ phức tạp của mô hình cao. Khác với các mô hình deep learning hay các mô hình machine learning thống kê truyền thống trước kỷ nguyên LLM, các mô hình LLM có quy mô rất lớn và chứa hàng tỷ tham số, quá trình biểu diễn và suy luận bên trong của chúng rất phức tạp và rất khó để giải thích kết quả đầu ra cụ thể của chúng.
  • Sự phụ thuộc dữ liệu mạnh mẽ. LLM dựa vào kho văn bản quy mô lớn trong quá trình đào tạo. Sự thiên vị, sai sót, v.v. trong những dữ liệu đào tạo này có thể ảnh hưởng đến mô hình, nhưng rất khó để đánh giá hoàn toàn tác động của chất lượng dữ liệu đào tạo lên mô hình.
  • Bản chất hộp đen. Chúng ta thường coi LLM là mô hình hộp đen, ngay cả đối với các mô hình nguồn mở, chẳng hạn như Llama-2. Chúng ta khó có thể đánh giá rõ ràng chuỗi suy luận bên trong và quá trình ra quyết định của nó mà chỉ có thể phân tích dựa trên đầu vào và đầu ra, điều này gây khó khăn cho việc diễn giải.
  • Độ không đảm bảo đầu ra. Đầu ra của LLM thường không chắc chắn và có thể tạo ra các đầu ra khác nhau cho cùng một đầu vào, điều này cũng làm tăng độ khó diễn giải.
  • Các chỉ số đánh giá chưa đầy đủ. Các chỉ số đánh giá tự động hiện tại của hệ thống đối thoại chưa đủ để phản ánh đầy đủ khả năng diễn giải của mô hình, cần có thêm các chỉ số đánh giá xem xét đến sự hiểu biết của con người.

Mô hình đào tạo cho mô hình lớn

Để tóm tắt tốt hơn khả năng diễn giải của các mô hình lớn, chúng tôi chia mô hình đào tạo của các mô hình lớn ở cấp độ BERT trở lên thành hai loại: 1) mô hình tinh chỉnh truyền thống; 2) mô hình dựa trên ing.

Mô hình tinh chỉnh truyền thống

Đối với mô hình tinh chỉnh truyền thống, mô hình ngôn ngữ cơ bản trước tiên được đào tạo trước trên thư viện văn bản không gắn nhãn lớn hơn, sau đó được tinh chỉnh thông qua các tập dữ liệu được gắn nhãn từ một miền cụ thể. Các mô hình phổ biến như vậy bao gồm BERT, RoBERTa, ELECTRA, DeBERTa, v.v.

mô hình dựa trên ing

Mô hình dựa trên ing thực hiện việc học không bắn hoặc ít bắn bằng cách sử dụng s. Giống như mô hình tinh chỉnh truyền thống, mô hình cơ bản cần được đào tạo trước. Tuy nhiên, việc tinh chỉnh dựa trên mô hình ing thường được thực hiện bằng cách điều chỉnh hướng dẫn và học tăng cường từ phản hồi của con người (RLHF). Các mô hình phổ biến như vậy bao gồm GPT-3.5, GPT 4, Claude, LLaMA-2-Chat, Alpaca, Vicuna, v.v. Quá trình đào tạo như sau:

Giải thích mô hình dựa trên mô hình tinh chỉnh truyền thống

Giải thích mô hình dựa trên mô hình tinh chỉnh truyền thống bao gồm giải thích các dự đoán riêng lẻ (giải thích cục bộ) và giải thích các thành phần cấp cấu trúc mô hình như nơ-ron, lớp mạng, v.v. (giải thích toàn cầu).

Giải thích một phần

Lời giải thích cục bộ giải thích các dự đoán mẫu đơn. Các phương pháp giải thích của nó bao gồm ghi nhận đặc điểm, giải thích dựa trên sự chú ý, giải thích dựa trên ví dụ và giải thích bằng ngôn ngữ tự nhiên.

1. Phân bổ tính năng nhằm mục đích đo lường mức độ liên quan của từng tính năng đầu vào (ví dụ: từ, cụm từ, phạm vi văn bản) với các dự đoán mô hình. Các phương pháp phân bổ tính năng có thể được phân loại thành:

  • Dựa trên việc giải thích nhiễu loạn, quan sát tác động đến kết quả đầu ra bằng cách sửa đổi các tính năng đầu vào cụ thể;
  • Dựa trên giải thích độ dốc, chênh lệch một phần của đầu ra với đầu vào được sử dụng làm chỉ số quan trọng của đầu vào tương ứng;
  • Các mô hình thay thế, sử dụng các mô hình đơn giản mà con người có thể hiểu được để phù hợp với từng đầu ra của các mô hình phức tạp nhằm đạt được tầm quan trọng của từng đầu vào;
  • Các kỹ thuật dựa trên sự phân rã nhằm mục đích phân tách tuyến tính các điểm tương quan của đặc điểm.
  1. Giải thích dựa trên sự chú ý: Sự chú ý thường được sử dụng như một cách để tập trung vào những phần có liên quan nhất của thông tin đầu vào, do đó, sự chú ý có thể tìm hiểu những thông tin liên quan có thể được sử dụng để giải thích các dự đoán. Những giải thích phổ biến liên quan đến sự chú ý bao gồm:
  • Công nghệ trực quan hóa sự chú ý để quan sát trực quan những thay đổi về điểm chú ý trên các thang đo khác nhau;
  • Giải thích dựa trên chức năng, chẳng hạn như đạo hàm riêng của kết quả đầu ra so với sự chú ý. Tuy nhiên, việc sử dụng sự chú ý như một quan điểm nghiên cứu vẫn còn gây tranh cãi trong cộng đồng học thuật.
  1. Giải thích dựa trên mẫu phát hiện và giải thích mô hình từ góc độ của các trường hợp riêng lẻ, chủ yếu được chia thành: mẫu đối nghịch và mẫu phản thực.
  • Mẫu đối nghịch là dữ liệu được tạo ra dựa trên đặc điểm của mô hình, rất nhạy cảm với những thay đổi nhỏ. Trong xử lý ngôn ngữ tự nhiên, chúng thường thu được bằng cách sửa đổi văn bản. Việc chuyển đổi văn bản mà con người khó phân biệt thường dẫn đến những dự đoán khác nhau của người mẫu.
  • Các mẫu phản thực tế thu được bằng cách làm biến dạng văn bản chẳng hạn như phủ định, đây thường là một thử nghiệm về khả năng suy luận nhân quả của mô hình.
  1. Giải thích ngôn ngữ tự nhiên sử dụng văn bản gốc và các giải thích được gắn nhãn thủ công để đào tạo mô hình, để mô hình có thể tạo ra quá trình ra quyết định của mô hình giải thích ngôn ngữ tự nhiên.

Giải thích toàn cầu

Giải thích toàn cầu nhằm mục đích cung cấp lời giải thích bậc cao hơn về cơ chế hoạt động của một mô hình lớn từ cấp độ mô hình bao gồm tế bào thần kinh, các lớp ẩn và các khối lớn hơn. Nó chủ yếu khám phá kiến thức ngữ nghĩa đã học được trong các thành phần mạng khác nhau.

  • Diễn giải dựa trên đầu dò Công nghệ diễn giải đầu dò chủ yếu dựa trên khả năng phát hiện của bộ phân loại. Bằng cách đào tạo bộ phân loại nông trên mô hình được đào tạo trước hoặc mô hình đã tinh chỉnh, sau đó đánh giá nó trên tập dữ liệu loại trừ, bộ phân loại có thể xác định các đặc điểm ngôn ngữ. hoặc khả năng lý luận.
  • Phân tích kích hoạt nơ-ron truyền thống kích hoạt nơ-ron chỉ xem xét một phần của các nơ-ron quan trọng, sau đó tìm hiểu mối quan hệ giữa các nơ-ron và các đặc điểm ngữ nghĩa. Gần đây, GPT-4 cũng đã được sử dụng để giải thích các nơ-ron, thay vì chọn một số nơ-ron để giải thích, GPT-4 có thể được sử dụng để giải thích tất cả các nơ-ron.
  • Giải thích dựa trên khái niệm ánh xạ đầu vào vào một tập hợp các khái niệm và sau đó giải thích mô hình bằng cách đo lường tầm quan trọng của các khái niệm đối với các dự đoán.

Giải thích mô hình dựa trên mô hình ing

Việc giải thích mô hình dựa trên mô hình ing yêu cầu những giải thích riêng biệt về mô hình cơ bản và mô hình trợ giúp để phân biệt khả năng của hai mô hình và khám phá lộ trình học mô hình. Các vấn đề được khám phá chủ yếu bao gồm: lợi ích của việc đưa ra lời giải thích cho các mô hình về học tập ít lần; hiểu được nguồn gốc của khả năng chuỗi tư duy và học tập ít lần.

Giải thích mô hình cơ bản

  • Lợi ích của việc giải thích đối với việc học theo mô hình Khám phá xem liệu các giải thích có hữu ích cho việc học theo mô hình trong bối cảnh học tập trong một vài lần hay không.
  • Học tập tại chỗ khám phá cơ chế học tập theo tình huống trong các mô hình lớn và phân biệt sự khác biệt giữa học tập theo tình huống trong các mô hình lớn và mô hình trung bình.
  • Chuỗi suy nghĩ Khám phá lý do tại sao chuỗi suy nghĩ lại cải thiện hiệu suất của mô hình.

Giải thích về mô hình trợ lý

  • Các mô hình trợ lý vai trò tinh chỉnh thường được đào tạo trước để có được kiến thức ngữ nghĩa chung, sau đó tiếp thu kiến thức về miền thông qua học tập có giám sát và học tập tăng cường. Giai đoạn mà kiến thức của mô hình trợ lý chủ yếu xuất phát từ những phần còn lại cần được nghiên cứu.
  • Tính chính xác và độ tin cậy của các dự đoán mô hình lớn về ảo giác và sự không chắc chắn vẫn là vấn đề quan trọng trong nghiên cứu hiện nay. Bất chấp khả năng suy luận mạnh mẽ của các mô hình lớn, kết quả của chúng thường có thông tin sai lệch và ảo giác. Sự không chắc chắn trong dự đoán này mang lại những thách thức lớn cho ứng dụng rộng rãi của nó.

Đánh giá các giải thích mô hình

Các chỉ số đánh giá cho việc giải thích mô hình bao gồm tính hợp lý, tính trung thực, tính ổn định, độ tin cậy, v.v.. Bài viết chủ yếu nói về hai khía cạnh được quan tâm rộng rãi: 1) tính hợp lý đối với con người; 2) tính trung thực với logic bên trong của mô hình.

Việc đánh giá các giải thích mô hình tinh chỉnh truyền thống chủ yếu tập trung vào các giải thích cục bộ. Tính hợp lý thường yêu cầu đánh giá đo lường các diễn giải mô hình so với các diễn giải do con người chú thích theo các tiêu chuẩn được thiết kế. Độ trung thực chú ý nhiều hơn đến hiệu suất của các chỉ số định lượng, vì các chỉ số khác nhau tập trung vào các khía cạnh khác nhau của mô hình hoặc dữ liệu nên vẫn thiếu các tiêu chuẩn thống nhất để đo lường độ trung thực. Đánh giá dựa trên việc giải thích mô hình đòi hỏi phải nghiên cứu thêm.

Những thách thức nghiên cứu trong tương lai

**1. Thiếu lời giải thích hiệu quả và chính xác. **Thách thức đến từ hai khía cạnh: 1) thiếu tiêu chuẩn để thiết kế những lời giải thích hiệu quả; 2) thiếu những lời giải thích hiệu quả dẫn đến thiếu sự hỗ trợ cho việc đánh giá các lời giải thích.

**2. Nguồn gốc của hiện tượng xuất hiện vẫn chưa được biết. **Việc khám phá khả năng xuất hiện của các mô hình lớn có thể được thực hiện từ góc độ của mô hình và dữ liệu tương ứng.Từ góc độ của mô hình, 1) cấu trúc mô hình gây ra hiện tượng xuất hiện;2) quy mô mô hình tối thiểu và độ phức tạp có hiệu suất vượt trội trong các tác vụ đa ngôn ngữ. Từ góc độ dữ liệu, 1) tập hợp con dữ liệu xác định một dự đoán cụ thể; 2) mối quan hệ giữa khả năng phát sinh, đào tạo mô hình và ô nhiễm dữ liệu; 3) tác động của chất lượng và số lượng dữ liệu đào tạo lên các tác động tương ứng của dữ liệu trước đào tạo và điều chỉnh.

**3. Sự khác biệt giữa mô hình Tinh chỉnh và mô hình ing. **Sự thể hiện khác nhau của hai yếu tố trong phân phối và ngoài phân phối có nghĩa là những cách lập luận khác nhau. 1) Sự khác biệt trong mô hình lý luận khi dữ liệu được phân phối; 2) Nguồn gốc của sự khác biệt về độ bền của mô hình khi dữ liệu được phân phối khác nhau.

**4. Bài toán học đường tắt cho các mô hình lớn. **Theo hai mô hình, vấn đề học đường tắt của mô hình tồn tại ở các khía cạnh khác nhau. Mặc dù các mô hình lớn có nguồn dữ liệu dồi dào nhưng vấn đề học đường tắt tương đối giảm bớt. Việc làm sáng tỏ cơ chế hình thành học đường tắt và đề xuất giải pháp vẫn có ý nghĩa quan trọng đối với việc khái quát hóa mô hình.

**5. Chú ý dư thừa. **Vấn đề dư thừa của mô-đun chú ý tồn tại rộng rãi trong cả hai mô hình. Nghiên cứu về dư thừa chú ý có thể cung cấp giải pháp cho công nghệ nén mô hình.

**6. An toàn và đạo đức. **Khả năng diễn giải của các mô hình lớn là rất quan trọng để kiểm soát mô hình và hạn chế tác động tiêu cực của mô hình. Chẳng hạn như sự thiên vị, không công bằng, ô nhiễm thông tin, thao túng xã hội và các vấn đề khác. Xây dựng các mô hình AI có thể giải thích được có thể tránh được các vấn đề trên một cách hiệu quả và hình thành các hệ thống trí tuệ nhân tạo có đạo đức.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)