Trong năm qua, mô hình ngôn ngữ lớn (LLM) do ChatGPT và GPT-4 đại diện đã phát triển nhanh chóng, tiếp theo là mô hình mã nguồn mở LLaMa và Llama 2 series của Meta, cũng gây xôn xao trong giới AI. . Nhưng những gì sau đó là tranh cãi liên tục, một số người tin rằng LLM có một số rủi ro không thể kiểm soát, gây ra một số mối đe dọa tiềm ẩn đối với sự tồn tại của con người.
Để giải quyết những thách thức này, việc nghiên cứu về liên kết LLM ngày càng trở nên quan trọng, một số nhà nghiên cứu đã đề xuất hướng dẫn sau (instruction following), tuy nhiên phương pháp này cần rất nhiều chú thích thủ công. Tuy nhiên, việc chú thích các bộ dữ liệu theo hướng dẫn chất lượng cao như vậy rất tốn kém.
Trong bài báo này, các nhà nghiên cứu từ Meta AI đề xuất một phương pháp có thể mở rộng được gọi là dịch ngược hướng dẫn, phương pháp này xây dựng một mô hình ngôn ngữ tuân theo hướng dẫn chất lượng cao bằng cách tự động chú thích các hướng dẫn tương ứng.
Địa chỉ giấy tờ:
Cụ thể, nghiên cứu bắt đầu với một mô hình ngôn ngữ dưới dạng mô hình hạt giống, được tinh chỉnh trên một lượng nhỏ dữ liệu hạt giống cũng như kho dữ liệu web. Vai trò của mô hình hạt giống là xây dựng các mẫu huấn luyện, sau đó một số mẫu chất lượng cao từ những mẫu này sẽ được sàng lọc và sau đó những dữ liệu này được sử dụng để tinh chỉnh một mô hình mạnh mẽ hơn.
Sau hai vòng LLaMa tinh chỉnh bộ dữ liệu lặp đi lặp lại, mô hình Gù lưng thu được vượt trội so với các mô hình không chắt lọc hiện có khác như LIMA, Claude, Guanaco, v.v. trên bảng xếp hạng Alpaca.
Humpback vốn có nghĩa là cá voi lưng gù hay còn gọi là cá voi lưng gù, Meta đặt tên mẫu là Humpback nên không có ý nghĩa sâu xa.
Các nhà nghiên cứu cho biết lý do tại sao nó được gọi là dịch ngược hướng dẫn là vì nó dựa trên phương pháp dịch ngược cổ điển trong dịch máy, trong đó câu đích do con người viết sẽ tự động được chú thích bằng câu nguồn bằng ngôn ngữ khác do mô hình tạo ra. .
Người chiến thắng giải thưởng Turing Yann LeCun đã đưa ra một cái nhìn tổng quan cấp cao về phương pháp của nghiên cứu và ca ngợi công việc của Meta là một đóng góp quan trọng cho nghiên cứu căn chỉnh:
Một số cư dân mạng đã tóm tắt tốt về nghiên cứu này: chất lượng dữ liệu thực sự quan trọng đối với các mô hình lớn. một mô hình hoạt động tốt hơn các mẫu khác.
Bài báo này đề xuất một mô hình tăng cường dữ liệu mới cần được hoàn thành theo hai bước. Đầu tiên, cần phải có một tập hợp các cặp hạt giống (lệnh, đầu ra) và kho văn bản để tạo ra nhiều dữ liệu lệnh tốt hơn.
Hình bên dưới so sánh Humpback với một số mô hình mã nguồn mở và độc quyền.
Bảng 4 bên dưới cho thấy phương pháp của chúng tôi hoạt động tốt nhất trong số các mô hình không chưng cất trên cả thang đo mô hình 65B và 33B.
Hãy cùng xem phương pháp cụ thể dưới đây.
Giới thiệu phương pháp
Nghiên cứu đề xuất một phương pháp tự đào tạo thường giả định quyền truy cập vào một mô hình ngôn ngữ cơ bản, một lượng nhỏ dữ liệu gốc và một bộ mẫu không được gắn nhãn (chẳng hạn như kho dữ liệu web). Dữ liệu chưa được gắn nhãn thường là một tập hợp lớn các tài liệu có hình dạng khác nhau, được viết bởi con người, bao gồm nội dung về các chủ đề khác nhau mà con người quan tâm, nhưng quan trọng nhất là nó không được ghép nối với các hướng dẫn.
Có hai giả định chính ở đây. Giả định đầu tiên là có một số tập hợp con của tập hợp văn bản rất lớn này (tập hợp mẫu chưa được gắn nhãn) phù hợp làm mẫu được tạo cho một số hướng dẫn người dùng. Giả thuyết thứ hai là hướng dẫn của các câu trả lời ứng cử viên này có thể được dự đoán, có thể được sử dụng để tạo thành các cặp mẫu chất lượng cao để huấn luyện các mô hình tuân theo hướng dẫn.
Như thể hiện trong Hình 1 bên dưới, nghiên cứu đề xuất rằng quy trình dịch ngược hướng dẫn bao gồm hai bước cốt lõi:
Tự tăng cường: Tạo hướng dẫn cho dữ liệu chưa được gắn nhãn (tức là kho dữ liệu web) để tạo cặp dữ liệu đào tạo (lệnh-đầu ra) để điều chỉnh hướng dẫn.
Tự quản lý: Độc lập lựa chọn dữ liệu mẫu chất lượng cao làm dữ liệu huấn luyện để tinh chỉnh mô hình cơ sở theo hướng dẫn, phương pháp này được thực hiện lặp đi lặp lại.
Trong số đó, các bước tự quản lý được áp dụng được thể hiện trong Bảng 1 dưới đây:
Thử nghiệm và kết quả
Bộ dữ liệu trong bài báo này chủ yếu bao gồm dữ liệu hạt giống và dữ liệu nâng cao, thông tin cụ thể được thể hiện trong Bảng 2 và Hình 2:
Hình 3 cho thấy dữ liệu tăng cường không có tính năng tự quản lý được sử dụng để đào tạo mô hình không cải thiện hiệu suất theo hướng dẫn mặc dù kích thước dữ liệu tăng lên.
Hình bên dưới so sánh hiệu quả dữ liệu của các bộ dữ liệu điều chỉnh lệnh khác nhau.
Cùng mở rộng dữ liệu và mô hình: Nghiên cứu cho thấy xu hướng mở rộng dữ liệu quan sát được trong mô hình 7B cũng áp dụng cho các mô hình lớn hơn. Ví dụ: thêm dữ liệu gia tăng chất lượng cao vào mô hình hạt giống 65B sẽ mang lại nhiều cải tiến hơn nữa.
Lập luận thông thường: Nghiên cứu đã được thử nghiệm trên năm điểm chuẩn lập luận thông thường, SIQA, PIQA, Arc-Easy, Arc-Challenge và Openbook QA (OBQA), và kết quả được tóm tắt trong Bảng 5. Kết quả cho thấy so với mô hình cơ sở, hiệu suất của mô hình của chúng tôi đã được cải thiện ở một số khía cạnh như lý luận xã hội.
MMLU: Bảng 6 tóm tắt kết quả của các mô hình khác nhau trong MMLU (hiểu ngôn ngữ đa nhiệm lớn). Mô hình tinh chỉnh của chúng tôi cải thiện độ chính xác của lần bắn bằng 0 so với mô hình cơ sở, nhưng hoạt động kém trên ví dụ ngữ cảnh 5 mẫu.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Alpacas tiến hóa thành cá voi, Meta "tự động hóa" căn chỉnh và Lưng gù đánh bại tất cả các mẫu LLaMa hiện có
Biên tập: Xiaozhou, Chen Ping
**Nguồn:**Trái tim của cỗ máy
Trong năm qua, mô hình ngôn ngữ lớn (LLM) do ChatGPT và GPT-4 đại diện đã phát triển nhanh chóng, tiếp theo là mô hình mã nguồn mở LLaMa và Llama 2 series của Meta, cũng gây xôn xao trong giới AI. . Nhưng những gì sau đó là tranh cãi liên tục, một số người tin rằng LLM có một số rủi ro không thể kiểm soát, gây ra một số mối đe dọa tiềm ẩn đối với sự tồn tại của con người.
Để giải quyết những thách thức này, việc nghiên cứu về liên kết LLM ngày càng trở nên quan trọng, một số nhà nghiên cứu đã đề xuất hướng dẫn sau (instruction following), tuy nhiên phương pháp này cần rất nhiều chú thích thủ công. Tuy nhiên, việc chú thích các bộ dữ liệu theo hướng dẫn chất lượng cao như vậy rất tốn kém.
Trong bài báo này, các nhà nghiên cứu từ Meta AI đề xuất một phương pháp có thể mở rộng được gọi là dịch ngược hướng dẫn, phương pháp này xây dựng một mô hình ngôn ngữ tuân theo hướng dẫn chất lượng cao bằng cách tự động chú thích các hướng dẫn tương ứng.
Cụ thể, nghiên cứu bắt đầu với một mô hình ngôn ngữ dưới dạng mô hình hạt giống, được tinh chỉnh trên một lượng nhỏ dữ liệu hạt giống cũng như kho dữ liệu web. Vai trò của mô hình hạt giống là xây dựng các mẫu huấn luyện, sau đó một số mẫu chất lượng cao từ những mẫu này sẽ được sàng lọc và sau đó những dữ liệu này được sử dụng để tinh chỉnh một mô hình mạnh mẽ hơn.
Sau hai vòng LLaMa tinh chỉnh bộ dữ liệu lặp đi lặp lại, mô hình Gù lưng thu được vượt trội so với các mô hình không chắt lọc hiện có khác như LIMA, Claude, Guanaco, v.v. trên bảng xếp hạng Alpaca.
Humpback vốn có nghĩa là cá voi lưng gù hay còn gọi là cá voi lưng gù, Meta đặt tên mẫu là Humpback nên không có ý nghĩa sâu xa.
Người chiến thắng giải thưởng Turing Yann LeCun đã đưa ra một cái nhìn tổng quan cấp cao về phương pháp của nghiên cứu và ca ngợi công việc của Meta là một đóng góp quan trọng cho nghiên cứu căn chỉnh:
Bài báo này đề xuất một mô hình tăng cường dữ liệu mới cần được hoàn thành theo hai bước. Đầu tiên, cần phải có một tập hợp các cặp hạt giống (lệnh, đầu ra) và kho văn bản để tạo ra nhiều dữ liệu lệnh tốt hơn.
Giới thiệu phương pháp
Nghiên cứu đề xuất một phương pháp tự đào tạo thường giả định quyền truy cập vào một mô hình ngôn ngữ cơ bản, một lượng nhỏ dữ liệu gốc và một bộ mẫu không được gắn nhãn (chẳng hạn như kho dữ liệu web). Dữ liệu chưa được gắn nhãn thường là một tập hợp lớn các tài liệu có hình dạng khác nhau, được viết bởi con người, bao gồm nội dung về các chủ đề khác nhau mà con người quan tâm, nhưng quan trọng nhất là nó không được ghép nối với các hướng dẫn.
Có hai giả định chính ở đây. Giả định đầu tiên là có một số tập hợp con của tập hợp văn bản rất lớn này (tập hợp mẫu chưa được gắn nhãn) phù hợp làm mẫu được tạo cho một số hướng dẫn người dùng. Giả thuyết thứ hai là hướng dẫn của các câu trả lời ứng cử viên này có thể được dự đoán, có thể được sử dụng để tạo thành các cặp mẫu chất lượng cao để huấn luyện các mô hình tuân theo hướng dẫn.
Như thể hiện trong Hình 1 bên dưới, nghiên cứu đề xuất rằng quy trình dịch ngược hướng dẫn bao gồm hai bước cốt lõi:
Thử nghiệm và kết quả
Bộ dữ liệu trong bài báo này chủ yếu bao gồm dữ liệu hạt giống và dữ liệu nâng cao, thông tin cụ thể được thể hiện trong Bảng 2 và Hình 2: