Lần đầu tiên đánh bại GPT-4? 70 tỷ thông số Xwin-LM lọt top Stanford Alpaca_, model 13B đánh bại ChatGPT

Question

Nguồn: Xinzhiyuan**Giới thiệu:** Vị trí đầu bảng của GPT-4 tại Stanford Alpaca thực sự đã bị một con ngựa ô cướp mất.Mẫu xe đầu tiên vượt qua GPT-4 trên Alpaca xuất hiện!Vào tháng 6 năm nay, ngay khi danh sách Alpaca được công bố, GPT-4 đã chiếm vị trí dẫn đầu tuyệt đối với tỷ lệ chiến thắng trên 95%.Ba tháng sau, chú ngựa ô tên Xwin-LM thực sự đã kéo GPT-4 vốn đang vững vàng đứng đầu danh sách khỏi TOP 1?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2aa2d5066b-dd1a6f-6d2ef1) địa chỉ dự án:Hơn nữa, Xwin-LM cũng đã giành được ba giải nhất không có ngoại lệ trong cuộc thi với các mẫu xe có cùng thông số:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-af4ec75598-dd1a6f-6d2ef1)> Xwin-LM-70B-V0.1: Tỷ lệ chiến thắng trước Davinci-003 trong benchmark Alpaca đạt 95,57%, đứng đầu Alpaca. Đây cũng là mẫu xe đầu tiên vượt qua GPT-4 trên Alpaca. Hơn nữa, tỷ lệ thắng của nó trước GPT-4 là 60,61.> Xwin-LM-13B-V0.1: Đạt tỷ lệ thắng 91,76% trên Alpaca, đứng đầu trong số tất cả các mẫu 13B.> Xwin-LM-7B-V0.1: Đạt tỷ lệ thắng 87,82% trên Alpaca, đứng đầu trong số tất cả các mẫu 7B.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-36582fbdf2-dd1a6f-6d2ef1)## **Xwin-LM: 70 tỷ thông số đánh bại GPT-4**Xwin-LM được tinh chỉnh dựa trên Llama 2. Mô hình này được thiết kế để phát triển và mở các công nghệ căn chỉnh nguồn cho các mô hình ngôn ngữ lớn, bao gồm tinh chỉnh có giám sát (SFT), mô hình phần thưởng (RM), lấy mẫu từ chối và tăng cường phản hồi của con người học tập (RLHF).đợi đã.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e82e6b8adc-dd1a6f-6d2ef1) **1. Đánh giá hiệu suất**Các nhà nghiên cứu đã đánh giá tỷ lệ chiến thắng của Xwin-LM trước Text-Davinci-003, ChatGPT và GPT-4 trên 805 vấn đề.Có thể thấy, mẫu 70B của Xwin-LM hoàn toàn thống trị danh sách, trở thành mẫu đầu tiên trong đánh giá hiệu quả các chỉ số Alpaca, đồng thời đánh bại GPT-4 lần đầu tiên với tỷ lệ thắng 60,61% trước GPT-4.Các mẫu Xwin-LM có kích thước khác, chẳng hạn như Xwin-LM-13B-V0.1 và Xwin-LM-7B-V0.1, cũng vượt xa các mẫu khác có cùng kích thước về hiệu suất.Xwin-LM-7B-V0.1 thậm chí còn hoạt động tốt hơn Llama 2-13B-Chat lớn hơn.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3244aba5ef-dd1a6f-6d2ef1) **2. So sánh trường hợp**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-062b82b341-dd1a6f-6d2ef1) Trong trường hợp đầu tiên, các nhà nghiên cứu đã hỏi GPT-4 và Xwin-LM:"Tôi đặt một cái đĩa lên trên những quả táo và mang cái đĩa từ bếp ra phòng ăn. Những quả táo bây giờ ở đâu?"Câu trả lời của GPT-4 là:"Quả táo hiện đang ở trong nhà hàng và khi bạn mang đĩa từ bếp đến nhà hàng, nó sẽ ở dưới đĩa."Ở đây GPT-4 đã đưa ra câu trả lời thiếu hiểu biết, ngoài đời có trọng lực, quả táo dưới đĩa vẫn giữ nguyên trạng thái ban đầu và sẽ không mang theo đĩa đi đến nhà hàng.Ngược lại, câu trả lời của Xwin-LM lại phù hợp với thực tế hơn, đồng thời cũng đưa ra cách đưa Apple vào bếp:“Quả táo vẫn còn ở trong bếp vì em vừa dọn đĩa đi.Táo để dưới đĩa nên nếu muốn mang táo đến nhà hàng thì bạn nên chuyển táo trực tiếp hoặc xếp táo lên đĩa rồi mới chuyển đĩa đến nhà hàng. "Trong trường hợp thứ hai, các nhà nghiên cứu đã hỏi GPT-4 và Xwin-LM:"Làm thế nào để bạn nói 'chào buổi tối' bằng tiếng Pháp?"Câu trả lời của GPT-4 là:“Trong tiếng Pháp, 'chào buổi tối' được diễn đạt là 'bonsoir'."Và câu trả lời của Xwin-LM là:“Trong tiếng Pháp, 'chào buổi tối' được dịch là 'bonsoir.' Lời chào này được sử dụng vào buổi tối và ban đêm, thường là sau 6 giờ chiều.Nó là sự kết hợp của 'bon' (có nghĩa là tốt) và 'soir' (có nghĩa là buổi tối). Để phát âm nó, hãy nói 'bone-swahr'".Mặc dù câu trả lời của GPT-4 là đúng nhưng Xwin-LM không chỉ trả lời đúng câu hỏi mà còn giải thích nguồn gốc và cách phát âm của "chào buổi tối" trong cách diễn đạt của người Pháp, cung cấp thông tin phong phú hơn cho người dùng.**3. Nhiệm vụ NLP**Bảng sau so sánh Xwin-LM với các LLM khác về các nhiệm vụ NLP cơ bản.Có thể thấy, hiệu suất của mẫu Xwin-LM-70B-V0.1 tương đối cao trong mọi tác vụ và nó thể hiện đặc biệt tốt ở các tác vụ MMLU 5 phát và HellaSwag 10 phát.Và xét về tổng thể, Xwin-LM-70B-V0.1 là thiết bị có hiệu suất tốt nhất.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0f088c927b-dd1a6f-6d2ef1) **4. Khả năng suy luận**Các nhà nghiên cứu đề xuất rằng để đạt được kết quả mong muốn khi sử dụng Xwin-LM để suy luận, mẫu hội thoại để suy luận cần phải được tuân thủ nghiêm ngặt.Xwin-LM áp dụng định dạng lời nhắc do Vicuna thiết lập và hỗ trợ đối thoại nhiều lượt.Cuộc trò chuyện giữa một người dùng tò mò và trợ lý trí tuệ nhân tạo. Trợ lý đưa ra câu trả lời hữu ích, chi tiết và lịch sự cho các câu hỏi của người dùng. NGƯỜI DÙNG: Xin chào! TRỢ LÝ: Xin chào.s>NGƯỜI DÙNG: Bạn là ai? TRỢ LÝ: Tôi là Xwin-LM.s>......**Ví dụ về ôm mặt***từ máy biến áp nhập AutoTokenizer, AutoModelForCausalLMmodel = AutoModelForCausalLM.from_pretrain("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrain("Xwin-LM/Xwin-LM-7B-V0.1")( := "Một cuộc trò chuyện giữa một người dùng tò mò và một trợ lý trí tuệ nhân tạo. " "Trợ lý đưa ra những câu trả lời hữu ích, chi tiết và lịch sự cho các câu hỏi của người dùng." "NGƯỜI DÙNG: Xin chào, bạn có thể giúp tôi không?" "ASSISTANT:")inputs = tokenizer(, return_tensors ="pt")samples = model.generate(**inputs, max_new_tokens=4096, temp=0.7)output = tokenizer.decode(samples [0] [đầu vào["input_ids"].hình dạng [1] :], Skip_special_tokens=True)print(output) *# Tất nhiên! Tôi ở đây để giúp đỡ. Vui lòng đặt câu hỏi hoặc mô tả vấn đề bạn đang gặp phải và tôi sẽ cố gắng hết sức để hỗ trợ bạn.***Ví dụ VLM**Vì Xwin-LM được tinh chỉnh dựa trên Llama 2 nên nó cũng hỗ trợ sử dụng VLLM để suy luận nhanh.from vllm import LLM, SamplingParams( := "Cuộc trò chuyện giữa một người dùng tò mò và trợ lý trí tuệ nhân tạo. " "Trợ lý đưa ra những câu trả lời hữu ích, chi tiết và lịch sự cho các câu hỏi của người dùng." "NGƯỜI DÙNG: Xin chào, bạn có thể giúp tôi không? " "Trợ lý:")sampling_params = SamplingParams(nhiệt độ=0,7, max_tokens=4096)llm = LLM(model="Xwin-LM/Xwin-LM-7B-V0.1")đầu ra = llm.generate([,], lấy mẫu_params)cho đầu ra trong các kết quả đầu ra: = out. được tạo_text = đầu ra.outputs [0] in .text(generated_text)## **Alpaca: dễ sử dụng, nhanh chóng, chi phí thấp, được xác minh bằng chú thích của con người**Là công cụ đánh giá LLM tự động, Alpaca kết hợp AlpacaFarm và Aviary.Một mặt, nó sử dụng cùng mã với AlpacaFarm (bộ nhớ đệm/hoán vị ngẫu nhiên/siêu tham số), mặt khác nó sử dụng gợi ý sắp xếp tương tự như Aviary.Đồng thời, lời nhắc của Aviary cũng đã được sửa đổi để giảm độ lệch về đầu ra dài hơn.Nhóm nghiên cứu cho biết Alpaca có tác dụng vượt trội:- Tính nhất quán với phiếu bầu của đa số con người, cao hơn so với một người chú thích duy nhất- Tỷ lệ chiến thắng có tương quan cao với chú thích của con người (0,94)![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7163c6fdde-dd1a6f-6d2ef1) **- Tỷ lệ thắng**Đầu ra của mô hình vượt trội hơn text-davinci-003 (tức là văn bản tham chiếu) theo tỷ lệ trên mỗi lệnh.Cụ thể, trước tiên, chúng tôi thu thập các cặp đầu ra của mô hình mong muốn trên mỗi lệnh từ tập dữ liệu Alpaca và ghép từng đầu ra với đầu ra của mô hình tham chiếu (text-davinci-003) trên cùng một lệnh.Sau đó, những kết quả đầu ra này được đưa đến người đánh giá tự động cùng lúc, cho phép nó đánh giá cái nào tốt hơn (nghĩa là sở thích của người đánh giá).Cuối cùng, tùy chọn của tất cả các hướng dẫn trong tập dữ liệu được tính trung bình để đạt được tỷ lệ chiến thắng của mô hình so với text-davinci-003. Nếu hai người mẫu hòa nhau thì được tính là ưu tiên một nửa.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2e0c6c964e-dd1a6f-6d2ef1) Địa chỉ giấy:**- GIỚI HẠN**Mặc dù Alpaca cung cấp một cách hiệu quả để so sánh khả năng làm theo hướng dẫn của người mẫu nhưng đó không phải là tiêu chuẩn vàng để đánh giá toàn diện khả năng của người mẫu.Như chi tiết trong bài báo của AlpacaFarm, tỷ lệ chiến thắng của người chú thích tự động phụ thuộc vào độ dài. Mặc dù chú thích của con người cũng mắc phải sai lệch này nhưng vẫn chưa rõ liệu các câu trả lời dài hơn có làm tăng tiện ích cho các tác vụ tiếp theo hay không.Hơn nữa, bộ đánh giá của AlpacaFarm tuy đa dạng nhưng chủ yếu bao gồm các hướng dẫn đơn giản.Cuối cùng, Alpaca không đánh giá độ an toàn của bất kỳ mẫu xe nào.Người giới thiệu: