Kể từ khi ChatGPT ra đời, đã có một cuộc "chạy đua vũ trang" cho các mô hình lớn trên toàn thế giới. Theo báo cáo, từ tháng 1 đến tháng 7 năm nay, tổng cộng 64 mẫu xe lớn đã được phát hành tại Trung Quốc. Tính đến tháng 7/2023, tổng cộng 130 mẫu xe lớn đã được phát hành tại Trung Quốc.
"Chiến tranh trăm mẫu" chưa đủ để miêu tả "tình hình chiến tranh" thiêu đốt hiện nay, vậy mô hình lớn nào tốt hơn? Điều này không thể tách rời việc đánh giá các mô hình lớn.
Tuy nhiên, ở giai đoạn này, chưa có phương pháp đánh giá được công nhận và hiệu quả, dẫn đến "cuộc chiến danh sách" trong lĩnh vực đánh giá mô hình lớn trong và ngoài nước. Thống kê không đầy đủ, hiện có không dưới 50 công cụ đánh giá (hệ thống) trên thị trường và kết quả của các danh sách tương tự có thể rất khác nhau. Sự nghi ngờ của công chúng về "điểm đánh răng" là vô tận.
** Ngành công nghiệp thường tin rằng có hai tiêu chí biểu hiện để đánh giá một mô hình lớn: một là số lượng tham số và hai là bộ đánh giá. **
Cái gọi là đại lượng tham số đề cập đến số lượng tham số có thể học được trong mô hình, bao gồm cả trọng lượng và độ lệch của mô hình. Kích thước của số lượng tham số xác định độ phức tạp của mô hình, và nhiều tham số hơn và số lớp là các đặc điểm nổi bật để phân biệt các mô hình lớn với các mô hình nhỏ. Trong năm 2022, một loạt các mô hình lớn tại Hoa Kỳ sẽ được trình làng, từ Stability AI phát hành Diffusion, một mô hình tổng hợp từ văn bản đến hình ảnh, đến ChatGPT do OpenAI ra mắt, quy mô các thông số mô hình bắt đầu bước vào kỷ nguyên hàng chục tỷ và hàng trăm tỷ.
**Từ các chỉ số bề mặt, các mô hình có hàng trăm tỷ thông số thường hoạt động tốt hơn hàng chục tỷ thông số. Tuy nhiên, điều này không phải là tuyệt đối và các tham số đống không nhất thiết phải cải thiện khả năng. Vì vậy, làm thế nào một mô hình có cùng mức tham số nên phân biệt giữa tốt và xấu? Điều này đòi hỏi phải giới thiệu thứ nguyên đánh giá thứ hai của mô hình lớn - bộ đánh giá.
Bộ đánh giá là một bộ dữ liệu điểm chuẩn thống nhất một nhiệm vụ hoặc đa tác vụ được xây dựng để đánh giá hiệu quả hiệu quả toàn diện của mô hình cơ bản và thuật toán tinh chỉnh của nó trong các kịch bản khác nhau và các nhiệm vụ khác nhau, và có hai dạng: mở và đóng.
**Các bộ đánh giá này giống như đề thi cho các lĩnh vực khác nhau và bằng cách kiểm tra điểm số của các mô hình lớn trong các "đề thi" này, mọi người có thể so sánh hiệu suất của các mô hình lớn một cách trực quan hơn. **
Trong thời đại của các mô hình nhỏ, hầu hết các tổ chức kiểu mẫu sẽ sử dụng hiệu ứng của các bộ đánh giá học thuật làm cơ sở để đánh giá chất lượng của các mô hình. Giờ đây, các nhà sản xuất mô hình lớn cũng đã bắt đầu tham gia tích cực hơn vào khung điểm chuẩn học thuật, xem nó như một sự chứng thực và cơ sở tiếp thị có thẩm quyền.
Có rất nhiều bộ đánh giá mô hình lớn trên thị trường, chẳng hạn như MMLU, mô hình đánh giá C-, SuperCLUE của Trung Quốc, v.v.
**-1- Công cụ đánh giá **
MMLU
Massive Multitask Language Understanding, một bài đánh giá hiểu ngôn ngữ cho các mô hình lớn, là một trong những bài đánh giá hiểu ngữ nghĩa nổi tiếng nhất cho các mô hình lớn, được các nhà nghiên cứu tại Đại học UC Berkeley đưa ra vào tháng 9 năm 2020. **Bài kiểm tra bao gồm 57 nhiệm vụ, bao gồm toán tiểu học, lịch sử Hoa Kỳ, khoa học máy tính, luật, v.v. ** Nhiệm vụ bao gồm một loạt các kiến thức và bằng tiếng Anh để đánh giá phạm vi kiến thức cơ bản và hiểu của mô hình lớn.
Địa chỉ giấy:
Trang web chinh thưc:
Bảng xếp hạng Big Model:
C-
C- là một bộ đánh giá mô hình cơ sở toàn diện của Trung Quốc. Được đồng ra mắt bởi các nhà nghiên cứu từ Đại học Giao thông Thượng Hải, Đại học Thanh Hoa và Đại học Edinburgh vào tháng 5/2023, nó chứa 13.948 câu hỏi trắc nghiệm ** bao gồm 52 ngành khác nhau và bốn mức độ khó ** để đo lường mức độ hiểu của các mô hình lớn của Trung Quốc.
Địa chỉ giấy:
Địa chỉ dự án:
Trang web chinh thưc:
SuperCLUE
Điểm chuẩn đánh giá toàn diện của Trung Quốc về các mô hình lớn nói chung, khả năng của các mô hình được đánh giá từ ba khía cạnh khác nhau: khả năng cơ bản, khả năng chuyên môn và khả năng đặc trưng của Trung Quốc.
Trong số đó, các khả năng cơ bản bao gồm: ** Hiểu ngữ nghĩa, đối thoại, lý luận logic, mô phỏng vai trò, mã, tạo và sáng tạo và 10 khả năng khác. **
Năng lực chuyên môn bao gồm: Bao gồm các kỳ thi trung học, đại học và chuyên nghiệp, bao gồm hơn 50 năng lực từ toán học, vật lý, địa lý đến khoa học xã hội.
Khả năng đặc trưng của Trung Quốc: Đối với các nhiệm vụ có đặc điểm Trung Quốc, nó bao gồm hơn 10 khả năng như thành ngữ Trung Quốc, thơ, văn học và glyph.
Địa chỉ dự án:
Trang web chinh thưc:
**Danh sách SuperCLUE Langya **
Điểm chuẩn đánh giá chiến đấu ẩn danh mô hình lớn phổ quát của Trung Quốc, giống như ChatbotArena, crowdsourcing các sản phẩm mô hình lớn khác nhau để đánh giá đối đầu ẩn danh và ngẫu nhiên, kết quả dựa trên hệ thống xếp hạng Elo.
Địa chỉ dự án:
Lyb
Đấu trường chatbot
ChatbotArena là một nền tảng chuẩn cho Mô hình ngôn ngữ lớn (LLM) của LMSYS Org, một tổ chức nghiên cứu được thành lập bởi UC Berkeley, UC San Diego và Đại học Carnegie Mellon.
** Nền tảng điểm chuẩn LLM cho các trận đấu ngẫu nhiên ẩn danh trên cơ sở nguồn lực cộng đồng. ** Vào nền tảng chiến đấu thông qua địa chỉ trải nghiệm demo. Nhập câu hỏi bạn quan tâm, sau khi gửi câu hỏi, mô hình ẩn danh sẽ chơi theo cặp để tạo ra các câu trả lời phù hợp tương ứng, yêu cầu người dùng đánh giá câu trả lời và chọn một trong 4 phương án đánh giá: mô hình A tốt hơn, mô hình B tốt hơn, hòa và tất cả đều kém. Hỗ trợ nhiều vòng trò chuyện. Cuối cùng, hệ thống tính điểm Elo được sử dụng để đánh giá toàn diện khả năng của các mô hình lớn. (Bạn có thể tự chỉ định mô hình để xem hiệu ứng, nhưng nó sẽ không được tính vào bảng xếp hạng cuối cùng).
Địa chỉ dự án:
Trang web chinh thưc:
Cờ
Flag là một nền tảng đánh giá mô hình quy mô lớn sử dụng khung đánh giá ba chiều "capability-task-index" ** để cung cấp kết quả đánh giá toàn diện và chi tiết. Nền tảng đã cung cấp hơn 30 khả năng, 5 nhiệm vụ và 4 loại chỉ số, tổng cộng hơn 600 khía cạnh đánh giá toàn diện, bao gồm 22 bộ dữ liệu đánh giá chủ quan và khách quan và 84433 câu hỏi.
Giai đoạn đầu tiên của Flag đã đưa ra một hệ thống đánh giá mô hình ngôn ngữ lớn, một công cụ đánh giá mô hình lớn văn bản và đồ họa đa ngôn ngữ mã nguồn mở mCLIP- và một công cụ đánh giá tạo văn bản và hình ảnh mã nguồn mở Hình ảnh. Libra cũng sẽ tiếp tục khám phá nghiên cứu chéo về đánh giá mô hình ngôn ngữ và tâm lý học, giáo dục, đạo đức và các ngành xã hội khác, để đánh giá mô hình ngôn ngữ một cách khoa học và toàn diện hơn. Nhằm vào các nhà phát triển và người dùng mô hình lớn, Flag được thiết kế để giúp các nhóm phát triển hiểu được điểm yếu của mô hình của họ và thúc đẩy đổi mới công nghệ.
Địa chỉ dự án:
Trang web chinh thưc:
OpenCompass
Vào tháng 8/2023, Phòng thí nghiệm trí tuệ nhân tạo Thượng Hải (Shanghai AI Lab) đã chính thức ra mắt hệ thống đánh giá mở mô hình lớn OpenCompass, hỗ trợ đánh giá một cửa các mô hình khác nhau của các mô hình ngôn ngữ lớn và mô hình đa phương thức thông qua khung đánh giá tái tạo nguồn mở hoàn chỉnh** và thường xuyên công bố danh sách kết quả đánh giá.
Trang web chinh thưc:
Địa chỉ dự án:
JioNLP
Để kiểm tra hiệu quả trợ giúp và khả năng phụ trợ của mô hình LLM đối với người dùng, liệu nó có thể đạt đến trình độ của một "trợ lý thông minh" hay không, các câu hỏi trắc nghiệm được lấy từ các kỳ thi chuyên môn khác nhau ở Trung Quốc đại lục, tập trung vào phạm vi bao phủ kiến thức khách quan của mô hình, chiếm 32%; Các câu hỏi chủ quan đến từ các bản tóm tắt hàng ngày và chủ yếu kiểm tra ảnh hưởng của người dùng đối với các chức năng phổ biến của LLM.
Địa chỉ dự án:
Đo lường bộ dữ liệu
** Đánh giá mô hình lớn bảo mật Thanh Hoa **
Một bộ sưu tập các đánh giá do Thanh Hoa thu thập bao gồm tám loại, bao gồm ngôn từ kích động thù địch, lời nói thiên vị và phân biệt đối xử, tội phạm và luật pháp, quyền riêng tư, đạo đức và đạo đức, bao gồm hơn 40 danh mục bảo mật cấp hai được chia thành các loại chi tiết **.
Địa chỉ:
LLM-3
Được ra mắt bởi Phòng thí nghiệm NLP của Đại học Phúc Đán, nó tập trung vào kiến thức chuyên môn và đánh giá khả năng, bao gồm 13 ngành học và hơn 50 ngành cấp hai do Bộ Giáo dục chỉ định, chẳng hạn như triết học, kinh tế, luật, giáo dục, văn học, lịch sử, khoa học, kỹ thuật, nông nghiệp, y học, khoa học quân sự, quản lý, nghệ thuật, v.v., với tổng số câu hỏi và câu trả lời tổng hợp tiêu chuẩn khoảng 20W. **Để ngăn chặn sự xuất hiện của hiện tượng đánh giá thứ hạng, đánh giá LLM-3 áp dụng một chế độ đánh giá mới, cụ thể là chế độ "kiểm tra ngân hàng câu hỏi" **.
Địa chỉ:
GAOKAO-Băng ghế dự bị
GAOKAO-bench là một khung đánh giá sử dụng các câu hỏi thi tuyển sinh đại học của Trung Quốc làm bộ dữ liệu để đánh giá khả năng hiểu ngôn ngữ và khả năng suy luận logic của các mô hình lớn.
Địa chỉ dự án:
Gấu trúc
Nó trực tiếp đào tạo một mô hình tính điểm tự động và chấm điểm hai mô hình ứng cử viên trên hệ thống ba điểm 0.1.2.
Địa chỉ dự án:
BĂNG LỚN
Một bộ sưu tập các bài đánh giá được xuất bản bởi Google, BIG-bench bao gồm 204 nhiệm vụ về các chủ đề như ngôn ngữ học, phát triển trẻ em, toán học, lý luận thông thường, vật lý sinh học, thiên vị xã hội, phát triển phần mềm và hơn thế nữa.
Địa chỉ dự án:
MMCU
Viện nghiên cứu AI Oracle Yi đề xuất một bài kiểm tra để đo lường độ chính xác của các mô hình lớn của Trung Quốc trong việc xử lý đa nhiệm và nội dung thử nghiệm của bộ dữ liệu bao gồm bốn lĩnh vực chính: điều trị y tế, luật, tâm lý học và giáo dục. **Số lượng câu hỏi đạt 10.000+, bao gồm 2819 câu hỏi trong lĩnh vực y học, 3695 câu hỏi trong lĩnh vực luật, 2001 câu hỏi trong lĩnh vực tâm lý học và 3331 câu hỏi trong lĩnh vực giáo dục.
Địa chỉ dự án:
HÀNH ĐỘNG
Điểm chuẩn đánh giá năng lực cơ bản Big Model của Microsoft, ra mắt vào tháng 4/2023, chủ yếu đo lường khả năng chung của các mô hình lớn trong nhận thức và giải quyết vấn đề của con người, bao gồm 20 kỳ thi tuyển sinh và chứng chỉ chính thức, công khai và tiêu chuẩn cao cho các ứng cử viên bình thường trên toàn thế giới, bao gồm dữ liệu bằng tiếng Trung và tiếng Anh. Do đó, bài kiểm tra nghiêng nhiều hơn về kết quả kiểm tra của con người, bao gồm cả tiếng Trung và tiếng Anh.
Địa chỉ giấy:
GSM8K
Mô hình lớn của OpenAI, Điểm chuẩn đánh giá năng lực lý luận toán học, bao gồm 8.500 bộ dữ liệu vấn đề toán học chất lượng cao ở cấp trung học cơ sở. Tập dữ liệu lớn hơn tập dữ liệu vấn đề văn bản toán học trước đó, ngôn ngữ đa dạng hơn và các câu hỏi khó hơn. Bài kiểm tra được phát hành vào tháng 10/2021 và vẫn là một điểm chuẩn kiểm tra rất khó.
Địa chỉ giấy:
HELM
Phương pháp đánh giá HELM chủ yếu bao gồm ba mô-đun: cảnh, thích ứng và chỉ báo ** và mỗi lần chạy đánh giá cần chỉ định một cảnh, lời nhắc cho mô hình thích ứng và một hoặc nhiều chỉ số. Nó chủ yếu bao gồm tiếng Anh, với 7 chỉ số, bao gồm độ chính xác, độ không chắc chắn / hiệu chuẩn, độ chắc chắn, công bằng, thiên vị, độc tính và hiệu quả suy luận; Các tác vụ bao gồm Hỏi &Đáp, truy xuất thông tin, tóm tắt, phân loại văn bản và hơn thế nữa.
Địa chỉ giấy:
Địa chỉ dự án:
Tiếng Trung-LLalA-Alpaca
Nó được ghi điểm như một giá trị tương đối, với GPT4 được ưu tiên và ChatGPT3 một phần.
Địa chỉ dự án:
MT-băng ghế
Đánh giá khả năng đối thoại và hướng dẫn nhiều lượt của các mô hình lớn. Bộ dữ liệu bao gồm 80 câu hỏi đối thoại nhiều vòng, chất lượng cao (8 câu hỏi), mỗi câu hỏi được trả lời bởi 6 mô hình lớn nổi tiếng (GPT-4, GPT-3.5, Claud-v1, Vicuna-13B, Alpaca-13B và LLaMA-13B), được sắp xếp thủ công để có được cặp 3,3K.
Địa chỉ giấy:
Giám khảo LLM-as-a-judge với MT-Bench và Chatbot Arena
Github
Địa chỉ dự án:
/cây/main/fastchat/llm_judge
Địa chỉ tải dữ liệu:
**-2- Chế độ đánh giá **
Thông qua các công cụ đánh giá trên, người ta thấy rằng các chế độ đánh giá mô hình lớn phổ biến hiện nay có thể được tóm tắt đại khái thành bốn loại:
**1. Chấm điểm các câu hỏi. ** Chủ yếu thu thập một loạt các tập dữ liệu đánh giá, và sau đó chia các tập dữ liệu thành các khả năng chiều khác nhau. Bằng cách thiết kế một số nhiệm vụ cho phép các mô hình lớn thực hiện các tập dữ liệu này, điểm số được tính dựa trên các câu trả lời tiêu chuẩn. Ví dụ điển hình là OpenCompass, bảng xếp hạng openLLM của hugface, v.v.
**2. Hãy để GPT-4 làm thẩm phán. Thu thập các bộ dữ liệu để đánh giá (một số bộ dữ liệu không phải là nguồn mở và không có câu trả lời tiêu chuẩn cũng sẽ được đưa vào), sau đó để GPT-4 đánh giá kết quả của việc tạo mô hình lớn. Có hai cách để chấm điểm quá trình đánh giá này, một là chấm điểm trực tiếp và cách khác là thiết kế một số khía cạnh, chẳng hạn như sự thật, độ chính xác, tuân thủ bảo mật, v.v., sau đó đánh giá chúng ở mức chi tiết hơn.
**3. Chế độ đấu trường. ** Tương tự như một đấu trường trong một trò chơi cạnh tranh. Mỗi khi hai người chơi mô hình lớn PK, người dùng (đôi khi GPT-4) để đánh giá mô hình nào tốt hơn, mô hình lớn chiến thắng có thêm điểm và mô hình lớn thua có một điểm trừ. Khi thực hiện đủ các vòng PK sẽ có bảng xếp hạng điểm số của các mô hình lớn, tương đối công bằng và có thể phản ánh khách quan sức mạnh của mô hình. Một ví dụ điển hình là Bảng xếp hạng Chatbot Arena của UC Berkeley.
**4. Đánh giá năng lực cá nhân. Ví dụ, đối với khả năng toán học, khả năng mã hóa, khả năng lập luận, v.v., việc đánh giá các khả năng này không chỉ có thể xác định xem một mô hình lớn có thực sự có khả năng tư duy giống con người hay không, mà còn trực tiếp giúp chọn các mô hình lớn (như trợ lý mã) trong các lĩnh vực cụ thể.
-3- Kết quả đánh giá "rất khác nhau"
Có rất nhiều công cụ đánh giá khác nhau, và kết quả đánh giá của các công cụ đánh giá khác nhau cũng "rất khác nhau".
Vào ngày 15 tháng 8, báo cáo trải nghiệm mô hình lớn trí tuệ nhân tạo của một tổ chức đã được phát hành, trong đó tiến hành đánh giá theo chiều ngang về trải nghiệm sử dụng của các mô hình lớn chính thống trong nước. Danh sách đánh giá 8 mô hình AI chính thống ở Trung Quốc với 500 câu hỏi, và cuối cùng Xunfei Xinghuo xếp thứ nhất, Baidu Wenxin đứng thứ hai và Ali Tongyi Qianwen đứng thứ hai từ dưới lên.
Vào tháng Chín, trong số mới nhất của danh sách đánh giá nguồn mở phổ biến C - số mới nhất của danh sách, mô hình lớn "Yuntianshu" của Yuntian Lifei đứng đầu, trong khi GPT-4 chỉ xếp thứ mười.
Cùng tháng đó, SuperCLUE đã công bố danh sách các mẫu xe lớn vào tháng 9. GPT-4 đứng đầu trong danh sách tổng thể, trong khi SenseChat 3.0 của SenseTime đứng đầu danh sách của Trung Quốc.
Ngày 19/10, Đại học Stanford đã công bố Chỉ số minh bạch mô hình cơ bản năm 2023, trong đó xếp hạng 10 mô hình cơ bản chính thống về tính minh bạch, với Llama 2 xếp thứ nhất và GPT-4 xếp thứ ba.
Tại sao kết quả của các công cụ đánh giá khác nhau rất khác nhau? Những lý do chính như sau:
**1.Mỗi bộ đánh giá học thuật phổ biến có trọng tâm riêng. **Ví dụ: GSM8K và MMLU, được Meta sử dụng phổ biến nhất, là bộ kiểm tra cho các cấp độ khác nhau - trước đây là toán tiểu học, sau này là câu hỏi và câu trả lời đa ngành nâng cao hơn. Giống như học sinh trong một lớp làm bài kiểm tra trong các môn học khác nhau, các mô hình lớn tự nhiên xếp hạng khác nhau trong các danh sách khác nhau.
**2.Tỷ lệ câu hỏi chủ quan trong đánh giá mô hình lớn tăng lên. **Trong danh sách đánh giá hiện nay của các mô hình lớn trong và ngoài nước, ý tưởng kết hợp các câu hỏi chủ quan và câu hỏi khách quan thường được ngành công nhận. Nhưng thách thức của các câu hỏi chủ quan là liệu các tiêu chí đánh giá trong tâm trí của mọi người có nhất quán hay không. Và "đánh giá nhóm người" chắc chắn chạm trần số lượng câu hỏi, và đối với đánh giá mô hình lớn, số lượng câu hỏi càng lớn, kết luận càng hiệu quả.
**3. Cạnh tranh theo chiều dọc giữa các mô hình chuyên dụng và các mô hình lớn có mục đích chung dẫn đến thứ hạng bị bóp méo. **Trong kịch bản hạ cánh thực tế, khách hàng doanh nghiệp trong các ngành sản xuất, chăm sóc sức khỏe, tài chính và các ngành công nghiệp khác cần thực hiện tinh chỉnh thứ cấp theo cơ sở dữ liệu của riêng họ khi truy cập các khả năng mô hình lớn. Điều này cũng có nghĩa là kết quả thu được từ sự tham gia trực tiếp của mô hình lớn chung ban đầu trong Hỏi & Đáp trường dọc không thể đại diện cho hiệu suất thực của sản phẩm mô hình lớn trong trường dọc.
**4. Hiện tượng "chải danh sách" do bộ test mã nguồn mở gây ra. ** Nhiều mô hình lớn mới có thể vượt qua GPT-4 trong danh sách bộ thử nghiệm nguồn mở, một phần vì nghi ngờ "đánh dấu các vấn đề". Ví dụ, C- hiện tại chỉ có câu hỏi được tiết lộ nhưng câu trả lời không được tiết lộ, và các nhà sản xuất mô hình lớn tham gia thử nghiệm hoặc tìm một người chú thích dữ liệu để làm lại câu hỏi, hoặc sử dụng GPT-4 để làm lại câu hỏi, sau đó trừ đáp án để đào tạo mô hình lớn, để họ có thể đạt điểm đầy đủ trong bài kiểm tra môn học tương ứng.
Các bộ đánh giá nguồn đóng có thể tránh được việc "chải danh sách" không? Mặt khác, nếu bộ đánh giá nguồn đóng không được cập nhật, các mô hình tham gia có thể kéo lịch sử lịch sử từ nền tảng để "gian lận" và làm lại các câu hỏi đã kiểm tra. Điều này tương đương với "nguồn đóng sai".
**Để giải quyết các vấn đề trên, ngành cũng đang tìm hiểu các giải pháp tương ứng. **
Ví dụ, đối với độ khó của các tiêu chí đánh giá nhất quán cho các câu hỏi chủ quan trong đánh giá mô hình lớn và vấn đề "điểm đội người" chạm trần số lượng câu hỏi, ngành đã bắt đầu áp dụng mô hình "chấm điểm con người + GPT4". Tại Trung Quốc, SuperCLUE sẽ chọn coi GPT4 là "giáo viên chấm điểm" và để nó tham gia vào đội ngũ con người để hỗ trợ chấm điểm.
Một ví dụ khác là vấn đề "đánh giá danh sách", những người trong ngành cho rằng "nên đóng bộ đánh giá để tránh bị lừa, nhưng đánh giá mô hình lớn tốt nên là đánh giá mở về quy trình, thuận tiện cho mọi người giám sát việc đánh giá". "
Một số người cũng cho rằng việc công khai quy trình đánh giá mô hình lớn là tầm nhìn tốt, nhưng xét về tính công bằng, khách quan của việc đánh giá thì vẫn nên có một số lượng lớn các bộ đánh giá khép kín, và việc "kiểm tra sổ kín" có thể đánh giá thực sự khả năng của mô hình.
Ngoài ra, có những đánh giá mô hình lớn về điểm số bằng chứng bàn chải, chẳng hạn như LLM-3 do Phòng thí nghiệm NLP của Đại học Fudan đưa ra, áp dụng chế độ đánh giá mới, đó là chế độ "kiểm tra ngân hàng câu hỏi". Trong LLM-3, mỗi hệ thống tham gia cần hoàn thành một mẫu ngẫu nhiên gồm 1.000 câu hỏi từ tổng ngân hàng câu hỏi, theo mô hình của cùng một tổ chức, để đảm bảo rằng mỗi câu hỏi đánh giá không bị trùng lặp. Quá trình đánh giá sẽ được tiến hành trực tuyến và việc gửi câu hỏi trong một vòng đánh giá sẽ được thực hiện tuần tự, nghĩa là việc gửi câu hỏi tiếp theo sẽ phụ thuộc vào câu trả lời cho câu hỏi trước đó để tránh thu thập dữ liệu độc hại.
Vì các mô hình lớn liên quan đến một loạt các lĩnh vực và ứng dụng, các chỉ số và phương pháp đánh giá mà các mô hình lớn trong các lĩnh vực và ứng dụng khác nhau cần chú ý là khác nhau. Do đó, các tổ chức và tổ chức khác nhau có thể đề xuất các tiêu chí và phương pháp đánh giá khác nhau cho các lĩnh vực và nhu cầu ứng dụng cụ thể. "Mặc dù không có tiêu chuẩn thống nhất, tầm quan trọng của việc đánh giá là cung cấp một cách để đánh giá và so sánh hiệu suất và hiệu quả của các mô hình lớn khác nhau, và giúp người dùng chọn mô hình lớn phù hợp với nhu cầu của họ."
Làm thế nào để đánh giá thực sự toàn diện và toàn diện các mô hình lớn cũng bị "nhầm lẫn" đi đầu trong giới học thuật và công nghiệp. Mặc dù vậy, các tổ chức có thẩm quyền nên tăng cường nghiên cứu, hình thành sự đồng thuận càng sớm càng tốt và thúc đẩy tiến bộ công nghệ và phát triển ngành.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Các mô hình lớn mới tuyên bố sẽ vượt qua GPT-4 ở mọi lượt và chúng tôi đã tập hợp các công cụ đánh giá này
Nguồn: AI Pioneer Officer
Kể từ khi ChatGPT ra đời, đã có một cuộc "chạy đua vũ trang" cho các mô hình lớn trên toàn thế giới. Theo báo cáo, từ tháng 1 đến tháng 7 năm nay, tổng cộng 64 mẫu xe lớn đã được phát hành tại Trung Quốc. Tính đến tháng 7/2023, tổng cộng 130 mẫu xe lớn đã được phát hành tại Trung Quốc.
"Chiến tranh trăm mẫu" chưa đủ để miêu tả "tình hình chiến tranh" thiêu đốt hiện nay, vậy mô hình lớn nào tốt hơn? Điều này không thể tách rời việc đánh giá các mô hình lớn.
Tuy nhiên, ở giai đoạn này, chưa có phương pháp đánh giá được công nhận và hiệu quả, dẫn đến "cuộc chiến danh sách" trong lĩnh vực đánh giá mô hình lớn trong và ngoài nước. Thống kê không đầy đủ, hiện có không dưới 50 công cụ đánh giá (hệ thống) trên thị trường và kết quả của các danh sách tương tự có thể rất khác nhau. Sự nghi ngờ của công chúng về "điểm đánh răng" là vô tận.
** Ngành công nghiệp thường tin rằng có hai tiêu chí biểu hiện để đánh giá một mô hình lớn: một là số lượng tham số và hai là bộ đánh giá. **
Cái gọi là đại lượng tham số đề cập đến số lượng tham số có thể học được trong mô hình, bao gồm cả trọng lượng và độ lệch của mô hình. Kích thước của số lượng tham số xác định độ phức tạp của mô hình, và nhiều tham số hơn và số lớp là các đặc điểm nổi bật để phân biệt các mô hình lớn với các mô hình nhỏ. Trong năm 2022, một loạt các mô hình lớn tại Hoa Kỳ sẽ được trình làng, từ Stability AI phát hành Diffusion, một mô hình tổng hợp từ văn bản đến hình ảnh, đến ChatGPT do OpenAI ra mắt, quy mô các thông số mô hình bắt đầu bước vào kỷ nguyên hàng chục tỷ và hàng trăm tỷ.
**Từ các chỉ số bề mặt, các mô hình có hàng trăm tỷ thông số thường hoạt động tốt hơn hàng chục tỷ thông số. Tuy nhiên, điều này không phải là tuyệt đối và các tham số đống không nhất thiết phải cải thiện khả năng. Vì vậy, làm thế nào một mô hình có cùng mức tham số nên phân biệt giữa tốt và xấu? Điều này đòi hỏi phải giới thiệu thứ nguyên đánh giá thứ hai của mô hình lớn - bộ đánh giá.
Bộ đánh giá là một bộ dữ liệu điểm chuẩn thống nhất một nhiệm vụ hoặc đa tác vụ được xây dựng để đánh giá hiệu quả hiệu quả toàn diện của mô hình cơ bản và thuật toán tinh chỉnh của nó trong các kịch bản khác nhau và các nhiệm vụ khác nhau, và có hai dạng: mở và đóng.
**Các bộ đánh giá này giống như đề thi cho các lĩnh vực khác nhau và bằng cách kiểm tra điểm số của các mô hình lớn trong các "đề thi" này, mọi người có thể so sánh hiệu suất của các mô hình lớn một cách trực quan hơn. **
Trong thời đại của các mô hình nhỏ, hầu hết các tổ chức kiểu mẫu sẽ sử dụng hiệu ứng của các bộ đánh giá học thuật làm cơ sở để đánh giá chất lượng của các mô hình. Giờ đây, các nhà sản xuất mô hình lớn cũng đã bắt đầu tham gia tích cực hơn vào khung điểm chuẩn học thuật, xem nó như một sự chứng thực và cơ sở tiếp thị có thẩm quyền.
Có rất nhiều bộ đánh giá mô hình lớn trên thị trường, chẳng hạn như MMLU, mô hình đánh giá C-, SuperCLUE của Trung Quốc, v.v.
**-1- Công cụ đánh giá **
MMLU
Massive Multitask Language Understanding, một bài đánh giá hiểu ngôn ngữ cho các mô hình lớn, là một trong những bài đánh giá hiểu ngữ nghĩa nổi tiếng nhất cho các mô hình lớn, được các nhà nghiên cứu tại Đại học UC Berkeley đưa ra vào tháng 9 năm 2020. **Bài kiểm tra bao gồm 57 nhiệm vụ, bao gồm toán tiểu học, lịch sử Hoa Kỳ, khoa học máy tính, luật, v.v. ** Nhiệm vụ bao gồm một loạt các kiến thức và bằng tiếng Anh để đánh giá phạm vi kiến thức cơ bản và hiểu của mô hình lớn.
Địa chỉ giấy:
Trang web chinh thưc:
Bảng xếp hạng Big Model:
C-
C- là một bộ đánh giá mô hình cơ sở toàn diện của Trung Quốc. Được đồng ra mắt bởi các nhà nghiên cứu từ Đại học Giao thông Thượng Hải, Đại học Thanh Hoa và Đại học Edinburgh vào tháng 5/2023, nó chứa 13.948 câu hỏi trắc nghiệm ** bao gồm 52 ngành khác nhau và bốn mức độ khó ** để đo lường mức độ hiểu của các mô hình lớn của Trung Quốc.
Địa chỉ giấy:
Địa chỉ dự án:
Trang web chinh thưc:
SuperCLUE
Điểm chuẩn đánh giá toàn diện của Trung Quốc về các mô hình lớn nói chung, khả năng của các mô hình được đánh giá từ ba khía cạnh khác nhau: khả năng cơ bản, khả năng chuyên môn và khả năng đặc trưng của Trung Quốc.
Trong số đó, các khả năng cơ bản bao gồm: ** Hiểu ngữ nghĩa, đối thoại, lý luận logic, mô phỏng vai trò, mã, tạo và sáng tạo và 10 khả năng khác. **
Năng lực chuyên môn bao gồm: Bao gồm các kỳ thi trung học, đại học và chuyên nghiệp, bao gồm hơn 50 năng lực từ toán học, vật lý, địa lý đến khoa học xã hội.
Khả năng đặc trưng của Trung Quốc: Đối với các nhiệm vụ có đặc điểm Trung Quốc, nó bao gồm hơn 10 khả năng như thành ngữ Trung Quốc, thơ, văn học và glyph.
Địa chỉ dự án:
Trang web chinh thưc:
**Danh sách SuperCLUE Langya **
Điểm chuẩn đánh giá chiến đấu ẩn danh mô hình lớn phổ quát của Trung Quốc, giống như ChatbotArena, crowdsourcing các sản phẩm mô hình lớn khác nhau để đánh giá đối đầu ẩn danh và ngẫu nhiên, kết quả dựa trên hệ thống xếp hạng Elo.
Địa chỉ dự án:
Lyb
Đấu trường chatbot
ChatbotArena là một nền tảng chuẩn cho Mô hình ngôn ngữ lớn (LLM) của LMSYS Org, một tổ chức nghiên cứu được thành lập bởi UC Berkeley, UC San Diego và Đại học Carnegie Mellon.
** Nền tảng điểm chuẩn LLM cho các trận đấu ngẫu nhiên ẩn danh trên cơ sở nguồn lực cộng đồng. ** Vào nền tảng chiến đấu thông qua địa chỉ trải nghiệm demo. Nhập câu hỏi bạn quan tâm, sau khi gửi câu hỏi, mô hình ẩn danh sẽ chơi theo cặp để tạo ra các câu trả lời phù hợp tương ứng, yêu cầu người dùng đánh giá câu trả lời và chọn một trong 4 phương án đánh giá: mô hình A tốt hơn, mô hình B tốt hơn, hòa và tất cả đều kém. Hỗ trợ nhiều vòng trò chuyện. Cuối cùng, hệ thống tính điểm Elo được sử dụng để đánh giá toàn diện khả năng của các mô hình lớn. (Bạn có thể tự chỉ định mô hình để xem hiệu ứng, nhưng nó sẽ không được tính vào bảng xếp hạng cuối cùng).
Địa chỉ dự án:
Trang web chinh thưc:
Cờ
Flag là một nền tảng đánh giá mô hình quy mô lớn sử dụng khung đánh giá ba chiều "capability-task-index" ** để cung cấp kết quả đánh giá toàn diện và chi tiết. Nền tảng đã cung cấp hơn 30 khả năng, 5 nhiệm vụ và 4 loại chỉ số, tổng cộng hơn 600 khía cạnh đánh giá toàn diện, bao gồm 22 bộ dữ liệu đánh giá chủ quan và khách quan và 84433 câu hỏi.
Giai đoạn đầu tiên của Flag đã đưa ra một hệ thống đánh giá mô hình ngôn ngữ lớn, một công cụ đánh giá mô hình lớn văn bản và đồ họa đa ngôn ngữ mã nguồn mở mCLIP- và một công cụ đánh giá tạo văn bản và hình ảnh mã nguồn mở Hình ảnh. Libra cũng sẽ tiếp tục khám phá nghiên cứu chéo về đánh giá mô hình ngôn ngữ và tâm lý học, giáo dục, đạo đức và các ngành xã hội khác, để đánh giá mô hình ngôn ngữ một cách khoa học và toàn diện hơn. Nhằm vào các nhà phát triển và người dùng mô hình lớn, Flag được thiết kế để giúp các nhóm phát triển hiểu được điểm yếu của mô hình của họ và thúc đẩy đổi mới công nghệ.
Địa chỉ dự án:
Trang web chinh thưc:
OpenCompass
Vào tháng 8/2023, Phòng thí nghiệm trí tuệ nhân tạo Thượng Hải (Shanghai AI Lab) đã chính thức ra mắt hệ thống đánh giá mở mô hình lớn OpenCompass, hỗ trợ đánh giá một cửa các mô hình khác nhau của các mô hình ngôn ngữ lớn và mô hình đa phương thức thông qua khung đánh giá tái tạo nguồn mở hoàn chỉnh** và thường xuyên công bố danh sách kết quả đánh giá.
Trang web chinh thưc:
Địa chỉ dự án:
JioNLP
Để kiểm tra hiệu quả trợ giúp và khả năng phụ trợ của mô hình LLM đối với người dùng, liệu nó có thể đạt đến trình độ của một "trợ lý thông minh" hay không, các câu hỏi trắc nghiệm được lấy từ các kỳ thi chuyên môn khác nhau ở Trung Quốc đại lục, tập trung vào phạm vi bao phủ kiến thức khách quan của mô hình, chiếm 32%; Các câu hỏi chủ quan đến từ các bản tóm tắt hàng ngày và chủ yếu kiểm tra ảnh hưởng của người dùng đối với các chức năng phổ biến của LLM.
Địa chỉ dự án:
Đo lường bộ dữ liệu
** Đánh giá mô hình lớn bảo mật Thanh Hoa **
Một bộ sưu tập các đánh giá do Thanh Hoa thu thập bao gồm tám loại, bao gồm ngôn từ kích động thù địch, lời nói thiên vị và phân biệt đối xử, tội phạm và luật pháp, quyền riêng tư, đạo đức và đạo đức, bao gồm hơn 40 danh mục bảo mật cấp hai được chia thành các loại chi tiết **.
Địa chỉ:
LLM-3
Được ra mắt bởi Phòng thí nghiệm NLP của Đại học Phúc Đán, nó tập trung vào kiến thức chuyên môn và đánh giá khả năng, bao gồm 13 ngành học và hơn 50 ngành cấp hai do Bộ Giáo dục chỉ định, chẳng hạn như triết học, kinh tế, luật, giáo dục, văn học, lịch sử, khoa học, kỹ thuật, nông nghiệp, y học, khoa học quân sự, quản lý, nghệ thuật, v.v., với tổng số câu hỏi và câu trả lời tổng hợp tiêu chuẩn khoảng 20W. **Để ngăn chặn sự xuất hiện của hiện tượng đánh giá thứ hạng, đánh giá LLM-3 áp dụng một chế độ đánh giá mới, cụ thể là chế độ "kiểm tra ngân hàng câu hỏi" **.
Địa chỉ:
GAOKAO-Băng ghế dự bị
GAOKAO-bench là một khung đánh giá sử dụng các câu hỏi thi tuyển sinh đại học của Trung Quốc làm bộ dữ liệu để đánh giá khả năng hiểu ngôn ngữ và khả năng suy luận logic của các mô hình lớn.
Địa chỉ dự án:
Gấu trúc
Nó trực tiếp đào tạo một mô hình tính điểm tự động và chấm điểm hai mô hình ứng cử viên trên hệ thống ba điểm 0.1.2.
Địa chỉ dự án:
BĂNG LỚN
Một bộ sưu tập các bài đánh giá được xuất bản bởi Google, BIG-bench bao gồm 204 nhiệm vụ về các chủ đề như ngôn ngữ học, phát triển trẻ em, toán học, lý luận thông thường, vật lý sinh học, thiên vị xã hội, phát triển phần mềm và hơn thế nữa.
Địa chỉ dự án:
MMCU
Viện nghiên cứu AI Oracle Yi đề xuất một bài kiểm tra để đo lường độ chính xác của các mô hình lớn của Trung Quốc trong việc xử lý đa nhiệm và nội dung thử nghiệm của bộ dữ liệu bao gồm bốn lĩnh vực chính: điều trị y tế, luật, tâm lý học và giáo dục. **Số lượng câu hỏi đạt 10.000+, bao gồm 2819 câu hỏi trong lĩnh vực y học, 3695 câu hỏi trong lĩnh vực luật, 2001 câu hỏi trong lĩnh vực tâm lý học và 3331 câu hỏi trong lĩnh vực giáo dục.
Địa chỉ dự án:
HÀNH ĐỘNG
Điểm chuẩn đánh giá năng lực cơ bản Big Model của Microsoft, ra mắt vào tháng 4/2023, chủ yếu đo lường khả năng chung của các mô hình lớn trong nhận thức và giải quyết vấn đề của con người, bao gồm 20 kỳ thi tuyển sinh và chứng chỉ chính thức, công khai và tiêu chuẩn cao cho các ứng cử viên bình thường trên toàn thế giới, bao gồm dữ liệu bằng tiếng Trung và tiếng Anh. Do đó, bài kiểm tra nghiêng nhiều hơn về kết quả kiểm tra của con người, bao gồm cả tiếng Trung và tiếng Anh.
Địa chỉ giấy:
GSM8K
Mô hình lớn của OpenAI, Điểm chuẩn đánh giá năng lực lý luận toán học, bao gồm 8.500 bộ dữ liệu vấn đề toán học chất lượng cao ở cấp trung học cơ sở. Tập dữ liệu lớn hơn tập dữ liệu vấn đề văn bản toán học trước đó, ngôn ngữ đa dạng hơn và các câu hỏi khó hơn. Bài kiểm tra được phát hành vào tháng 10/2021 và vẫn là một điểm chuẩn kiểm tra rất khó.
Địa chỉ giấy:
HELM
Phương pháp đánh giá HELM chủ yếu bao gồm ba mô-đun: cảnh, thích ứng và chỉ báo ** và mỗi lần chạy đánh giá cần chỉ định một cảnh, lời nhắc cho mô hình thích ứng và một hoặc nhiều chỉ số. Nó chủ yếu bao gồm tiếng Anh, với 7 chỉ số, bao gồm độ chính xác, độ không chắc chắn / hiệu chuẩn, độ chắc chắn, công bằng, thiên vị, độc tính và hiệu quả suy luận; Các tác vụ bao gồm Hỏi &Đáp, truy xuất thông tin, tóm tắt, phân loại văn bản và hơn thế nữa.
Địa chỉ giấy:
Địa chỉ dự án:
Tiếng Trung-LLalA-Alpaca
Nó được ghi điểm như một giá trị tương đối, với GPT4 được ưu tiên và ChatGPT3 một phần.
Địa chỉ dự án:
MT-băng ghế
Đánh giá khả năng đối thoại và hướng dẫn nhiều lượt của các mô hình lớn. Bộ dữ liệu bao gồm 80 câu hỏi đối thoại nhiều vòng, chất lượng cao (8 câu hỏi), mỗi câu hỏi được trả lời bởi 6 mô hình lớn nổi tiếng (GPT-4, GPT-3.5, Claud-v1, Vicuna-13B, Alpaca-13B và LLaMA-13B), được sắp xếp thủ công để có được cặp 3,3K.
Địa chỉ giấy:
Giám khảo LLM-as-a-judge với MT-Bench và Chatbot Arena
Github
Địa chỉ dự án:
/cây/main/fastchat/llm_judge
Địa chỉ tải dữ liệu:
**-2- Chế độ đánh giá **
Thông qua các công cụ đánh giá trên, người ta thấy rằng các chế độ đánh giá mô hình lớn phổ biến hiện nay có thể được tóm tắt đại khái thành bốn loại:
**1. Chấm điểm các câu hỏi. ** Chủ yếu thu thập một loạt các tập dữ liệu đánh giá, và sau đó chia các tập dữ liệu thành các khả năng chiều khác nhau. Bằng cách thiết kế một số nhiệm vụ cho phép các mô hình lớn thực hiện các tập dữ liệu này, điểm số được tính dựa trên các câu trả lời tiêu chuẩn. Ví dụ điển hình là OpenCompass, bảng xếp hạng openLLM của hugface, v.v.
**2. Hãy để GPT-4 làm thẩm phán. Thu thập các bộ dữ liệu để đánh giá (một số bộ dữ liệu không phải là nguồn mở và không có câu trả lời tiêu chuẩn cũng sẽ được đưa vào), sau đó để GPT-4 đánh giá kết quả của việc tạo mô hình lớn. Có hai cách để chấm điểm quá trình đánh giá này, một là chấm điểm trực tiếp và cách khác là thiết kế một số khía cạnh, chẳng hạn như sự thật, độ chính xác, tuân thủ bảo mật, v.v., sau đó đánh giá chúng ở mức chi tiết hơn.
**3. Chế độ đấu trường. ** Tương tự như một đấu trường trong một trò chơi cạnh tranh. Mỗi khi hai người chơi mô hình lớn PK, người dùng (đôi khi GPT-4) để đánh giá mô hình nào tốt hơn, mô hình lớn chiến thắng có thêm điểm và mô hình lớn thua có một điểm trừ. Khi thực hiện đủ các vòng PK sẽ có bảng xếp hạng điểm số của các mô hình lớn, tương đối công bằng và có thể phản ánh khách quan sức mạnh của mô hình. Một ví dụ điển hình là Bảng xếp hạng Chatbot Arena của UC Berkeley.
**4. Đánh giá năng lực cá nhân. Ví dụ, đối với khả năng toán học, khả năng mã hóa, khả năng lập luận, v.v., việc đánh giá các khả năng này không chỉ có thể xác định xem một mô hình lớn có thực sự có khả năng tư duy giống con người hay không, mà còn trực tiếp giúp chọn các mô hình lớn (như trợ lý mã) trong các lĩnh vực cụ thể.
-3- Kết quả đánh giá "rất khác nhau"
Có rất nhiều công cụ đánh giá khác nhau, và kết quả đánh giá của các công cụ đánh giá khác nhau cũng "rất khác nhau".
Vào ngày 15 tháng 8, báo cáo trải nghiệm mô hình lớn trí tuệ nhân tạo của một tổ chức đã được phát hành, trong đó tiến hành đánh giá theo chiều ngang về trải nghiệm sử dụng của các mô hình lớn chính thống trong nước. Danh sách đánh giá 8 mô hình AI chính thống ở Trung Quốc với 500 câu hỏi, và cuối cùng Xunfei Xinghuo xếp thứ nhất, Baidu Wenxin đứng thứ hai và Ali Tongyi Qianwen đứng thứ hai từ dưới lên.
Vào tháng Chín, trong số mới nhất của danh sách đánh giá nguồn mở phổ biến C - số mới nhất của danh sách, mô hình lớn "Yuntianshu" của Yuntian Lifei đứng đầu, trong khi GPT-4 chỉ xếp thứ mười.
Cùng tháng đó, SuperCLUE đã công bố danh sách các mẫu xe lớn vào tháng 9. GPT-4 đứng đầu trong danh sách tổng thể, trong khi SenseChat 3.0 của SenseTime đứng đầu danh sách của Trung Quốc.
Ngày 19/10, Đại học Stanford đã công bố Chỉ số minh bạch mô hình cơ bản năm 2023, trong đó xếp hạng 10 mô hình cơ bản chính thống về tính minh bạch, với Llama 2 xếp thứ nhất và GPT-4 xếp thứ ba.
Tại sao kết quả của các công cụ đánh giá khác nhau rất khác nhau? Những lý do chính như sau:
**1.Mỗi bộ đánh giá học thuật phổ biến có trọng tâm riêng. **Ví dụ: GSM8K và MMLU, được Meta sử dụng phổ biến nhất, là bộ kiểm tra cho các cấp độ khác nhau - trước đây là toán tiểu học, sau này là câu hỏi và câu trả lời đa ngành nâng cao hơn. Giống như học sinh trong một lớp làm bài kiểm tra trong các môn học khác nhau, các mô hình lớn tự nhiên xếp hạng khác nhau trong các danh sách khác nhau.
**2.Tỷ lệ câu hỏi chủ quan trong đánh giá mô hình lớn tăng lên. **Trong danh sách đánh giá hiện nay của các mô hình lớn trong và ngoài nước, ý tưởng kết hợp các câu hỏi chủ quan và câu hỏi khách quan thường được ngành công nhận. Nhưng thách thức của các câu hỏi chủ quan là liệu các tiêu chí đánh giá trong tâm trí của mọi người có nhất quán hay không. Và "đánh giá nhóm người" chắc chắn chạm trần số lượng câu hỏi, và đối với đánh giá mô hình lớn, số lượng câu hỏi càng lớn, kết luận càng hiệu quả.
**3. Cạnh tranh theo chiều dọc giữa các mô hình chuyên dụng và các mô hình lớn có mục đích chung dẫn đến thứ hạng bị bóp méo. **Trong kịch bản hạ cánh thực tế, khách hàng doanh nghiệp trong các ngành sản xuất, chăm sóc sức khỏe, tài chính và các ngành công nghiệp khác cần thực hiện tinh chỉnh thứ cấp theo cơ sở dữ liệu của riêng họ khi truy cập các khả năng mô hình lớn. Điều này cũng có nghĩa là kết quả thu được từ sự tham gia trực tiếp của mô hình lớn chung ban đầu trong Hỏi & Đáp trường dọc không thể đại diện cho hiệu suất thực của sản phẩm mô hình lớn trong trường dọc.
**4. Hiện tượng "chải danh sách" do bộ test mã nguồn mở gây ra. ** Nhiều mô hình lớn mới có thể vượt qua GPT-4 trong danh sách bộ thử nghiệm nguồn mở, một phần vì nghi ngờ "đánh dấu các vấn đề". Ví dụ, C- hiện tại chỉ có câu hỏi được tiết lộ nhưng câu trả lời không được tiết lộ, và các nhà sản xuất mô hình lớn tham gia thử nghiệm hoặc tìm một người chú thích dữ liệu để làm lại câu hỏi, hoặc sử dụng GPT-4 để làm lại câu hỏi, sau đó trừ đáp án để đào tạo mô hình lớn, để họ có thể đạt điểm đầy đủ trong bài kiểm tra môn học tương ứng.
Các bộ đánh giá nguồn đóng có thể tránh được việc "chải danh sách" không? Mặt khác, nếu bộ đánh giá nguồn đóng không được cập nhật, các mô hình tham gia có thể kéo lịch sử lịch sử từ nền tảng để "gian lận" và làm lại các câu hỏi đã kiểm tra. Điều này tương đương với "nguồn đóng sai".
**Để giải quyết các vấn đề trên, ngành cũng đang tìm hiểu các giải pháp tương ứng. **
Ví dụ, đối với độ khó của các tiêu chí đánh giá nhất quán cho các câu hỏi chủ quan trong đánh giá mô hình lớn và vấn đề "điểm đội người" chạm trần số lượng câu hỏi, ngành đã bắt đầu áp dụng mô hình "chấm điểm con người + GPT4". Tại Trung Quốc, SuperCLUE sẽ chọn coi GPT4 là "giáo viên chấm điểm" và để nó tham gia vào đội ngũ con người để hỗ trợ chấm điểm.
Một ví dụ khác là vấn đề "đánh giá danh sách", những người trong ngành cho rằng "nên đóng bộ đánh giá để tránh bị lừa, nhưng đánh giá mô hình lớn tốt nên là đánh giá mở về quy trình, thuận tiện cho mọi người giám sát việc đánh giá". "
Một số người cũng cho rằng việc công khai quy trình đánh giá mô hình lớn là tầm nhìn tốt, nhưng xét về tính công bằng, khách quan của việc đánh giá thì vẫn nên có một số lượng lớn các bộ đánh giá khép kín, và việc "kiểm tra sổ kín" có thể đánh giá thực sự khả năng của mô hình.
Ngoài ra, có những đánh giá mô hình lớn về điểm số bằng chứng bàn chải, chẳng hạn như LLM-3 do Phòng thí nghiệm NLP của Đại học Fudan đưa ra, áp dụng chế độ đánh giá mới, đó là chế độ "kiểm tra ngân hàng câu hỏi". Trong LLM-3, mỗi hệ thống tham gia cần hoàn thành một mẫu ngẫu nhiên gồm 1.000 câu hỏi từ tổng ngân hàng câu hỏi, theo mô hình của cùng một tổ chức, để đảm bảo rằng mỗi câu hỏi đánh giá không bị trùng lặp. Quá trình đánh giá sẽ được tiến hành trực tuyến và việc gửi câu hỏi trong một vòng đánh giá sẽ được thực hiện tuần tự, nghĩa là việc gửi câu hỏi tiếp theo sẽ phụ thuộc vào câu trả lời cho câu hỏi trước đó để tránh thu thập dữ liệu độc hại.
Vì các mô hình lớn liên quan đến một loạt các lĩnh vực và ứng dụng, các chỉ số và phương pháp đánh giá mà các mô hình lớn trong các lĩnh vực và ứng dụng khác nhau cần chú ý là khác nhau. Do đó, các tổ chức và tổ chức khác nhau có thể đề xuất các tiêu chí và phương pháp đánh giá khác nhau cho các lĩnh vực và nhu cầu ứng dụng cụ thể. "Mặc dù không có tiêu chuẩn thống nhất, tầm quan trọng của việc đánh giá là cung cấp một cách để đánh giá và so sánh hiệu suất và hiệu quả của các mô hình lớn khác nhau, và giúp người dùng chọn mô hình lớn phù hợp với nhu cầu của họ."
Làm thế nào để đánh giá thực sự toàn diện và toàn diện các mô hình lớn cũng bị "nhầm lẫn" đi đầu trong giới học thuật và công nghiệp. Mặc dù vậy, các tổ chức có thẩm quyền nên tăng cường nghiên cứu, hình thành sự đồng thuận càng sớm càng tốt và thúc đẩy tiến bộ công nghệ và phát triển ngành.