Điểm chuẩn mã nguồn mở! Mô hình lớn song ngữ Trung-Anh mạnh nhất là ở đây, với 34 tỷ thông số, vượt qua tất cả các mô hình mã nguồn mở như Llama2-70B

2023-10-13 13:51:44

Tác giả:Jin Lei

Nguồn: Qubits

Mô hình song ngữ Trung-Anh mạnh nhất trong thế giới mã nguồn mở, Wudao Skyhawk 34B, là ở đây!

Nó mạnh đến mức nào? Trong một từ:

Khả năng toàn diện tiếng Trung và tiếng Anh, khả năng suy luận logic, v.v., vượt qua toàn diện Llama2-70B và tất cả các mô hình mã nguồn mở trước đó!

Về khả năng lập luận, điểm chuẩn đánh giá IRD của mô hình đối thoại chỉ đứng sau GPT4.

Mô hình không chỉ đủ lớn để chiến đấu mà còn gửi một bộ hoàn chỉnh các thiết bị ngoại vi sang trọng cấp "thùng gia đình" trong một lần.

Những gì có thể có một thỏa thuận lớn như vậy là người tiên phong của trường mã nguồn mở mô hình lớn của Trung Quốc, Viện nghiên cứu KLCII.

Nếu bạn nhìn vào cách tiếp cận nguồn mở mô hình lớn của KLCII trong những năm qua, không khó để thấy rằng nó đang dẫn đầu một xu hướng mới:

Ngay từ năm 2021, kho dữ liệu lớn nhất thế giới đã được công khai và vào năm 2022, nó là công ty đầu tiên chuyển tiếp hệ thống mã nguồn mở công nghệ mô hình lớn FlagOpen và liên tiếp ra mắt hệ thống đánh giá cờ, bộ dữ liệu COIG, mô hình vector BGE và các dự án sao xếp chồng công nghệ đầy đủ khác.

Sự táo bạo này xuất phát từ định vị của KLCII như một tổ chức nghiên cứu phi thương mại, phi lợi nhuận, trung lập, và trọng tâm chính của nó là một "đồng sáng tạo nguồn mở chân thành".

Điều này được hiểu rằng mô hình bệ Aquila2-34B dẫn đầu bảng xếp hạng toàn diện của 22 điểm chuẩn đánh giá, bao gồm ngôn ngữ, sự hiểu biết, lý luận, mã, kỳ thi và các khía cạnh đánh giá khác.

Đây là một hình ảnh để cảm nhận cảm giác này:

*△Hình: Kết quả đánh giá mô hình cơ sở (xem kho lưu trữ nguồn mở chính thức để biết kết quả đánh giá tập dữ liệu chi tiết) *

Như vừa đề cập, Viện nghiên cứu trí tuệ nhân tạo KLCII Bắc Kinh cũng rất tận tâm triển khai mã nguồn mở đến cùng, mang mã nguồn mở đến cả gia đình trong một lần:

Nâng cấp đầy đủ loạt mô hình Aquila2: mô hình cơ bản Aquila2-34B / 7B, mô hình đối thoại AquilaChat2-34B / 7B, mô hình "ngôn ngữ văn bản-SQL" AquilaSQL;

Phiên bản mới của mô hình vector ngữ nghĩa BGE được nâng cấp: tất cả bốn yêu cầu tìm kiếm chính đều được đề cập.

Khung đào tạo song song hiệu quả FlagScale: thông lượng đào tạo hàng đầu trong ngành và sử dụng GPU;

Tập hợp con chú ý hiệu suất cao của FlagAttention: Hỗ trợ sáng tạo cho đào tạo văn bản dài và ngôn ngữ Triton.

Tiếp theo, chúng ta hãy xem xét kỹ hơn về "mã nguồn mở mạnh nhất" lần này.

Sơ lược về khả năng "Nguồn mở mạnh nhất"

Như chúng tôi vừa đề cập, Aquila2-34B, một trong những mô hình bệ mở trong tư thế "nguồn mở mạnh nhất", cũng bao gồm một Aquila2-7B nhỏ hơn.

Và sự xuất hiện của hai mô hình này cũng khiến mô hình hạ nguồn rất có lãi.

** Mô hình đối thoại mã nguồn mở mạnh nhất **

Sau khi tinh chỉnh các hướng dẫn, loạt mô hình đối thoại AquilaChat2 tuyệt vời đã thu được:

AquilaChat2-34B: Đây là mô hình đối thoại song ngữ Trung-Anh mã nguồn mở mạnh nhất, dẫn đầu trong đánh giá toàn diện chủ quan + khách quan;

AquilaChat2-7B: cũng đạt được hiệu suất hiệu suất tổng thể tốt nhất trong mô hình đối thoại Trung-Anh có cùng độ lớn.

*△ Kết quả đánh giá mô hình SFT (xem kho lưu trữ nguồn mở chính thức để biết kết quả đánh giá tập dữ liệu chi tiết) *

Mô tả đánh giá:

Đối với mô hình đối thoại tổng quát, nhóm KLCII tin rằng cần phải đánh giá chặt chẽ theo "câu trả lời được tạo tự do của mô hình dưới đầu vào câu hỏi", gần với trường hợp sử dụng thực tế của người dùng, vì vậy hãy tham khảo HELM của Đại học Stanford[1] Công việc được đánh giá, trong đó có các yêu cầu nghiêm ngặt hơn đối với khả năng học tập và hướng dẫn theo ngữ cảnh của mô hình. Trong quá trình đánh giá thực tế, một số câu trả lời mô hình đối thoại không đáp ứng yêu cầu lệnh và điểm "0" có thể xảy ra.

Ví dụ: nếu câu trả lời đúng là "A" theo hướng dẫn, nếu mô hình được tạo là "B" hoặc "Câu trả lời là A", nó sẽ được chấm "0".

Đồng thời, có những phương pháp đánh giá khác trong ngành, chẳng hạn như để mô hình đối thoại khâu đầu tiên "câu hỏi + câu trả lời", mô hình tính toán xác suất của từng văn bản được nối, xác minh xem câu trả lời có xác suất cao nhất có phù hợp với câu trả lời đúng hay không và mô hình đối thoại sẽ không tạo ra bất kỳ nội dung nào trong quá trình đánh giá mà tính toán xác suất tùy chọn. Phương pháp đánh giá này đi chệch hướng rất nhiều so với kịch bản đối thoại thực tế, vì vậy nó không được áp dụng trong đánh giá mô hình đối thoại phát sinh.

[1]

Không chỉ vậy, về khả năng suy luận, rất quan trọng đối với các mô hình ngôn ngữ lớn, hiệu suất của AquilaChat2-34B cũng rất đáng kinh ngạc——

Nó đứng đầu trong giao thức đánh giá IRD, vượt qua các mô hình như Llama2-70B và GPT3.5, và chỉ đứng sau GPT4.

*△Hình: Kết quả đánh giá mô hình SFT trên tập dữ liệu IRD *

Từ quan điểm của những thành tựu khác nhau, cho dù đó là mô hình bệ đỡ hay mô hình đối thoại, dòng Aquila2 có thể được gọi là mạnh nhất trong ngành công nghiệp nguồn mở.

Độ dài cửa sổ ngữ cảnh lên đến 16K

Đối với các mô hình ngôn ngữ lớn, khả năng xử lý đầu vào văn bản dài và duy trì sự lưu loát theo ngữ cảnh trong nhiều vòng đối thoại là chìa khóa để xác định xem trải nghiệm là tốt hay xấu.

Để giải quyết vấn đề "chịu đựng các mô hình lớn trong một thời gian dài", Viện nghiên cứu trí tuệ nhân tạo KLCII Bắc Kinh đã thực hiện SFT trên 200.000 bộ dữ liệu đối thoại văn bản dài chất lượng cao, mở rộng độ dài cửa sổ ngữ cảnh hiệu quả của mô hình lên 16K trong một lần rơi.

Và nó không chỉ là cải thiện chiều dài, hiệu ứng đã được tối ưu hóa.

Ví dụ, trong hiệu quả đánh giá của bốn câu hỏi và câu trả lời văn bản dài tiếng Trung và tiếng Anh của LongBench, nhiệm vụ tóm tắt văn bản dài, nó rất rõ ràng ——

AquilaChat2-34B-16K ở cấp độ hàng đầu của các mô hình văn bản dài nguồn mở, gần với mô hình văn bản dài GPT-3.5.

*△Hình: Đánh giá nhiệm vụ hiểu văn bản dài *

Ngoài ra, nhóm của KLCII đã tiến hành phân tích trực quan về sự phân bố sự chú ý của nhiều mô hình ngôn ngữ xử lý văn bản siêu dài và nhận thấy rằng tất cả các mô hình ngôn ngữ đều có nút cổ chai vị trí tương đối cố định, nhỏ hơn đáng kể so với độ dài cửa sổ ngữ cảnh.

Để đạt được điều này, nhóm KLCII đã đề xuất sáng tạo phương pháp NLPE (Nhúng vị trí không tuyến tính), giúp cải thiện khả năng biểu mô mô hình bằng cách điều chỉnh mã hóa vị trí tương đối và hạn chế độ dài tương đối tối đa trên cơ sở phương pháp RoPE.

Các thí nghiệm tiếp tục văn bản trong mã, tiếng Trung và tiếng Anh Few-Shot Leaning, sách điện tử và các lĩnh vực khác cho thấy NLPE có thể mở rộng mô hình 4K Aquila2-34B lên độ dài 32K và sự gắn kết của văn bản tiếp tục tốt hơn nhiều so với Dynamic-NTK, nội suy vị trí và các phương pháp khác.

△Hình: So sánh NLPE và các phương pháp epitaxy Dynamic-NTK chính thống trên mô hình Base (giá trị ppl càng thấp thì càng tốt)

Không chỉ vậy, hướng dẫn kiểm tra khả năng sau trên HotpotQA, 2WikiMultihopQA và các bộ dữ liệu khác có độ dài 5K ~ 15K cho thấy độ chính xác của AquilaChat2-7B (2K) sau NLPE epitaxy là 17,2%, trong khi độ chính xác của AquilaChat2-7B của phần mở rộng Dynamic-NTK chỉ là 0,4%.

*△Hình: So sánh NLPE và các phương pháp biểu mô Dynamic-NTK chính thống trên các mô hình SFT *

Tất cả các loại kịch bản ứng dụng thực tế có thể được tổ chức

"Kết quả" tốt chỉ là một trong những tiêu chí để thử nghiệm các mô hình lớn, và quan trọng hơn, "sử dụng tốt là từ cuối cùng".

Đây cũng là khả năng khái quát hóa của các mô hình lớn, ngay cả khi bạn gặp phải những vấn đề mà bạn chưa thấy, bạn có thể dễ dàng xử lý.

Cuối cùng, nhóm Wudao Skyhawk đã xác minh khả năng khái quát hóa của mô hình Aquila2 thông qua ba kịch bản ứng dụng trong thế giới thực.

** Xây dựng các đặc vụ mạnh mẽ trong Minecraft **

Minecraft là một trò chơi là nơi thử nghiệm tốt cho công nghệ thử nghiệm AI.

Nó đã tạo ra vô số thế giới phức tạp và một số lượng lớn các tác vụ mở, cung cấp giao diện tương tác phong phú cho các tác nhân.

Dựa trên điều này, KLCII và nhóm Đại học Bắc Kinh đã đưa ra Plan4MC, một phương pháp để giải quyết hiệu quả đa nhiệm Minecraft mà không cần dữ liệu chuyên gia.

Plan4MC có thể đào tạo các kỹ năng cơ bản của tổng đài viên bằng cách sử dụng học tăng cường với phần thưởng nội tại, để tổng đài viên có thể sử dụng khả năng suy luận của mô hình ngôn ngữ lớn AquilaChat2 để lập kế hoạch nhiệm vụ.

Ví dụ: trong video dưới đây, hiệu ứng của tác nhân sử dụng AquilaChat2 để tự động hoàn thành nhiều vòng tương tác đối thoại được hiển thị.

Nhập "trạng thái môi trường hiện tại" và "nhiệm vụ cần hoàn thành" của trò chơi vào mô hình AquilaChat2 và AquilaChat2 cung cấp lại cho nhân vật "kỹ năng nào cần sử dụng tiếp theo" và thông tin ra quyết định khác, và cuối cùng hoàn thành nhiệm vụ được đặt trong Minecraft "Chặt gỗ và làm bàn làm việc để đặt gần đó".

**Liên kết cơ sở dữ liệu vector qua Aquila2 + BGE2 **

Cơ sở dữ liệu vector đã trở thành một ưu đãi trong vòng tròn mô hình lớn trong những năm gần đây, nhưng chúng vẫn hơi căng về khả năng khi đối mặt với các vấn đề phức tạp đòi hỏi sự hiểu biết sâu sắc.

Để đạt được điều này, KLCII đã kết hợp Aqiula2 với mô hình vectơ ngữ nghĩa nguồn mở BGE2 tự phát triển để mở khóa hoàn toàn một số tác vụ truy xuất phức tạp không thể giải quyết bằng các phương pháp truy xuất chỉ dựa trên các thư viện vectơ truyền thống.

Ví dụ, trong ví dụ dưới đây, chúng ta có thể thấy rõ rằng các nhiệm vụ như "truy xuất các bài báo của một tác giả về một chủ đề nhất định" và "tạo văn bản tóm tắt cho nhiều bài báo về một chủ đề" có thể trở nên rất mượt mà.

Mô hình tạo "ngôn ngữ văn bản-SQL" tối ưu

Nhiều người dùng đau đầu với SQL khi xử lý các tác vụ như truy vấn cơ sở dữ liệu.

Sẽ không đẹp nếu nó có thể được vận hành bằng tiếng địa phương mà chúng ta thường sử dụng?

Bây giờ, cách thuận tiện này là có thể - AquilaSQL.

Trong các kịch bản ứng dụng thực tế, người dùng cũng có thể thực hiện phát triển thứ cấp dựa trên AquilaSQL, ghép nó vào cơ sở kiến thức cục bộ, tạo SQL truy vấn cục bộ hoặc cải thiện hơn nữa hiệu suất phân tích dữ liệu của mô hình, để mô hình không chỉ có thể trả về kết quả truy vấn mà còn tạo thêm kết luận và biểu đồ phân tích.

Ví dụ: khi xử lý tác vụ truy vấn phức tạp sau đây, bạn chỉ cần nói ngôn ngữ tự nhiên ngay bây giờ:

Lọc ô tô có doanh số lớn hơn 100 và màu đỏ từ hai bảng dữ liệu chứa doanh số bán xe (xe_sales) và màu xe (xe_color).

Và "thành tích" của AquilaSQL cũng rất ấn tượng.

Sau khi liên tục đào tạo trước và đào tạo hai giai đoạn SFT với kho dữ liệu SQL, mô hình SOTA trên Cspider cuối cùng đã vượt qua bảng xếp hạng "mô hình tạo ngôn ngữ văn bản-SQL" với độ chính xác 67,3%.

Độ chính xác của mô hình GPT4 mà không cần tinh chỉnh kho dữ liệu SQL chỉ là 30,8%.

Ngoài ra còn có mã nguồn mở cấp nhóm gia đình

Như chúng tôi đã đề cập trước đó, KLCII luôn tập trung vào mã nguồn mở.

Lần này, nhân dịp nâng cấp mô hình lớn, KLCII cũng không ngần ngại mở nguồn một loạt các dự án ngôi sao bao gồm thuật toán, dữ liệu, công cụ và đánh giá.

Điều này được hiểu rằng mô hình dòng Aquila2 không chỉ áp dụng đầy đủ các thỏa thuận cấp phép thương mại mà còn cho phép công chúng sử dụng rộng rãi chúng trong nghiên cứu học thuật và ứng dụng thương mại.

Tiếp theo, chúng ta hãy xem nhanh các nhóm gia đình mã nguồn mở này.

FlagScale, một khung đào tạo song song hiệu quả

FlagScale là một khung đào tạo song song hiệu quả được sử dụng bởi Aquila2-34B, có thể cung cấp các chức năng đào tạo một cửa cho các mô hình ngôn ngữ lớn.

Nhóm của KLCII đã chia sẻ cấu hình đào tạo, sơ đồ tối ưu hóa và siêu tham số của mô hình Aquila2 với các nhà phát triển mô hình lớn thông qua dự án FlagScale và là người đầu tiên ở Trung Quốc mở hoàn toàn mã nguồn đào tạo và siêu tham số.

Dựa trên tiện ích mở rộng Megatron-LM, FlagScale cung cấp một loạt các cải tiến tính năng, bao gồm cắt trạng thái tối ưu hóa phân tán, định vị chính xác dữ liệu sự cố đào tạo và chuyển đổi tham số thành Huggingface.

Aquila2 đã được đo lường để đạt được thông lượng đào tạo hàng đầu trong ngành và sử dụng GPU.

*△Hình: Thông lượng đào tạo FlagScale và mức sử dụng GPU (xem cuối bài viết để biết nguồn dữ liệu và công thức ước tính) *

Điều này được hiểu rằng trong tương lai, FlagScale sẽ tiếp tục đồng bộ với mã mới nhất của dự án thượng nguồn Megatron-LM, giới thiệu nhiều chức năng tùy chỉnh hơn, tích hợp công nghệ đào tạo và suy luận phân tán mới nhất và các mô hình lớn chính thống, hỗ trợ phần cứng AI không đồng nhất và cố gắng xây dựng khung suy luận đào tạo mô hình lớn phân tán chung, thuận tiện và hiệu quả để đáp ứng các nhiệm vụ đào tạo mô hình ở các quy mô và nhu cầu khác nhau.

FlagAttentionTập hợp con mã nguồn mở chú ý hiệu suất cao

FlagAttention là tập hợp con điện toán nguồn mở Attention hiệu suất cao đầu tiên được phát triển bằng ngôn ngữ Triton để hỗ trợ đào tạo mô hình lớn văn bản dài và mở rộng toán tử Memory Efficient Attention của dòng Flash Attention để đáp ứng nhu cầu đào tạo mô hình lớn.

Hiện tại, toán tử chú ý được phân đoạn - PiecewiseAttention đã được triển khai.

PiecewiseAttention chủ yếu giải quyết vấn đề ngoại suy của mô hình Transformer với mã hóa vị trí quay (Roformer), và các đặc điểm của nó có thể được tóm tắt như sau:

Tính linh hoạt: Tính phổ biến đối với các mô hình sử dụng sự chú ý tính toán được phân đoạn có thể dễ dàng di chuyển sang các mô hình ngôn ngữ lớn bên ngoài Aquila.

Dễ sử dụng: FlagAttention dựa trên việc triển khai ngôn ngữ Triton và cung cấp giao diện PyTorch, giúp quá trình xây dựng và cài đặt dễ dàng hơn Flash Attention do CUDA C phát triển.

Khả năng mở rộng: Cũng nhờ ngôn ngữ Triton, bản thân thuật toán FlagAttention có ngưỡng sửa đổi và mở rộng thấp và các nhà phát triển có thể dễ dàng mở rộng nhiều tính năng mới hơn trên hết.

Trong tương lai, dự án FlagAttention sẽ tiếp tục hỗ trợ các nhà khai thác chú ý với các phần mở rộng chức năng khác cho nhu cầu nghiên cứu mô hình lớn, tối ưu hóa hơn nữa hiệu suất của người vận hành và thích ứng với phần cứng AI không đồng nhất hơn.

BGE2 Mô hình vector ngữ nghĩa thế hệ tiếp theo **

Thế hệ mới của mô hình vector ngữ nghĩa BGE cũng sẽ là mã nguồn mở với Aquila2.

Mô hình BGE-LLM Embedder trong BGE2 tích hợp bốn khả năng "truy xuất kiến thức", "truy xuất bộ nhớ", "tìm kiếm mẫu" và "truy xuất công cụ".

Lần đầu tiên, nó nhận ra phạm vi bao quát toàn diện các yêu cầu truy xuất chính của một mô hình ngôn ngữ lớn bằng một mô hình vectơ ngữ nghĩa duy nhất.

Kết hợp với các trường hợp sử dụng cụ thể, BGE-LLM Embedder sẽ cải thiện đáng kể hiệu suất của các mô hình ngôn ngữ lớn trong các lĩnh vực quan trọng như xử lý các tác vụ chuyên sâu về kiến thức, trí nhớ dài hạn, hướng dẫn sau và sử dụng công cụ.

......

Vì vậy, bạn có hào hứng với một "nguồn mở mạnh nhất" kỹ lưỡng như vậy không?

Một điều nữa

KLCII sẽ tổ chức một hội thảo mới về các công nghệ tiên tiến cho các mô hình lớn vào ngày 28-29 tháng Mười, nơi chín nhà nghiên cứu chính sẽ giới thiệu tiến độ và triển khai gần đây của FlagOpen.

Các đối tác quan tâm cũng có thể sống trong mã.

Mô hình Aquila2 địa chỉ mã nguồn mở đầy đủ:

Địa chỉ kho lưu trữ mã nguồn mở AquilaSQL:

Kho lưu trữ mã nguồn mở FlagAttention:

Địa chỉ mã nguồn mở BGE2

giấy:

Mô hình: / llm-embedder

Repo:

Công thức ước tính thông lượng LLAMA2: tổng số mã thông báo / (tổng số giờ GPU * 3600), theo Llama 2: Open Foundation và Fine-Tuned Chat Models giấy: 1) 7B có tổng mã thông báo là 2.0 T, tổng số giờ GPU là 184320 và được thay thế vào công thức cho 3014 mã thông báo / giây / GPU; 2) Tổng số mã thông báo của 34B là 2,0 T, tổng số giờ GPU là 1038336 và công thức được thay thế để nhận 535 Token / giây / GPU.

— Hết —

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

2 thích

Phần thưởng
2
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
1/3
1CandyDrop Airdrop Event 6.0
16k Phổ biến
2White House Crypto Report
33k Phổ biến
3Join Alpha RION Airdrop to Earn $40
8k Phổ biến
4Fed Holds Rates Decision
8k Phổ biến
5July Spark Program TOP 10 Creators Announced
2k Phổ biến

Ghim

sơ đồ trang web