Đào tạo nửa ngày với ngân sách 1.000 nhân dân tệ, hiệu quả tương đương với các mô hình lớn phổ thông, mã nguồn mở và LLaMA-2 có bán trên thị trường của Trung Quốc

2023-09-25 05:56:51

Nguồn hình ảnh: Được tạo bởi AI không giới hạn

So với LLaMA-1, LLaMA-2 giới thiệu kho ngữ liệu chất lượng cao hơn, đạt được những cải tiến hiệu suất đáng kể và hoàn toàn được phép sử dụng cho mục đích thương mại, thúc đẩy hơn nữa sự thịnh vượng của cộng đồng nguồn mở và mở rộng trí tưởng tượng ứng dụng của các mô hình quy mô lớn. Tuy nhiên, chi phí đào tạo trước các mô hình lớn từ đầu khá cao và được gọi đùa là "50 triệu USD để tham gia trò chơi", điều này khiến nhiều công ty và nhà phát triển nản lòng. Vậy làm thế nào để bạn xây dựng các mô hình lớn của riêng mình với chi phí thấp hơn?

Là người đi đầu trong việc giảm chi phí và tăng hiệu quả cho các mô hình lớn, nhóm Colossal-AI tận dụng tối đa các khả năng cơ bản của LLaMA-2 và áp dụng các phương pháp đào tạo hiệu quả, chỉ sử dụng khoảng 8,5B dữ liệu mã thông báo, 15 giờ và hàng nghìn nhân dân tệ **Chế tạo thành công xe LLaMA-2 của Trung Quốc với tính năng vượt trội, có thành tích xuất sắc trong nhiều danh sách đánh giá.

So với LLaMA-2 ban đầu, trên cơ sở cải thiện thành công khả năng tiếng Trung, nó đã cải thiện hơn nữa khả năng tiếng Anh và hiệu suất của nó có thể so sánh với mô hình SOTA được đào tạo trước ở quy mô tương tự trong cộng đồng nguồn mở. Tuân thủ nguyên tắc nguồn mở nhất quán của nhóm Colossal-AI, ** toàn bộ quy trình đào tạo, mã và trọng lượng hoàn toàn là nguồn mở, không có hạn chế thương mại ** và khung hệ thống đánh giá hoàn chỉnh Colossal được cung cấp để đạt được chi phí thấp Khả năng tái lập. Các giải pháp liên quan cũng có thể được chuyển sang bất kỳ lĩnh vực dọc nào và có thể được sử dụng để xây dựng các mô hình được đào tạo trước với chi phí thấp ngay từ đầu.

Mã nguồn mở và trọng lượng:

Hiệu suất

*Lưu ý: Dựa trên điểm Colossal, điểm trong ngoặc là điểm danh sách chính thức của các mẫu xe tương ứng và điểm C- là điểm từ trang web Bảng xếp hạng chính thức. *

Trong danh sách đánh giá tiếng Trung và tiếng Anh phổ biến, chúng ta có thể thấy rằng trong danh sách MMLU tiếng Anh, Colossal-LLaMA-2-7B-base đã khắc phục được vấn đề quên thảm họa với sự hỗ trợ của đào tạo trước tăng dần với chi phí thấp. 44,47 -> 53,06), hiệu suất rất tuyệt vời trong số tất cả các mẫu thang đo 7B.

Trong danh sách của Trung Quốc, CMMLU, AGI, GAOKAO và C- chủ yếu được so sánh và hiệu quả vượt xa các mô hình bản địa hóa khác của Trung Quốc dựa trên LLaMA-2. Ngay cả khi so sánh với các mô hình nổi tiếng khác sử dụng kho dữ liệu Trung Quốc và có thể tốn hàng chục triệu đô la để đào tạo trước từ đầu, Colossal-LLaMA-2 vẫn hoạt động tốt ở cùng quy mô. Đặc biệt so với LLaMA-2 ban đầu, khả năng tiếng Trung đã có bước nhảy vọt về chất (CMMLU: 32,97 -> 49,89).

Tuy nhiên, thông qua tinh chỉnh thông qua SFT, LoRA và các phương pháp khác, kiến thức và khả năng có thể được đưa vào mô hình cơ sở một cách hiệu quả là rất hạn chế và không thể đáp ứng tốt hơn nhu cầu xây dựng kiến thức miền chất lượng cao hoặc ứng dụng mô hình dọc.

Để đánh giá tốt hơn hiệu suất của mô hình, nhóm Colossal-AI không chỉ dựa vào các chỉ số định lượng mà còn đánh giá thủ công các khía cạnh khác nhau của mô hình. Dưới đây là một số ví dụ:

Đánh giá từ hồ sơ Tổn thất của toàn bộ quá trình đào tạo, đồng thời tận dụng khả năng giảm chi phí và tăng hiệu quả của hệ thống Colossal-AI, tính hội tụ của mô hình cũng được đảm bảo hoàn toàn, chỉ với khoảng 8,5 mã thông báo B (8,5 tỷ mã thông báo) và sức mạnh tính toán có giá vài nghìn nhân dân tệ. Hãy để mô hình đạt được hiệu ứng tuyệt đẹp như vậy. Tuy nhiên, các mô hình lớn trên thị trường thường sử dụng hàng nghìn tỷ token để đào tạo nhằm đảm bảo kết quả hiệu quả, điều này rất tốn kém.

Vậy nhóm Colossal-AI đã giảm chi phí đào tạo như thế nào và đạt được kết quả như vậy?

Mở rộng từ vựng và khởi tạo mô hình

Danh sách từ vựng gốc của LLaMA-2 không được tối ưu hóa riêng cho tiếng Trung và chứa các từ tiếng Trung hạn chế, dẫn đến hiểu biết không đầy đủ về kho ngữ liệu tiếng Trung. Vì vậy, vốn từ vựng của LLaMA-2 lần đầu tiên được mở rộng.

Nhóm Colossal-AI đã tìm thấy:

Việc mở rộng từ vựng không chỉ có thể cải thiện hiệu quả hiệu quả của việc mã hóa chuỗi chuỗi mà còn làm cho chuỗi mã hóa chứa thông tin hiệu quả hơn, điều này sẽ hữu ích hơn trong việc hiểu và mã hóa cấp độ chương.
Tuy nhiên, do lượng dữ liệu huấn luyện trước tăng dần ít nên việc mở rộng thêm từ sẽ khiến một số từ hoặc tổ hợp từ không có ý nghĩa thực tế, gây khó khăn cho việc học đầy đủ trên tập dữ liệu huấn luyện trước tăng dần, ảnh hưởng đến hiệu quả cuối cùng.
Vốn từ vựng quá lớn sẽ dẫn đến tăng các thông số liên quan đến nhúng, ảnh hưởng đến hiệu quả đào tạo.

Vì vậy, sau nhiều lần thử nghiệm và tính đến chất lượng cũng như hiệu quả đào tạo, nhóm Colossal-AI cuối cùng đã quyết định mở rộng vốn từ vựng từ 32.000 ban đầu của LLaMA-2 lên 69.104.

Với vốn từ vựng được mở rộng, bước tiếp theo là khởi tạo việc nhúng từ vựng mới dựa trên LLaMA-2 gốc. Để di chuyển tốt hơn các khả năng ban đầu của LLaMA-2 và đạt được sự di chuyển nhanh chóng từ LLaMA-2 ban đầu sang các khả năng LLaMA-2 của Trung Quốc, nhóm Colossal-AI đã sử dụng trọng số của LLaMA-2 ban đầu để tính trung bình cho lần nhúng mới. khởi tạo. Điều này không chỉ đảm bảo khả năng tiếng Anh của mẫu mới khởi tạo không bị ảnh hưởng ở trạng thái ban đầu mà còn cho phép khả năng tiếng Anh được chuyển sang tiếng Trung một cách liền mạch nhất có thể.

Xây dựng dữ liệu

Để giảm chi phí đào tạo ở mức độ lớn hơn, dữ liệu chất lượng cao đóng vai trò then chốt, đặc biệt là đối với đào tạo trước tăng dần, vốn có yêu cầu cực kỳ cao về chất lượng và phân phối dữ liệu. Để sàng lọc dữ liệu chất lượng cao tốt hơn, nhóm Colossal-AI đã xây dựng một hệ thống và bộ công cụ làm sạch dữ liệu hoàn chỉnh để sàng lọc dữ liệu chất lượng cao hơn cho quá trình đào tạo trước tăng dần.

Những hình ảnh sau đây cho thấy toàn bộ quy trình quản trị dữ liệu của nhóm Colossal-AI:

Ngoài tính năng lọc heuristic thông thường và loại bỏ trùng lặp dữ liệu, nó còn thực hiện tính điểm, phân loại và lọc trên dữ liệu chính. Dữ liệu phù hợp đóng vai trò quan trọng trong việc kích thích khả năng tiếng Trung của LLaMA-2 đồng thời khắc phục vấn đề thảm họa quên tiếng Anh.

Cuối cùng, để nâng cao hiệu quả đào tạo, đối với dữ liệu của cùng một chủ đề, nhóm Colossal-AI đã sắp xếp độ dài của dữ liệu và ghép nó theo độ dài tối đa là 4096.

Chiến lược đào tạo

Đào tạo nhiều giai đoạn

Về đào tạo, xét đến đặc điểm của đào tạo trước tăng dần, nhóm Colossal-AI đã thiết kế kế hoạch đào tạo trước tăng dần theo cấp bậc, nhiều giai đoạn, chia quá trình đào tạo thành ba giai đoạn:

* Giai đoạn tiền đào tạo quy mô lớn: Mục tiêu là đào tạo mô hình thông qua một lượng lớn kho ngữ liệu để mô hình có thể tạo ra văn bản tương đối mượt mà. Giai đoạn này được hoàn thành bởi LLaMA-2, sau giai đoạn này, mô hình đã nắm vững một lượng lớn kiến thức tiếng Anh và có thể đưa ra kết quả mượt mà dựa trên Dự đoán mã thông báo tiếp theo.

Giai đoạn tiêm kiến thức tiếng Trung: Giai đoạn này dựa vào kiến thức tiếng Trung chất lượng cao, một mặt giúp nâng cao khả năng nắm vững kiến thức tiếng Trung của mô hình, mặt khác cải thiện khả năng hiểu các từ trong từ vựng tiếng Trung mới được bổ sung của mô hình.
Giai đoạn phát lại kiến thức liên quan: Giai đoạn này được dành riêng để nâng cao khả năng hiểu biết và khái quát hóa kiến thức của mô hình và giảm bớt vấn đề quên thảm họa.

Nhiều giai đoạn bổ sung cho nhau và cuối cùng đảm bảo rằng khả năng của mô hình bằng tiếng Trung và tiếng Anh đi đôi với nhau.

Đào tạo nhóm

Việc đào tạo trước tăng dần cực kỳ nhạy cảm với việc phân phối dữ liệu và sự cân bằng là đặc biệt quan trọng. Do đó, để đảm bảo phân phối dữ liệu cân bằng, nhóm Colossal-AI đã thiết kế chiến lược phân nhóm dữ liệu để chia cùng một loại dữ liệu thành 10 thùng khác nhau. Trong quá trình đào tạo, mỗi nhóm dữ liệu đều chứa một thùng chứa từng loại dữ liệu, do đó đảm bảo rằng mỗi loại dữ liệu có thể được mô hình sử dụng đồng đều.

Hệ thống đánh giá

Để đánh giá tốt hơn hiệu suất của mô hình, nhóm Colossal-AI đã xây dựng một hệ thống đánh giá hoàn chỉnh - Colossal, hy vọng có thể đánh giá các mô hình ngôn ngữ lớn thông qua nhiều chiều. Mã khung quy trình hoàn toàn là nguồn mở, không chỉ hỗ trợ tái tạo kết quả mà còn hỗ trợ người dùng tùy chỉnh các tập dữ liệu và phương pháp đánh giá theo các kịch bản ứng dụng khác nhau của họ. Các đặc điểm của khung đánh giá được tóm tắt như sau:

Bao gồm các bộ dữ liệu phổ biến như MMLU, CMMLU, v.v. để đánh giá khả năng dự trữ kiến thức của các mô hình ngôn ngữ lớn. Đối với dạng câu hỏi một lựa chọn, ngoài cách tính thông thường là so sánh xác suất ABCD, còn bổ sung thêm các phương pháp tính toán toàn diện hơn như đối sánh tuyệt đối, bối rối một lựa chọn, v.v. để đo lường toàn diện hơn mức độ nắm vững của mô hình. của kiến thức. .
Hỗ trợ đánh giá trắc nghiệm và đánh giá văn bản dài.
Hỗ trợ các phương pháp đánh giá cho các tình huống ứng dụng khác nhau, chẳng hạn như đối thoại nhiều vòng, nhập vai, trích xuất thông tin, tạo nội dung, v.v. Người dùng có thể đánh giá có chọn lọc khả năng của các khía cạnh khác nhau của mô hình theo nhu cầu riêng của họ và hỗ trợ mở rộng các phương pháp tùy chỉnh và đánh giá.

Xây dựng cầu nối để di chuyển từ các mô hình lớn thông thường sang các mô hình lớn theo chiều dọc

Đánh giá từ kinh nghiệm của nhóm Colossal-AI, việc xây dựng mô hình phiên bản Trung Quốc dựa trên LLaMA-2 về cơ bản có thể được chia thành các quy trình sau:

Vậy giải pháp này có thể tái sử dụng được không?

Câu trả lời là có và nó rất có ý nghĩa trong bối cảnh triển khai kinh doanh.

Với làn sóng trí tuệ nhân tạo do ChatGPT khởi xướng, các gã khổng lồ Internet, các công ty AI, các công ty khởi nghiệp, trường đại học và viện nghiên cứu trên khắp thế giới đang chạy đua trên đường đua của những mô hình lớn nói chung. Tuy nhiên, đằng sau khả năng chung của các mô hình lớn nói chung thường là sự thiếu hiểu biết về các lĩnh vực cụ thể, do đó khi triển khai thực tế, vấn đề ảo giác mô hình lớn trở nên đặc biệt nghiêm trọng. Mặc dù việc tinh chỉnh kinh doanh có thể đạt được những lợi ích nhất định nhưng việc thiếu các mô hình dọc lớn dẫn đến tắc nghẽn về hiệu suất trong việc triển khai ứng dụng. Nếu xây dựng được mô hình dọc lớn nhanh chóng với chi phí thấp, sau đó tinh chỉnh hoạt động kinh doanh dựa trên mô hình dọc lớn thì chúng ta chắc chắn sẽ tiến thêm một bước nữa trong việc triển khai kinh doanh và nắm bắt được các cơ hội, lợi thế.

Bằng cách áp dụng quy trình trên để chuyển giao kiến thức trong bất kỳ lĩnh vực nào, bạn có thể xây dựng một quy trình nhẹ nhàng để xây dựng các mô hình cơ sở dọc lớn trong bất kỳ lĩnh vực nào với chi phí thấp: **

Để đào tạo trước và xây dựng một mô hình lớn cơ bản từ đầu, chúng tôi cũng có thể rút kinh nghiệm trên và khả năng giảm chi phí cũng như nâng cao hiệu quả của Colossal-AI để hoàn thành mô hình đó một cách hiệu quả và với chi phí thấp nhất.

Tối ưu hóa hệ thống

Hiệu suất vượt trội và lợi thế về chi phí nêu trên của Colossal-LLaMA-2 được xây dựng trên hệ thống phát triển mô hình lớn AI chi phí thấp Colossal-AI.

Colossal-AI dựa trên PyTorch, có thể giảm chi phí phát triển và ứng dụng cho việc đào tạo/tinh chỉnh/suy luận mô hình lớn AI, cải thiện hiệu suất tác vụ mô hình và giảm yêu cầu GPU thông qua tính song song đa chiều hiệu quả, bộ nhớ không đồng nhất, v.v. Chỉ trong hơn một năm, nó đã nhận được hơn 30.000 Ngôi sao GitHub trong cộng đồng nguồn mở GitHub, đứng đầu thế giới về các công cụ phát triển mô hình lớn và phân khúc cộng đồng, đồng thời được hợp tác phát triển với nhiều nhà sản xuất nổi tiếng bao gồm cả những nhà sản xuất hàng đầu thế giới. 500 công ty/ Tối ưu hóa 100 tỷ/10 tỷ tham số để đào tạo trước các mô hình lớn hoặc tạo mô hình dọc.

Nền tảng đám mây AI khổng lồ

Để nâng cao hơn nữa hiệu quả của việc phát triển và triển khai mô hình lớn AI, Colossal-AI đã được nâng cấp hơn nữa lên nền tảng đám mây Colossal-AI, cho phép người dùng đào tạo, tinh chỉnh và triển khai các mô hình lớn trên đám mây với chi phí thấp. theo cách mã/không mã với chi phí thấp, tích hợp nhanh chóng nhiều mô hình khác nhau được tích hợp vào các ứng dụng cá nhân hóa.

Hiện tại, các mô hình và giải pháp phổ thông như Stable khuếch tán và LLaMA-2 đã được cài sẵn trên nền tảng đám mây Colossal-AI, người dùng chỉ cần tải dữ liệu của mình lên để tinh chỉnh, đồng thời cũng có thể triển khai phần mềm của mình. -Các mô hình được điều chỉnh dưới dạng API thành Giá cả phải chăng cho phép bạn sử dụng A10, A800, H800 và các tài nguyên GPU khác mà không cần phải duy trì các cụm máy tính của riêng mình và các cơ sở hạ tầng khác nhau. Nhiều kịch bản ứng dụng hơn, các lĩnh vực khác nhau, các phiên bản mô hình khác nhau, triển khai nền tảng tư nhân hóa doanh nghiệp, v.v. liên tục được lặp lại.

Nền tảng đám mây Colossal-AI: platform.luchentech.com
Tài liệu về nền tảng đám mây Colossal-AI:
Địa chỉ nguồn mở Colossal-AI:

Liên kết tham khảo:

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích

Phần thưởng
1
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
1/3
1Simple Earn Annual Rate 24.4%
37k Phổ biến
2Gate Launchpad List IKA
39k Phổ biến
3ETH Trading Volume Surges
40k Phổ biến
4Gate ETH 10th Anniversary Celebration
22k Phổ biến
5Trump’s AI Strategy
18k Phổ biến

Ghim

sơ đồ trang web