Nó có thể chạy trên điện thoại di động, với 1 nghìn tỷ dữ liệu đào tạo! StableLM-3B-4E1T đã có mặt tại đây

2023-10-03 09:58:18

**Nguồn: **Cộng đồng mở AIGC

Vào ngày 2 tháng 10 theo giờ Miền Đông, nền tảng mã nguồn mở nổi tiếng Stable.ai đã thông báo trên trang web chính thức của mình về việc ra mắt mô hình ngôn ngữ lớn mã nguồn mở StableLM-3B-4E1T. (Địa chỉ nguồn mở:

Được biết, Stable LM 3B là mô hình ngôn ngữ lớn cơ bản chủ yếu dành cho các thiết bị di động như điện thoại di động và máy tính xách tay, giúp giảm đáng kể yêu cầu về tài nguyên máy tính mà vẫn đảm bảo hiệu suất.

LM 3B ổn định hỗ trợ các chức năng như tạo văn bản/mã, tóm tắt tóm tắt, tinh chỉnh dữ liệu, lý luận thông thường và giải các bài toán. Độ dài ngữ cảnh toàn cầu là 4096. (gọi tắt là "LM 3B ổn định")

Với sự phổ biến của ChatGPT, đã có một "sự bùng nổ phát triển mô hình lớn" mạnh mẽ trên khắp thế giới. Tuy nhiên, hầu hết các mô hình đều yêu cầu một lượng lớn tài nguyên máy tính phải được đào tạo trước và tinh chỉnh, đồng thời chúng cũng có yêu cầu cao về môi trường hoạt động của các ứng dụng Generative AI được phát triển. Qualcomm thậm chí còn phát hành một chip AI tổng hợp dành riêng cho thiết bị di động để giải quyết vấn đề về sức mạnh tính toán.

Stability.ai hy vọng sẽ mã nguồn mở Stable LM 3B để giúp các nhà phát triển không có tài nguyên máy tính khổng lồ tạo ra các sản phẩm AI tổng quát nhỏ và gọn có thể chạy an toàn và ổn định trên thiết bị di động.

Bộ dữ liệu huấn luyện LM 3B ổn định

Mặc dù mô hình chỉ có 3 tỷ tham số nhưng nó sử dụng bộ dữ liệu đào tạo khổng lồ gồm 1 nghìn tỷ mã thông báo bao gồm văn bản, mã, Wikipedia, ArXiv, sách, C4 và các dữ liệu khác.

Tập dữ liệu này được lọc và trộn từ nhiều tập dữ liệu quy mô lớn nguồn mở, bao gồm Falcon RefinedWeb, RedPajama-Data, The Pile và StarCoder.

Điều này giúp Stable LM 3B vượt qua các mô hình cùng kích thước với ít tài nguyên hơn và thậm chí còn mạnh hơn một số mô hình lớn có 7 tỷ hoặc 10 tỷ tham số.

Quá trình luyện tập LM 3B ổn định

LM 3B ổn định bắt đầu với quá trình đào tạo chính xác bfloat16 là 972k và độ dài bối cảnh toàn cầu là 4096, thay vì cải tiến nhiều giai đoạn từ 2048 đến 4096 như StableLM-Alpha v2.

Stability.ai đã sử dụng AdamW để tối ưu hóa hiệu suất và sử dụng khởi động tuyến tính cho 4800 bước đầu tiên, sau đó là lịch trình phân rã cosine để giảm tốc độ học xuống 4% so với mức cao nhất.

Sự bất ổn sớm được cho là do thời gian lưu trú kéo dài trong khu vực có tỷ lệ học tập cao. Vì mô hình tương đối nhỏ nên dropout không được sử dụng.

Trong quá trình đào tạo, Stability.ai đánh giá các tiêu chuẩn ngôn ngữ tự nhiên và quan sát những cải thiện ổn định từ quá trình đào tạo khi kết thúc lịch trình giảm tốc độ học tập. Vì lý do này, các nhà phát triển đã quyết định giảm tuyến tính tốc độ học xuống 0, tương tự như những gì Zhai và cộng sự đã làm, với hy vọng đạt được hiệu suất tốt hơn.

Ngoài ra, giai đoạn đầu của quá trình đào tạo trước còn dựa vào API chú ý nhanh và khả năng hỗ trợ sẵn có của nó cho việc che dấu nhân quả hình tam giác. Điều này buộc mô hình phải xử lý các tài liệu khác nhau theo trình tự được đóng gói theo cách tương tự.

Trong giai đoạn hạ nhiệt, Stability.ai đặt lại ID vị trí và mặt nạ chú ý tại các điểm đánh dấu EOD cho tất cả các chuỗi được đóng gói sau khi quan sát bằng thực nghiệm chất lượng mẫu được cải thiện (tức là: giảm trùng lặp) trong các thử nghiệm đồng thời.

Về phần cứng, StableLM-3B được đào tạo trên cụm tính toán của Stability AI. Cụm chứa 256 card đồ họa NVIDIA A100 40GB. Khóa đào tạo bắt đầu vào ngày 23 tháng 8 năm 2023 và mất khoảng 30 ngày để hoàn thành.

Về mặt kiểm tra hiệu suất, StableLM-3B đã được thử nghiệm trong khung đánh giá khả năng khai thác ánh sáng không mẫu. Kết quả cho thấy hiệu năng không hề thua kém so với model có 7 tỷ thông số, thậm chí còn mạnh hơn một số model có 10 tỷ thông số.

Tài liệu của bài viết này được lấy từ trang web chính thức của Stability.ai. Nếu có bất kỳ vi phạm nào, vui lòng liên hệ với chúng tôi để xóa nó.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
1/3
1Gate Launchpad List IKA
50k Phổ biến
2ETH Back to $3,800
7k Phổ biến
3Tariff Deal New Update
6k Phổ biến
4Stablecoin Regulation
658 Phổ biến
5Gate ETH 10th Anniversary Celebration
24k Phổ biến

Ghim

sơ đồ trang web