Mất bao nhiêu bước để tải mô hình lớn vào điện thoại di động?

Question

Nguồn gốc: Light Cone Intelligence![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b1ee7bd50a-dd1a6f-1c6801)Nguồn hình ảnh: Được tạo bởi Unbounded AI‌Mô hình cỡ lớn “chạy” vào di động, cuộc chiến AI bùng cháy từ “đám mây” đến “thiết bị đầu cuối di động”."Trong kỷ nguyên AI, mô hình Pangu của Huawei sẽ giúp ích cho hệ sinh thái Hongmeng." Vào ngày 4 tháng 8, Yu Chengdong, giám đốc điều hành của Huawei, CEO của terminal BG và CEO của giải pháp ô tô thông minh BU, đã giới thiệu điều đó thông qua công nghệ cơ bản của Pangu mô hình, Harmony OS mang đến Đây là thế hệ tiếp theo của hệ điều hành thiết bị đầu cuối thông minh.Việc sử dụng các mô hình lớn trên điện thoại di động không phải là mới, trước đây các ứng dụng và applet như ChatGPT, Wenxin Yiyan và Miaoya đều sử dụng sức mạnh điện toán đám mây để đáp ứng nhu cầu của các ứng dụng AI trên thiết bị đầu cuối di động.**Bước tiếp theo là để mô hình lớn chạy trực tiếp trên điện thoại di động. **Kể từ tháng 4 và tháng 5 năm nay, ba gã khổng lồ công nghệ Mỹ là Qualcomm, Microsoft và Nvidia, ngôi sao AI được chú ý nhất là OpenAI và "đội trưởng" AI nội địa Tencent, Baidu, v.v., đều đã tăng tốc phát triển. những nỗ lực trong thiết bị đầu cuối di động.Triển khai nhẹ các mô hình AI lớn. Qualcomm thậm chí còn tuyên bố đang dần chuyển đổi thành công ty điện toán biên thông minh (cung cấp dịch vụ điện toán tại các nguồn dữ liệu như thiết bị đầu cuối di động).Dưới sự thúc đẩy mạnh mẽ của những người khổng lồ, xu hướng công nghiệp của các mô hình quy mô lớn chuyển từ đám mây sang đầu cuối đã trở nên rất rõ ràng.## Tại sao mô hình lớn "chạy" trên điện thoại di động?Đặc điểm lớn nhất của mô hình lớn là "lớn", với hàng chục tỷ tỷ hoặc thậm chí hàng nghìn tỷ tham số và để chạy mô hình lớn tốt hơn, cụm công suất tính toán đã được nâng cấp lên cấp độ "thẻ vạn". Bây giờ, tại sao bạn phải "nhồi nhét" một mô hình lớn vào một chiếc điện thoại di động nhỏ cỡ lòng bàn tay?Mô hình lớn mang lại một số cải tiến trải nghiệm cho người dùng điện thoại di động. Ví dụ, Xiaoyi, trợ lý thông minh đầu cuối của Huawei, không chỉ có thể đề xuất các nhà hàng dựa trên lời nhắc bằng giọng nói mà còn thực hiện xử lý thông tin như tóm tắt, truy xuất thông tin và dịch đa ngôn ngữ. Một văn bản tiếng Anh dài hàng nghìn từ có thể được xử lý bằng điện thoại di động trợ lý thông minh với khả năng mô hình quy mô lớn. Một bản tóm tắt được tạo ra, cũng có thể được dịch sang tiếng Trung Quốc. Đặc biệt điểm sau, trong thời đại bùng nổ thông tin, vẫn rất có giá trị để nâng cao hiệu quả học tập và làm việc.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4d7d0cda67-dd1a6f-1c6801) **Jia Yongli, Chủ tịch Ban BG AI và Phòng kinh doanh mọi kịch bản thông minh của Huawei, giải thích rằng, một mặt, mô hình ngôn ngữ lớn có khả năng khái quát hóa, điều này có thể giúp các trợ lý thông minh trên điện thoại di động nâng cao hiểu biết của họ. Mặt khác, khả năng plug-in của Plug-in mô hình lớn có thể vượt qua các rào cản giữa các ứng dụng trong điện thoại di động và mở rộng khả năng với sự trợ giúp của các công cụ. **Ngoài ra, các ứng dụng AIGC như ChatGPT luôn đi kèm với các tranh chấp mạnh mẽ về quyền riêng tư và bảo mật, nhưng nếu chúng được chạy hoàn toàn ở phía cuối, vấn đề này hoàn toàn có thể tránh được. Vì mô hình lớn chạy ở phía cuối nên dữ liệu sẽ không rời khỏi phía cuối. Hơn nữa, tốc độ phản hồi sẽ nhanh hơn.** Mặt khác, nhu cầu về các dòng máy lớn cho thiết bị đầu cuối di động như điện thoại di động vốn đã rất cấp bách. **Xu hướng hỗn loạn của các mô hình lớn khiến đám mây ngày càng không thể đáp ứng nhu cầu về sức mạnh tính toán một mình. Alex Katouzian, phó chủ tịch cấp cao của Qualcomm, gần đây đã thẳng thắn nói: "Khi tốc độ phát triển của các thiết bị được kết nối và lưu lượng dữ liệu tăng nhanh, đồng thời chi phí cho các trung tâm dữ liệu chồng chất tăng lên, chúng tôi không thể gửi tất cả nội dung lên đám mây."Không tính lượng lớn tài nguyên như băng thông mạng, lưu trữ và phần cứng được tiêu thụ để truyền dữ liệu, chỉ riêng sức mạnh tính toán của đám mây đã khiến các nhà sản xuất có liên quan choáng ngợp. ChatGPT mới chỉ ở giai đoạn suy luận và người ta ước tính một cách thận trọng rằng chi phí điện toán hàng tháng là khoảng 10 triệu đô la Mỹ.Vấn đề lớn nhất không phải là "đắt", mà là "thiếu".Trước đây, ngay cả Sam Altaman, người sáng lập OpenAI cũng tiết lộ về sự thiếu hụt GPU, thậm chí còn thẳng thừng nói rằng ông không muốn quá nhiều người sử dụng ChatGPT. Gần đây, một số người trong cuộc suy đoán rằng khả năng của các cụm H100 quy mô lớn của các nhà cung cấp đám mây lớn và nhỏ sắp cạn kiệt và xu hướng nhu cầu về H100 sẽ tiếp tục cho đến ít nhất là cuối năm 2024. Năng lực sản xuất Nvidia H100 hiện tại vẫn bị hạn chế nghiêm trọng bởi chuỗi cung ứng.Do đó, đám mây và thiết bị đầu cuối hình thành sự hợp tác và tài nguyên điện toán nhàn rỗi của điện thoại di động và các thiết bị đầu cuối khác được sử dụng để giải quyết sự không phù hợp giữa sức mạnh tính toán "tập trung" và nhu cầu "phân tán". Quan trọng hơn, so với số lượng nút trung tâm hạn chế, nhiều thiết bị đầu cuối di động có thể được gọi là "mao dẫn" chạm vào hàng nghìn kịch bản, điều này xác định rằng mục nhập này sẽ là chìa khóa để tăng tốc độ thâm nhập ứng dụng của các mô hình lớn.## Làm thế nào để "bỏ túi" mô hình lớn?"So với máy tính hoặc máy chủ truyền thống, thách thức lớn nhất đối với thiết bị đầu cuối di động là làm thế nào để cân bằng giữa trải nghiệm và mức tiêu thụ năng lượng. Đây là một trong những điểm cốt lõi quan trọng nhất của thiết kế lõi Hongmeng." Gong Ti, Chủ tịch Bộ phận Phần mềm Kinh doanh Thiết bị đầu cuối của Huawei , nhấn mạnh .Một mô hình lớn đòi hỏi nhiều tài nguyên máy tính và tài nguyên lưu trữ, đặc biệt dựa trên cấu hình phần cứng điện thoại di động hiện có, đòi hỏi sự phối hợp của hệ thống phần mềm để nâng cao hiệu quả và giảm mức tiêu thụ năng lượng.Hiện tại, để cải thiện hiệu suất của điện thoại di động, ít nhất 8 lõi chip cần được điều phối bởi hệ thống điện thoại di động và quá trình này sẽ tiêu tốn rất nhiều năng lượng tính toán. Nếu áp dụng lập lịch trình tài nguyên không đồng nhất, CPU, GPU và NPU có thể được phối hợp hiệu quả. Theo Gong Ti, hiệu quả lập lịch trình có thể tăng hơn 60%.Hệ thống điện thoại di động có thể thực hiện các phép tính và đơn vị lập lịch trình nhỏ nhất được gọi là luồng, trong hệ điều hành truyền thống, hàng chục nghìn luồng chạy đồng thời và sẽ có một số lượng lớn luồng không hợp lệ. Theo quan điểm này, một mô hình đồng thời nhẹ hơn có thể được sử dụng để xử lý các hoạt động đồng thời và giảm mức tiêu thụ năng lượng tính toán do chuyển đổi luồng không hợp lệ. Theo Gong Ti, mô hình tương tranh có thể tiết kiệm 50% chi phí chuyển đổi tác vụ.Ngoài ra, về lập lịch tác vụ trong hệ điều hành, đây cũng là yếu tố cơ bản nhất ảnh hưởng đến trải nghiệm mượt mà, so với lập lịch công bằng, lập lịch ưu tiên động sẽ giảm đáng kể mức tiêu thụ năng lượng. Lập lịch trình ưu tiên động tương tự như một hệ thống giao thông thông minh, có thể tự động điều chỉnh trạng thái chiếu sáng của đèn giao thông tùy theo tình trạng đường xá, lưu lượng giao thông.Tuy nhiên, để mô hình lớn được triển khai trên điện thoại di động và vẫn hoạt động, việc nâng cấp và cải thiện hệ điều hành điện thoại di động là chưa đủ.Khi các dự đoán của các mô hình lớn trở nên chính xác hơn và các mạng trở nên sâu hơn, thì dung lượng bộ nhớ mà các mạng nơ-ron tiêu thụ đã trở thành một vấn đề cốt lõi. Đồng thời, nó cũng liên quan đến vấn đề băng thông bộ nhớ, khi mạng hoạt động, bộ nhớ, CPU và pin sẽ bị tiêu hao nhanh chóng, đây chắc chắn là một gánh nặng không thể chịu nổi đối với điện thoại di động hiện nay.** Do đó, trước khi triển khai cho điện thoại di động, mô hình lớn phải được nén để giảm nhu cầu về khả năng tính toán suy luận. Tuy nhiên, điều quan trọng là đảm bảo rằng hiệu suất ban đầu và độ chính xác về cơ bản không thay đổi. **Lượng tử hóa là một thao tác nén phổ biến và quan trọng, có thể giảm dung lượng bộ nhớ do mô hình chiếm dụng và cải thiện hiệu suất suy luận. Về bản chất, đó là chuyển đổi mô hình phép toán dấu phẩy động thành mô hình phép toán số nguyên, bởi vì phép toán số nguyên có độ chính xác cao hơn và tốc độ hoạt động nhanh hơn phép toán dấu phẩy động.Hiện tại, công nghệ định lượng cũng đang tăng tốc đột phá. Mô hình được đào tạo trên máy chủ thường sử dụng các phép toán dấu phẩy động 32 bit (FP32). Về phía điện thoại di động, Qualcomm đã lượng tử hóa và nén mô hình FP32 thành mô hình INT4, đạt được 64 cải tiến về hiệu quả năng lượng điện toán và bộ nhớ. Dữ liệu triển khai của Qualcomm cho thấy sau khi sử dụng đào tạo nhận thức lượng tử hóa của Qualcomm, nhiều mô hình AIGC có thể được lượng tử hóa thành các mô hình INT4. So với INT8, hiệu suất được cải thiện khoảng 90% và hiệu suất năng lượng được cải thiện khoảng 60%.Công nghệ nén mô hình lớn chắc chắn là yếu tố then chốt giúp những gã khổng lồ AI giành chiến thắng trên chiến trường thiết bị đầu cuối di động. Điều này cũng giải thích phần nào lý do Nvidia “âm thầm” mua lại OmniML, một startup trí tuệ nhân tạo làm chủ công nghệ nén mô hình lớn, vào tháng 2 năm nay.## Mô hình lớn buộc phần cứng đầu cuối phải nâng cấp"Năm nay chúng tôi sẽ có thể hỗ trợ một mô hình AI tổng hợp với 10 tỷ tham số chạy trên điện thoại di động." Ziad Asghar, phó chủ tịch cấp cao về quản lý sản phẩm và trưởng bộ phận AI tại Qualcomm, gần đây đã nói rằng một mô hình với 10 tỷ đến 15 tỷ tham số có thể bao gồm hầu hết dữ liệu. Hầu hết các trường hợp sử dụng AIGC. Nếu thiết bị đầu cuối đã có thể hỗ trợ mức tham số này, thì tất cả các phép tính có thể được thực hiện trên thiết bị đầu cuối và điện thoại di động sẽ trở thành một trợ lý cá nhân thực sự.Tuy nhiên, thế hệ chip điện thoại di động hàng đầu hiện tại cũng có thể mang và chạy một mô hình lớn với mức thông số 1 tỷ. năm, nhưng chỉ 1,5 tỷ.Các thông số đã tăng gần mười lần và mô hình lớn hướng đến thiết bị đầu cuối di động đã bước vào "máy gia tốc", vì vậy điện thoại di động phải được nâng cấp để đối phó với nó.**Phần cứng điện thoại di động rất cần những đổi mới trong bộ tăng tốc AI và bộ nhớ. **Đầu tiên, các mô hình lớn với các tham số lớn hơn yêu cầu bộ nhớ và dung lượng lưu trữ lớn hơn để lưu trữ các tham số mô hình và kết quả trung gian. Điều này đòi hỏi phải nâng cấp dung lượng chip bộ nhớ thiết bị đầu cuối di động và băng thông giao diện bộ nhớ.Thứ hai, các tham số lớn hơn chắc chắn đòi hỏi khả năng tính toán và suy luận mạnh mẽ hơn để xử lý dữ liệu đầu vào và kết quả đầu ra.Mặc dù các bộ tăng tốc AI (chẳng hạn như các IP NPU khác nhau) trên chip điện thoại di động gần như là tiêu chuẩn, nhưng về cơ bản, thiết kế này dành cho thế hệ thiết kế mạng thần kinh tích chập trước đây, không hoàn toàn dành cho các mẫu máy lớn.Để thích ứng với các mô hình lớn, bộ tăng tốc AI phải có băng thông truy cập bộ nhớ lớn hơn và giảm độ trễ truy cập bộ nhớ. Điều này yêu cầu một số thay đổi trong giao diện của bộ tăng tốc AI (chẳng hạn như gán nhiều chân hơn cho giao diện bộ nhớ) và cũng yêu cầu những thay đổi tương ứng trong kết nối dữ liệu trên chip để đáp ứng các yêu cầu truy cập bộ nhớ của bộ tăng tốc AI.Một trong những lý do quan trọng khiến Qualcomm có thể gọi là "điện thoại chạy 10 tỷ thông số trong năm" là hãng nắm trong tay bộ vi xử lý Snapdragon 8 thế hệ thứ hai được trang bị công cụ AI nhanh nhất và tiên tiến nhất trong lịch sử Qualcomm. , hiệu suất AI đã tăng 4,35 lần và hiệu suất năng lượng tăng 60%.**Tất nhiên, ngay cả trong đám mây, việc đào tạo và lập luận của các mô hình tham số quy mô cực lớn cần phải vượt qua năm bức tường: tường bộ nhớ + tường sức mạnh tính toán + tường giao tiếp + tường điều chỉnh + tường triển khai và điện thoại di động phải vượt qua đột phá từng lớp một. **Tuy nhiên, từ “trí thông minh” đến “trí tuệ nhân tạo”, đối với điện thoại di động, cơ hội nhiều hơn thách thức."Tác động của chu kỳ đổi mới đối với thiết bị điện tử tiêu dùng là quan trọng hơn và thậm chí nó có thể đưa một ngành ra khỏi tác động của chu kỳ kinh tế." được khởi xướng bởi AI và 5G+ .