MediaTek: Kỷ nguyên của các tác vụ AI tổng quát trên thiết bị di động đang đến mà không cần dựa vào xử lý đám mây

Được viết bởi: Jason Perlow

Nguồn: Zdnet

Nguồn hình ảnh: Được tạo bởi công cụ Unbounded AI

MediaTek đang hợp tác với Lllama 2 LLM của Meta, được thiết kế để chạy các tác vụ AI tổng quát trực tiếp trên thiết bị di động mà không cần xử lý dựa trên đám mây. Có một số lợi thế để làm điều này, nhưng cũng có những vấn đề tương ứng.

Trí tuệ nhân tạo sáng tạo là một trong những công nghệ mới nổi hấp dẫn nhất, được hỗ trợ bởi ChatGPT của OpenAI và hệ thống trò chuyện Bard của Google, cũng như các hệ thống tạo hình ảnh như Khuếch tán ổn định và DALL-E. Tuy nhiên, nó vẫn còn một số hạn chế vì các công cụ này sử dụng hàng trăm GPU trong trung tâm dữ liệu đám mây để thực hiện các tính toán cần thiết cho mỗi truy vấn.

Nhưng một ngày nào đó, chúng ta sẽ có thể chạy các tác vụ do AI tạo trực tiếp trên thiết bị di động. Hoặc trong một chiếc ô tô được kết nối, hoặc trong phòng khách, phòng ngủ và nhà bếp, chạy qua các loa thông minh như Amazon Echo, Google Home hoặc Apple HomePod.

MediaTek tin rằng tương lai này đang đến gần hơn chúng ta nghĩ. Hôm nay, công ty bán dẫn có trụ sở tại Đài Loan đã thông báo rằng họ đang hợp tác với Meta để kết hợp Lllama 2 LLM của gã khổng lồ xã hội với nền tảng phát triển phần mềm APU và NeuroPilot thế hệ mới nhất của công ty để chạy các tác vụ AI tổng quát trên thiết bị mà không cần dựa vào xử lý bên ngoài.

Tất nhiên, có một vấn đề với điều này: Sự kết hợp này sẽ không loại bỏ hoàn toàn các trung tâm dữ liệu. Do kích thước của bộ dữ liệu LLM (số lượng tham số mà chúng chứa) và hiệu suất cần thiết của hệ thống lưu trữ, chúng ta vẫn cần một trung tâm dữ liệu, mặc dù ở quy mô nhỏ hơn nhiều.

Ví dụ: bộ dữ liệu "nhỏ" của Llama 2 có 7 tỷ tham số, khoảng 13 GB và phù hợp với một số chức năng AI tổng quát thô sơ. Tuy nhiên, một phiên bản lớn hơn với 72 tỷ thông số, ngay cả với các kỹ thuật nén dữ liệu tiên tiến, sẽ yêu cầu dung lượng lưu trữ tương đối lớn vượt quá khả năng thực tế của điện thoại thông minh ngày nay. Trong vài năm tới, LLM đang được phát triển sẽ dễ dàng có kích thước gấp 10 đến 100 lần Llama 2 hoặc GPT-4, với yêu cầu lưu trữ từ hàng trăm gigabyte trở lên.

Điều đó khó có thể lưu trữ trên điện thoại thông minh và có đủ IOPS cho hiệu suất cơ sở dữ liệu, nhưng điều đó chắc chắn không đúng đối với một thiết bị bộ nhớ đệm được xây dựng có mục đích với đèn flash nhanh và RAM hàng terabyte. Vì vậy, với Llama 2, giờ đây có thể lưu trữ một thiết bị được tối ưu hóa để phục vụ các thiết bị di động trong một đơn vị giá mà không cần máy tính nặng. Nó không phải là một chiếc điện thoại nhưng dù sao thì nó cũng rất ấn tượng!

MediaTek hy vọng các ứng dụng AI dựa trên Llama 2 sẽ được tung ra trên điện thoại thông minh được hỗ trợ bởi SoC hàng đầu thế hệ tiếp theo của hãng, dự kiến tung ra thị trường vào cuối năm nay.

Để AI tổng hợp trên thiết bị có thể truy cập vào các bộ dữ liệu này, các nhà khai thác di động phải dựa vào mạng biên có độ trễ thấp -- trung tâm dữ liệu/tủ thiết bị nhỏ kết nối nhanh với tháp 5G. Các trung tâm dữ liệu này sẽ được đặt trực tiếp trên mạng của nhà cung cấp dịch vụ, vì vậy LLM chạy trên điện thoại thông minh sẽ không cần phải trải qua nhiều "bước nhảy" mạng trước khi truy cập dữ liệu tham số.

Ngoài việc chạy khối lượng công việc AI trên các thiết bị có bộ xử lý chuyên dụng như MediaTek, các LLM dành riêng cho miền cũng có thể được trộn lẫn với các thiết bị lưu vào bộ nhớ đệm này trong các trung tâm dữ liệu vi mô trong kịch bản "cạnh thiết bị bị ràng buộc".

Vậy lợi ích của việc sử dụng AI tổng hợp trên thiết bị là gì?

  • Giảm độ trễ: Do dữ liệu được xử lý trên thiết bị nên thời gian phản hồi giảm đáng kể, đặc biệt nếu các phương pháp lưu vào bộ nhớ đệm cục bộ được sử dụng cho các phần thường xuyên truy cập của bộ dữ liệu tham số.
  • Cải thiện quyền riêng tư của dữ liệu: Bằng cách lưu giữ dữ liệu trên thiết bị, dữ liệu (chẳng hạn như cuộc trò chuyện hoặc nội dung đào tạo do người dùng gửi) không được truyền qua trung tâm dữ liệu mà chỉ qua dữ liệu mô hình.
  • Hiệu suất băng thông được cải thiện: Ngày nay, các tác vụ AI tổng quát yêu cầu tất cả dữ liệu trong cuộc hội thoại của người dùng phải được truyền qua lại tới trung tâm dữ liệu. Với quá trình xử lý cục bộ, một lượng lớn dữ liệu sẽ được thực hiện trên thiết bị.
  • **Cải thiện khả năng phục hồi hoạt động: **Bằng cách tạo trên thiết bị, hệ thống có thể tiếp tục hoạt động ngay cả khi mạng bị gián đoạn, đặc biệt nếu thiết bị có bộ đệm tham số đủ lớn.
  • Hiệu quả năng lượng: Trung tâm dữ liệu không yêu cầu nhiều tài nguyên tính toán chuyên sâu cũng như không cần nhiều năng lượng để truyền dữ liệu từ thiết bị đến trung tâm dữ liệu.

Tuy nhiên, việc nhận ra những lợi ích này có thể yêu cầu phân chia khối lượng công việc và sử dụng các kỹ thuật cân bằng tải khác để giảm tải chi phí tính toán và chi phí mạng từ các trung tâm dữ liệu tập trung.

Ngoài nhu cầu liên tục về các trung tâm dữ liệu biên được kết nối nhanh (mặc dù yêu cầu về năng lượng và tính toán đã giảm đáng kể), còn có một câu hỏi khác: LLM có thể chạy mạnh đến mức nào trên phần cứng ngày nay? Mặc dù dữ liệu trên thiết bị ít lo ngại về việc bị chặn trên mạng, nhưng nếu không được quản lý đúng cách, rủi ro bảo mật của dữ liệu nhạy cảm trên thiết bị cục bộ bị xâm nhập cũng sẽ tăng lên và việc cập nhật dữ liệu mô hình và bảo trì dữ liệu trên một số lượng lớn dữ liệu phân tán thiết bị bộ nhớ đệm cạnh Tính nhất quán cũng là một thách thức.

Cuối cùng là câu hỏi về chi phí: ai sẽ trả tiền cho tất cả các trung tâm dữ liệu biên nhỏ này? Mạng biên hiện được các nhà cung cấp dịch vụ biên như Equinix áp dụng, các dịch vụ như Netflix và iTunes của Apple yêu cầu mạng biên và các nhà khai thác mạng di động như AT&T, T-Mobile hoặc Verizon theo truyền thống không yêu cầu mạng biên. Các nhà cung cấp dịch vụ AI sáng tạo như OpenAI/Microsoft, Google và Meta sẽ cần phải thực hiện các thỏa thuận tương tự.

Trí tuệ nhân tạo trên thiết bị còn rất nhiều điều cần xem xét, nhưng rõ ràng các công ty công nghệ đang nghĩ về nó. Trong vòng năm năm, trợ lý thông minh trên thiết bị của bạn có thể tự suy nghĩ. Sẵn sàng bỏ trí tuệ nhân tạo vào túi của bạn? Nó đang đến, và sớm hơn nhiều so với hầu hết mọi người mong đợi.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)