Kỷ nguyên của những mô hình AI cỡ lớn ≠ Kỷ nguyên của AI chỉ có những mô hình lớn

Tác giả 丨Jin Lei

Nguồn丨Qubit QbitAI

Loại công nghệ nào có thể tồn tại qua sự rửa tội của thời gian và vẫn mới?

Câu trả lời có thể được tóm tắt theo một mô hình giống như “bộ ba” - sự trỗi dậy, phát triển và ứng dụng quy mô lớn, cùng với một sự lặp lại tiến hóa khác của quá trình này.

Lấy lịch sử làm kim chỉ nam, động cơ hơi nước đã dẫn đầu cuộc cách mạng công nghiệp đầu tiên. Khi nó phát triển thành động cơ đốt trong và trở nên phổ biến, yếu tố đột phá của cuộc cách mạng công nghiệp lần thứ hai - chính năng lượng điện và các thiết bị khác nhau liên quan đến nó vẫn còn ở giai đoạn sơ khai. thiết bị hướng tới sự đổi mới lặp đi lặp lại trong vi điện tử, các động cơ nhiên liệu khác nhau vẫn đang được cải tiến và phổ biến.

Đánh giá theo quy tắc này, mặc dù các mô hình ngôn ngữ lớn (gọi tắt là LLM) đã thống trị tất cả các từ khóa liên quan đến AI và thu hút sự chú ý của mọi người kể từ khi chúng xuất hiện, nhưng điều này không có nghĩa là "không có AI trước LLM".

Trong khi các mô hình lớn đang chiếm ưu thế, thế hệ ứng dụng máy học cũ trước đây chuyên về đưa ra quyết định cũng như các ứng dụng học sâu “truyền thống” tập trung vào khả năng nhận thức cũng không hề nhàn rỗi. tuổi thiếu niên và bước vào giai đoạn thực hành ổn định và thực tế.

Bằng chứng là gì?

Một nhà sản xuất chip lớn đã tung ra một loạt sách hướng dẫn thực hành AI, nhắm mục tiêu thực hành AI trong các ngành sản xuất và năng lượng, y học, tài chính, vận tải, hậu cần và giáo dục.

Trong bản cập nhật Cẩm nang thực hành AI về Hậu cần, Vận tải và Chăm sóc sức khỏe năm nay, nhiều ứng dụng AI đã và đang triển khai đều được ghi lại, cũng như cách triển khai chúng một cách trơn tru và phát huy hết tiềm năng tăng tốc hiệu suất của chúng. chúng cũng được sử dụng trong một số đầu quen thuộc.Ví dụ ứng dụng của các doanh nghiệp đi sâu vào tiền tuyến.

Vì vậy, AI không chỉ có những mô hình lớn. Thời đại của những mô hình lớn của AI cũng ≠ thời đại của AI chỉ có những mô hình lớn.

AI trưởng thành đã được đưa vào hoạt động

Có lẽ bạn vẫn không thể tin rằng công nghệ AI đã đứng đằng sau việc chuyển phát nhanh ngay cả với quy mô nhỏ.

Đúng vậy, và nó gần như tham gia vào toàn bộ quá trình logistics: đặt hàng, vận chuyển, phân loại, trung chuyển, phân phối... AI giờ đây phải "quản lý" mọi thứ.

Lấy công nghệ OCR (Nhận dạng ký tự quang học) cổ điển làm ví dụ, vị thế của nó trong “thế giới kỹ thuật” hậu cần có thể nói là then chốt, nâng cao hiệu quả công việc lên rất nhiều.

Ví dụ: khi người gửi điền địa chỉ và thông tin nhận dạng khi vận chuyển và kho thương mại điện tử kiểm tra thông tin sản phẩm đã vận chuyển, OCR có thể được sử dụng để đạt được mục nhập chỉ bằng một cú nhấp chuột.

Khi công nghệ AI ngày càng hoàn thiện và ứng dụng ngày càng đi sâu, tốc độ này đã đạt được “không có nhanh nhất, chỉ có nhanh hơn”.

Đây là trường hợp của Yunda Express mà chúng ta đã quen thuộc. Trong quá trình nhận dạng OCR ba phân đoạn, ban đầu người ta hy vọng rằng AI có thể đạt được độ chính xác nhận dạng OCR là 95%.

Kết quả là AI hiện tại đã “dạy cho Yunda một bài học”, không chỉ độ chính xác tăng vọt lên gần 98% mà thời gian cũng “giảm”: từ 130ms xuống còn 114ms.

△Kết quả kiểm tra hiệu suất dựa trên các bài kiểm tra do Yunda thực hiện vào tháng 10 năm 2022

Hơn nữa, khả năng nhận dạng OCR chỉ là một phần nhỏ trong sự tham gia của AI vào ngành logistics, hãy nhìn vào bức tranh để cảm nhận sức mạnh mà nó phát huy hiện nay:

Chà, AI có tính toàn diện nên không có gì ngạc nhiên khi tốc độ vận chuyển trong nước đang tăng tốc.

Nhưng các bạn ơi, đây chỉ là trường hợp AI tăng tốc cho hàng nghìn ngành công nghiệp thôi, thực tế là những chuyến đi hàng ngày của chúng ta cũng tràn ngập “hương vị” của AI.

Ví dụ: công nghệ phân tích video AI có thể phân tích tình trạng giao thông trên đường cao tốc trong thời gian thực.

Cho dù đó là giám sát luồng giao thông, nhận dạng biển số xe hay cảnh báo tai nạn, v.v., có thể nói AI có cái nhìn toàn cảnh về mọi thứ.

Bằng cách này, tình trạng đường có thể được kiểm soát một cách hiệu quả và chính xác.

Một ví dụ khác là sân bay, camera sử dụng công nghệ AI còn có thể xác định chi tiết máy bay, phương tiện, nhân sự, vi phạm biên giới, mang lại sự đảm bảo nhất định cho sự an toàn của khu vực bay.

……

Không khó để nhận thấy từ những trường hợp sử dụng nhỏ nêu trên, AI “trưởng thành” hoặc những ứng dụng AI nổi tiếng vài năm trước có vẻ không phổ biến nhưng thực tế chúng đã thâm nhập vào mọi khía cạnh của cuộc sống chúng ta và của chúng. trọng tâm chính là "giảm chi tiêu và nâng cao hiệu quả".

Vậy điều gì đằng sau việc “tiết kiệm chi phí và tăng hiệu quả” như vậy?

Đừng quá tự phụ, chỉ cần đưa ra câu trả lời——

Chính các nền tảng của Intel đã trợ giúp, đặc biệt là bộ xử lý Xeon®️ có thể mở rộng. Tương tự, nhà sản xuất chip mà chúng tôi nhắc đến ở trên cũng là Intel, và chính Intel đã cung cấp những cẩm nang AI thực tế cho nhiều ngành nghề.

Nhưng thứ mở ra những khả năng như vậy không chỉ là CPU, mà còn là phần thưởng tối ưu hóa ở cấp độ phần mềm từ Intel; nói cách khác, đó là kết quả của việc "tích hợp phần mềm và phần cứng".

Đơn giản chỉ cần tóm gọn lại: Bộ xử lý có khả năng mở rộng Xeon®️ và bộ tăng tốc AI tích hợp của chúng, cũng như một loạt khung AI và phần mềm tối ưu hóa như OpenVINO™️ và oneAPI để hỗ trợ.

Hiện tại chỉ có hai yếu tố ảnh hưởng đến hiệu suất của ứng dụng AI: sức mạnh tính toán và tốc độ truy cập dữ liệu.

Số lượng lõi CPU đơn trong bộ xử lý có khả năng mở rộng Xeon®️ thế hệ thứ tư mới nhất đã tăng lên tối đa 60 lõi. Về tốc độ truy xuất dữ liệu, kích thước bộ nhớ đệm ở mọi cấp độ, số kênh bộ nhớ, tốc độ truy cập bộ nhớ... đều được tối ưu hóa ở mức độ nhất định. Ngoài ra, công nghệ bộ nhớ băng thông cao HBM cũng được tích hợp trong dòng CPU Max.

Ngoài ra, tập lệnh CPU cũng đã được tối ưu hóa và các bộ tăng tốc phần cứng như Intel®️ Advanced Matrix Extensions (Intel®️ AMX) được tích hợp sẵn, chịu trách nhiệm tính toán ma trận và tăng tốc khối lượng công việc deep learning, có thể gọi là C -bit của các ứng dụng AI được tăng tốc CPU.

Nó có phần giống với Tensor Core trong GPU.

AMX bao gồm hai phần, một phần là tệp thanh ghi 2D 1kb và phần còn lại là mô-đun TMUL, được sử dụng để thực thi các lệnh nhân ma trận. Nó có thể hỗ trợ cả hai loại dữ liệu INT8 và BF16 và BF16 có hiệu suất tính toán tốt hơn FP32.

Với sự hỗ trợ của bộ lệnh AMX, hiệu suất được cải thiện tới 8 lần hoặc thậm chí cao hơn bộ lệnh mạng thần kinh vectơ VNNI được tích hợp trong bộ xử lý có khả năng mở rộng Xeon®️ thế hệ trước.

Ngoài nền tảng phần cứng cốt lõi, điều thực sự giúp các ngành này triển khai các ứng dụng AI thực tế là một loạt các công cụ phần mềm AI “riêng” chứ không phải “riêng” của Intel.

Ví dụ, khả năng tăng tốc OCR được đề cập trước đó không thể tách rời khỏi việc tối ưu hóa OpenVINO™️, giúp loại bỏ nhiều tính toán dư thừa cần thiết cho phần đào tạo và chủ yếu hỗ trợ phần suy luận.

Đây cũng là một framework được tối ưu hóa đặc biệt dành cho phần cứng của Intel, chỉ cần 5 dòng mã để hoàn thành việc thay thế framework ban đầu.

Người dùng có thể tối ưu hóa các thông số vận hành OpenVINO™️ cho các tình huống kinh doanh khác nhau.

Với sự kết hợp giữa phần mềm và phần cứng như vậy, Intel không chỉ phát huy tối đa tiềm năng tính toán của CPU mà còn đạt được hiệu năng gần bằng GPU trong các tình huống lý luận thực tế và còn có thêm những ưu điểm như chi phí thấp, ngưỡng thấp, và dễ sử dụng.

Tuy nhiên, đây chỉ là sự tối ưu hóa của các công nghệ AI trưởng thành trên nền tảng Intel®️. Khả năng của Intel còn hơn thế nhiều.

Đây là trở lại với mô hình lớn.

##Các mẫu lớn đình đám cũng đang được tăng tốc

Hiện nay, các mô hình ngôn ngữ lớn đang được các công ty công nghệ lớn trên thế giới theo đuổi, xét cho cùng, giới công nghệ hiện nay coi đó là xu hướng phát triển trong tương lai.

Mặc dù so với các công nghệ và ứng dụng AI trưởng thành đó, nó vẫn còn một khoảng cách xa so với việc triển khai trên quy mô lớn, nhưng vị thế dẫn đầu về công nghệ của nó là không thể nghi ngờ, và ngay cả các ứng dụng AI "thế hệ cũ" dự kiến cũng sẽ được kết hợp với nó hoặc được biến đổi bởi nó. Đổi mới.

Với tư cách là công cụ tăng tốc hiệu suất ứng dụng và sản lượng điện toán cơ bản, Intel cũng đang chuẩn bị cho những ngày khó khăn trên đấu trường cạnh tranh này và đã vạch ra kế hoạch của mình.

Trước hết, mô hình lớn dù có tiên tiến đến đâu thì cũng cần có nhiều người sử dụng hơn để nhận ra đầy đủ giá trị của nó. Nếu muốn “chơi” nó thì chi phí là vấn đề tồn tại từ lâu trước kích thước khổng lồ của nó.

Do đó, Intel đã tiết lộ một “công cụ ma thuật giảm trọng lượng” nâng cao có thể thu nhỏ mô hình ngôn ngữ lớn với một tỷ tham số xuống 3/4 và nâng cao độ chính xác của nó, đồng thời cũng có thể cải thiện hiệu quả hiệu suất suy luận của các mô hình lớn trên Intel ®️ nền tảng.

Cụ thể, thứ được sử dụng là công nghệ SmoothQuant, được Intel điều chỉnh cho phù hợp với nền tảng của riêng mình và thực hiện các cải tiến. Phương pháp này đã được tích hợp vào Máy nén thần kinh Intel®️. Đây là thư viện Python mã nguồn mở chứa nhiều kỹ thuật nén mô hình thường được sử dụng như lượng tử hóa, cắt tỉa (thưa thớt), chắt lọc (trích xuất kiến thức) và tìm kiếm kiến trúc thần kinh. Thư viện này đã hỗ trợ nhiều phần cứng kiến trúc Intel®️ và tương thích với TensorFlow, các framework chính thống như PyTorch, ONNX Runtime và MXNet.

Thứ hai, ở cấp độ phần cứng, Intel cũng đã có một số nỗ lực.

Ví dụ: ChatGLM-6B phổ biến gần đây sử dụng Intel®️ AMX tích hợp của bộ xử lý có thể mở rộng Xeon®️ thế hệ thứ tư để tăng đáng kể tốc độ tính toán tinh chỉnh mô hình; nó sử dụng HBM được tích hợp với bộ xử lý dòng Xeon®️ CPU Max để đáp ứng nhu cầu của người dùng quy mô lớn.Băng thông bộ nhớ lớn cần thiết để tinh chỉnh mô hình.

△Kiến trúc công nghệ Intel® AMX

Ngoài CPU, Intel còn có chip tăng tốc deep learning chuyên dụng Habana®️ Gaudi®️2, có thể triển khai 8 thẻ tăng tốc (gọi là Habana Treatment Unit, gọi tắt là HPU) trong một máy chủ. Mỗi thẻ có bộ nhớ lên tới 96 GB, cung cấp nhiều không gian cho các mô hình lớn.

Do đó, ngay cả mô hình ngôn ngữ 100 tỷ cấp như BLOOMZ với 176 tỷ tham số cũng có thể kiểm soát độ trễ hiệu năng xuống còn 3,7 giây sau khi được Intel tối ưu hóa. Đối với mẫu BLOOMZ-7B nhỏ hơn với 7 tỷ thông số, độ trễ của một thiết bị trong Gaudi®️2 là khoảng 37,21% so với Gaudi®️ thế hệ đầu tiên; và khi số lượng thiết bị tăng lên 8, tỷ lệ này tiếp tục giảm xuống còn Khoảng 24,33%.

△Kết quả kiểm tra độ trễ suy luận BLOOMZ trên Gaudi®️2 và Gaudi®️ thế hệ đầu tiên

Sau đó, ở cấp độ phần mềm, đối với các mô hình ngôn ngữ lớn phổ biến như ChatGLM, Intel cũng có thể tối ưu hóa nó bằng cách tạo mô hình trạng thái OpenVINO™: nén trọng số để giảm mức sử dụng băng thông bộ nhớ và cải thiện tốc độ suy luận.

Đây là sự phản ánh trực tiếp cách tiếp cận “tích hợp phần mềm và phần cứng” của Intel trong các ứng dụng mô hình lớn. Hơn nữa, phần cứng không còn bị giới hạn ở CPU mà còn có Gaudi®️ có thể sánh ngang với GPU về cả hiệu suất đào tạo và suy luận, đồng thời khiến mọi người phải kinh ngạc về hiệu suất chi phí.

Cuối cùng, về mặt bảo mật, Intel cũng đã đạt được “tốt nhất của cả hai thế giới”: Môi trường thực thi tin cậy (TEE) dựa trên Intel®️ SGX/TDX có thể cung cấp một môi trường hoạt động an toàn hơn cho các model lớn mà không ảnh hưởng đến hiệu suất. .

Đây chính là “cách tiếp cận tăng tốc” của Intel trong thời đại các mô hình AI cỡ lớn.

Nó sẽ mang lại những thay đổi gì khác?

Nhìn vào sự phát triển của công nghệ AI, không khó để nhận thấy Intel thực hiện một nguyên tắc rất rõ ràng – sử dụng là lời cuối cùng. Ngay cả việc chỉ sử dụng nó trong các trung tâm dữ liệu và biên giới thôi là chưa đủ, tốt nhất là mọi máy tính, mọi thiết bị đầu cuối thông tin của mỗi người đều có khả năng tăng tốc độc lập các ứng dụng AI để có thể đáp ứng được “cốt lõi”.

Do đó, Intel đã điều chỉnh sứ mệnh đổi mới của mình để: bổ sung khả năng AI cho các sản phẩm phần cứng khác nhau, đồng thời thúc đẩy phổ biến các ứng dụng AI thông qua các giải pháp phần mềm đa kiến trúc, mở và thúc đẩy sự phát triển của “nền kinh tế cốt lõi”.

“Phương pháp tăng tốc” của Intel không chỉ giúp công nghệ được triển khai và phổ biến nhanh hơn mà còn thúc đẩy việc áp dụng, đổi mới và thay đổi, mở đường cho những thay đổi công nghệ thế hệ tiếp theo.

Vậy liệu Intel có mục tiêu cuối cùng trên con đường này?

Có lẽ như đã được nhắc lại và nhấn mạnh tại Intel Innovation 2023: hãy để AI có mặt ở mọi nơi (AI Everywhere).

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)