Các mô hình lớn đào sâu vào giá trị của các phần tử dữ liệu: sau thuật toán và sức mạnh tính toán, giá trị của các sóng mang lưu trữ trở nên nổi bật hơn

2023-09-27 08:03:34

Bài viết| Thuyết tương đối thông minh** (aixdlun)**

Tác giả | Diệp Viễn Phong

18,8 nghìn tỷ đô la Mỹ, là tổng giá trị mà thị trường kỳ vọng sẽ được tạo ra bởi nền kinh tế thông minh do AI điều khiển vào năm 2030. Trong số đó, sự thay đổi về chất trong khả năng AI do các mô hình lớn mang lại chắc chắn sẽ trở thành động lực quan trọng.

Dưới làn sóng các mô hình lớn, sự chú ý của ngành đến bất kỳ khía cạnh nào của bộ ba phát triển AI - sức mạnh tính toán, thuật toán và dữ liệu - đã đạt đến một cấp độ mới. các mô hình.

Trong quá trình này, sự chú ý của ngành đối với “dữ liệu” thường tập trung vào “số lượng” + “chất lượng”. Lượng dữ liệu lớn hơn và chất lượng dữ liệu cao hơn có thể thúc đẩy hiệu quả đào tạo và ứng dụng tốt hơn của các mô hình lớn đã trở thành sự đồng thuận.

Tuy nhiên, do việc đổi mới mô hình lớn đòi hỏi dữ liệu ngày càng phức tạp nên việc chỉ tập trung vào “số lượng” + “chất lượng” dữ liệu là không còn đủ nữa. Bộ lưu trữ có thể mang dữ liệu và đáp ứng nhu cầu của các mô hình lớn cũng đáng được quan tâm những người thực hành trong lĩnh vực mô hình lớn.

Tại Hội nghị Kết nối Huawei 2023 (HC 2023) vừa tổ chức, Huawei đã giới thiệu một cách có hệ thống cách các giải pháp lưu trữ của mình có thể giải quyết các điểm yếu trong đào tạo và ứng dụng mô hình lớn, đồng thời hỗ trợ quá trình đổi mới của các mô hình lớn.

Các hành động của Huawei thể hiện một cách toàn cảnh bản chất của việc phát triển mô hình lớn từ chiều dữ liệu - sự phát triển quy mô lớn của "các yếu tố dữ liệu" và cách đổi mới lưu trữ cung cấp sức mạnh cho bản chất này, giúp những người thực hiện mô hình lớn khai thác tốt hơn kỷ nguyên của nền kinh tế thông minh.

Thời đại của các mô hình lớn là thời đại của các yếu tố dữ liệu và giá trị của việc lưu trữ với tư cách là phương tiện vận chuyển được thể hiện.

Không còn nghi ngờ gì nữa, nhu cầu về sức mạnh tính toán, thuật toán và dữ liệu cho các mô hình lớn đang tăng lên nhanh chóng.

Theo thống kê nghiên cứu thị trường, trong 5 năm qua, thông số của các mô hình lớn đã tăng 2.000 lần, sức mạnh tính toán cần thiết tăng 50.000 lần, nhu cầu lưu trữ dữ liệu tăng 100.000 lần và yêu cầu băng thông mạng liên quan đã tăng lên 8.000 lần.

Mở cửa lớn, đóng cửa lớn và nhu cầu lớn đòi hỏi cơ sở vật chất và đầu tư lớn.

Tuy nhiên, từ góc độ đổi mới, trên thực tế, độ khó của cả thuật toán và sức mạnh tính toán đang giảm dần hoặc hội tụ.

Về sức mạnh tính toán, vấn đề khiến nhiều công ty đau đầu, tuy số lượng yêu cầu lớn nhưng tất cả đều đến từ NVIDIA, Ascend và các tài nguyên phần cứng GPU khác, chủ yếu phụ thuộc vào chi phí đầu tư. Nói cách khác, miễn là có đủ ngân sách thì tài nguyên máy tính có thể được cung cấp.

Về mặt thuật toán, mặc dù các nhà sản xuất lớn tiếp tục điều chỉnh và lặp lại, nhưng nhìn chung họ đang áp dụng cơ sở hạ tầng mô hình Transformer, được phát triển dựa trên các khung phát triển chính thống như Pytorch, TensorFlow và MindSpore và đang dần hội tụ.

Tại thời điểm này, áp lực đến với dữ liệu.

Với sự phát triển theo chiều sâu của các mô hình lớn, tổng lượng yêu cầu dữ liệu đã tăng từ cấp TB lên cấp PB, “pool” yêu cầu ngày càng lớn hơn; đồng thời, nhu cầu về các loại dữ liệu là vô cùng lớn. phong phú và mô hình của một văn bản duy nhất Ngoài các phương thức, dữ liệu đa phương thức như hình ảnh, video và giọng nói đang bùng nổ và các yêu cầu về dữ liệu ngày càng phức tạp hơn. để làm việc tốt hơn với sức mạnh tính toán và các thuật toán trong quá trình đào tạo và ứng dụng. .

Trong giai đoạn này đã nảy sinh nhiều vấn đề chờ giải pháp bảo quản, chủ yếu bao gồm:

Hiệu suất đọc tập tin nhỏ. Yêu cầu dữ liệu của các mô hình lớn chủ yếu là số lượng lớn các tệp nhỏ như hình ảnh và văn bản. Một máy chủ AI có thể đọc hơn 20.000 hình ảnh mỗi giây, điều này thường dẫn đến hiệu quả tải dữ liệu thấp (tương tự như hành động sao chép trên PC cá nhân). , tương đương với Không gian cần thiết, một thư mục chứa số lượng lớn tệp nhỏ sẽ chậm hơn nhiều so với một tệp lớn), ảnh hưởng đến hiệu quả đào tạo của các mô hình lớn. Tại thời điểm này, hiệu suất của các tệp nhỏ lớn đã trở thành nút thắt cổ chai và yêu cầu cơ bản đối với một mô hình lớn với hàng nghìn tỷ tham số đã lên tới 10 triệu IOPS.

Điểm dừng CheckPoint tiếp tục quá trình đào tạo. Trong quá trình đào tạo mô hình lớn, do nhiều nhu cầu khác nhau như điều chỉnh tham số, CheckPoint sẽ bị gián đoạn tại các thời điểm không xác định, sau đó được khởi động lại để tiếp tục đào tạo (tốn thời gian và tạo ra lỗ hổng trong việc sử dụng tài nguyên GPU). Đây là một khả năng rất thân thiện cho các mô hình đào tạo dài hạn, nhưng việc doanh nghiệp điều chỉnh tham số thường xuyên thường dẫn đến việc giảm mức sử dụng GPU (hiện tại, ngành thường gián đoạn trung bình hai ngày một lần và mức sử dụng GPU chỉ là 40%), điều này yêu cầu lưu trữ. Chỉ với hiệu suất đọc và ghi tệp lớn mạnh mẽ, bạn mới có thể giảm thời gian chờ GPU và nâng cao hiệu quả sử dụng tài nguyên đắt tiền.

Vấn đề “ảo giác AI”. Hiện tượng kết quả đầu ra của các mô hình lớn là "bịa đặt ngẫu nhiên" và rõ ràng mâu thuẫn với thực tế là một vấn đề rất rắc rối trong ngành, hiện tượng tự cho mình là đúng của các mô hình lớn này được gọi là "ảo ảnh AI". Có vẻ như đây là một vấn đề về thuật toán, nhưng trên thực tế, ngành công nghiệp này đã dần dần phát hiện ra trong quá trình khám phá rằng giải pháp của họ yêu cầu "xác minh" liên tục ở cấp độ dữ liệu (chủ yếu đề cập đến thông tin theo ngữ cảnh), về cơ bản cần có bộ lưu trữ để có thể cung cấp a Tương tự Hệ thống tri thức của “Từ điển bách khoa toàn thư” đóng vai trò là “hồi hải mã” của mô hình lớn nhằm cung cấp kiến thức chính xác về ngành.

Có thể thấy rằng ở cấp độ đổi mới, việc giải quyết các thách thức lưu trữ mà các mô hình lớn gặp phải có thể được ưu tiên hơn sức mạnh tính toán và thuật toán.

Điểm này thực sự cho phép các mô hình lớn tiếp tục quay trở lại bản chất của chúng, đó là sử dụng các mô hình AI với thông số lớn hơn để khám phá sâu hơn giá trị của các yếu tố dữ liệu và thúc đẩy quá trình chuyển đổi và nâng cấp của hàng nghìn ngành công nghiệp.

Ngày nay, các yếu tố dữ liệu đã trở thành nguồn lực cốt lõi của nền kinh tế số và xã hội thông tin, được coi là một yếu tố sản xuất quan trọng khác sau đất đai, lao động, vốn và công nghệ. Giá trị phát triển sâu sắc.

Quá trình phát triển của các mô hình lớn có thể được coi là một quá trình trong đó các phần tử dữ liệu tiếp tục chuyển từ đầu ra ban đầu sang đầu ra giá trị.

Trong quá trình này, các thuật toán định hướng từ phía trước, hướng tới các ngành tổng thể hoặc cụ thể. Khi sức mạnh tính toán chủ yếu dựa vào đầu tư chi phí và các thuật toán dần hội tụ, giá trị đổi mới của việc lưu trữ với tư cách là vật mang các phần tử dữ liệu ngày càng trở nên nổi bật.

Hãy để giá trị của các yếu tố dữ liệu thành hiện thực, bộ lưu trữ Huawei tấn công các điểm yếu ở nhiều chiều

Các sản phẩm lưu trữ cơ sở tri thức hiệu suất cao OceanStor A800 của Huawei và các giải pháp tương ứng có hiệu quả đào tạo và thúc đẩy toàn diện dẫn đầu trong các kịch bản đào tạo và thăng tiến theo mô hình ngành. Nói chung, chúng có bốn đặc điểm chính:

1. Hiệu suất tổng thể cực cao, phù hợp với nhu cầu đào tạo mô hình lớn

Giải pháp lưu trữ chính của Huawei là đáp ứng nhu cầu đào tạo dữ liệu lớn của các mẫu lớn về hiệu suất tổng thể, đặc biệt là nhu cầu về hiệu suất đọc tệp nhỏ.

OceanStor A800 dựa trên kiến trúc phân tách CNC cải tiến. Nó có thể đạt được 24 triệu IOPS trong một khung duy nhất. Hiệu suất tải tập huấn luyện của nó gấp bốn lần so với ngành và hiệu suất của nó có thể được mở rộng tuyến tính theo nhu cầu của khách hàng. Ngoài ra, hệ thống tệp phân tán OceanFS đạt được khả năng phân tán cân bằng toàn cầu, loại bỏ tắc nghẽn CPU, mang lại trải nghiệm cải thiện hiệu suất tối ưu cho các tệp có kích thước lớn và đáp ứng nhu cầu đọc số lượng lớn tệp nhỏ.

Chỉ cần có nhu cầu về hiệu năng, bộ lưu trữ của Huawei dù có “tăng lên” cũng có thể “chịu đựng” được.

2. Tối ưu hóa các khả năng đặc biệt để đáp ứng các nhu cầu cụ thể, chẳng hạn như đào tạo liên tục về điểm dừng

Làm cách nào để cung cấp hỗ trợ tốt hơn trong các trường hợp đặc biệt, chẳng hạn như việc tiếp tục đào tạo theo điểm dừng là một thách thức mà Huawei Storage phải đồng thời giải quyết trong giai đoạn đào tạo mô hình lớn.

Thông qua cộng tác kiểm soát ổ đĩa và hệ thống tệp song song NFS+, bộ lưu trữ Huawei đạt được băng thông cực cao 500GB/giây trong một khung hình duy nhất và có thể phục hồi CheckPoint cực nhanh.Tốc độ tiếp tục đào tạo điểm dừng gấp ba lần so với ngành.TB -level CheckPoint đọc và ghi có thể đạt được từ Nó kéo dài từ vài giờ đến vài phút (nghĩa là thời gian khôi phục trung bình của các mô hình lớn với hàng nghìn tỷ tham số được tăng tốc từ hàng giờ đến vài phút), giảm việc chờ đợi GPU đắt tiền.

Chỉ cần tối ưu hóa các mô hình lớn, khách hàng có thể mạnh dạn hơn khi thực hiện điều chỉnh tham số và các thao tác khác.

Ngoài ra, mặt phẳng quản lý và điều khiển của nó có khả năng phân vùng tài nguyên + lập kế hoạch thống nhất, điều này cũng có thể giúp việc lưu trữ phù hợp với các mô hình kinh doanh khác nhau.

Bất kể khách hàng phát triển theo mô hình kinh doanh nào, bất kể khi nào khách hàng chọn tạm dừng quá trình, Huawei Storage đều có thể giải quyết vấn đề đó tốt hơn.

3. Khả năng phản hồi nâng cao để đáp ứng nhu cầu thời gian thực của các ứng dụng mô hình lớn

Sau khi giai đoạn đào tạo hoàn tất, Huawei Storage cần đáp ứng các nhu cầu nghiêm ngặt về phản hồi dữ liệu trong giai đoạn ứng dụng.

Hiện tại, ở giai đoạn ứng dụng mô hình lớn, nhờ nền tảng kiến thức vectơ tích hợp (lưu trữ kiến thức ngành dưới dạng vectơ), QPS lưu trữ của Huawei đã đạt hơn 250.000 và có thể đạt được phản hồi ở mức mili giây. Một mặt, nó có thể tăng tốc độ suy luận, khiến mức tiêu thụ tài nguyên GPU trong quá trình ứng dụng giảm đi đáng kể, tiết kiệm chi phí triển khai một cách hiệu quả - hiện tại nhiều mô hình lớn tiêu thụ tài nguyên rất lớn trong giai đoạn ứng dụng mở và một số công ty bị choáng ngợp; mặt khác , "từ điển bách khoa toàn thư" làm cho các mô hình lớn trở nên chính xác hơn Kiến thức ngành đóng vai trò hỗ trợ quan trọng trong việc giảm sự xuất hiện của ảo giác AI và có thể cải thiện đáng kể độ chính xác của lý luận.

4. Đổi mới về kiến trúc đảm bảo tính ổn định và độ tin cậy của toàn bộ hệ thống

Yêu cầu cuối cùng và cơ bản nhất đối với việc lưu trữ là dù có đặc điểm gì thì nó cũng phải đảm bảo cấu trúc tổng thể ổn định và đáng tin cậy mà không gây ra vấn đề về bảo mật hoặc “rơi khỏi chuỗi”.

Quá trình giải quyết một loạt các yêu cầu về điểm yếu dữ liệu mô hình lớn của Huawei Storage cũng đã làm tăng độ phức tạp của các giải pháp và hệ thống lưu trữ lên một mức độ nhất định. Tuy nhiên, đồng thời, Huawei đã không hy sinh độ tin cậy của hệ thống. Kiến trúc AA, Nó có thể đạt được 5 lớp bảo vệ toàn diện và 6 lớp có độ tin cậy cực cao.

Do đó, độ tin cậy của dữ liệu và độ ổn định trong quá trình huấn luyện của các mô hình lớn được đảm bảo từ đầu đến cuối.

Người chế tạo bánh xe, người đi đường dài trước

Bộ lưu trữ của Huawei có thể giải quyết các điểm yếu của dữ liệu mô hình lớn. Nguyên nhân cốt lõi nằm ở việc khám phá đổi mới lâu dài trong bộ lưu trữ.

Kiến trúc tách CNC của OceanStor A800 tận dụng sự đổi mới công nghệ tiên tiến của ngành về đọc và ghi dữ liệu trực tiếp vào đĩa, cho phép mặt phẳng dữ liệu được kết nối trực tiếp với đĩa và tách khỏi mặt phẳng điều khiển để đạt được IO trực tiếp, từ đó giảm hoạt động của CPU trong quá trình đọc và ghi dữ liệu, cải thiện đáng kể hiệu suất lưu trữ.

Trên thực tế, Huawei đã nỗ lực về mặt công nghệ trong lĩnh vực lưu trữ trong một thời gian dài và đạt được nhiều cải tiến tiên tiến tương tự.

Hiện tại, bộ lưu trữ Huawei OceanStor có 12 trung tâm R&D trên toàn thế giới, hơn 4.000 nhân viên R&D và hơn 3.000 bằng sáng chế. Các sản phẩm của công ty liên quan đến nhiều lĩnh vực như giải pháp lưu trữ NAS hiệu suất cao, giải pháp lưu trữ chống ransomware, giải pháp lưu trữ container và ảo hóa trung tâm dữ liệu. , đã nhận được sự hoan nghênh rộng rãi.

Tại hơn 150 quốc gia trên thế giới, bộ lưu trữ Huawei đã phục vụ hơn 25.000 khách hàng bao gồm các nhà khai thác, tài chính, chính phủ, năng lượng, y tế, sản xuất, vận tải và các ngành công nghiệp khác.

Có thể nói, khả năng lưu trữ phù hợp với sự phát triển giá trị của các thành phần dữ liệu và nhu cầu đổi mới của các mẫu lớn là kết quả tất yếu của quá trình làm việc chăm chỉ lâu dài của Huawei trên con đường lưu trữ - bộ lưu trữ Huawei đã làm rất tốt trong việc đáp ứng dữ liệu nhu cầu của nhiều lĩnh vực (không chỉ các mô hình quy mô lớn) mang lại sự chuẩn bị cho khả năng chịu lực và sức mạnh tổng hợp mạnh mẽ.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích

Phần thưởng
1
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
1/3
1Simple Earn Annual Rate 24.4%
40k Phổ biến
2Gate Launchpad List IKA
42k Phổ biến
3ETH Trading Volume Surges
44k Phổ biến
4Gate ETH 10th Anniversary Celebration
23k Phổ biến
5Trump’s AI Strategy
18k Phổ biến

Ghim

sơ đồ trang web