Thường có ảo tưởng rằng CPU Intel bán chạy và gán chúng cho một công ty phần cứng thành công, trong khi trên thực tế, sự thống trị của Intel đối với bộ xử lý máy tính để bàn là kiến trúc X86, ra đời vào năm 1978.
Ảo ảnh tương tự cũng được tìm thấy ở Nvidia.
Lý do NVIDIA có thể độc quyền thị trường chip đào tạo trí tuệ nhân tạo, kiến trúc CUDA chắc chắn là một trong những người hùng đằng sau hậu trường.
Kiến trúc này, ra đời vào năm 2006, đã tham gia vào tất cả các lĩnh vực của máy tính và gần như đã được định hình thành hình dạng của NVIDIA. 80% nghiên cứu về hàng không vũ trụ, nghiên cứu khoa học sinh học, mô phỏng cơ học và chất lỏng, và thăm dò năng lượng được thực hiện trên cơ sở CUDA.
Trong lĩnh vực AI nóng nhất, hầu hết các nhà sản xuất lớn đều đang chuẩn bị cho kế hoạch B: Google, Amazon, Huawei, Microsoft, OpenAI, Baidu... Không ai muốn tương lai của mình nằm trong tay người khác.
Cơ quan tư vấn dịch vụ kinh doanh Dealroom.co công bố một bộ dữ liệu, trong làn sóng sóng nhiệt AI này, Hoa Kỳ đã thu được 89% đầu tư và tài chính toàn cầu, và trong đầu tư và tài trợ chip AI, đầu tư và tài chính chip AI của Trung Quốc đứng đầu thế giới, hơn gấp đôi so với Hoa Kỳ.
Điều đó có nghĩa là, mặc dù có nhiều sự khác biệt trong phương pháp và giai đoạn phát triển của các mô hình lớn của các công ty Trung Quốc và Mỹ, nhưng mọi người đều đặc biệt nhất quán trong việc kiểm soát sức mạnh tính toán.
Tại sao CUDA có phép thuật này? **
Năm 2003, để cạnh tranh với Intel, hãng đã giới thiệu CPU 4 lõi, NVIDIA bắt đầu phát triển công nghệ kiến trúc thiết bị điện toán thống nhất, hay CUDA.
Mục đích ban đầu của CUDA là thêm một giao diện lập trình dễ sử dụng vào GPU, để các nhà phát triển không phải học các ngôn ngữ đổ bóng phức tạp hoặc xử lý đồ họa nguyên thủy. Ý tưởng ban đầu của Nvidia là cung cấp cho các nhà phát triển trò chơi một ứng dụng trong lĩnh vực điện toán đồ họa, đó là cái mà Huang gọi là "làm cho đồ họa có thể lập trình được".
Tuy nhiên, kể từ khi CUDA ra mắt, nó đã không thể tìm thấy các ứng dụng chính và thiếu hỗ trợ khách hàng quan trọng. Và NVIDIA cũng phải chi rất nhiều tiền để phát triển ứng dụng, duy trì dịch vụ, quảng bá và tiếp thị, và đến năm 2008 gặp bão tài chính, doanh thu của Nvidia giảm mạnh với doanh số card đồ họa kém, giá cổ phiếu từng giảm xuống chỉ còn 1,50 USD, tồi tệ hơn thời điểm tồi tệ nhất của AMD.
Mãi đến năm 2012, hai sinh viên Hinton mới sử dụng GPU của NVIDIA để cạnh tranh về tốc độ nhận dạng hình ảnh có tên ImageNet. Họ đã sử dụng card đồ họa GTX580 và được đào tạo với công nghệ CUDA, và kết quả nhanh hơn hàng chục lần so với vị trí thứ hai, và độ chính xác cao hơn 10% so với vị trí thứ hai.
Không chỉ bản thân mô hình ImageNet đã gây sốc cho ngành công nghiệp. Mạng lưới thần kinh này, đòi hỏi 14 triệu hình ảnh và tổng cộng 262 triệu tỷ phép toán dấu phẩy động, chỉ sử dụng bốn GTX 580 trong một tuần đào tạo. Để tham khảo, Google Cat đã sử dụng 10 triệu hình ảnh, 16.000 CPU và 1.000 máy tính.
Cuộc thi này không chỉ là bước ngoặt lịch sử của AI, mà còn mở ra bước đột phá cho NVIDIA. NVIDIA bắt đầu hợp tác với ngành công nghiệp để thúc đẩy hệ sinh thái AI, thúc đẩy các khung AI nguồn mở và hợp tác với Google, Facebook và các công ty khác để thúc đẩy sự phát triển của các công nghệ AI như TensorFlow.
Điều này tương đương với việc hoàn thành bước thứ hai mà Huang nói, "mở GPU để lập trình cho tất cả mọi thứ".
Khi giá trị sức mạnh tính toán của GPU được phát hiện, các nhà sản xuất lớn cũng bất ngờ thức tỉnh trước thực tế rằng CUDA, thứ mà NVIDIA đã lặp đi lặp lại và mở đường trong vài năm, đã trở thành một bức tường cao mà AI không thể tránh khỏi.
Để xây dựng hệ sinh thái CUDA, NVIDIA cung cấp cho các nhà phát triển vô số thư viện và công cụ, chẳng hạn như cuDNN, cuBLAS và TensorRT, v.v., thuận tiện cho các nhà phát triển thực hiện học sâu, đại số tuyến tính và tăng tốc suy luận và các tác vụ khác. Ngoài ra, NVIDIA cung cấp một chuỗi công cụ phát triển hoàn chỉnh bao gồm trình biên dịch và tối ưu hóa CUDA, giúp lập trình GPU và tối ưu hóa hiệu suất dễ dàng hơn cho các nhà phát triển.
Đồng thời, NVIDIA cũng hợp tác chặt chẽ với nhiều framework deep learning phổ biến như TensorFlow, PyTorch và MXNet, cung cấp cho CUDA những lợi thế đáng kể trong các tác vụ deep learning.
Sự cống hiến này để "giúp đỡ con ngựa và cho nó cưỡi" cho phép NVIDIA tăng gấp đôi số lượng nhà phát triển trong hệ sinh thái CUDA chỉ trong hai năm rưỡi.
Trong thập kỷ qua, NVIDIA đã quảng bá các khóa học giảng dạy của CUDA đến hơn 350 trường đại học, với các nhà phát triển chuyên nghiệp và chuyên gia tên miền trên nền tảng đã hỗ trợ phong phú cho các ứng dụng CUDA bằng cách chia sẻ kinh nghiệm và trả lời các câu hỏi khó.
Quan trọng hơn, NVIDIA biết rằng khiếm khuyết của phần cứng như một con hào là không có sự dính dính của người dùng, vì vậy nó gói phần cứng với phần mềm, kết xuất GPU để sử dụng CUDA, AI giảm nhiễu để sử dụng OptiX, máy tính lái xe tự động cần CUDA...
Mặc dù NVIDIA hiện đang độc quyền 90% thị trường điện toán AI với GPU + NVlink + CUDA, nhưng có nhiều hơn một vết nứt trong đế chế.
Vết nứt
Các nhà sản xuất AI đã phải chịu đựng CUDA trong một thời gian dài và nó không đáng báo động.
Điều kỳ diệu của CUDA là nó nằm ở vị trí quan trọng của sự kết hợp giữa phần mềm và phần cứng, là nền tảng của toàn bộ hệ sinh thái cho phần mềm và rất khó để các đối thủ cạnh tranh vượt qua CUDA để tương thích với hệ sinh thái của NVIDIA; Đối với phần cứng, thiết kế của CUDA về cơ bản là một phần mềm trừu tượng dưới dạng phần cứng NVIDIA và về cơ bản mỗi khái niệm cốt lõi tương ứng với khái niệm phần cứng của GPU.
Sau đó, đối với các đối thủ cạnh tranh, chỉ còn hai lựa chọn:
1 Bỏ qua CUDA và xây dựng lại một hệ sinh thái phần mềm, đòi hỏi phải đối mặt với thách thức rất lớn về mức độ gắn bó của người dùng NVIDIA;
2 Tương thích với CUDA, nhưng cũng phải đối mặt với hai vấn đề, một là nếu tuyến phần cứng của bạn không phù hợp với NVIDIA, thì có thể đạt được sự không hiệu quả và không thoải mái, và hai là CUDA sẽ theo sự phát triển của các đặc điểm phần cứng NVIDIA và khả năng tương thích chỉ có thể chọn tuân theo.
Nhưng để thoát khỏi sự kìm kẹp của Nvidia, cả hai lựa chọn đã được thử.
Vào năm 2016, AMD đã ra mắt ROCm, một hệ sinh thái GPU dựa trên các dự án nguồn mở, cung cấp các công cụ HIP hoàn toàn tương thích với CUDA, đây là một cách để đi theo lộ trình.
Tuy nhiên, do thiếu tài nguyên thư viện chuỗi công cụ và chi phí phát triển và tương thích lặp lại cao, hệ sinh thái ROCm rất khó phát triển. Trên Github, hơn 32.600 nhà phát triển đóng góp cho kho lưu trữ gói CUDA, trong khi ROCm có ít hơn 600.
Khó khăn khi đi theo lộ trình CUDA tương thích với NVIDIA là tốc độ lặp lại cập nhật của nó không bao giờ có thể theo kịp CUDA và rất khó để đạt được khả năng tương thích hoàn toàn:
1 lần lặp luôn chậm hơn một bước: GPU NVIDIA lặp nhanh trên vi kiến trúc và tập lệnh, và nhiều nơi trong ngăn xếp phần mềm phía trên cũng phải thực hiện cập nhật tính năng tương ứng. Nhưng AMD không thể biết lộ trình sản phẩm của NVIDIA và các bản cập nhật phần mềm sẽ luôn chậm hơn NVIDIA một bước. Ví dụ, AMD có thể vừa công bố hỗ trợ cho CUDA11, nhưng NVIDIA đã ra mắt CUDA12.
2 Khó khăn trong việc tương thích hoàn toàn sẽ làm tăng khối lượng công việc của các nhà phát triển: Bản thân các phần mềm lớn như CUDA rất phức tạp, và AMD cần đầu tư rất nhiều nhân lực và vật lực trong vài năm hoặc thậm chí hơn một thập kỷ để bắt kịp. Bởi vì có sự khác biệt chức năng không thể tránh khỏi, nếu khả năng tương thích không được thực hiện tốt, nó sẽ ảnh hưởng đến hiệu suất (mặc dù 99% là tương tự, nhưng việc giải quyết 1% khác biệt còn lại có thể tiêu tốn 99% thời gian của nhà phát triển).
Cũng có những công ty chọn cách bỏ qua CUDA, chẳng hạn như Modular, được thành lập vào tháng 1/2022.
Ý tưởng của Modular là giữ thanh càng thấp càng tốt, nhưng nó giống như một cuộc tấn công bất ngờ. Nó đề xuất một công cụ AI "để cải thiện hiệu suất của các mô hình trí tuệ nhân tạo" để giải quyết vấn đề rằng "các ngăn xếp ứng dụng AI hiện tại thường được kết hợp với phần cứng và phần mềm cụ thể" thông qua cách tiếp cận "mô-đun".
Để đi kèm với công cụ AI này, Modular cũng đã phát triển ngôn ngữ lập trình mã nguồn mở Mojo. Bạn có thể coi nó như một ngôn ngữ lập trình "được xây dựng cho AI", Modular sử dụng nó để phát triển các công cụ tích hợp vào công cụ AI nói trên, đồng thời tích hợp liền mạch với Python và giảm chi phí học tập.
Tuy nhiên, vấn đề với Modular là tầm nhìn của nó về "các công cụ phát triển tất cả các nền tảng" là quá lý tưởng.
Mặc dù nó mang danh hiệu "vượt ra ngoài Python" và được xác nhận bởi danh tiếng của Chris Lattner, Mojo, như một ngôn ngữ mới, cần được thử nghiệm bởi nhiều nhà phát triển về mặt quảng bá.
Các công cụ AI phải đối mặt với nhiều vấn đề hơn, không chỉ với các thỏa thuận với nhiều công ty phần cứng, mà còn với khả năng tương thích giữa các nền tảng. Đây đều là những nhiệm vụ đòi hỏi thời gian dài trau chuốt để hoàn thành, và Nvidia sẽ phát triển ra sao vào thời điểm đó, tôi sợ sẽ không ai biết.
** Người thách thức Huawei **
Ngày 17/10, Mỹ đã cập nhật các quy tắc kiểm soát xuất khẩu đối với chip AI, ngăn các công ty như NVIDIA xuất khẩu chip AI tiên tiến sang Trung Quốc. Theo quy định mới nhất, xuất khẩu chip của NVIDIA sang Trung Quốc, bao gồm A800 và H800, sẽ bị ảnh hưởng.
Trước đó, sau khi hai mẫu NVIDIA A100 và H100 bị hạn chế xuất khẩu sang Trung Quốc, "phiên bản thiến" A800 và H800 dành riêng cho Trung Quốc được thiết kế để tuân thủ các quy định. Intel cũng đã ra mắt chip AI Gaudi2 cho thị trường Trung Quốc. Bây giờ có vẻ như các công ty sẽ phải điều chỉnh phản ứng của họ theo vòng cấm xuất khẩu mới.
Vào tháng 8 năm nay, Mate60Pro được trang bị chip Kirin 9000S do Huawei tự phát triển bất ngờ được bán ra, điều này ngay lập tức gây ra một làn sóng dư luận lớn, khiến một tin tức khác gần như cùng lúc nhanh chóng bị nhấn chìm.
Liu Qingfeng, chủ tịch của iFLYTEK, đã đưa ra một tuyên bố hiếm hoi tại một sự kiện công khai, nói rằng GPU của Huawei có thể so sánh với NVIDIA A100, nhưng chỉ khi Huawei gửi một nhóm làm việc đặc biệt để tối ưu hóa công việc của iFLYTEK.
Những tuyên bố đột ngột như vậy thường có ý định sâu sắc, và mặc dù họ không có khả năng dự đoán nó, nhưng tiện ích của chúng vẫn là phản ứng với lệnh cấm chip hai tháng sau đó.
GPU Huawei, nền tảng phần mềm và phần cứng full-stack Ascend AI, bao gồm 5 lớp, đó là phần cứng dòng Atlas, kiến trúc điện toán không đồng nhất, khung AI, hỗ trợ ứng dụng và ứng dụng công nghiệp từ dưới lên.
Về cơ bản, có thể hiểu rằng Huawei đã thực hiện một bộ thay thế cho NVIDIA, lớp chip là Ascend 910 và Ascend 310, và kiến trúc điện toán không đồng nhất (CANN) đánh giá lớp phần mềm lõi NVIDIA CUDA + CuDNN.
Tất nhiên, khoảng cách không thể vắng mặt, và một số học viên có liên quan đã tóm tắt hai điểm:
1 Hiệu suất của thẻ đơn tụt lại phía sau, và vẫn còn khoảng cách giữa Ascend 910 và A100, nhưng chiến thắng là giá rẻ và số tiền có thể xếp chồng lên nhau, và khoảng cách tổng thể không lớn sau khi đạt đến quy mô cụm;
2 Nhược điểm về sinh thái vẫn tồn tại, nhưng Huawei cũng đang cố gắng bắt kịp, ví dụ, thông qua sự hợp tác giữa cộng đồng PyTorch và Ascend, PyTorch phiên bản 2.1 đã hỗ trợ đồng bộ Ascend NPU, có nghĩa là các nhà phát triển có thể trực tiếp phát triển các mô hình dựa trên Ascend trên PyTorch 2.1.
Hiện tại, Huawei Ascend chủ yếu chạy các sản phẩm mô hình lớn vòng kín của Huawei và bất kỳ mô hình công cộng nào cũng phải được Huawei tối ưu hóa sâu để chạy trên nền tảng của Huawei và phần công việc tối ưu hóa này phụ thuộc rất nhiều vào Huawei.
Trong bối cảnh hiện nay, Ascend có ý nghĩa đặc biệt.
Vào tháng 5 năm nay, Zhang Dixuan, Chủ tịch mảng kinh doanh điện toán Ascend của Huawei, tiết lộ rằng nền tảng phần mềm và phần cứng cơ bản "Ascend AI" đã ươm tạo và thích nghi với hơn 30 mô hình lớn chính thống, và hơn một nửa số mô hình lớn bản địa của Trung Quốc dựa trên nền tảng phần mềm và phần cứng cơ bản "Ascend AI", bao gồm dòng Pengcheng, dòng Zidong và dòng HUAWEI CLOUD Pangu. Vào tháng 8 năm nay, Baidu cũng chính thức công bố sự thích ứng của Ascend AI với mô hình mái chèo bay + Wen Xin.
Và theo một bức ảnh lan truyền trên Internet, Trung tâm siêu máy tính thông minh Trung Quốc về cơ bản là Ascend ngoại trừ không được tiết lộ, và người ta nói rằng sau vòng hạn chế chip mới, 30-40% năng lực sản xuất chip của Huawei sẽ được dành cho cụm Ascend, và phần còn lại là Kirin.
Lời kết
Năm 2006, khi NVIDIA đang mở ra câu chuyện lớn của mình, không ai nghĩ CUDA sẽ là một sản phẩm mang tính cách mạng và Huang đã phải thuyết phục ban giám đốc đầu tư 500 triệu đô la mỗi năm để đánh cược vào thời gian hoàn vốn không xác định là hơn 10 năm và doanh thu của NVIDIA chỉ là 3 tỷ đô la trong năm đó.
Nhưng trong tất cả các câu chuyện kinh doanh sử dụng công nghệ và đổi mới làm từ khóa, luôn có những người đạt được thành công lớn vì họ kiên trì tuân thủ các mục tiêu dài hạn, và NVIDIA và Huawei là một trong những người giỏi nhất.
Tài nguyên
[1] "Liềm" của NVIDIA không phải là chip AI, một phòng thí nghiệm dựa trên silicon
[2] Để trở thành "người thay thế NVIDIA", các nhà sản xuất mô hình lớn đã mở cuốn sách và bàn ăn nhỏ tạo ra quần áo
[3] Chỉ 1 năm sau khi thành lập, startup ngôi sao AI này muốn thách thức NVIDIA và magiê kenet
[4] Một vết nứt trong Đế chế Nvidia, Viện nghiên cứu Enukawa
[5] Mỹ có kế hoạch đẩy mạnh xuất khẩu chip sang Trung Quốc, Huawei dẫn đầu sự gia tăng sản xuất trong nước và West China Securities
[6] Báo cáo chuyên sâu về ngành công nghiệp AIGC (11): Sức mạnh điện toán Huawei Spin-off: Cực thứ hai của sức mạnh điện toán AI toàn cầu, Chứng khoán Tây Trung Quốc
[7] Báo cáo đặc biệt ngành AIGC 2023: Bốn tuyến kỹ thuật chính của chip AI, Cambrian Copy NVIDIA, Shenwan Hongyuan
[8] Cách CUDA đạt được NVIDIA: Bước đột phá lớn trong AI, Cộng đồng đám mây Tencent
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
NVIDIA: Empire Rift từng cái một
Nguồn gốc: Decode
Thường có ảo tưởng rằng CPU Intel bán chạy và gán chúng cho một công ty phần cứng thành công, trong khi trên thực tế, sự thống trị của Intel đối với bộ xử lý máy tính để bàn là kiến trúc X86, ra đời vào năm 1978.
Ảo ảnh tương tự cũng được tìm thấy ở Nvidia.
Lý do NVIDIA có thể độc quyền thị trường chip đào tạo trí tuệ nhân tạo, kiến trúc CUDA chắc chắn là một trong những người hùng đằng sau hậu trường.
Kiến trúc này, ra đời vào năm 2006, đã tham gia vào tất cả các lĩnh vực của máy tính và gần như đã được định hình thành hình dạng của NVIDIA. 80% nghiên cứu về hàng không vũ trụ, nghiên cứu khoa học sinh học, mô phỏng cơ học và chất lỏng, và thăm dò năng lượng được thực hiện trên cơ sở CUDA.
Trong lĩnh vực AI nóng nhất, hầu hết các nhà sản xuất lớn đều đang chuẩn bị cho kế hoạch B: Google, Amazon, Huawei, Microsoft, OpenAI, Baidu... Không ai muốn tương lai của mình nằm trong tay người khác.
Cơ quan tư vấn dịch vụ kinh doanh Dealroom.co công bố một bộ dữ liệu, trong làn sóng sóng nhiệt AI này, Hoa Kỳ đã thu được 89% đầu tư và tài chính toàn cầu, và trong đầu tư và tài trợ chip AI, đầu tư và tài chính chip AI của Trung Quốc đứng đầu thế giới, hơn gấp đôi so với Hoa Kỳ.
Điều đó có nghĩa là, mặc dù có nhiều sự khác biệt trong phương pháp và giai đoạn phát triển của các mô hình lớn của các công ty Trung Quốc và Mỹ, nhưng mọi người đều đặc biệt nhất quán trong việc kiểm soát sức mạnh tính toán.
Tại sao CUDA có phép thuật này? **
Năm 2003, để cạnh tranh với Intel, hãng đã giới thiệu CPU 4 lõi, NVIDIA bắt đầu phát triển công nghệ kiến trúc thiết bị điện toán thống nhất, hay CUDA.
Mục đích ban đầu của CUDA là thêm một giao diện lập trình dễ sử dụng vào GPU, để các nhà phát triển không phải học các ngôn ngữ đổ bóng phức tạp hoặc xử lý đồ họa nguyên thủy. Ý tưởng ban đầu của Nvidia là cung cấp cho các nhà phát triển trò chơi một ứng dụng trong lĩnh vực điện toán đồ họa, đó là cái mà Huang gọi là "làm cho đồ họa có thể lập trình được".
Tuy nhiên, kể từ khi CUDA ra mắt, nó đã không thể tìm thấy các ứng dụng chính và thiếu hỗ trợ khách hàng quan trọng. Và NVIDIA cũng phải chi rất nhiều tiền để phát triển ứng dụng, duy trì dịch vụ, quảng bá và tiếp thị, và đến năm 2008 gặp bão tài chính, doanh thu của Nvidia giảm mạnh với doanh số card đồ họa kém, giá cổ phiếu từng giảm xuống chỉ còn 1,50 USD, tồi tệ hơn thời điểm tồi tệ nhất của AMD.
Mãi đến năm 2012, hai sinh viên Hinton mới sử dụng GPU của NVIDIA để cạnh tranh về tốc độ nhận dạng hình ảnh có tên ImageNet. Họ đã sử dụng card đồ họa GTX580 và được đào tạo với công nghệ CUDA, và kết quả nhanh hơn hàng chục lần so với vị trí thứ hai, và độ chính xác cao hơn 10% so với vị trí thứ hai.
Cuộc thi này không chỉ là bước ngoặt lịch sử của AI, mà còn mở ra bước đột phá cho NVIDIA. NVIDIA bắt đầu hợp tác với ngành công nghiệp để thúc đẩy hệ sinh thái AI, thúc đẩy các khung AI nguồn mở và hợp tác với Google, Facebook và các công ty khác để thúc đẩy sự phát triển của các công nghệ AI như TensorFlow.
Điều này tương đương với việc hoàn thành bước thứ hai mà Huang nói, "mở GPU để lập trình cho tất cả mọi thứ".
Khi giá trị sức mạnh tính toán của GPU được phát hiện, các nhà sản xuất lớn cũng bất ngờ thức tỉnh trước thực tế rằng CUDA, thứ mà NVIDIA đã lặp đi lặp lại và mở đường trong vài năm, đã trở thành một bức tường cao mà AI không thể tránh khỏi.
Để xây dựng hệ sinh thái CUDA, NVIDIA cung cấp cho các nhà phát triển vô số thư viện và công cụ, chẳng hạn như cuDNN, cuBLAS và TensorRT, v.v., thuận tiện cho các nhà phát triển thực hiện học sâu, đại số tuyến tính và tăng tốc suy luận và các tác vụ khác. Ngoài ra, NVIDIA cung cấp một chuỗi công cụ phát triển hoàn chỉnh bao gồm trình biên dịch và tối ưu hóa CUDA, giúp lập trình GPU và tối ưu hóa hiệu suất dễ dàng hơn cho các nhà phát triển.
Đồng thời, NVIDIA cũng hợp tác chặt chẽ với nhiều framework deep learning phổ biến như TensorFlow, PyTorch và MXNet, cung cấp cho CUDA những lợi thế đáng kể trong các tác vụ deep learning.
Sự cống hiến này để "giúp đỡ con ngựa và cho nó cưỡi" cho phép NVIDIA tăng gấp đôi số lượng nhà phát triển trong hệ sinh thái CUDA chỉ trong hai năm rưỡi.
Trong thập kỷ qua, NVIDIA đã quảng bá các khóa học giảng dạy của CUDA đến hơn 350 trường đại học, với các nhà phát triển chuyên nghiệp và chuyên gia tên miền trên nền tảng đã hỗ trợ phong phú cho các ứng dụng CUDA bằng cách chia sẻ kinh nghiệm và trả lời các câu hỏi khó.
Quan trọng hơn, NVIDIA biết rằng khiếm khuyết của phần cứng như một con hào là không có sự dính dính của người dùng, vì vậy nó gói phần cứng với phần mềm, kết xuất GPU để sử dụng CUDA, AI giảm nhiễu để sử dụng OptiX, máy tính lái xe tự động cần CUDA...
Mặc dù NVIDIA hiện đang độc quyền 90% thị trường điện toán AI với GPU + NVlink + CUDA, nhưng có nhiều hơn một vết nứt trong đế chế.
Vết nứt
Các nhà sản xuất AI đã phải chịu đựng CUDA trong một thời gian dài và nó không đáng báo động.
Điều kỳ diệu của CUDA là nó nằm ở vị trí quan trọng của sự kết hợp giữa phần mềm và phần cứng, là nền tảng của toàn bộ hệ sinh thái cho phần mềm và rất khó để các đối thủ cạnh tranh vượt qua CUDA để tương thích với hệ sinh thái của NVIDIA; Đối với phần cứng, thiết kế của CUDA về cơ bản là một phần mềm trừu tượng dưới dạng phần cứng NVIDIA và về cơ bản mỗi khái niệm cốt lõi tương ứng với khái niệm phần cứng của GPU.
Sau đó, đối với các đối thủ cạnh tranh, chỉ còn hai lựa chọn:
1 Bỏ qua CUDA và xây dựng lại một hệ sinh thái phần mềm, đòi hỏi phải đối mặt với thách thức rất lớn về mức độ gắn bó của người dùng NVIDIA;
2 Tương thích với CUDA, nhưng cũng phải đối mặt với hai vấn đề, một là nếu tuyến phần cứng của bạn không phù hợp với NVIDIA, thì có thể đạt được sự không hiệu quả và không thoải mái, và hai là CUDA sẽ theo sự phát triển của các đặc điểm phần cứng NVIDIA và khả năng tương thích chỉ có thể chọn tuân theo.
Nhưng để thoát khỏi sự kìm kẹp của Nvidia, cả hai lựa chọn đã được thử.
Vào năm 2016, AMD đã ra mắt ROCm, một hệ sinh thái GPU dựa trên các dự án nguồn mở, cung cấp các công cụ HIP hoàn toàn tương thích với CUDA, đây là một cách để đi theo lộ trình.
Tuy nhiên, do thiếu tài nguyên thư viện chuỗi công cụ và chi phí phát triển và tương thích lặp lại cao, hệ sinh thái ROCm rất khó phát triển. Trên Github, hơn 32.600 nhà phát triển đóng góp cho kho lưu trữ gói CUDA, trong khi ROCm có ít hơn 600.
Khó khăn khi đi theo lộ trình CUDA tương thích với NVIDIA là tốc độ lặp lại cập nhật của nó không bao giờ có thể theo kịp CUDA và rất khó để đạt được khả năng tương thích hoàn toàn:
1 lần lặp luôn chậm hơn một bước: GPU NVIDIA lặp nhanh trên vi kiến trúc và tập lệnh, và nhiều nơi trong ngăn xếp phần mềm phía trên cũng phải thực hiện cập nhật tính năng tương ứng. Nhưng AMD không thể biết lộ trình sản phẩm của NVIDIA và các bản cập nhật phần mềm sẽ luôn chậm hơn NVIDIA một bước. Ví dụ, AMD có thể vừa công bố hỗ trợ cho CUDA11, nhưng NVIDIA đã ra mắt CUDA12.
2 Khó khăn trong việc tương thích hoàn toàn sẽ làm tăng khối lượng công việc của các nhà phát triển: Bản thân các phần mềm lớn như CUDA rất phức tạp, và AMD cần đầu tư rất nhiều nhân lực và vật lực trong vài năm hoặc thậm chí hơn một thập kỷ để bắt kịp. Bởi vì có sự khác biệt chức năng không thể tránh khỏi, nếu khả năng tương thích không được thực hiện tốt, nó sẽ ảnh hưởng đến hiệu suất (mặc dù 99% là tương tự, nhưng việc giải quyết 1% khác biệt còn lại có thể tiêu tốn 99% thời gian của nhà phát triển).
Cũng có những công ty chọn cách bỏ qua CUDA, chẳng hạn như Modular, được thành lập vào tháng 1/2022.
Để đi kèm với công cụ AI này, Modular cũng đã phát triển ngôn ngữ lập trình mã nguồn mở Mojo. Bạn có thể coi nó như một ngôn ngữ lập trình "được xây dựng cho AI", Modular sử dụng nó để phát triển các công cụ tích hợp vào công cụ AI nói trên, đồng thời tích hợp liền mạch với Python và giảm chi phí học tập.
Tuy nhiên, vấn đề với Modular là tầm nhìn của nó về "các công cụ phát triển tất cả các nền tảng" là quá lý tưởng.
Mặc dù nó mang danh hiệu "vượt ra ngoài Python" và được xác nhận bởi danh tiếng của Chris Lattner, Mojo, như một ngôn ngữ mới, cần được thử nghiệm bởi nhiều nhà phát triển về mặt quảng bá.
Các công cụ AI phải đối mặt với nhiều vấn đề hơn, không chỉ với các thỏa thuận với nhiều công ty phần cứng, mà còn với khả năng tương thích giữa các nền tảng. Đây đều là những nhiệm vụ đòi hỏi thời gian dài trau chuốt để hoàn thành, và Nvidia sẽ phát triển ra sao vào thời điểm đó, tôi sợ sẽ không ai biết.
** Người thách thức Huawei **
Ngày 17/10, Mỹ đã cập nhật các quy tắc kiểm soát xuất khẩu đối với chip AI, ngăn các công ty như NVIDIA xuất khẩu chip AI tiên tiến sang Trung Quốc. Theo quy định mới nhất, xuất khẩu chip của NVIDIA sang Trung Quốc, bao gồm A800 và H800, sẽ bị ảnh hưởng.
Trước đó, sau khi hai mẫu NVIDIA A100 và H100 bị hạn chế xuất khẩu sang Trung Quốc, "phiên bản thiến" A800 và H800 dành riêng cho Trung Quốc được thiết kế để tuân thủ các quy định. Intel cũng đã ra mắt chip AI Gaudi2 cho thị trường Trung Quốc. Bây giờ có vẻ như các công ty sẽ phải điều chỉnh phản ứng của họ theo vòng cấm xuất khẩu mới.
Vào tháng 8 năm nay, Mate60Pro được trang bị chip Kirin 9000S do Huawei tự phát triển bất ngờ được bán ra, điều này ngay lập tức gây ra một làn sóng dư luận lớn, khiến một tin tức khác gần như cùng lúc nhanh chóng bị nhấn chìm.
Liu Qingfeng, chủ tịch của iFLYTEK, đã đưa ra một tuyên bố hiếm hoi tại một sự kiện công khai, nói rằng GPU của Huawei có thể so sánh với NVIDIA A100, nhưng chỉ khi Huawei gửi một nhóm làm việc đặc biệt để tối ưu hóa công việc của iFLYTEK.
Những tuyên bố đột ngột như vậy thường có ý định sâu sắc, và mặc dù họ không có khả năng dự đoán nó, nhưng tiện ích của chúng vẫn là phản ứng với lệnh cấm chip hai tháng sau đó.
GPU Huawei, nền tảng phần mềm và phần cứng full-stack Ascend AI, bao gồm 5 lớp, đó là phần cứng dòng Atlas, kiến trúc điện toán không đồng nhất, khung AI, hỗ trợ ứng dụng và ứng dụng công nghiệp từ dưới lên.
Về cơ bản, có thể hiểu rằng Huawei đã thực hiện một bộ thay thế cho NVIDIA, lớp chip là Ascend 910 và Ascend 310, và kiến trúc điện toán không đồng nhất (CANN) đánh giá lớp phần mềm lõi NVIDIA CUDA + CuDNN.
1 Hiệu suất của thẻ đơn tụt lại phía sau, và vẫn còn khoảng cách giữa Ascend 910 và A100, nhưng chiến thắng là giá rẻ và số tiền có thể xếp chồng lên nhau, và khoảng cách tổng thể không lớn sau khi đạt đến quy mô cụm;
2 Nhược điểm về sinh thái vẫn tồn tại, nhưng Huawei cũng đang cố gắng bắt kịp, ví dụ, thông qua sự hợp tác giữa cộng đồng PyTorch và Ascend, PyTorch phiên bản 2.1 đã hỗ trợ đồng bộ Ascend NPU, có nghĩa là các nhà phát triển có thể trực tiếp phát triển các mô hình dựa trên Ascend trên PyTorch 2.1.
Hiện tại, Huawei Ascend chủ yếu chạy các sản phẩm mô hình lớn vòng kín của Huawei và bất kỳ mô hình công cộng nào cũng phải được Huawei tối ưu hóa sâu để chạy trên nền tảng của Huawei và phần công việc tối ưu hóa này phụ thuộc rất nhiều vào Huawei.
Trong bối cảnh hiện nay, Ascend có ý nghĩa đặc biệt.
Vào tháng 5 năm nay, Zhang Dixuan, Chủ tịch mảng kinh doanh điện toán Ascend của Huawei, tiết lộ rằng nền tảng phần mềm và phần cứng cơ bản "Ascend AI" đã ươm tạo và thích nghi với hơn 30 mô hình lớn chính thống, và hơn một nửa số mô hình lớn bản địa của Trung Quốc dựa trên nền tảng phần mềm và phần cứng cơ bản "Ascend AI", bao gồm dòng Pengcheng, dòng Zidong và dòng HUAWEI CLOUD Pangu. Vào tháng 8 năm nay, Baidu cũng chính thức công bố sự thích ứng của Ascend AI với mô hình mái chèo bay + Wen Xin.
Lời kết
Năm 2006, khi NVIDIA đang mở ra câu chuyện lớn của mình, không ai nghĩ CUDA sẽ là một sản phẩm mang tính cách mạng và Huang đã phải thuyết phục ban giám đốc đầu tư 500 triệu đô la mỗi năm để đánh cược vào thời gian hoàn vốn không xác định là hơn 10 năm và doanh thu của NVIDIA chỉ là 3 tỷ đô la trong năm đó.
Nhưng trong tất cả các câu chuyện kinh doanh sử dụng công nghệ và đổi mới làm từ khóa, luôn có những người đạt được thành công lớn vì họ kiên trì tuân thủ các mục tiêu dài hạn, và NVIDIA và Huawei là một trong những người giỏi nhất.
Tài nguyên
[1] "Liềm" của NVIDIA không phải là chip AI, một phòng thí nghiệm dựa trên silicon
[2] Để trở thành "người thay thế NVIDIA", các nhà sản xuất mô hình lớn đã mở cuốn sách và bàn ăn nhỏ tạo ra quần áo
[3] Chỉ 1 năm sau khi thành lập, startup ngôi sao AI này muốn thách thức NVIDIA và magiê kenet
[4] Một vết nứt trong Đế chế Nvidia, Viện nghiên cứu Enukawa
[5] Mỹ có kế hoạch đẩy mạnh xuất khẩu chip sang Trung Quốc, Huawei dẫn đầu sự gia tăng sản xuất trong nước và West China Securities
[6] Báo cáo chuyên sâu về ngành công nghiệp AIGC (11): Sức mạnh điện toán Huawei Spin-off: Cực thứ hai của sức mạnh điện toán AI toàn cầu, Chứng khoán Tây Trung Quốc
[7] Báo cáo đặc biệt ngành AIGC 2023: Bốn tuyến kỹ thuật chính của chip AI, Cambrian Copy NVIDIA, Shenwan Hongyuan
[8] Cách CUDA đạt được NVIDIA: Bước đột phá lớn trong AI, Cộng đồng đám mây Tencent