Làm thế nào là khó khăn để hạ cánh một mô hình thẳng đứng?

Question

Nguồn gốc: mấy thứ đó trên Internet![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e08b39ed63-dd1a6f-1c6801) Nguồn hình ảnh: Được tạo bởi Unbounded AI‌Hiện trạng của đường đua mô hình quy mô lớn: **Một mặt, các công ty mới thành lập dựa trên các mô hình quy mô lớn mã nguồn mở, mặt khác, các nhà sản xuất lớn liên quan đến các thông số mô hình quy mô lớn khác nhau* *.> Theo thống kê chưa đầy đủ của tổ chức, hiện có 79 mô hình quy mô lớn với quy mô hơn 1 tỷ tham số ở Trung Quốc. Trong quá trình chuyển đổi tham số lớn, một giọng nói khác bắt đầu xuất hiện trên thị trường, "cải tiến tham số mà không có hướng phát triển là vô nghĩa."Vì lý do này, về hướng phát triển, một số mô hình lớn đã được tập trung vào việc áp dụng các lĩnh vực dọc. Dựa trên sự phát triển của hàng nghìn mô hình, cơ sở có thể thay đổi, nhưng nếu bạn nghĩ kỹ về nó, sẽ luôn có người có thể chạy ra khỏi ngành dọc.Đồng thời, trong giai đoạn đầu phát triển, mặc dù các mô hình lớn nguồn đóng có chất lượng tốt hơn và tương đối an toàn, nhưng xét cho cùng, hệ sinh thái mô hình quy mô lớn cần một mức độ chuyển đổi nhất định và nguồn mở thực sự có thể thúc đẩy sự thịnh vượng của mô hình lớn. Từ một góc độ khác, dựa trên nguồn mở, nhiều công ty có tư cách tham gia vào đường đua, nhưng luôn có một số người dễ dàng rơi vào cấp độ đầu tiên - sự thiếu hụt năng lực tính toán.Xét cho cùng, số lượng mô hình lớn đang tăng lên theo cấp số nhân, nhưng nếu nhìn vào số lượng mô hình lớn ngày càng tăng một cách phiến diện, thì ở một mức độ nào đó, chúng ta sẽ bỏ qua những lựa chọn, khó khăn và thậm chí là vấn đề của một số công ty đứng sau mô hình lớn. mô hình Khả năng từ bỏ sau khi lựa chọn.Như chúng ta đã biết, ba yếu tố của trí tuệ nhân tạo là: **sức mạnh tính toán, thuật toán và dữ liệu**. Nguồn mở chỉ ở giai đoạn thuật toán, sau đó các doanh nghiệp cần rất nhiều hỗ trợ về sức mạnh tính toán và đào tạo dữ liệu, chi phí đằng sau điều này là cao.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6f845a3753-dd1a6f-1c6801)## 01 Mô hình dọc, có còn hy vọng cho startup?Trong việc lựa chọn các mô hình lớn nguồn mở, dựa trên lý do chi phí và phát triển tùy chỉnh, không ít doanh nghiệp khởi nghiệp chọn các mô hình tham số nhỏ và chúng thậm chí còn là lựa chọn đầu tiên của các doanh nghiệp đó.**Một là vấn đề chi phí đào tạo trước. **> Guosheng Securities từng ước tính rằng chi phí đào tạo GPT-3 là khoảng 1,4 triệu đô la Mỹ và đối với một số mô hình LLM lớn hơn, chi phí đào tạo là từ 2 triệu đô la Mỹ đến 12 triệu đô la Mỹ.Tính cả tháng 1 năm nay, trung bình có khoảng 13 triệu lượt khách truy cập sử dụng ChatGPT mỗi ngày, nhu cầu chip tương ứng là hơn 30.000 GPU NVIDIA A100. Chi phí đầu tư ban đầu khoảng 800 triệu đô la Mỹ, chi phí điện hàng ngày khoảng 50.000 Đô la Mỹ.Hơn nữa, trước khi đầu tư nhiều tiền, cần có nhiều tài nguyên dữ liệu để hỗ trợ đào tạo mô hình. Một lý do khác cho điều này là vấn đề yêu cầu trước khi đào tạo.Một số người trong nghề cũng bày tỏ quan điểm về điều này: “Bản thân khả năng khái quát hóa của mô hình lớn vẫn bị giới hạn bởi số liệu”.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4eec942c67-dd1a6f-1c6801) Bởi vì một khi dữ liệu chất lượng cao của mô hình lớn được sàng lọc và đào tạo quá ít, vấn đề chất lượng đầu ra của mô hình lớn sẽ rõ ràng và trải nghiệm người dùng sẽ giảm đi rất nhiều về mặt trải nghiệm.Có thể nói rằng trong quá trình đào tạo trước, rất nhiều tiền và thời gian đã được dành cho việc tích lũy dữ liệu.Hơn nữa, trong mô hình quy mô lớn, hầu hết các công ty khởi nghiệp phát triển xung quanh lĩnh vực dọc của ngành, mặc dù nỗ lực tương đối nhỏ nhưng chắc chắn không dễ dàng.Cụ thể, nếu một mô hình lớn muốn thay đổi mô hình kinh doanh của ngành, thì tiêu chí đánh giá đơn giản nhất là mô hình lớn kiểu này có đủ dữ liệu ngành hay không, ví dụ như cần phân tích sản phẩm đen ẩn trong đen tối Chỉ có đủ hiểu biết thì chúng ta mới không bị hàng đen lợi dụng và ở trạng thái an toàn, bị động.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2fd8165013-dd1a6f-1c6801) ** Một tiêu chí khác để đánh giá là chất lượng đầu ra cuối cùng của dữ liệu được xử lý bởi mô hình lớn khi nó đang chạy. **Rốt cuộc, nếu bạn muốn phá vỡ thế độc quyền mô hình dựa trên mô hình nguồn mở, bạn cần tối ưu hóa và cải thiện một lượng lớn dữ liệu, đồng thời đầu tư vào đủ cơ sở hạ tầng.Mô hình mã nguồn mở ngày nay thực sự giống Android hơn trong thời đại Internet, không dễ để các công ty mới thành lập không có lợi thế về kịch bản đổ bộ của các nhà sản xuất lớn và tích lũy dữ liệu phát triển, nhưng vẫn có cơ hội.Trên thực tế, Viện Bồ Đề Đạt Ma từng coi “mô hình hợp tác phát triển lớn nhỏ” là một trong những xu hướng của tương lai.Ngay cả công ty khởi nghiệp Zhuiyi Technology cũng tin rằng "mô hình lớn thẳng đứng là một cơ hội chắc chắn, giống như việc khám phá ra lục địa Mỹ không chỉ có một người."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-93333c8386-dd1a6f-1c6801) Vì vậy, bây giờ chúng ta có thể thấy rằng nhiều công ty khởi nghiệp đã bắt đầu chọn tham gia vào đường đua mô hình quy mô lớn, bao gồm DriveGPT Xuehu Hairuo, Qizhi Kongming và ChatYuan Yuanyu do các công ty khởi nghiệp AI như Momo Zhixing, Innovation Qizhi và Yuanyu Intelligence đưa ra. mô hình lớn.Tuy nhiên, mặc dù không có sản phẩm nội địa nào dành cho C-end, nhưng dựa trên B-end, các nhà sản xuất lớn đã bắt đầu quá trình triển khai ban đầu.Được biết, các nhà sản xuất lớn hiện đang có kế hoạch xuất khẩu các mô hình lớn thông qua đám mây. chi phí của các mô hình lớn.giảm.Vậy, liệu có còn hy vọng cho các công ty khởi nghiệp?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-183a1d49c5-dd1a6f-1c6801)## 02 Trải nghiệm sản phẩm có phù hợp với nhu cầu thị trường?> Theo dự đoán của tạp chí có thẩm quyền "Fast Company", doanh thu của OpenAI vào năm 2023 sẽ đạt 200 triệu đô la Mỹ, bao gồm cả việc cung cấp dịch vụ giao diện dữ liệu API, phí dịch vụ đăng ký robot trò chuyện, v.v.Rõ ràng, có nhu cầu về các mẫu xe lớn trong các ngành công nghiệp khác nhau, nhưng dựa trên những cân nhắc về an toàn và thái độ của B đối với các mẫu xe lớn, hệ số an toàn hiện tại của các mẫu xe lớn còn hạn chế. Do đó, trên cơ sở tương đối cơ bản, các công ty Internet lớn cũng đang ưu tiên cho các cuộc đối thoại có nhu cầu cao, tạo nội dung tài liệu và các kịch bản hỏi đáp, bao gồm đối thoại trong văn phòng cộng tác, tạo tài liệu và nhiều kịch bản khác.Ví dụ: giờ đây, con người chỉ cần nói với AI về thông tin sản phẩm, để AI tự động tạo ra nhiều kiểu và kiểu dáng của kịch bản phân phối sản phẩm, sau đó chỉ định một mỏ neo con người kỹ thuật số để giúp các công ty bán hàng. Theo Baidu, so với phát sóng trực tiếp, phát sóng trực tiếp kỹ thuật số có thể đạt được 7\*24 giờ phát sóng trực tiếp không bị gián đoạn và tỷ lệ chuyển đổi cao gấp đôi so với các phòng phát sóng trực tiếp không người lái.Với cơ sở hạ tầng đám mây là cơ sở cần thiết cho hoạt động kinh doanh quy mô lớn, những gã khổng lồ Internet với điện toán đám mây có những lợi thế nhất định.> Theo dữ liệu theo dõi thị trường IaaS điện toán đám mây toàn cầu năm 2022 do IDC công bố, 10 công ty có thị phần hàng đầu đều là các công ty lớn ở Trung Quốc và Hoa Kỳ, bao gồm Amazon, Google, Microsoft và IBM ở Hoa Kỳ và Ali, Huawei, Tencent và Baidu tại Trung Quốc.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-53326b8418-dd1a6f-1c6801) Mặc dù các tranh chấp về nguồn mở và nguồn đóng của các mô hình lớn sẽ không kết thúc với sự xuất hiện của một hoặc một số sản phẩm, nhưng cần có thêm sự tham gia của các tài năng hàng đầu, lặp lại kỹ thuật và hỗ trợ tài chính.Nhưng so sánh theo chiều ngang, nhiều công ty khởi nghiệp AI cũng thiếu may mắn của công ty khởi nghiệp kỳ lân MiniMax. (Sự khác biệt là MiniMax tập trung vào các mô hình lớn nói chung)Vào ngày 20 tháng 7, Tencent Cloud đã tiết lộ những tiến bộ mới nhất trong việc giúp MiniMax phát triển các mô hình lớn. Hiện tại, Tencent Cloud hỗ trợ các tác vụ ở mức kilocalories của MiniMax chạy ổn định trên Tencent Cloud trong thời gian dài với độ khả dụng 99,9%.Được biết, bắt đầu từ tháng 6 năm 2022, dựa trên các khả năng của sản phẩm như cụm sức mạnh điện toán, đám mây gốc, dữ liệu lớn và bảo mật, Tencent Cloud đã xây dựng kiến trúc đám mây cho MiniMax từ lớp tài nguyên, lớp dữ liệu và lớp doanh nghiệp.Thực tế dường như một lần nữa chứng minh rằng giành được tấm vé vào cửa là bước đầu tiên và bài kiểm tra tiếp theo là khả năng của những người tham gia thị trường trong việc khám phá thương mại hóa và nâng cấp công nghệ. Nói thẳng ra, các công ty khởi nghiệp AI muốn chạy đến cuối đường đua và họ không được bỏ lỡ từng bước.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-82f1a392c9-dd1a6f-1c6801) Ở một mức độ nào đó, các công ty khởi nghiệp không phải là không có lợi thế trong việc phát triển các mô hình lớn.Mặc dù một số công ty Internet lớn đã nhận ra các kịch bản ban đầu hoặc bắt đầu bán dịch vụ để kiếm thu nhập, nhưng con mắt của các công ty lớn và MiniMax tập trung nhiều hơn vào các mô hình lớn có mục đích chung.Mô hình dọc vẫn là chân không. Đặc biệt đối với các nhóm doanh nghiệp truyền thống, do đặc điểm CNTT của doanh nghiệp họ thấp và tỷ lệ đầu vào trên sản xuất thấp nên xác suất lựa chọn mô hình tự phát triển lớn là thấp.Ví dụ: Chuangxin Qizhi tập trung vào sản phẩm mô hình quy mô lớn công nghiệp "Qizhi Kongming"; có lợi thế dữ liệu nhất định và phát triển mô hình ngôn ngữ quy mô lớn trong ChatYuan; mô hình quy mô lớn tự lái chính DriveGPT Xuehu · Hairuo .Tuy nhiên, có một điều cần nói, dữ liệu đào tạo và hướng khác nhau, và chi phí rất khác nhau.Đầu tiên, chi phí đào tạo một mô hình ngôn ngữ kim loại lớn từ đầu có thể lên tới hàng chục triệu RMB. Trong lĩnh vực lái xe tự động tổng hợp, cần phải thiết kế một ngôn ngữ mới hơn ChatGPT, sau đó "dịch" tất cả dữ liệu lái xe trên đường thực sang một ngôn ngữ thống nhất.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-485a9bccae-dd1a6f-1c6801) Ở một mức độ nhất định, các công ty khởi nghiệp AI có thể nhận ra một khoản đầu tư lớn vào các mô hình lớn và hưởng lợi nhiều hơn từ sự thành công của ChatGPT trong kinh doanh và tiếp thị, điều này có thể ngay lập tức cho phép mọi người chứng kiến tính khả thi của các mô hình lớn, thay vì tiếp tục hide in the Trong kỹ thuật lặp dài.Vì lý do này, bước đầu tiên để nhận ra việc triển khai hiện tại là chi phí đào tạo và chi phí lý luận của mô hình lớn phải thấp hơn so với tìm kiếm và tính tức thời cũng có thể được đảm bảo.##03 Từ ý tưởng đến triển khai có khó không?Có quan điểm cho rằng các công ty mới thành lập quy mô lớn của Trung Quốc có thể cạn kiệt có khả năng được tích hợp theo chiều dọc.> Nói một cách đơn giản, trong khi tạo mô hình lớn cơ bản, hãy xác định kịch bản ứng dụng chính cuối cùng của mô hình, thu thập dữ liệu người dùng và lặp lại nhanh chóng.Nhìn bề ngoài, trí thông minh ngôn ngữ kim loại thiên về thể loại này hơn. Tóm lại, trong một thời gian dài, trí thông minh siêu ngôn ngữ đã tập trung vào việc kinh doanh các mô hình ngôn ngữ tự nhiên lớn.Yuanyu COO Zhu Lei cũng cho biết, "Chúng tôi sẽ không mở rộng kinh doanh hình ảnh và video một cách mù quáng chỉ để làm theo. Tập trung kinh doanh tốt là rất quan trọng."Tuy nhiên, đối với các công ty mới thành lập khác đang phát triển thành các mô hình dọc quy mô lớn như xe tự lái và sản xuất công nghiệp, họ có thể thiếu kiến thức về một số dữ liệu đặc biệt của ngành.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d213e0ad86-dd1a6f-1c6801) Xét cho cùng, trong đường đua mô hình quy mô lớn theo chiều dọc, yếu tố cốt lõi của cạnh tranh doanh nghiệp trong tương lai là dữ liệu riêng tư và trải nghiệm riêng tư.Ngoài ra, trong quá trình tập trung kinh doanh, tính chính xác của dữ liệu từ nguồn đến tiền đào tạo và đầu ra cũng được yêu cầu.AI sáng tạo hiện cũng đang nhận được nhiều sự chú ý theo quy định hơn. Gần đây, Trung Quốc đã công bố "Các biện pháp quản lý dịch vụ trí tuệ nhân tạo sáng tạo (Dự thảo để lấy ý kiến)", trong đó yêu cầu rõ ràng rằng không được phân biệt đối xử, nội dung được tạo phải đúng sự thật và chính xác, đồng thời ngăn chặn thông tin sai lệch. Nếu có, trong ngoài việc lọc nội dung, tối ưu hóa mô hình, v.v. để tối ưu hóa.Tuy nhiên, nếu là một khiếm khuyết cố hữu của trí tuệ nhân tạo tổng hợp thì về mặt kỹ thuật khó có thể đảm bảo và giải quyết triệt để.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5c42394c68-dd1a6f-1c6801) Ngoài ra, với sự xuất hiện của một mô hình nguồn mở tốt hơn, sẽ có nhiều công ty háo hức muốn thử sức hơn, đối với các công ty mới thành lập, đây không phải là sự cạnh tranh sao?Ví dụ như Llama 2 hiện tại, vào ngày 18 tháng 7, Meta đã phát hành phiên bản thương mại Llama 2 của mô hình trí tuệ nhân tạo mã nguồn mở đầu tiên Llama. Một số công ty tin rằng, theo các tài liệu đánh giá khác nhau hiện tại, ngoài khả năng mã hóa kém, trên thực tế, nhiều nơi đã bắt đầu tiếp cận ChatGPT.Có lẽ sự điên cuồng của cộng đồng nguồn mở trong tương lai sẽ phổ biến các mô hình quy mô lớn với các khả năng cơ bản và các mô hình quy mô lớn được tư nhân hóa sẽ là giá của bắp cải trong tương lai. Nói một cách thẳng thắn, các công ty có thể sử dụng mô hình tư nhân hóa với chi phí rất rẻ.Quan trọng hơn, Tang Daosheng từng nói: "Mô hình lớn nói chung có khả năng mạnh mẽ, nhưng nó không thể giải quyết các vấn đề cụ thể của nhiều doanh nghiệp. Nó có thể giải quyết 70% -80% vấn đề trong 100 kịch bản, nhưng nó có thể không giải quyết được giải quyết bài toán đặc thù của nhiều doanh nghiệp, đáp ứng 100% nhu cầu của một kịch bản nào đó của doanh nghiệp, tuy nhiên nếu doanh nghiệp tiến hành tinh chỉnh dựa trên mô hình lớn của ngành và dữ liệu của chính mình thì có thể xây dựng mô hình chuyên dụng và mang tính sáng tạo cao dịch vụ thông minh có sẵn."Tất nhiên, mô hình tư nhân hóa kiểu này chưa đến, nhưng các startup trong đường đua phải có cả cơ hội và khó khăn.