Trận chiến mô hình lớn đang diễn ra sôi nổi? “Mô hình nhỏ” có thể là lối thoát

Question

Văn án: Qingcheng Finance, Tác giả: Qing Mu Editor: Liu Zi

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Vào ngày 26 tháng 7, OpenAI đã ra mắt phiên bản ChatGPT dành cho Android, mặc dù hiện tại nó chỉ có sẵn ở Hoa Kỳ, Ấn Độ, Bangladesh và Brazil, OpenAI cũng cho biết họ sẽ quảng bá phiên bản ChatGPT dành cho Android ở nhiều quốc gia hơn vào tuần tới. Điều này đã đưa ChatGPT, gần đây ít phổ biến hơn một chút, trở lại với công chúng.

Khi mới ra mắt, ChatGPT chỉ mất hai tháng để trở thành ứng dụng cán mốc 100 triệu người dùng nhanh nhất trong lịch sử, thị trường công nghệ toàn cầu vốn im ắng bấy lâu nay lại sôi sục, các nhà đầu tư, doanh nhân trong nước ồ ạt đổ về Silicon Thung lũng hỏi.

Đối mặt với làn sóng AI hỗn loạn này, các doanh nhân và nhà đầu tư Trung Quốc đã hành động nhanh chóng. Vài tháng sau, ngành công nghệ Trung Quốc đã thể hiện một thế trận ngoạn mục của "Trăm mô hình chiến tranh". Trong nửa đầu năm 2023, hơn 80 sản phẩm mô hình cỡ lớn đã xuất hiện tại Trung Quốc, theo dữ liệu mới nhất, 130 công ty đã sản xuất mô hình cỡ lớn tại thị trường nội địa. Trên phạm vi toàn cầu, hơn 400 mẫu xe cỡ lớn mới được tung ra thị trường trong nửa đầu năm nay.

Trong khi những người chơi mô hình quy mô lớn của Trung Quốc đang theo đuổi lợi ích thương mại và tương lai của công nghệ, họ cũng được mệnh danh là tình cảm quốc gia: trở thành phiên bản OpenAI của Trung Quốc.

Theo tin tức ngày 24 tháng 7, trước khi phiên bản ChatGPT dành cho Android ra mắt, IDC đã công bố báo cáo đánh giá năng lực kỹ thuật mô hình quy mô lớn cho thấy mô hình quy mô lớn 3.5 của Baidu Wenxin đạt 7/12 chỉ số, đứng đầu về điểm toàn diện. Wu Tian, phó chủ tịch của Baidu, cho biết khả năng của phiên bản mới Wenxin Yiyan 3.5 đã vượt qua ChatGPT 3.5, đây là một cột mốc quan trọng trong sự phát triển của công việc kỹ thuật liên quan ở nước ta.

HKUST Xunfei trước đó đã thông báo rằng họ sẽ thực hiện lần lặp thứ ba của mô hình lớn Xinghuo vào ngày 24 tháng 10, hoàn toàn đo điểm chuẩn ChatGPT, khả năng tiếng Trung đã vượt qua GPT3.5 và khả năng tiếng Anh tương đương với GPT3.5.

01 cảnh, bối cảnh

Trên thực tế, như Li Zhifei, cựu nhà khoa học của Google, đồng thời là người sáng lập và CEO của Mobvoy, cho biết, có thể không có một tổ chức nào như OpenAI ở Trung Quốc.

So với các mô hình quy mô lớn đa năng như ChatGPT, các sản phẩm mô hình quy mô lớn trong nước chú ý nhiều hơn đến các ứng dụng và kịch bản, đó là mô hình quy mô lớn dọc, mô hình quy mô lớn công nghiệp và mô hình quy mô lớn công nghiệp. Về vấn đề này, ý kiến của các ông lớn trong giới đầu tư mạo hiểm công nghệ gần như thể hiện cùng một ý nghĩa.

Robin Li, người sáng lập Baidu, từ lâu đã tuyên bố công khai: "Việc một công ty mới thành lập tạo lại ChatGPT không có ý nghĩa gì nhiều. Tôi nghĩ rằng có một cơ hội tuyệt vời để phát triển các ứng dụng dựa trên mô hình ngôn ngữ lớn này. Có không cần phát minh lại bánh xe, có bánh xe về sau là có thể chế tạo ô tô.", Máy bay, giá trị có thể so với bánh xe lớn hơn nhiều."

Zhu Xiaohu, giám đốc điều hành của GSR Venture Capital, đã viết trong Moments: “Đừng mê tín về mô hình chung, vì năm tới GPT-3.5 sẽ trở thành hàng hóa (cơ sở hạ tầng chung) và ba năm sau, GPT-4 cũng sẽ là . Đối với hầu hết các Doanh nhân, kịch bản là ưu tiên hàng đầu, dữ liệu là vua!"

Fu Sheng, Chủ tịch kiêm Giám đốc điều hành của Cheetah Mobile, tin rằng sẽ có hai con đường cho những mẫu xe cỡ lớn. Một mô hình lớn được gọi là Trở nên tốt hơn là "Xây dựng một Einstein". Nhưng nhiều công việc không cần đến "Einstein", sinh viên tốt nghiệp đại học cũng có thể làm được. Đây là một cách khác. Tôi tin rằng phải có một số lượng lớn những người làm "mô hình lớn dân sự".

Zhang Pingan, Giám đốc điều hành của Huawei Cloud, cho biết tại cuộc họp báo Pangu Large Model 3.0: "Mô hình Pangu Large không có thời gian để làm thơ và trò chuyện. Cho dù có bao nhiêu thông số và khả năng đối thoại tốt đến đâu, nếu nó có thể không giải quyết được các vấn đề thực tế, nó sẽ không có ích gì nhiều.”

Hầu hết các mô hình quy mô lớn được phát hành ở Trung Quốc gần đây đều nhằm vào các ngành dọc, chẳng hạn như mô hình quy mô lớn Yanxi do JD phát hành.Mô hình quy mô lớn dọc "Ziyue" trong lĩnh vực giáo dục do Dao phát hành.

Mô hình lớn JD Yanxi đã tích lũy kiến thức tích lũy của JD về bán lẻ, hậu cần, y tế, tài chính và các ngành khác trong nhiều năm, tích hợp 70% dữ liệu chung và 30% dữ liệu chuỗi cung ứng ban đầu của JD để đào tạo, đưa ra khuyến nghị sản phẩm, chính sách tài chính , Khả năng trong các lĩnh vực như quy tắc quản lý tài chính và kinh nghiệm hậu cần. Cao Peng, Chủ tịch Bộ phận Đám mây của JD, tin rằng bản thân một công nghệ mô hình quy mô lớn đơn lẻ không thể trực tiếp tạo ra giá trị và công nghệ này chỉ có thể tạo ra giá trị thực tế khi nó được đưa vào hiện trường.

Mô hình du lịch của Ctrip yêu cầu sàng lọc 20 tỷ dữ liệu du lịch phi cấu trúc, kết hợp dữ liệu thời gian thực có cấu trúc hiện có của Ctrip và các robot và thuật toán tìm kiếm đã được đào tạo trước đây của Ctrip để tiến hành đào tạo mô hình dọc tự phát triển và đầu tư nhiều nhân lực Tạo và xác minh phản hồi chung nội dung du lịch. Liang Jianzhang, người sáng lập kiêm chủ tịch hội đồng quản trị của Ctrip, cho biết Ctrip sẽ nỗ lực đầu tư vào các mô hình lớn và không có giới hạn về số tiền đầu tư.

Về ứng dụng, Baidu gần đây đã đạt được sự hợp tác với Lenovo trong lĩnh vực AIGC. Bộ phận kinh doanh tùy chỉnh riêng của Lenovo đã giới thiệu đầy đủ Baidu Wenxin Yige. Người tiêu dùng có thể tùy chỉnh giao diện của máy tính xách tay thông qua các hoạt động vẽ tranh theo chủ đề AIGC trên trang web chính thức. Huawei Cloud Pangu Large Model và Meitu Visual Large Model MiracleVision đã cùng ra mắt chức năng điều chỉnh mô hình AI, có thể cải thiện hiệu quả thương mại điện tử của các sản phẩm quần áo.

Mặc dù mô hình lớn dọc không có yêu cầu cao về tham số và khả năng tính toán như mô hình lớn nói chung, nhưng nó có yêu cầu cao hơn về kịch bản và dữ liệu, đòi hỏi nhà phát triển phải có kiến thức chuyên môn, tích lũy thực tiễn ứng dụng công nghiệp phong phú và khả năng chịu lỗi. cũng thấp hơn, đòi hỏi AI phải có độ ổn định và độ tin cậy siêu cao. Do đó, càng gần ngành dọc, lợi thế của mô hình dọc càng lớn.

"Mô hình quy mô lớn nói chung có thể giải quyết 70%-80% vấn đề trong 100 kịch bản, nhưng nó có thể không đáp ứng được 100% nhu cầu của một kịch bản nhất định của doanh nghiệp. Nếu doanh nghiệp tinh chỉnh dựa trên mô hình công nghiệp quy mô lớn và dữ liệu của chính nó, nó có thể Xây dựng một mô hình chuyên dụng để tạo ra một dịch vụ thông minh có tính sẵn sàng cao và các tham số mô hình ít hơn so với mô hình lớn chung, chi phí đào tạo và lý luận thấp hơn và tối ưu hóa mô hình là dễ dàng hơn." Phó chủ tịch điều hành cấp cao của Tập đoàn Tencent, Giám đốc điều hành của Nhóm kinh doanh công nghiệp thông minh và đám mây Tang Daosheng cho biết.

Từ góc độ này, "người mẫu nhỏ" có thể gợi cảm hơn và có khả năng giải quyết các vấn đề cụ thể tốt hơn.

SenseTime đã tung ra một mô hình lớn với 100 tỷ tham số và cũng đang tung ra một mô hình nhỏ với 10 tỷ tham số cho các trường dọc khác nhau. Ưu điểm của mô hình lớn là có thể tìm ra các giải pháp mới, giúp giải quyết các vấn đề mới, sau khi giải quyết xong có thể tạo ra một lượng lớn dữ liệu trong một trường hẹp và đào tạo lại một mô hình nhỏ. Một số mô hình nhỏ thậm chí có thể chạy trên thiết bị đầu cuối với chi phí thấp hơn. Nhưng mô hình nhỏ sẽ không tồn tại nếu không có mô hình lớn.

02 Nhà sản xuất lớn nắm trọn phần thắng, cơ hội cho các công ty mới thành lập ở đâu?

Có quan điểm trong ngành cho rằng phiên bản tiếng Trung của ChatGPT sẽ chỉ được sản xuất tại 5 công ty: Baidu, Ali, Tencent, Byte và Huawei.

Trong thời đại Internet, đó là một "721" điển hình, vị trí thứ nhất là ngon và cay, vị trí thứ hai đang thoi thóp, vị trí thứ ba là nguy hiểm.

Ngay bây giờ, một trăm mô hình đang chiến đấu và mọi người đều muốn có được một phần của mô hình lớn. Nhưng có một vấn đề rất thực tế là các nhà máy lớn có những lợi thế mà các công ty mới thành lập không thể sánh được khi họ làm mô hình quy mô lớn. Đối với một công ty mới thành lập nhỏ xinh, có lẽ chỉ là ảo tưởng muốn lật đổ một nhà máy lớn chỉ có ba năm người mà thôi.

Các mô hình lớn không thể tách rời khỏi nền tảng đám mây. Sự đổ bộ của các mô hình lớn đòi hỏi sự tinh chỉnh và đào tạo liên tục, tất cả đều cần được chạy trên nền tảng đám mây. Baidu, Ali, Tencent, Byte và Huawei đều có mảng kinh doanh đám mây của riêng mình. Baidu và Huawei cũng đã hoàn thiện bố cục từ chip đến ứng dụng, Baidu là "Kunlun Core + Flying Paddle Platform + Wenxin Large Model", Huawei là "Shengteng chip" + MindSpore framework + Mô hình lớn Pangu”, đó là những lợi thế mà các công ty mới thành lập không thể sánh được.

Ngoài ra, các công ty lớn có lợi thế tự nhiên về dự trữ vốn, nguồn nhân lực, kịch bản sử dụng và tích lũy dữ liệu. Không có kịch bản hạ cánh cho startup, công nghệ không thể được lặp đi lặp lại, không thể tối ưu hóa liên tục và không thể hình thành hiệu ứng mạng dữ liệu.

Vì vậy, các công ty nhỏ không có cơ hội nào cả?

Hãy xem lại phép ẩn dụ về thời đại đào vàng: "Thời đại này rất giống với thời đại đào vàng. Nếu bạn đến California để đãi vàng vào thời điểm đó, rất nhiều người sẽ chết. Nhưng những người bán thìa và xẻng thì sẽ chết". luôn kiếm được tiền.” Điều này cũng đúng. Lu Qi, người sáng lập kiêm CEO của Qiji Chuangtan, gần đây đã chia sẻ với các doanh nhân. Lu Qi hy vọng sẽ giúp các doanh nhân Trung Quốc nhận ra bước ngoặt lịch sử này, xác định tọa độ của thời đại ngày nay và tìm thấy vị trí của chính họ.

Vào đầu tháng 7, Stuart Russell, giáo sư khoa học máy tính tại Đại học California, Berkeley và là tác giả của cuốn sách "Trí tuệ nhân tạo—Phương pháp tiếp cận hiện đại", đã cảnh báo rằng các bot do AI cung cấp như ChatGPT có thể sớm "hết văn bản trong vũ trụ". ." ", và kỹ thuật huấn luyện bot bằng cách thu thập một lượng lớn văn bản đang "bắt đầu gặp khó khăn."

Tuần trước, hơn 8.500 người viết đã ký thư yêu cầu lãnh đạo các công ty như OpenAI, Microsoft, Meta và Alphabet không sử dụng tác phẩm của họ để đào tạo hệ thống trí tuệ nhân tạo khi chưa được phép hoặc trả tiền, đồng thời yêu cầu các công ty trí tuệ nhân tạo này bồi thường tổn thất bản quyền.

Kho dữ liệu Internet sắp cạn kiệt và dữ liệu chất lượng cao ngày càng trở nên khan hiếm. Một mô hình tốt hay xấu, 20% do thuật toán quyết định, còn 80% do chất lượng dữ liệu quyết định. Trong "bộ ba" dữ liệu, sức mạnh tính toán và thuật toán, dữ liệu là yếu tố cốt lõi, lâu dài nhất và cơ bản nhất. Các mô hình lớn cần được cung cấp lượng dữ liệu khổng lồ để được tối ưu hóa và lặp lại liên tục.

Tiếp theo, giá trị thực sẽ trở thành dữ liệu chất lượng cao bền vững. Làm thế nào để liên tục có được các nguồn dữ liệu hợp pháp, tuân thủ và phù hợp với logic kinh doanh sẽ trở thành yếu tố chính trong việc cải thiện hiệu suất của các mô hình lớn. Do đó, các toán tử dữ liệu có thể trở thành một vai trò quan trọng hạn chế sự phát triển của các mô hình lớn.

Lý tưởng nhất là mô hình liên tục cung cấp dịch vụ cho người dùng và người dùng liên tục tạo dữ liệu mới cho mô hình. Đối với bước tiếp theo, dữ liệu riêng tư sẽ được đánh vần. Nhiều dịch vụ được cá nhân hóa hơn có nghĩa là nhiều dữ liệu riêng tư hơn và không có khả năng con người sẽ hiển thị dữ liệu riêng tư cho mô hình lớn mà không cần đặt trước.

Trong bất kỳ thời đại nào, "người bán nước" luôn là một doanh nghiệp tốt. Thật thú vị, bất kể bạn là người tiên phong, nhà thám hiểm hay người đào vàng, bạn không thể thiếu nước. Tất nhiên, bạn cũng có thể bán thìa và xẻng.

03 Kết luận

Trong vài tháng qua, có một bài đăng được lan truyền rộng rãi trên các nền tảng xã hội:

Hãy coi AI như một đứa trẻ. AI ở Châu Âu và Hoa Kỳ thuộc con đường giáo dục tinh hoa, sau khi anh ấy ra đời, gia đình anh ấy đã dốc hết tiền cho anh ấy học cho đến khi anh ấy lấy bằng tiến sĩ.

AI của Trung Quốc thuộc dòng giáo dục thực dụng, được nuôi dạy để tồn tại khi mới sinh ra và khi 15 tuổi, anh ta buộc phải tìm cách kiếm tiền cho gia đình và học cách tiếp thị các kỹ năng.

Một vài từ, nếm cẩn thận, đầy đủ hương vị.

Dù không hẳn là đúng, nhưng điều này cũng có thể giải thích phần nào lý do tại sao OpenAI và ChatGPT không xuất hiện ở Trung Quốc. Trên thực tế, một số nhà đầu tư và doanh nhân trong nước ban đầu rất tự tin và muốn trở thành phiên bản tiếng Trung của OpenAI. Sau vài tháng tung tăng, tôi thấy rằng mình vẫn cần tìm một mô hình lợi nhuận, khám phá các kịch bản ứng dụng kinh doanh và khả năng thương mại hóa.

Điều đáng nói là gần đây một số người dùng C-end cho rằng hiệu suất của ChatGPT-4 trong một số tác vụ nhất định quá kém, đây được cho là việc OpenAI sử dụng mô hình chuyên gia hỗn hợp (MOE) để giảm chi phí và tăng hiệu quả và chuyển trọng tâm sang các dịch vụ cấp doanh nghiệp.

Nhìn xung quanh, Apple cũng đang phát triển mô hình ngôn ngữ lớn Apple GPT của riêng mình và Qualcomm đang nghiên cứu cách hiện thực hóa nó vào cuối năm nay, để mô hình có mức thông số từ 10 tỷ đến 15 tỷ có thể chạy ngoại tuyến trên điện thoại di động mà không cần xử lý đám mây.

Các mô hình lớn đang định hình lại năng suất, một sự thay đổi mô hình. 200 năm trước, con người lần đầu tiên sử dụng động cơ hơi nước để chuyển hóa nhiệt năng thành động năng, và thời đại công nghiệp hóa bắt đầu. Ngày nay, con người sử dụng các mô hình lớn để chuyển đổi năng lượng điện thành năng lượng não bộ và trí thông minh nói chung, và một kỷ nguyên mới đang mở ra.

Tất nhiên chúng ta không cần quá nhiều bánh xe, nhưng chúng ta vẫn cần những bánh xe tốt.

Có một con đường dài để đi.

Xem bản gốc