Có phải xu hướng của AI "Trăm mô hình chiến tranh" đã thay đổi? 360, Meitu liên tiếp tung chiêu, mô hình quy mô lớn trực quan dàn dựng "cuộc chiến thần tiên"

Question

Nguồn gốc: China Times![](https://img.gateio.im/social/moments-bab2147faf-e3e634b33e-dd1a6f-62a40f) Nguồn hình ảnh: Được tạo bởi Unbounded AI‌Khi sự bùng nổ trong việc phát triển và ứng dụng các mô hình lớn AI tiếp tục tăng lên, phóng viên nhận thấy rằng những người chơi trên đường đua bắt đầu chuyển trọng tâm từ các mô hình ngôn ngữ lớn sang các mô hình trực quan lớn. Gần đây, Adobe, Meta, 360, Meitu và nhiều công ty Internet hàng đầu khác trong và ngoài nước đã công bố kết quả mô hình quy mô lớn, tiếp thêm lửa cho thị trường AI vốn đã cực kỳ nóng bỏng."Ứng dụng trí tuệ nhân tạo trong lĩnh vực video ngày càng được chú ý nhiều hơn." Wu Gaobin, phó chủ tịch Ủy ban Tích hợp Công nghiệp và Công nghiệp hóa của Hiệp hội Công nghiệp Truyền thông Trung Quốc, nói với phóng viên "Thời báo Trung Quốc" rằng việc phát hành những Các mô hình AI quy mô lớn đã mang lại sự cạnh tranh mới cho các doanh nghiệp. Cạnh tranh giữa các doanh nghiệp sẽ thúc đẩy đổi mới và tiến bộ công nghệ, đồng thời cũng sẽ mang lại những sản phẩm và dịch vụ tốt hơn. Cạnh tranh cũng sẽ thúc đẩy sự hợp tác, chia sẻ nguồn lực giữa các doanh nghiệp để đáp ứng tốt hơn nhu cầu của thị trường.## **Mô hình quy mô lớn trực quan trong và ngoài nước "Fairy Fighting"**Sau khi hàng loạt mô hình ngôn ngữ quy mô lớn và mô hình quy mô lớn đa phương thức xuất hiện, "các mô hình quy mô lớn trực quan" đã trở thành một chiến trường khác cho các chiến lược gia quân sự. Vài ngày trước, Meitu đã phát hành MiracleVision, một mô hình tầm nhìn AI quy mô lớn, cùng với bảy sản phẩm bao gồm công cụ tạo tầm nhìn AI WHEE, công cụ tạo con người kỹ thuật số AI DreamAvatar và trợ lý AI Meitu RoboNeo.Theo các báo cáo, MiracleVision có khả năng thể hiện và sáng tạo bằng hình ảnh mạnh mẽ, đồng thời có thể đảo ngược quá trình phát triển công nghệ từ các cảnh sáng tạo bằng hình ảnh như hội họa, thiết kế, phim và truyền hình, nhiếp ảnh, trò chơi, 3D và hoạt hình. Khác với các mẫu lớn khác trên thị trường, nó đặc biệt giỏi trong việc tạo ra các hướng như chụp ảnh chân dung châu Á, phong cách và thời trang dân tộc cũng như thiết kế thương mại.Wu Xinhong, người sáng lập, chủ tịch và giám đốc điều hành của Meitu, cho biết trong một cuộc phỏng vấn với phóng viên của China Times: "Lợi thế cốt lõi của mô hình lớn của Meitu là hiểu được tính thẩm mỹ. Cơ sở người dùng C-end đủ lớn. Chi phí của thu hút khách hàng thấp. Meitu hiện có 243 triệu người dùng hoạt động hàng tháng và 7,19 triệu thành viên VIP toàn cầu, những người có thể xác minh sự thành công của sản phẩm trong thời gian ngắn. Không giống như các nhà sản xuất khác, mô hình lớn của Meitu tập trung vào tính thẩm mỹ (bản vẽ màn hình Thiết kế chất lượng, v.v. .), sau này nếu phải cạnh tranh thì sẽ “lăn” về thẩm mỹ”.Thật trùng hợp, 360 cũng đã chính thức phát hành "Mô hình 360 Smart Brain-Vision Large" cách đây vài ngày. Zhou Hongyi, người sáng lập 360, cho biết mô hình ngôn ngữ lớn là cơ sở để xây dựng mô hình trực quan lớn và cốt lõi của việc nâng cao năng lực đa phương thức là khả năng nhận thức, suy luận và ra quyết định của mô hình ngôn ngữ lớn. Đồng thời, mô hình trực quan lớn cũng là một thành phần khả năng quan trọng của "Bộ não thông minh 360", có thể hiểu được hình ảnh, video và âm thanh trong tương lai.Các công ty nước ngoài cũng đã bắt đầu bố trí các mô hình trực quan. Vài ngày trước, gã khổng lồ truyền thông xã hội Meta đã thông báo rằng họ sẽ mở ra cho các nhà nghiên cứu một số thành phần của mô hình trí tuệ nhân tạo "hình người" có tên I-JEPA, có thể phân tích và hoàn thành các hình ảnh chưa hoàn thành chính xác hơn các mô hình hiện có, thay vì chỉ tạo ra suy luận dựa trên các pixel lân cận giống như các mô hình AI tổng quát khác.Yang Likun, nhà khoa học trí tuệ nhân tạo trưởng của Meta, đã từng công khai chỉ ra rằng mô hình tự hồi quy GPT hiện tại thiếu khả năng lập kế hoạch và suy luận, và hệ thống GPT trong tương lai có thể bị bỏ rơi, và đưa ra điều mà ông cho là câu trả lời chính xác - thế giới người mẫu. I-JEPA được cho là mô hình AI đầu tiên dựa trên các thành phần chính trong tầm nhìn của nó để phân tích và hoàn thành các hình ảnh chưa hoàn thiện chính xác hơn các mô hình hiện có.Ngoài ra, Meta cũng đã phát hành mô hình AI tạo giọng nói "Voicebox", hỗ trợ tạo giọng nói từ văn bản, có thể khớp các kiểu âm thanh dựa trên các mẫu chỉ dài hai giây và chuyển đổi mẫu văn bản sang ngôn ngữ khác. các mẫu giọng nói và khả năng đọc nội dung văn bản đã dịch bằng giọng gốc của người nói, sáu ngôn ngữ hiện được hỗ trợ: tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ba Lan và tiếng Bồ Đào Nha.Đầu tháng 4 năm nay, Adobe đã tích hợp chức năng Adobe Firefly (các sản phẩm giống ChatGPT) vào ma trận của các sản phẩm âm thanh và video như Premiere Pro, After Effects, Audition, Remix, v.v., cung cấp cho người dùng khả năng tạo nội dung bằng một cú nhấp chuột , chỉnh sửa, khớp màu, Thay đổi nhạc và các chức năng khác.## **Từ "Mô hình ngôn ngữ" đến "Mô hình tầm nhìn"**"Báo cáo nghiên cứu bản đồ mô hình quy mô lớn trí tuệ nhân tạo Trung Quốc" cho thấy về số lượng và phân phối các mô hình quy mô lớn được phát hành trên toàn cầu, Trung Quốc và Hoa Kỳ dẫn đầu với tỷ suất lợi nhuận lớn, chiếm hơn 80% toàn cầu. tổng cộng. Đồng thời, ngày càng có nhiều nhóm R&D ở Châu Âu, Nga, Israel, v.v. cũng đang đầu tư vào việc phát triển các mẫu xe cỡ lớn. Nhưng điều đáng chú ý là vẫn còn rất ít mô hình lớn trong lĩnh vực thị giác máy tính và các lĩnh vực khác ở nước tôi.Điều tra lý do, Yan Shuicheng, nhà khoa học trưởng của Viện nghiên cứu Zhiyuan Bắc Kinh, nói với phóng viên của "Thời báo Trung Quốc": "Lý do chính khiến sự phát triển của các mô hình trực quan hơi bị tụt lại phía sau là các mô hình trực quan lớn tiêu tốn nhiều năng lượng tính toán hơn so với văn bản, vì vậy chúng tôi cũng mong muốn chip phát triển nhanh hơn và thậm chí có thể tích hợp các chip không phải GPU khác lại với nhau. Các mô hình bạn thấy hiện nay thường ở mức kilocal, nhưng một số người có thể sử dụng mức thẻ 10.000 để làm chúng vào năm tới."Theo Huang Tiejun, chủ tịch Viện nghiên cứu trí tuệ nhân tạo Zhiyuan Bắc Kinh, lĩnh vực thị giác là trọng tâm của làn sóng tiếp theo trong lĩnh vực mô hình lớn. Ông chỉ ra rằng các phương pháp tư duy và lộ trình cơ bản đằng sau mô hình hình ảnh lớn và mô hình ngôn ngữ lớn là giống nhau, nhưng dữ liệu đầu vào đã trở thành hình ảnh và video, và mô hình được đào tạo có một khả năng ngôn ngữ hình ảnh chung nhất định. AIGC (Trí tuệ nhân tạo Nội dung được tạo tự động) có thể tạo ra hình ảnh và tác phẩm nghệ thuật. "Ngoài ra còn có một khả năng cơ bản hơn, đó là sau khi nhìn thấy thế giới, trước tiên bạn phải có khả năng phân biệt thế giới (mọi thứ)."Đối với sự phát triển của các mô hình trực quan quy mô lớn, nhiều tổ chức cũng đã bày tỏ thái độ lạc quan. Theo báo cáo nghiên cứu do CICC Research công bố, tầm nhìn máy tính dự kiến sẽ đạt được mức độ tự động hóa cao hơn, độ chính xác cao và mức tiêu thụ điện năng thấp trong tương lai, làm phong phú hơn nữa hệ sinh thái nội dung của Metaverse và hạ thấp các rào cản gia nhập. Sự tiến bộ của thị giác máy tính đã dẫn đến sự trưởng thành nhanh chóng của công nghệ tái tạo 3D và chụp chuyển động, và dần dần tích lũy tiến bộ công nghệ trong các lĩnh vực tương ứng của chúng. Trong tương lai, thị giác máy tính được kỳ vọng sẽ mở ra mức độ tự động hóa cao hơn, độ chính xác cao hơn và mức tiêu thụ điện năng thấp hơn. hướng tới kết nối thế giới vật chất và thế giới số.Một tầm nhìn dài hạn về thế giới.Nghiên cứu của CITIC Securities cũng cho biết rằng trong lĩnh vực thiết kế, các mô hình lớn dẫn thiết kế kỹ thuật số đến thiết kế thông minh và phần mềm thiết kế công nghiệp liên quan kết hợp với GPT và các công nghệ khác có thể được áp dụng cho các kịch bản như lập kế hoạch thiết kế, tối ưu hóa bố cục, trợ lý trình cắm, và phác thảo. Theo xu hướng chung của việc nâng cấp AI, một vòng cách mạng năng suất mới đang mở ra.