Sau mô hình ngôn ngữ lớn, thị giác máy tính có phải là lối thoát tiếp theo không?

Question

*Nguồn bài: Big Model House**Tác giả:Triệu Tiểu Mạn*![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2b333c2d0d-dd1a6f-69ad2a) *Nguồn hình ảnh: Được tạo bởi Unbounded AI*Tháng trước, Open AI đã phát hành phiên bản GPT-4V mới nhất, cho phép người dùng hướng dẫn GPT-4 phân tích các khả năng mới nhất của đầu vào hình ảnh do người dùng cung cấp và tin tức đã thu hút sự chú ý của ngành rằng việc kết hợp các phương thức khác, chẳng hạn như đầu vào hình ảnh, vào các mô hình ngôn ngữ lớn (LLM) được coi là biên giới chính trong nghiên cứu và phát triển AI và LLM đa phương thức cung cấp khả năng mở rộng tác động của các hệ thống ngôn ngữ thuần túy.Từ chatbot AI ChatGPT được phát hành vào cuối năm ngoái đến GPT-4V hiện tại, Open AI mở rộng Mô hình ngôn ngữ lớn (LLM) với các kỹ năng đa giác quan (như hiểu thị giác) trong Mô hình đa phương thức lớn (LMM) để đạt được trí thông minh chung mạnh mẽ hơn.Ngay sau khi phát hành GPT-4V, Microsoft đã đưa ra hướng dẫn sử dụng cực kỳ chi tiết 166 trang cho GPT-4V, từ các chế độ nhập liệu đơn giản đến khả năng ngôn ngữ hình ảnh, lời nhắc tương tác với con người, đến hiểu video thời gian, lý luận trực quan trừu tượng và kiểm tra chỉ số cảm xúc IQ, GPT-4V không chỉ có thể bao gồm trải nghiệm tương tác trong cuộc sống hàng ngày mà thậm chí còn thực hiện đánh giá chẩn đoán chuyên nghiệp trong ngành, y tế và các lĩnh vực khác.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-abca433d25-dd1a6f-69ad2a) **Nguồn: Microsoft (Web translation only for reference)**Hiện tại, khả năng chưa từng có của GPT-4V để xử lý các đầu vào đa phương thức xen kẽ tùy ý và tính linh hoạt của các chức năng của nó kết hợp để làm cho GPT-4V trở thành một hệ thống tổng quát đa phương thức mạnh mẽ. Ngoài ra, khả năng độc đáo của GPT-4V để hiểu các dấu hiệu trực quan được vẽ trên hình ảnh đầu vào có thể dẫn đến các phương pháp tương tác mới giữa người và máy tính, chẳng hạn như tín hiệu tham chiếu trực quan.Điều đáng khẳng định là việc thăm dò sơ bộ GPT-4V có thể kích thích nghiên cứu trong tương lai về thế hệ tiếp theo của các công thức nhiệm vụ đa phương thức **, sử dụng và tăng cường các phương pháp LMM mới để giải quyết các vấn đề trong thế giới thực và hiểu rõ hơn về các mô hình cơ bản đa phương thức, và cũng trở thành một khám phá mới về hướng phát triển của thị giác máy tính.  ## ** Mô hình lớn trao quyền cho sự phát triển mới của thị giác máy tính **  Có lẽ khi nói đến khả năng đa phương thức, nhiều người không còn xa lạ, và có rất nhiều mẫu xe lớn ở Trung Quốc đã có khả năng đa phương thức khi ra mắt, và có thể thực hiện nhận dạng và tạo hình ảnh, nhưng phải thừa nhận rằng so với LLM (mô hình ngôn ngữ lớn), sự phát triển của LMM (mô hình đa phương thức lớn) vẫn còn nhiều kẽ hở cần giải quyết. **Trước đó, Big Model Home đã trải qua một số mô hình lớn với khả năng đa phương thức, lấy khung AI MindSpore "Zidong Taichu" phiên bản 2.0 nền tảng mô hình lớn và iFLYTEK Spark làm ví dụ, cần được cải thiện về khả năng phân tích, suy luận và biểu đạt.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-158366da31-dd1a6f-69ad2a) **Ảnh: Tử Đông Thái Chu**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cd3185c149-dd1a6f-69ad2a) **Ảnh: iFLYTEK Spark****Điều đáng chú ý là vào tháng 4 năm nay, Meta đã đề xuất mô hình SAM (Segment Anything Model) ** để phân chia mọi thứ, SAM là một mô hình nhanh chóng, đã đào tạo hơn 1 tỷ khẩu trang trên 11 triệu hình ảnh, đạt được sự khái quát hóa không mẫu mạnh mẽ, một số người trong ngành cho biết SAM đã phá vỡ ranh giới của phân khúc và thúc đẩy mạnh mẽ sự phát triển của các mô hình cơ bản về thị giác máy tính.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3364ba847d-dd1a6f-69ad2a) Nguồn: Meta**Bản thân SAM là một phân đoạn ngữ nghĩa của hình ảnh và mô hình nắm bắt khái niệm "đối tượng" có thể tạo mặt nạ cho bất kỳ đối tượng nào trong bất kỳ hình ảnh hoặc video nào, ngay cả khi nó không nhìn thấy nó trong quá trình đào tạo.Sự xuất hiện của các mô hình SAM và GPT-4V có thể cài đặt các mô hình ngôn ngữ lớn trên "mắt", giống như Open AI chuẩn bị cho việc triển khai thế hệ GPT-4V **, bao gồm Be My Eyes, một tổ chức xây dựng các công cụ cho người dùng khiếm thị, trước thềm tạo mô hình, có thể tưởng tượng rằng mô hình lớn là một "người mù" biết nói, nhưng sau khi thêm tầm nhìn, các mô hình lớn với khả năng đa phương thức có thể hiểu các số liệu, video, v.v. Sức mạnh của chức năng này cũng thúc đẩy sự phát triển của trí tuệ nhân tạo theo một hướng mới.  ## **Dưới làn sóng của các mô hình lớn, con đường của thị giác máy tính trong nước **  Sau khi sử dụng các chức năng nhập hình ảnh, nhận dạng và phân tích suy luận, mô hình lớn có thể đạt được sự nở rộ đa trường và tiến tới "GPT thị giác máy tính".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-681f3dc975-dd1a6f-69ad2a) **Nguồn: Huawei**Về mặt công nghiệp, bằng cách áp dụng các mô hình lớn trực quan để phát hiện khuyết tật và các bước quan trọng khác để đảm bảo chất lượng sản phẩm trong quá trình sản xuất, điều cần thiết là có thể phát hiện lỗi hoặc khuyết tật kịp thời và thực hiện các biện pháp thích hợp để giảm thiểu chi phí vận hành và liên quan đến chất lượng. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d46ec6fa14-dd1a6f-69ad2a) **Nguồn: SenseTime**Về chẩn đoán hình ảnh y tế, kết hợp với kiến thức chuyên môn về các mô hình lớn nhận thức, sau khi bổ sung khả năng thị giác, nó không chỉ có thể phân tích bằng các hình ảnh y tế khác nhau mà còn nhanh chóng tạo ra các báo cáo X quang hoàn chỉnh, với tiềm năng trở thành trợ lý AI để tạo báo cáo X quang, hiện tại SenseTime đã phát triển mô hình ngôn ngữ y học Trung Quốc "Bác sĩ lớn" dựa trên kiến thức y tế và dữ liệu lâm sàng, với khả năng cung cấp cuộc trò chuyện nhiều vòng nhiều kịch bản như hướng dẫn, tư vấn, tư vấn sức khỏe và ra quyết định.Về lái xe tự động, thông tin hình ảnh thu được bởi mô hình lớn nhận thức trong khi lái xe, mục tiêu lái xe năng động, v.v., có thể được kết hợp để đưa ra quyết định lái xe tương ứng và giải thích lái xe, sau đó mô hình lớn có thể chuyển đổi nó thành ngôn ngữ lái xe tự động và tương tác với hệ thống lái xe tự động thông qua Drive để đạt được lái xe thông minh.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-df9ed5ee74-dd1a6f-69ad2a) **Nguồn: Baidu****Lấy Baidu làm ví dụ, trong Hội nghị Baidu World 2023 vừa được tổ chức, về mặt lái xe thông minh, công nghệ lái xe tự động đã được xây dựng lại hoàn toàn thông qua các công nghệ mới như Transformer và BEV, và khả năng nhận thức được cải thiện qua nhiều thế hệ, đẩy nhanh sự trưởng thành và phổ biến các giải pháp thị giác thuần túy. ** Hiện tại, giải pháp lái xe thông minh cao cấp tầm nhìn thuần túy của Baidu Apollo có thể được áp dụng cho tốc độ cao, thành phố, bãi đậu xe và các tình huống toàn cầu khác, và sẽ đạt được sản xuất hàng loạt trong quý IV năm nay, đây cũng là giải pháp tầm nhìn thuần túy đầu tiên ở Trung Quốc hạ cánh trong cảnh đô thị. Điều đáng nói là việc loại bỏ lidar làm cho giá thành của toàn bộ chiếc xe thấp hơn và nâng cao khả năng cạnh tranh trên thị trường.**Big Model House tin rằng với sự ban phước của kiến thức chung về các mô hình ngôn ngữ lớn, thị giác máy tính đã mở ra một hướng phát triển rõ ràng hơn **, từ thị giác máy tính ban đầu dựa vào bộ nhớ lặp đi lặp lại cho các ứng dụng thực tế (như nhận dạng khuôn mặt, nhận dạng đối tượng), khám phá sự tích hợp của tầm nhìn và ngôn ngữ đã trở thành một hướng đi mới của các mô hình lớn và thị giác máy tính, từ phát triển độc lập đến tích hợp lẫn nhau, trí tuệ nhân tạo cũng không ngừng khám phá khả năng cảm giác gần gũi hơn với con người, có thể nắm bắt chi tiết và tính năng tốt hơn trong hình ảnh và độ chính xác của các mô hình lớn đã được cải thiện. Nó có thể thích ứng với nhiều cảnh và phân phối dữ liệu hơn, dựa vào khả năng viết và hiểu mô hình lớn, tích hợp khả năng hình ảnh và trở thành một hình đại diện thông minh hơn.Tất nhiên, sự phát triển của khoa học công nghệ phải bị hạn chế bởi nhiều yếu tố. Các mô hình lớn đòi hỏi nhiều tài nguyên tính toán và thời gian đào tạo hơn, điều này có thể hạn chế khả năng mở rộng và thời gian thực, dữ liệu đào tạo khổng lồ phải bị giới hạn bởi sức mạnh tính toán, đặc biệt là GPU hiệu suất cao, bộ nhớ và lưu trữ tốc độ cao và công nghệ đào tạo phân tán, ** và thị trường GPU hiệu suất cao toàn cầu hiện tại NVIDIA chiếm gần 90% thị phần, Trung Quốc muốn chiếm vị trí cao trong cuộc thi AI này, thúc đẩy sự phát triển chất lượng cao của sức mạnh tính toán thông minh Trung Quốc đã trở thành ưu tiên hàng đầu. ****Nhìn chung, các mô hình lớn có nhiều lợi thế sau khi tích hợp khả năng hình ảnh, nhưng cũng có một số hạn chế phát triển ở giai đoạn này. ** Với sự phát triển không ngừng của tài nguyên học sâu và máy tính, chúng ta có thể mong đợi sự xuất hiện của các mô hình lớn tiên tiến hơn và các công nghệ liên quan để thúc đẩy hơn nữa ứng dụng và đột phá của thị giác máy tính trong các tác vụ hình ảnh có độ phân giải cao.