GPT-4V mặt trước cứng cáp! Cựu sinh viên Đại học Chiết Giang mã nguồn mở đa phương thức mô hình lớn LLaVA-1.5, 13 tỷ thông số và 8 chiếc A100 có thể được đào tạo trong một ngày

Nguồn gốc: Xinzhiyuan

Nguồn hình ảnh: Được tạo bởi AI không giới hạn

Vào cuối tháng 9, OpenAI đã thông báo dỡ bỏ lệnh cấm đối với khả năng đa phương thức của ChatGPT. Khả năng kỳ diệu của GPT-4V đa phương thức khiến mọi người phải thốt lên: Đây có phải là GPT-4.5 không?

Không lâu sau, đối thủ cạnh tranh nguồn mở của GPT-4V, LLaVA-1.5, đã có mặt!

Vào tháng 4, các nhà nghiên cứu từ Đại học Wisconsin-Madison, Microsoft Research và Đại học Columbia đã mở nguồn mô hình lớn đa phương thức đầu cuối mới LLaVA.

Giờ đây, LLaVA-1.5 nâng cấp không chỉ đạt được SOTA trong 11 bài kiểm tra điểm chuẩn mà thậm chí có thể cạnh tranh trực tiếp với GPT-4V.

Các nhà nghiên cứu đã cải thiện đáng kể hiệu suất của LLaVA-1.5 bằng cách sử dụng CLIP-ViT-L-336px với ánh xạ MLP và thêm dữ liệu VQA theo định hướng nhiệm vụ học thuật với lời nhắc định dạng phản hồi đơn giản.

Kết quả cho thấy LLaVA-1.5 có kiến trúc đơn giản hơn, chỉ cần 1,2 triệu dữ liệu công khai, có thể vượt qua Qwen-VL sử dụng 1,45 tỷ dữ liệu đào tạo và HuggingFace IDEFICS (mô hình 80B tương tự Flamingo) sử dụng 130 triệu dữ liệu.

Trong số đó, việc huấn luyện mẫu 13B có thể hoàn thành trong vòng 1 ngày chỉ với 8 chiếc A100.

Thanh cứng LLaVA-1.5 GPT-4V

Nghe nói có thể cạnh tranh với GPT-4V nhưng điểm mạnh của LLaVA-1.5 là gì?

Hãy để GPT-4V, LLaVA và LLaVA-1.5 pk.

địa chỉ dự án:

Câu hỏi: "Nếu có sai sót thực tế, xin vui lòng chỉ ra. Nếu không, xin vui lòng cho tôi biết chuyện gì đang xảy ra ở sa mạc?"

Câu trả lời của GPT-4V có phần ngu ngốc: "Xin lỗi, tôi không thể trả lời câu hỏi này vì không có ngữ cảnh nào thể hiện sa mạc mà bạn đề cập".

LLaVA đã trả lời đúng: "Trong ảnh, thành phố và bãi biển tạo thành đường chân trời của thành phố, và mọi người đang ngắm hoàng hôn. Cảnh bãi biển này thực ra là ở sa mạc, điều này khá bất thường."

Người ghi điểm hoàn hảo duy nhất, LLaVA-1.5, đã đưa ra câu trả lời hoàn hảo: "Không có sa mạc nào trong bức tranh, nhưng có những cây cọ, bãi biển, đường chân trời của thành phố và một vùng nước rộng lớn."

Ngoài ra, LLaVA-1.5 còn có thể trích xuất thông tin từ biểu đồ và phản hồi theo định dạng được yêu cầu, chẳng hạn như xuất ra ở định dạng JSON.

Có thể thấy, LLaVA-1.5 về cơ bản đã hoàn thành nhiệm vụ và vẫn còn một số thiếu sót so với GPT-4V.

Tương tự, cho LLaVA-1.5 một hình ảnh đầy đủ các loại trái cây và rau quả, nó có thể chuyển đổi hình ảnh đó thành JSON như GPT-4V.

Phân tích trực quan và chuyển đổi dữ liệu thông minh, thật đơn giản!

Câu hỏi sau đây không hề dễ dàng - bức tranh này có ý nghĩa gì?

Hóa ra đây là bản phác thảo đơn giản dựa trên "Inception" của Nolan, để tăng độ khó, tên nhân vật đã được đổi thành bút danh.

LLaVA-1.5 không hề bối rối và tự tin trả lời: "Đây là hình ảnh về bộ phim "Inception". Nó thể hiện các cấp độ khác nhau trong thế giới giấc mơ, và mỗi cấp độ được thể hiện bằng một đường thẳng. Hình ảnh Viết nó lên một tờ giấy và đặt tờ giấy lên bàn."

Những người sành ăn hãy vui mừng! Bạn nên làm gì nếu nhìn thấy một bức ảnh hấp dẫn khiến bạn muốn ăn nó?

Gửi trực tiếp đến LLaVA-1.5 và nó sẽ nhanh chóng tạo công thức cho bạn.

Hơn nữa, LLaVA-1.5 có thể nhận dạng mã xác minh mà không cần "bẻ khóa".

Nó cũng có thể phát hiện đồng xu nào trong hình.

Điều đặc biệt ấn tượng là LLaVA-1.5 còn có thể cho bạn biết con chó trong hình là giống chó gì.

Một số cư dân mạng đã sử dụng Bing để tạo ra hình ảnh một người đàn ông mặc áo khoác mùa đông trên bãi biển mùa hè đầy nắng và yêu cầu LLaVA 1.5 chỉ ra những vấn đề trong bức ảnh.

Con mắt sáng suốt của nó rất sắc bén——

Đây là bức ảnh đã được chỉnh sửa hoặc chỉnh sửa photoshop về một người đàn ông mặc áo khoác đứng trên bãi biển. Người đàn ông mở áo khoác ra và ánh nắng chiếu vào người anh ta. Vấn đề với hình ảnh này là nó không phải là cảnh bãi biển thực sự. Người đàn ông thực sự không đứng trên bãi biển và mặt trời không chiếu vào anh ta. Hình ảnh này đã được chỉnh sửa bằng photoshop để tạo ảo giác về khung cảnh bãi biển, nhưng nó không thực sự thể hiện khung cảnh đó.

Tuy nhiên, khả năng viết code front-end theo thiết kế của LLaVA-1.5 yếu hơn.

Đánh giá từ kết quả, sản lượng của nó thực sự tương đối thô...

8 chiếc A100, quá trình đào tạo hoàn thành trong một ngày

Kiến trúc của mô hình LLaVA kết nối bộ mã hóa hình ảnh được đào tạo trước (CLIP ViT-L/14) với mô hình ngôn ngữ quy mô lớn (Vicuna).

Hai mô hình được kết nối bằng một ma trận ánh xạ đơn giản, có nhiệm vụ căn chỉnh hoặc chuyển đổi các đặc điểm hình ảnh và ngôn ngữ để có thể thao tác trong một không gian thống nhất.

Trên tập dữ liệu hướng dẫn đa phương thức, LLaVA hoạt động tốt, với số điểm 85,1% so với GPT-4. Trên Science QA, độ chính xác của LLaVA lập kỷ lục mới, đạt 92,53%.

Lần này, các nhà nghiên cứu đã thiết lập một cơ sở thực tế và mạnh mẽ hơn dựa trên khung LLaVA.

Địa chỉ giấy:

Trình kết nối đa phương thức MLP và hợp nhất dữ liệu liên quan đến nhiệm vụ học thuật (như VQA) mang lại khả năng hiểu đa phương thức mạnh mẽ hơn cho LLaVA.

So với InstructBLIP hoặc Qwen-VL, là những công cụ lấy mẫu lại hình ảnh được thiết kế đặc biệt được đào tạo trên hàng trăm triệu hoặc thậm chí hàng tỷ dữ liệu được ghép nối giữa hình ảnh và văn bản, LLaVA sử dụng thiết kế kiến trúc LMM đơn giản nhất, chỉ yêu cầu hình ảnh 600K. lớp ánh xạ được kết nối đầy đủ đơn giản.

Mô hình cuối cùng có thể được huấn luyện trên 8 chiếc A100 trong một ngày và đã đạt được SOTA trong nhiều bài kiểm tra điểm chuẩn khác nhau.

Ngoài ra, Qwen-VL bao gồm dữ liệu nội bộ trong quá trình đào tạo, nhưng LLaVA chỉ cần dữ liệu công khai.

Không còn nghi ngờ gì nữa rằng những hiệu suất cơ bản được cải tiến và dễ tái tạo này sẽ cung cấp một tài liệu tham khảo có giá trị cho tương lai của LMM nguồn mở.

Hiệu suất đã được cải thiện đáng kể và 11 mặt hàng SOTA đã được làm mới

Là một mô hình tinh chỉnh hướng dẫn trực quan nguồn mở, LLaVA thể hiện rất tốt khả năng suy luận trực quan - trong các bài kiểm tra điểm chuẩn dựa trên các nhiệm vụ hướng dẫn trực quan trong đời thực, LLaVA thậm chí còn vượt qua các mô hình mới nhất.

Tuy nhiên, LLaVA không đạt thành tích tốt ở các tiêu chuẩn học thuật thường yêu cầu câu trả lời ngắn, chẳng hạn như từ. Lý do là LLaVA không được đào tạo trước về dữ liệu quy mô lớn.

Tỷ lệ mô hình

Đầu tiên, các nhà nghiên cứu tăng độ phân giải của hình ảnh đầu vào để LLM có thể "nhìn" rõ ràng các chi tiết của hình ảnh và thêm bộ dữ liệu GQA như một nguồn kiến thức trực quan bổ sung. Hơn nữa, dữ liệu ShareGPT cũng được thêm vào để phóng to LLM lên 13B.

Kết quả của MM-Vet cho thấy sự cải thiện rõ rệt nhất khi LLM được mở rộng lên 13B, điều này cũng cho thấy khả năng LLM cơ bản trong đối thoại trực quan là rất quan trọng.

Mẫu cuối cùng sau tất cả các cải tiến, được gọi là LLaVA-1.5, đã hoạt động rất ấn tượng, vượt xa LLaVA ban đầu một khoảng cách lớn.

Kết quả chia tỷ lệ cho dữ liệu, mô hình và độ phân giải

So sánh với SOTA

Sau đó, các nhà nghiên cứu đã thử nghiệm LLaVA-1.5 trên một loạt các tiêu chuẩn VQA học thuật và các tiêu chuẩn được đề xuất cụ thể cho các LMM tuân theo hướng dẫn.

Kết quả cho thấy LLaVA-1.5 không chỉ sử dụng ít dữ liệu tinh chỉnh hướng dẫn và đào tạo trước hơn mà còn tận dụng kiến trúc đơn giản nhất, tính toán học thuật và bộ dữ liệu công cộng để đạt được hiệu suất tốt nhất - trên 11 trên 12 điểm chuẩn SOTA.

Ngoài ra, nghiên cứu cũng cho thấy việc tinh chỉnh hướng dẫn trực quan đóng vai trò quan trọng hơn đào tạo trước trong việc cải thiện khả năng LMM.

Điều này cũng khiến chúng tôi phải suy nghĩ lại về những ưu điểm của công cụ lấy mẫu trực quan và sự cần thiết của việc đào tạo trước trên quy mô lớn bổ sung về khả năng tuân theo hướng dẫn đa phương thức.

So sánh với phương pháp SOTA trên 12 điểm chuẩn

Mẹo về định dạng phản hồi

Các nhà nghiên cứu phát hiện ra rằng các phương pháp trước đây như InstructBLIP không thể đạt được sự cân bằng giữa VQA dạng ngắn và dạng dài. Lý do chính là——

Đầu tiên, những lời nhắc về định dạng phản hồi rất mơ hồ.

Ví dụ: "Q: {Question} A: {Answer}" không chỉ rõ định dạng đầu ra lý tưởng, thậm chí cả đoạn hội thoại trực quan tự nhiên, điều này có thể khiến LLM quá phù hợp với các câu trả lời định dạng ngắn.

Thứ hai, LLM không được tinh chỉnh.

Ví dụ: InstructBLIP chỉ tinh chỉnh các hướng dẫn cho Qformer. Mặc dù có thể sử dụng mã thông báo đầu ra trực quan của Qformer để kiểm soát độ dài của đầu ra LLM, nhưng Qformer có dung lượng tương đối hạn chế so với các LLM như LLaMA, do đó, nó có thể không thực hiện được điều này một cách chính xác.

Để giải quyết vấn đề này, các nhà nghiên cứu đề xuất thêm một gợi ý vào cuối câu hỏi VQA để làm rõ định dạng đầu ra, cho phép mô hình tạo ra các câu trả lời ngắn. Ví dụ: "Trả lời câu hỏi bằng một từ hoặc cụm từ."

Khi LLM sử dụng gợi ý này để tinh chỉnh, LLaVA có thể tinh chỉnh chính xác định dạng đầu ra theo hướng dẫn của người dùng và không yêu cầu xử lý bổ sung dữ liệu VQA bằng ChatGPT.

Kết quả cho thấy chỉ cần thêm VQAv2 vào huấn luyện, hiệu suất của LLaVA trên MME đã được cải thiện đáng kể (1323,8 so với 502,8), cao hơn 111 điểm so với InstructBLIP!

### Dữ liệu cho nhiệm vụ học tập

Các nhà nghiên cứu đã bổ sung thêm các bộ dữ liệu VQA cho các nhiệm vụ học thuật về VQA, OCR và nhận thức cấp khu vực để cải thiện khả năng của mô hình từ các khía cạnh khác nhau.

Đầu tiên, chúng bao gồm bốn bộ dữ liệu bổ sung được InstructBLIP sử dụng: Open Knowledge VQA.

Trong đó, A-OKVQA được chuyển thành dạng câu hỏi trắc nghiệm và sử dụng dạng gợi ý trả lời cụ thể - trả lời trực tiếp bằng các chữ cái trong các phương án cho sẵn.

Chỉ sử dụng một tập con của tập dữ liệu được InstructBLIP sử dụng, LLaVA đã vượt qua InstructBLIP ở cả 3 nhiệm vụ trong Bảng 1, điều này cho thấy thiết kế của LLaVA rất hiệu quả.

Ngoài ra, các nhà nghiên cứu nhận thấy rằng khả năng bản địa hóa các chi tiết hình ảnh chi tiết của mô hình có thể được cải thiện bằng cách bổ sung thêm các bộ dữ liệu VQA cấp khu vực.

Tổng quát hóa hướng dẫn định dạng ảnh 0

Mặc dù LLaVA-1.5 chỉ sử dụng các hướng dẫn định dạng giới hạn để huấn luyện nhưng nó có thể khái quát hóa sang các hướng dẫn định dạng khác.

Ví dụ: VizWiz yêu cầu mô hình xuất ra "unanswerable" khi nội dung được cung cấp không đủ để trả lời câu hỏi và lời nhắc định dạng câu trả lời của LLaVA có thể hướng dẫn mô hình làm điều đó một cách hiệu quả (câu hỏi không thể trả lời chiếm 11,1% → 67,8%).

### Khả năng đa ngôn ngữ không chụp

Đồng thời, LLaVA-1.5 không được tinh chỉnh cho các hướng dẫn đa ngôn ngữ. Tuy nhiên, vì ShareGPT chứa một lượng lớn dữ liệu liên quan nên nó vẫn có thể triển khai lệnh đa phương thức theo nhiều ngôn ngữ.

Các nhà nghiên cứu đã đánh giá định lượng khả năng khái quát hóa của mô hình sang tiếng Trung trên MMBenchCN, trong đó các câu hỏi của MMBench được chuyển đổi sang tiếng Trung.

Điều đáng chú ý là LLaVA-1.5 có độ chính xác cao hơn 7,3% so với Qwen-VL-Chat (63,6% so với 56,7%). Trong số đó, Qwen đã tinh chỉnh các hướng dẫn đa phương thức của Trung Quốc, trong khi LLaVA-1.5 thì không.

Chi phí tính toán

Đối với LLaVA-1.5, các nhà nghiên cứu đã sử dụng cùng một bộ dữ liệu đào tạo trước như LCS-558K và giữ cùng số lần lặp lại quá trình đào tạo tinh chỉnh hướng dẫn và kích thước lô như LLaVA.

Do độ phân giải đầu vào hình ảnh được tăng lên 336px nên thời gian huấn luyện của LLaVA-1.5 gấp 2 lần LLaVA: 6 giờ huấn luyện trước và 20 giờ tinh chỉnh hướng dẫn trực quan bằng 8 chiếc A100.

Hạn chế

Mặc dù LLaVA-1.5 đã đạt được kết quả rất tốt nhưng phải thừa nhận rằng nó vẫn còn một số hạn chế.

Đầu tiên, LLaVA sử dụng các bản vá hình ảnh hoàn chỉnh, có thể kéo dài thời gian của mỗi lần lặp lại huấn luyện.

Thứ hai, LLaVA-1.5 vẫn chưa thể xử lý nhiều hình ảnh do thiếu các hướng dẫn để tuân theo dữ liệu và giới hạn về độ dài ngữ cảnh.

Thứ ba, mặc dù LLaVA-1.5 có thể thực hiện thành thạo các hướng dẫn phức tạp, nhưng khả năng giải quyết vấn đề của nó vẫn sẽ bị hạn chế ở một số lĩnh vực, điều này có thể đạt được bằng cách tinh chỉnh dữ liệu với các mô hình ngôn ngữ mạnh mẽ hơn và các hướng dẫn trực quan có mục tiêu, chất lượng cao.

Cuối cùng, LLaVA-1.5 chắc chắn dễ gây ảo giác và thông tin sai lệch và do đó nên thận trọng khi sử dụng trong các ứng dụng quan trọng như y tế.

Giới thiệu về tác giả

Haotian Liu

Haotian Liu là nghiên cứu sinh tiến sĩ về khoa học máy tính tại Đại học Wisconsin-Madison dưới sự hướng dẫn của Giáo sư Yong Jae Lee. Trước đây, anh đã nhận bằng cử nhân của Đại học Chiết Giang.

Mối quan tâm nghiên cứu của ông là về thị giác máy tính và học máy, đặc biệt là các thuật toán hiệu quả để nhận thức và hiểu biết bằng hình ảnh. Nghiên cứu gần đây đã tập trung vào việc xây dựng các mô hình lớn có thể tùy chỉnh dựa trên ý định của con người.

Chunyuan Li

Chunyuan Li là nhà nghiên cứu chính tại Microsoft Research Redmond.

Trước đây, anh đã nhận bằng Tiến sĩ về học máy tại Đại học Duke, nơi anh hướng dẫn là Giáo sư Lawrence Carin. Ông từng là chủ tịch lĩnh vực của NeurIPS, ICML, ICLR, EMNLP và AAAI, đồng thời là biên tập viên khách mời của IJCV.

Nghiên cứu gần đây của ông tập trung vào việc đào tạo trước trên quy mô lớn về thị giác máy tính và xử lý ngôn ngữ tự nhiên. Ví dụ: xây dựng các mô hình đa phương thức quy mô lớn tuân theo ý định của con người, đào tạo trước về ngôn ngữ và hình ảnh cũng như các mô hình sáng tạo sâu quy mô lớn.

Yuheng Li

Yuheng Li là nghiên cứu sinh tiến sĩ về khoa học máy tính tại Đại học Wisconsin-Madison, dưới sự hướng dẫn của Giáo sư Yong Jae Lee. Trước đây, anh đã nhận bằng cử nhân của Đại học Khoa học và Công nghệ Huazhong.

Mối quan tâm nghiên cứu của ông là tạo và xử lý hình ảnh đa phương thức có thể kiểm soát được cũng như các vấn đề khác liên quan đến tầm nhìn sáng tạo.

Người giới thiệu:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)