Công nghệ đột phá! Mô hình đa phương thức mã nguồn mở—MiniGPT-5

Nguồn gốc: Cộng đồng mở AIGC

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Thế hệ đa phương thức luôn là một lĩnh vực nghiên cứu quan trọng đối với những gã khổng lồ công nghệ như OpenAI, Microsoft và Baidu, nhưng làm thế nào để đạt được văn bản mạch lạc và hình ảnh liên quan là một vấn đề khó khăn.

Để vượt qua nút thắt kỹ thuật, Đại học California, Santa Cruz đã phát triển mô hình MiniGPT-5 ** và đề xuất một khái niệm kỹ thuật mới "Generative Vokens", trở thành "cầu nối" giữa không gian tính năng văn bản và không gian tính năng hình ảnh **, nhận ra sự liên kết hiệu quả của dữ liệu đào tạo thông thường và tạo ra văn bản và hình ảnh chất lượng cao cùng một lúc.

Để đánh giá tác động của MiniGPT-5, các nhà nghiên cứu đã thử nghiệm nó trên nhiều bộ dữ liệu, bao gồm CC3M, VIST và MMDialog. Kết quả cho thấy MiniGPT-5 vượt trội hơn nhiều đường cơ sở so sánh trên nhiều chỉ số và có thể tạo ra văn bản và hình ảnh mạch lạc, chất lượng cao.

Ví dụ: trên tập dữ liệu VIST, điểm CLIP của hình ảnh do MiniGPT-5 tạo ra cao hơn điểm của Khuếch tán ổn định 2 được tinh chỉnh; Trong đánh giá của con người, MiniGPT-5 tạo ra sự gắn kết ngôn ngữ tốt hơn (57,18%), chất lượng hình ảnh cao hơn (52,06%) và sự gắn kết đa phương thức mạnh mẽ hơn (57,62%).

Trên bộ dữ liệu MMDialog, chỉ số tương quan MM của MiniGPT-5 đạt 0,67, vượt quá 0,62 của mô hình chuẩn Divter. Điều này hoàn toàn chứng minh khả năng thích ứng mạnh mẽ của MiniGPT-5 trong các chế độ dữ liệu khác nhau.

Địa chỉ mã nguồn mở:

Địa chỉ:

Mô hình MiniGPT-5 có ba cải tiến lớn: 1) Nó sử dụng bộ mã hóa đa phương thức để trích xuất các tính năng văn bản và hình ảnh, đại diện cho công nghệ căn chỉnh văn bản-hình ảnh mới, tốt hơn phương pháp sử dụng trực tiếp các mô hình ngôn ngữ lớn để tạo mã thông báo trực quan.

  1. Một chiến lược đào tạo hai giai đoạn mà không có mô tả hình ảnh đầy đủ đã được đề xuất: giai đoạn đầu tiên tập trung vào sự liên kết đơn giản của văn bản và hình ảnh; Trong giai đoạn thứ hai, việc học tính năng chi tiết đa phương thức được thực hiện.

  2. Công nghệ "hướng dẫn không phân loại" được đưa vào đào tạo, có thể cải thiện hiệu quả chất lượng nội dung của thế hệ đa phương thức. Kiến trúc mô-đun chính như sau.

** Vokens tạo **

Sự đổi mới cốt lõi của MiniGPT-5 là đưa ra khái niệm kỹ thuật về "Generative Vokens", hiện thực hóa kết nối liền mạch giữa các mô hình ngôn ngữ lớn và mô hình tạo hình ảnh.

Cụ thể, các nhà nghiên cứu đã thêm tám mã thông báo Voken đặc biệt vào từ vựng của mô hình[IMG1] [IMG8]- 。 Các Voken này được sử dụng làm trình giữ chỗ cho hình ảnh trong quá trình đào tạo mô hình.

Về mặt đầu vào, các tính năng hình ảnh được ghép với các vectơ từ của Voken để tạo thành một đầu vào chuỗi. Ở đầu ra, mô hình dự đoán vị trí của các Voken này và trạng thái ẩn h_voken tương ứng được sử dụng để đại diện cho nội dung hình ảnh.

Sau đó, h_voken được chuyển đổi thành các tính năng có điều kiện hình ảnh ˆh \ _voken phù hợp với đầu ra của bộ mã hóa văn bản khuếch tán ổn định thông qua mô-đun ánh xạ tính năng.

Trong khuếch tán ổn định, ˆh \ _voken được sử dụng làm đầu vào có điều kiện để hướng dẫn tạo hình ảnh. Toàn bộ quy trình hiện thực hóa việc kết nối từ hình ảnh đến mô hình ngôn ngữ để tạo hình ảnh.

Phương pháp căn chỉnh thông qua Voken này đơn giản hơn tính toán ngược và linh hoạt hơn so với sử dụng mô tả hình ảnh. Nói một cách đơn giản, Generative Vokens hoạt động như một "cầu nối" giúp việc chuyển thông tin giữa các miền mô hình khác nhau diễn ra suôn sẻ hơn.

** Chiến lược đào tạo hai giai đoạn**

Xem xét rằng có sự khác biệt nhất định về miền trong không gian tính năng của văn bản và hình ảnh, MiniGPT-5 áp dụng chiến lược đào tạo hai giai đoạn.

Giai đoạn đầu tiên là giai đoạn căn chỉnh đơn phương thức: chỉ sử dụng dữ liệu từ một cặp văn bản hình ảnh duy nhất, chẳng hạn như CC3M. Mô hình học cách tạo Voken tương ứng từ chú thích hình ảnh. Đồng thời, việc mất tiêu đề hình ảnh thứ cấp đã được thêm vào để giúp Voken phù hợp với nội dung hình ảnh.

Giai đoạn thứ hai là giai đoạn học tập đa phương thức: tinh chỉnh bằng cách sử dụng dữ liệu chứa các mẫu đa phương thức liền kề, chẳng hạn như VIST. Thiết lập các tác vụ đào tạo khác nhau, bao gồm tạo văn bản, tạo hình ảnh và cả hai. Khả năng xử lý thông tin đa phương thức của mô hình đã được tăng cường.

Chiến lược theo giai đoạn này có thể làm giảm bớt vấn đề đào tạo trực tiếp trên dữ liệu hạn chế. Căn chỉnh hạt thô được thực hiện trước tiên, và sau đó tinh chỉnh các tính năng hạt nhỏ, giúp cải thiện tính biểu cảm và độ chắc chắn của mô hình.

Không có hướng dẫn phân loại

Để cải thiện hơn nữa sự gắn kết của văn bản và hình ảnh được tạo, MiniGPT-5 cũng áp dụng công nghệ "hướng dẫn không phân loại".

Ý tưởng cốt lõi là trong quá trình khuếch tán hình ảnh, Voken có điều kiện được thay thế bằng các tính năng bằng không với xác suất nhất định để đạt được thế hệ vô điều kiện.

Khi suy luận, các kết quả có điều kiện và vô điều kiện được sử dụng làm mẫu dương và âm, và mô hình có thể sử dụng tốt hơn độ tương phản giữa hai để tạo ra đầu ra đa phương thức mạch lạc. Phương pháp này đơn giản và hiệu quả, không cần giới thiệu thêm các bộ phân loại và hướng dẫn việc học mô hình thông qua bản chất so sánh dữ liệu.

Mô hình tạo văn bản thành hình ảnh

MiniGPT-5 sử dụng Stable Diffusion 2.1 và mô hình đa phương thức MiniGPT-4 làm mô hình tạo văn bản thành hình ảnh. Hình ảnh chất lượng cao, độ phân giải cao có thể được tạo từ mô tả văn bản.

Stable Diffusion sử dụng mô hình Diffusion và U-Net làm thành phần chính. Mô hình khuếch tán có thể biểu diễn hình ảnh dưới dạng dữ liệu nhiễu, sau đó có thể được khử nhiễu và tái tạo từng bước.

U-Net sử dụng các tính năng văn bản làm điều kiện để hướng dẫn quá trình khử nhiễu để tạo ra các hình ảnh tương ứng. So với GAN, mô hình Diffusion ổn định hơn và hiệu ứng tạo rõ ràng và thực tế hơn.

Để căn chỉnh chính xác các dấu hiệu phát sinh với mô hình thế hệ, các nhà nghiên cứu đã phát triển một mô-đun ánh xạ nhỏ gọn để khớp kích thước và kết hợp một số tổn thất có giám sát, bao gồm mất không gian văn bản và mất mô hình khuếch tán tiềm ẩn.

Mất không gian văn bản giúp mô hình tìm hiểu vị trí chính xác của điểm đánh dấu, trong khi mất khuếch tán tiềm năng trực tiếp căn chỉnh điểm đánh dấu với tính năng trực quan thích hợp. Vì các tính năng tạo Vokens được hướng dẫn trực tiếp bằng hình ảnh, nên việc học mô tả có thể đạt được mà không cần mô tả toàn diện về hình ảnh.

Theo các nhà nghiên cứu, đóng góp lớn nhất của MiniGPT-5 nằm ở việc tích hợp hiệu quả giữa tạo văn bản và tạo hình ảnh. Chỉ cần văn bản và hình ảnh thông thường để đào tạo trước và việc tạo đa phương thức mạch lạc có thể được thực hiện mà không cần mô tả hình ảnh phức tạp. Điều này cung cấp một giải pháp thống nhất và hiệu quả cho các nhiệm vụ đa phương thức.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)