MiniGPT-5, hợp nhất việc tạo hình ảnh và văn bản, có tại đây: Mã thông báo trở thành Voken và mô hình không chỉ có thể tiếp tục ghi mà còn tự động thêm hình ảnh.

Mô hình lớn GPT-5 của OpenAI dường như còn rất xa, nhưng một số nhà nghiên cứu đã đi đầu trong việc tung ra mô hình sáng tạo đa thế hệ ngôn ngữ và hình ảnh MiniGPT-5. Điều này có ý nghĩa quan trọng trong việc tạo ra hình ảnh với những mô tả văn bản mạch lạc.

Nguồn hình ảnh: Được tạo bởi AI không giới hạn

Các mô hình lớn đang tạo ra bước nhảy vọt giữa ngôn ngữ và hình ảnh, hứa hẹn có thể hiểu và tạo ra nội dung văn bản và hình ảnh một cách liền mạch. Trong một loạt nghiên cứu gần đây, việc tích hợp tính năng đa phương thức không chỉ là xu hướng ngày càng tăng mà còn dẫn đến những tiến bộ quan trọng, từ hội thoại đa phương thức đến các công cụ tạo nội dung. Các mô hình ngôn ngữ lớn đã chứng tỏ khả năng vượt trội trong việc hiểu và tạo văn bản. Tuy nhiên, việc tạo ra đồng thời các hình ảnh với các câu chuyện bằng văn bản mạch lạc vẫn là một lĩnh vực cần được phát triển.

Gần đây, một nhóm nghiên cứu từ Đại học California, Santa Cruz đã đề xuất MiniGPT-5, một công nghệ tạo ngôn ngữ hình ảnh xen kẽ sáng tạo dựa trên khái niệm "bỏ phiếu sáng tạo".

* Địa chỉ giấy tờ: *địa chỉ dự án:

Bằng cách kết hợp cơ chế Khuếch tán ổn định với LLM thông qua "bỏ phiếu tổng quát" mã thông báo trực quan đặc biệt, MiniGPT-5 báo trước một mô hình mới cho việc tạo đa phương thức lành nghề. Đồng thời, phương pháp huấn luyện hai giai đoạn được đề xuất trong bài viết này nhấn mạnh tầm quan trọng của giai đoạn cơ bản không có mô tả, cho phép mô hình “phát triển mạnh” ngay cả khi dữ liệu khan hiếm. Giai đoạn chung của phương pháp không yêu cầu chú thích theo miền cụ thể, điều này làm cho giải pháp của chúng tôi khác biệt với các phương pháp hiện có. Để đảm bảo rằng văn bản và hình ảnh được tạo ra hài hòa, chiến lược mất mát kép của bài viết này phát huy tác dụng, đồng thời phương pháp bỏ phiếu tổng quát và phương pháp phân loại càng nâng cao hơn nữa hiệu ứng này.

Dựa trên những kỹ thuật này, công trình này đánh dấu một cách tiếp cận mang tính biến đổi. Bằng cách sử dụng ViT (Vision Transformer) và Qformer cũng như các mô hình ngôn ngữ lớn, nhóm nghiên cứu chuyển đổi đầu vào đa phương thức thành các phiếu bầu chung và ghép nối liền mạch chúng với Stable Diffusion2.1 có độ phân giải cao để đạt được khả năng tạo hình ảnh nhận biết ngữ cảnh. Bài viết này kết hợp hình ảnh làm đầu vào phụ trợ với các phương pháp điều chỉnh hướng dẫn và đi tiên phong trong việc sử dụng văn bản và hình ảnh bị mất, từ đó mở rộng sức mạnh tổng hợp giữa văn bản và hình ảnh.

MiniGPT-5 phù hợp với các mô hình như ràng buộc CLIP và tích hợp khéo léo mô hình khuếch tán với MiniGPT-4 để đạt được kết quả đa phương thức tốt hơn mà không cần dựa vào chú thích theo từng miền cụ thể. Quan trọng nhất, chiến lược của chúng tôi có thể tận dụng những tiến bộ trong các mô hình cơ bản của ngôn ngữ hình ảnh đa phương thức và cung cấp một kế hoạch chi tiết mới để nâng cao khả năng sáng tạo đa phương thức.

Như được hiển thị trong hình bên dưới, ngoài khả năng hiểu đa phương thức và tạo văn bản ban đầu, MiniGPT5 còn có thể cung cấp đầu ra đa phương thức hợp lý và mạch lạc:

Đóng góp của bài viết này được thể hiện ở ba khía cạnh:

  • Bạn nên sử dụng bộ mã hóa đa phương thức, đại diện cho một kỹ thuật có mục đích chung mới và đã được chứng minh là hiệu quả hơn LLM và Voken tạo thế hệ đảo ngược, đồng thời kết hợp nó với Khuếch tán ổn định để tạo ra các đầu ra ngôn ngữ và hình ảnh xen kẽ (Đa phương thức mô hình ngôn ngữ có khả năng tạo đa phương thức).
  • Nêu bật chiến lược đào tạo hai giai đoạn mới để tạo ra đa phương thức không cần mô tả. Giai đoạn căn chỉnh một phương thức thu được các đặc điểm trực quan được căn chỉnh theo văn bản chất lượng cao từ một số lượng lớn các cặp văn bản-hình ảnh. Giai đoạn học tập đa phương thức bao gồm một nhiệm vụ đào tạo mới, tạo bối cảnh, đảm bảo rằng tầm nhìn và văn bản có thể được phối hợp và tạo ra tốt. Việc thêm hướng dẫn không cần phân loại trong giai đoạn đào tạo sẽ cải thiện hơn nữa chất lượng tạo.
  • So với các mô hình tạo đa phương thức khác, MiniGPT-5 đạt được hiệu suất tiên tiến trên tập dữ liệu CC3M. MiniGPT-5 cũng thiết lập các tiêu chuẩn mới trên các bộ dữ liệu nổi tiếng như VIST và MMDialog.

Tiếp theo, chúng ta hãy xem chi tiết của nghiên cứu.

Tổng quan về phương pháp

Để cho phép các mô hình ngôn ngữ quy mô lớn có khả năng tạo đa phương thức, các nhà nghiên cứu đã giới thiệu một khung có cấu trúc tích hợp các mô hình ngôn ngữ quy mô lớn đa phương thức được đào tạo trước và mô hình tạo văn bản thành hình ảnh. Để giải quyết sự khác biệt giữa các trường mô hình khác nhau, họ đã giới thiệu các biểu tượng trực quan đặc biệt “generative vote” (bầu chọn tổng quát), có thể được đào tạo trực tiếp trên hình ảnh gốc. Ngoài ra, phương pháp đào tạo hai giai đoạn được nâng cao, kết hợp với chiến lược khởi động không cần phân loại, để cải thiện hơn nữa chất lượng tạo ra.

Giai đoạn nhập liệu đa phương thức

Những tiến bộ gần đây ở các mô hình lớn đa phương thức (như MiniGPT-4) chủ yếu tập trung vào việc hiểu đa phương thức, có khả năng xử lý hình ảnh dưới dạng đầu vào liên tục. Để mở rộng chức năng của nó sang tạo đa phương thức, các nhà nghiên cứu đã giới thiệu Vokens tổng quát được thiết kế đặc biệt để tạo ra các tính năng trực quan. Ngoài ra, họ cũng áp dụng các kỹ thuật tinh chỉnh tham số hiệu quả trong khuôn khổ mô hình ngôn ngữ lớn (LLM) để học đầu ra đa phương thức.

Tạo đầu ra đa phương thức

Để căn chỉnh chính xác các mã thông báo tổng hợp với các mô hình tổng hợp, chúng tôi xây dựng một mô-đun ánh xạ nhỏ gọn để khớp kích thước và kết hợp một số tổn thất được giám sát, bao gồm mất không gian văn bản và mất mô hình khuếch tán tiềm ẩn. Việc mất không gian văn bản giúp mô hình tìm hiểu cách bản địa hóa chính xác các mã thông báo, trong khi việc mất mát khuếch tán tiềm ẩn sẽ điều chỉnh trực tiếp các mã thông báo với các đặc điểm hình ảnh phù hợp. Vì các đặc điểm của ký hiệu tổng quát được hướng dẫn trực tiếp bởi hình ảnh nên phương pháp này không yêu cầu mô tả hình ảnh toàn diện, cho phép học tập không cần mô tả.

Chiến lược đào tạo

Do có sự thay đổi miền không đáng kể giữa miền văn bản và miền hình ảnh, các nhà nghiên cứu nhận thấy rằng việc đào tạo trực tiếp trên tập dữ liệu hình ảnh và văn bản xen kẽ có giới hạn có thể dẫn đến sai lệch và suy giảm chất lượng hình ảnh.

Vì vậy, họ đã sử dụng hai chiến lược đào tạo khác nhau để giảm bớt vấn đề này. Chiến lược đầu tiên liên quan đến việc sử dụng các kỹ thuật khởi động không cần phân loại để cải thiện hiệu quả của mã thông báo được tạo trong suốt quá trình phổ biến; chiến lược thứ hai diễn ra theo hai giai đoạn: giai đoạn đào tạo trước ban đầu tập trung vào căn chỉnh tính năng thô, tiếp theo là giai đoạn tinh chỉnh Làm việc về việc học tính năng phức tạp.

Thử nghiệm và kết quả

Để đánh giá hiệu quả của mô hình, các nhà nghiên cứu đã tiến hành một loạt đánh giá trên nhiều tiêu chuẩn. Thí nghiệm nhằm giải quyết một số câu hỏi chính:

  • MiniGPT-5 có thể tạo ra hình ảnh đáng tin cậy và văn bản hợp lý không?
  • MiniGPT-5 hoạt động như thế nào so với các mô hình SOTA khác trong các tác vụ tạo ngôn ngữ hình ảnh xen kẽ một vòng và nhiều vòng?
  • Thiết kế của từng mô-đun có tác động gì đến hiệu suất tổng thể?

Để đánh giá hiệu năng của mô hình trên các benchmark khác nhau ở các giai đoạn huấn luyện khác nhau, các mẫu phân tích định lượng của MiniGPT-5 được thể hiện trong Hình 3 bên dưới:

Việc đánh giá ở đây trải rộng cả hai lĩnh vực trực quan (số liệu liên quan đến hình ảnh) và ngôn ngữ (số liệu văn bản) để chứng minh tính tổng quát và tính mạnh mẽ của mô hình được đề xuất.

Đánh giá bước cuối cùng của VIST

Tập thử nghiệm đầu tiên bao gồm đánh giá một bước, nghĩa là tạo ra các hình ảnh tương ứng dựa trên mô hình ở bước cuối cùng và kết quả được hiển thị trong Bảng 1.

MiniGPT-5 vượt trội hơn SD 2 đã được tinh chỉnh ở cả ba cài đặt. Đáng chú ý, điểm CLIP của mẫu MiniGPT-5 (LoRA) luôn vượt trội so với các biến thể khác trên nhiều loại, đặc biệt là khi kết hợp hình ảnh và văn bản. Mặt khác, điểm FID nêu bật tính cạnh tranh của mô hình MiniGPT-5 (Tiền tố), cho thấy rằng có thể có sự cân bằng giữa chất lượng nhúng hình ảnh (được phản ánh bởi điểm CLIP) và tính đa dạng và tính xác thực của hình ảnh (được phản ánh bởi điểm FID). So với mô hình được đào tạo trực tiếp trên VIST mà không bao gồm giai đoạn đăng ký một phương thức (MiniGPT-5 w/o UAS), mặc dù mô hình vẫn giữ được khả năng tạo ra hình ảnh có ý nghĩa nhưng chất lượng và tính nhất quán của hình ảnh bị giảm đáng kể. Quan sát này nhấn mạnh tầm quan trọng của chiến lược đào tạo hai giai đoạn.

Đánh giá nhiều bước của VIST

Để đánh giá chi tiết và toàn diện hơn, các nhà nghiên cứu đã cung cấp cho mô hình một cách có hệ thống bối cảnh lịch sử trước đó và sau đó đánh giá các hình ảnh và câu chuyện thu được ở mỗi bước.

Bảng 2 và 3 tóm tắt kết quả của các thử nghiệm này, tóm tắt hiệu suất của các số liệu hình ảnh và ngôn ngữ tương ứng. Kết quả thử nghiệm cho thấy MiniGPT-5 có thể tạo ra hình ảnh mạch lạc, chất lượng cao bằng cách sử dụng đầu vào đa phương thức theo chiều ngang dài trong tất cả dữ liệu mà không ảnh hưởng đến khả năng hiểu đa phương thức của mô hình ban đầu. Điều này nêu bật tính hiệu quả của MiniGPT-5 trong các môi trường khác nhau.

Đánh giá con người của VIST

Như được hiển thị trong Bảng 4, MiniGPT-5 đã tạo ra các câu chuyện văn bản phù hợp hơn trong 57,18% trường hợp, cung cấp chất lượng hình ảnh tốt hơn trong 52,06% trường hợp và tạo ra nhiều chế độ mạch lạc hơn trong 57,62% số cảnh đầu ra. So với đường cơ sở hai giai đoạn sử dụng tường thuật chuyển văn bản thành hình ảnh mà không có tâm trạng giả định, những dữ liệu này thể hiện rõ ràng khả năng tạo đa phương thức mạnh mẽ hơn của nó.

MMDialog nhiều vòng đánh giá

Kết quả được trình bày trong Bảng 5. MiniGPT-5 vượt trội hơn Divter mô hình cơ sở trong việc tạo ra phản hồi văn bản chính xác hơn. Mặc dù hình ảnh được tạo ra có chất lượng tương tự nhau nhưng MiniGPT-5 lại vượt trội hơn mô hình cơ sở về tương quan MM, cho thấy rằng nó có thể học tốt hơn cách định vị việc tạo hình ảnh một cách thích hợp và tạo ra phản hồi đa phương thức có tính nhất quán cao.

Hiệu quả là gì? Chúng ta hãy xem đầu ra của MiniGPT-5. Hình 7 bên dưới thể hiện sự so sánh giữa các mô hình cơ sở trên bộ xác thực MiniGPT-5 và CC3M.

Hình 8 bên dưới hiển thị so sánh giữa MiniGPT-5 và mô hình cơ sở trên bộ xác thực VIST.

Hình 9 bên dưới thể hiện sự so sánh giữa MiniGPT-5 và mô hình cơ sở trên bộ thử nghiệm MMDialog.

Để biết thêm chi tiết nghiên cứu, vui lòng tham khảo bài viết gốc.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)