Những phát triển mới trong các mô hình byte lớn: lần đầu tiên giới thiệu định vị trực quan để đạt được sự hiểu biết chung đa phương thức chi tiết, mã nguồn mở và bản demo có thể chơi được

Nguồn gốc: Qubit

Mô hình byte lớn, BuboGPT ở đây.

Hỗ trợ ba chế độ văn bản, hình ảnh và âm thanh để đạt được sự hiểu biết chung đa phương thức chi tiết.

Trả lời ở đâu và nói gì, nói gì và không nói gì, chỉ cần nhìn thoáng qua là rõ ràng:

Ngoài việc có “đôi mắt tinh tường” còn có “đôi tai tinh tường”. BuboGPT có thể nghe thấy những chi tiết mà con người không thể nhận thấy:

Audio-1-chime-bird-breeze, qubit, 20 giây

Năng lượng cao phía trước!

Hiểu khớp ba phương thức, mô tả văn bản + định vị hình ảnh + định vị âm thanh, một cú nhấp chuột để lấy nó và xác định chính xác nguồn âm thanh:

Audio-7-dork-bark, qubit, 6 giây

Đừng lo lắng, nó vẫn chưa kết thúc!

Ngay cả khi không có mối quan hệ trực tiếp giữa âm thanh và hình ảnh, mối quan hệ có thể có giữa hai điều này có thể được mô tả một cách hợp lý. Cũng có thể kể chuyện bằng cách nhìn vào hình ảnh và xác định âm thanh:

Âm thanh-11-sáu giờ, qubit, 1 phút

Nhìn theo cách này, BuboGPT thực hiện một số công việc, thế là đủ "ổn".

Theo các nhà nghiên cứu:

Các mô hình lớn đa phương thức phổ biến gần đây như MiniGPT-4, LLaVA và X-LLM không tạo các kết nối cơ bản đến các phần cụ thể của đầu vào mà chỉ xây dựng các bản đồ chi tiết thô. Mặc dù BuboGPT tận dụng lượng thông tin phong phú và sự tương ứng rõ ràng giữa văn bản và các phương thức khác, nhưng BuboGPT có thể cung cấp hiểu biết chi tiết về các đối tượng trực quan và một phương thức nhất định.

Do đó, khi BuboGPT mô tả hình ảnh, nó có thể chỉ ra vị trí cụ thể của đối tượng trong hình.

BuboGPT: Lần đầu tiên giới thiệu kết nối hình ảnh với LLM

Ngoài các ví dụ trên được tác giả chia sẻ trên YouTube, nhóm nghiên cứu cũng trình diễn nhiều thủ thuật khác nhau của BuboGPT trong bài báo.

Lâu lắm mới thấy một chú ếch chơi piano! Một biểu đồ như vậy BuboGPT cũng có thể mô tả chính xác?

Kangkang cùng nhau trả lời như thế nào nhé:

Bạn không chỉ có thể mô tả chính xác tư thế của con ếch mà còn biết đó là banjo?

Hãy hỏi nó những địa điểm thú vị trong bức tranh, và nó cũng có thể tóm tắt mọi thứ trong nền của bức tranh.

BuboGPT "kiểm tra thị lực + thính giác + biểu cảm", các nhà nghiên cứu chơi nó như thế này, chúng ta hãy nghe đoạn âm thanh này trước.

Âm thanh-9-máy sấy tóc, qubit, 5 giây

Hãy cùng xem mô tả về BuboGPT:

BuboGPT có thể hiểu chính xác giới tính của người trong ảnh, nguồn âm thanh và điều gì đã xảy ra trong ảnh.

Hiệu quả tốt như vậy là do lần này Byte đã sử dụng phương pháp đưa định vị trực quan vào LLM.

Các phương pháp cụ thể sau đó chúng tôi nhìn xuống.

Kiến trúc của BuboGPT là để đạt được sự hiểu biết đa phương thức bằng cách tìm hiểu một không gian ngữ nghĩa được chia sẻ và khám phá thêm các mối quan hệ chi tiết giữa các đối tượng hình ảnh khác nhau và các phương thức khác nhau.

Để khám phá mối quan hệ chi tiết giữa các đối tượng trực quan khác nhau và các phương thức khác nhau, trước tiên, các nhà nghiên cứu đã xây dựng một quy trình bản địa hóa trực quan được tạo sẵn dựa trên SAM.

Quy trình này bao gồm ba mô-đun: Mô-đun gắn thẻ (Mô-đun gắn thẻ), Mô-đun vị trí (Mô-đun tiếp đất) và Mô-đun khớp thực thể (Mô-đun khớp thực thể).

Quy trình đại khái như thế này:

Đầu tiên, mô-đun ghi nhãn là một mô hình được đào tạo trước có thể tạo nhiều nhãn văn bản được liên kết với một hình ảnh đầu vào.

Mô-đun bản địa hóa dựa trên SAM bản địa hóa thêm mặt nạ ngữ nghĩa hoặc hộp giới hạn được liên kết với từng nhãn văn bản trên hình ảnh.

Sau đó, mô-đun đối sánh thực thể sử dụng khả năng lập luận của LLM để truy xuất các đối tượng phù hợp từ nhãn và mô tả hình ảnh.

Đây là cách các nhà nghiên cứu sử dụng ngôn ngữ làm cầu nối để kết nối các đối tượng trực quan với các phương thức khác.

Để làm cho đầu vào của bất kỳ sự kết hợp nào trong ba chế độ đều có kết quả tốt, các nhà nghiên cứu đã áp dụng sơ đồ đào tạo hai giai đoạn tương tự như Mini-GTP4:

Điều chỉnh hướng dẫn đào tạo trước đơn phương thức và đa phương thức.

Cụ thể, BuboGPT sử dụng ImageBind làm bộ mã hóa âm thanh, BLIP-2 làm bộ mã hóa hình ảnh và Vicuna làm LLM được đào tạo trước.

Trong giai đoạn đào tạo trước không theo phương thức, lớp Q-Former và phép chiếu tuyến tính của phương thức tương ứng được đào tạo trên một lượng lớn dữ liệu được ghép nối giữa văn bản và phương thức.

Đối với nhận thức trực quan, chúng tôi chỉ đào tạo lớp chiếu cho phần tạo chú thích hình ảnh và giữ cố định Q-Former từ BLIP2.

Để hiểu âm thanh, họ đã đào tạo cả Q-Former và phần tạo phụ đề âm thanh.

Trong cả hai cài đặt không sử dụng bất kỳ gợi ý nào ( ), mô hình chỉ nhận hình ảnh hoặc âm thanh tương ứng làm đầu vào và dự đoán chú thích (caption) tương ứng.

** **###### Hướng dẫn đầu vào khác nhau làm theo ví dụ

Trong giai đoạn điều chỉnh hướng dẫn đa phương thức, bộ dữ liệu hướng dẫn đa phương thức chất lượng cao được xây dựng để tinh chỉnh lớp chiếu tuyến tính, bao gồm:

  • Hình ảnh-Văn bản: Điều chỉnh hướng dẫn trực quan bằng cách sử dụng hai bộ dữ liệu trong MiniGPT-4 và LLaVa.
  • Audio-Text: Chuỗi dữ liệu biểu cảm và mô tả được xây dựng dựa trên bộ dữ liệu Clotho.
  • Âm thanh-hình ảnh-văn bản: Dựa trên bộ dữ liệu VGGSS, một cặp dữ liệu điều chỉnh hướng dẫn ba phương thức <âm thanh, hình ảnh, văn bản> được xây dựng và các mẫu âm bản được giới thiệu thêm để nâng cao mô hình.

Điều đáng chú ý là bằng cách giới thiệu các mẫu âm thanh "cặp hình ảnh-âm thanh" để khớp ngữ nghĩa, BuboGPT có thể được căn chỉnh tốt hơn và khả năng hiểu khớp đa phương thức mạnh hơn.

Hiện tại bộ mã và dữ liệu BuboGPT đã được mã nguồn mở và bản demo cũng đã được phát hành, hãy nhanh chóng dùng thử.

trải nghiệm chơi thử demo

Nhìn thoáng qua khu vực chức năng của trang demo BuboGPT rõ ràng và thao tác cũng rất đơn giản, bạn có thể tải lên hình ảnh hoặc âm thanh ở bên phải và cửa sổ câu trả lời BuboGPT và cửa sổ câu hỏi của người dùng ở bên trái:

Sau khi tải ảnh lên, bấm vào nút đầu tiên bên dưới để tải ảnh đã tách:

Lấy một bức ảnh của Vạn Lý Trường Thành làm ví dụ, BuboGPT đã phân tách nó như thế này và xác định các ngọn núi, điểm du lịch và tường thành:

Khi chúng tôi yêu cầu nó mô tả bức tranh này, câu trả lời của nó cụ thể hơn và về cơ bản là chính xác:

Bạn có thể thấy nội dung trên ô chia cũng đã thay đổi, tương ứng với nội dung văn bản của câu trả lời.

Đây là một hình ảnh khác, với một đoạn âm thanh và BuboGPT cũng khớp chính xác với nguồn âm thanh:

Audio-8-bicycle_bell, qubit, 22 giây

Tất nhiên, nó cũng sẽ không nhận dạng và diễn đạt không chính xác, ví dụ như hình bên dưới không có ai, âm thanh chỉ là tiếng chuông, nhưng hình như mô tả của nó không khớp với hình.

Cả nhà quan tâm thì nhanh tay trải nghiệm nhé~~

Cổng thông tin: [1] [2]

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)