một phương pháp gợi ý trực quan mới SoM (Set-of-Mark), đã cải thiện sự hiểu biết về nội dung hình ảnh của mô hình lớn đa phương thức OpenAI GPT-4V.
Nguồn gốc: Heart of the Machine
Nguồn hình ảnh: Được tạo bởi Unbounded AI
Trong thời gian gần đây, chúng ta đã chứng kiến những tiến bộ đáng kể trong các mô hình ngôn ngữ lớn (LLM). Đặc biệt, việc phát hành Transformers được đào tạo trước, hoặc GPT, đã dẫn đến một số đột phá trong ngành công nghiệp và học viện. Kể từ khi phát hành GPT-4, các mô hình đa phương thức lớn (LMM) đã thu hút sự quan tâm ngày càng tăng trong cộng đồng nghiên cứu, với nhiều công việc dành cho việc xây dựng GPT-4 đa phương thức.
Gần đây, GPT-4V (ision) đã nhận được sự chú ý đặc biệt do khả năng nhận thức và suy luận đa phương thức tuyệt vời của nó. Tuy nhiên, bất chấp khả năng hiểu ngôn ngữ hình ảnh chưa từng có của GPT-4V, nền tảng hình ảnh chi tiết của nó (đầu vào là hình ảnh và mô tả đối tượng tương ứng, đầu ra là một hộp mô tả một đối tượng) tương đối yếu hoặc chưa được phát triển.
Ví dụ: khi người dùng hỏi "Đối tượng nào được đặt ở phía bên trái của máy tính xách tay bên phải?" trong hình bên dưới. GPT-4V đưa ra câu trả lời sai cho cốc. Sau đó, người dùng hỏi, "Tôi muốn tìm một chỗ ngồi bên cửa sổ, tôi có thể ngồi ở đâu?" GPT-4V cũng trả lời sai.
Sau khi nhận ra những vấn đề trên, các nhà nghiên cứu từ Microsoft, Đại học Khoa học và Công nghệ Hồng Kông và các tổ chức khác đã đề xuất một phương pháp tầm nhìn mới Set-of-Mark (SoM) để giải quyết vấn đề GPT-4V trong các nhiệm vụ thị giác chi tiết.
* Địa chỉ giấy:
Trang chủ giấy:
Như thể hiện trong Hình 1 (bên phải), SoM sử dụng mô hình phân đoạn tương tác như SAM để chia hình ảnh thành các vùng ở các mức độ chi tiết khác nhau và thêm một tập hợp các điểm đánh dấu vào các vùng này, chẳng hạn như chữ và số, mặt nạ, hộp. Sử dụng hình ảnh có thẻ làm đầu vào để giải quyết vấn đề trên.
Trước tiên chúng ta hãy xem xét hiệu ứng, GPT-4V bên trái, GPT-4V + SoM ở bên phải, rõ ràng phân loại sau chi tiết và chính xác hơn.
Ví dụ dưới đây vẫn giống nhau và hiệu ứng GPT-4V + SoM rõ ràng hơn.
Ngoài ra, đối với nghiên cứu này, có người hỏi, "Hướng dẫn sử dụng SoM (nhập thủ công) hay tự động?"
Theo Jianwei Yang, SoM là tự động hoặc bán tự động. Họ đã biên soạn nhiều công cụ phân đoạn của riêng họ, chẳng hạn như SEEM, Semantic-SAM và SAM, để giúp người dùng tự động phân đoạn hình ảnh cho chính họ. Đồng thời, người dùng cũng có thể lựa chọn khu vực của riêng mình.
SoM cho tầm nhìn
Ưu điểm độc đáo của việc sử dụng SoM GPT-4V là nó có thể tạo ra đầu ra ngoài văn bản. Bởi vì mỗi điểm đánh dấu được liên kết cụ thể với một vùng hình ảnh được biểu thị bằng mặt nạ, mặt nạ của bất kỳ điểm đánh dấu nào được đề cập trong đầu ra văn bản có thể được theo dõi.
Khả năng tạo văn bản và mặt nạ được ghép nối cho phép SoM GPT-4V tạo văn bản liên kết trực quan và quan trọng hơn là hỗ trợ nhiều nhiệm vụ thị giác chi tiết, đây là một thách thức đối với các mô hình GPT-4V phổ biến.
Thông qua kỹ thuật đơn giản, SoM cho phép GPT-4V được sử dụng rộng rãi cho nhiều nhiệm vụ thị giác khác nhau, chẳng hạn như:
Phân đoạn hình ảnh từ vựng mở: Nghiên cứu yêu cầu GPT-4V trình bày đầy đủ các danh mục của tất cả các khu vực được gắn nhãn cũng như các danh mục được chọn từ một nhóm được xác định trước.
Phân đoạn tham chiếu: Đưa ra một biểu thức tham chiếu, nhiệm vụ của GPT-4V là chọn khu vực phù hợp nhất từ các khu vực ứng cử viên được tạo bởi Hộp công cụ phân vùng hình ảnh.
Nền tảng cụm từ: Hơi khác so với phân đoạn tham chiếu, liên kết cụm từ sử dụng các câu hoàn chỉnh bao gồm nhiều cụm danh từ. Nghiên cứu yêu cầu GPT-4V chỉ định các khu vực thích hợp cho tất cả các cụm từ được dán nhãn.
Phân đoạn đối tượng video: Lấy hai hình ảnh làm đầu vào. Hình ảnh đầu tiên là một hình ảnh truy vấn có chứa một số đối tượng trong hình ảnh thứ hai cần được nhận dạng. Cho rằng GPT-4V hỗ trợ nhiều hình ảnh làm đầu vào, SoM cũng có thể được áp dụng cho hình ảnh tương quan trên các khung hình trong video.
** Thí nghiệm và kết quả**
Các nhà nghiên cứu sử dụng chiến lược "chia để trị" để chạy các thí nghiệm và đánh giá. Đối với mỗi trường hợp, họ sử dụng một cửa sổ trò chuyện mới để không có rò rỉ ngữ cảnh trong quá trình đánh giá.
Cụ thể, các nhà nghiên cứu đã chọn một tập hợp con nhỏ dữ liệu xác thực từ mỗi tập dữ liệu. Đối với mỗi hình ảnh trong tập dữ liệu, chúng phủ lên một tập hợp các điểm đánh dấu trên khu vực được trích xuất bằng cách sử dụng hộp công cụ Phân đoạn hình ảnh. Đồng thời, dựa trên các nhiệm vụ cụ thể, các nhà nghiên cứu sử dụng các công cụ phân đoạn khác nhau để đề xuất các khu vực.
Bảng 1 dưới đây liệt kê chi tiết thiết lập cho từng tác vụ.
Các nhà nghiên cứu đã so sánh phương pháp của họ với các mô hình sau:
Mô hình đường cơ sở GPT-4V cho tọa độ dự đoán
Mô hình dành riêng cho SOTA
LMM mã nguồn mở
Kết quả định lượng
Các kết quả thí nghiệm chi tiết được thể hiện trong Bảng 2 dưới đây.
Đầu tiên là nhiệm vụ phân đoạn hình ảnh. Các nhà nghiên cứu đã so sánh GPT-4V + SoM với mô hình phân đoạn mạnh mẽ MaskDINO trên bộ dữ liệu phân đoạn COCO Panoptic và OpenSeeD trên bộ dữ liệu phân đoạn Panoptic ADE20K.
Kết quả cho thấy hiệu suất zero-sample của GPT-4V + SoM gần với MaskDINO được tinh chỉnh và tốt hơn đáng kể so với OpenSeeD. Hiệu suất tương tự của GPT-4V trên COCO và ADE20K thể hiện khả năng khái quát hóa mạnh mẽ của nó cho một loạt các tác vụ miền trực quan và ngữ nghĩa.
Sau đó là nhiệm vụ giới thiệu, nơi các nhà nghiên cứu đánh giá mô hình RES và REC trên tập dữ liệu RefCOCOg. Họ đã sử dụng MaskDINO để đưa ra một mặt nạ và phủ lên mặt nạ và số trên hình ảnh. Cả hai mIoU đều được sử dụng làm số liệu đánh giá và so sánh với các mô hình dành riêng cho SOTA PolyFormer và SEESURE.
Kết quả cho thấy GPT-4V + SoM đánh bại các mô hình chuyên dụng như Grounding DINO, Polyformer và các LMM nguồn mở gần đây như Shikra, LLaVA-1.5, MiniGPT-v2 và Ferret.
Tiếp theo là nhiệm vụ liên kết cụm từ trên Flickr30K, nơi các nhà nghiên cứu sử dụng Grounding DINO để tạo ra các đề xuất hộp cho mỗi hình ảnh. GPT-4V + SoM đạt được hiệu suất không lấy mẫu mạnh hơn GLIPv2 và Nối đất INO.
Cuối cùng, các nhà nghiên cứu đã đánh giá nhiệm vụ phân đoạn video trên tập dữ liệu DAVIS2017. GPT-4V + SoM đạt được hiệu suất theo dõi tốt nhất (78,8 J &F) so với các mô hình thị giác chuyên dụng khác.
Nghiên cứu cắt bỏ
Các nhà nghiên cứu khám phá cách các loại thẻ ảnh hưởng đến hiệu suất cuối cùng của các nhiệm vụ liên kết cụm từ trên tập dữ liệu Flickr30k và so sánh hai loại thẻ. Đầu tiên là số và mặt nạ, và thứ hai là số, mặt nạ và hộp.
Kết quả được hiển thị trong Bảng 3 bên dưới và việc thêm các hộp bổ sung có thể cải thiện đáng kể hiệu suất.
Ngoài ra, các nhà nghiên cứu đã khám phá cách GPT-4V hoạt động khi tạo mã thông báo với chú thích sự thật. Họ đã chọn thay thế mặt nạ phân đoạn dự đoán bằng mặt nạ sự thật trong bộ xác thực RefCOCOg. Điều này có nghĩa là GPT-4V chỉ cần chọn một từ khu vực cụm từ chú thích. Như mong đợi, hiệu suất của phân khúc tham chiếu có thể được cải thiện hơn nữa, đặc biệt nếu mô hình phân khúc có một số khu vực bị thiếu.
Như thể hiện trong Bảng 4 bên dưới, sử dụng mặt nạ sự thật trong SoM có thể cải thiện hiệu suất trên RefCOCOg lên 14,5% (mIoU).
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Thêm "điểm đánh dấu" vào các tín hiệu trực quan, Microsoft và những người khác làm cho GPT-4V chính xác hơn và chi tiết hơn
Nguồn gốc: Heart of the Machine
Trong thời gian gần đây, chúng ta đã chứng kiến những tiến bộ đáng kể trong các mô hình ngôn ngữ lớn (LLM). Đặc biệt, việc phát hành Transformers được đào tạo trước, hoặc GPT, đã dẫn đến một số đột phá trong ngành công nghiệp và học viện. Kể từ khi phát hành GPT-4, các mô hình đa phương thức lớn (LMM) đã thu hút sự quan tâm ngày càng tăng trong cộng đồng nghiên cứu, với nhiều công việc dành cho việc xây dựng GPT-4 đa phương thức.
Gần đây, GPT-4V (ision) đã nhận được sự chú ý đặc biệt do khả năng nhận thức và suy luận đa phương thức tuyệt vời của nó. Tuy nhiên, bất chấp khả năng hiểu ngôn ngữ hình ảnh chưa từng có của GPT-4V, nền tảng hình ảnh chi tiết của nó (đầu vào là hình ảnh và mô tả đối tượng tương ứng, đầu ra là một hộp mô tả một đối tượng) tương đối yếu hoặc chưa được phát triển.
Ví dụ: khi người dùng hỏi "Đối tượng nào được đặt ở phía bên trái của máy tính xách tay bên phải?" trong hình bên dưới. GPT-4V đưa ra câu trả lời sai cho cốc. Sau đó, người dùng hỏi, "Tôi muốn tìm một chỗ ngồi bên cửa sổ, tôi có thể ngồi ở đâu?" GPT-4V cũng trả lời sai.
Như thể hiện trong Hình 1 (bên phải), SoM sử dụng mô hình phân đoạn tương tác như SAM để chia hình ảnh thành các vùng ở các mức độ chi tiết khác nhau và thêm một tập hợp các điểm đánh dấu vào các vùng này, chẳng hạn như chữ và số, mặt nạ, hộp. Sử dụng hình ảnh có thẻ làm đầu vào để giải quyết vấn đề trên.
Trước tiên chúng ta hãy xem xét hiệu ứng, GPT-4V bên trái, GPT-4V + SoM ở bên phải, rõ ràng phân loại sau chi tiết và chính xác hơn.
Ưu điểm độc đáo của việc sử dụng SoM GPT-4V là nó có thể tạo ra đầu ra ngoài văn bản. Bởi vì mỗi điểm đánh dấu được liên kết cụ thể với một vùng hình ảnh được biểu thị bằng mặt nạ, mặt nạ của bất kỳ điểm đánh dấu nào được đề cập trong đầu ra văn bản có thể được theo dõi.
Thông qua kỹ thuật đơn giản, SoM cho phép GPT-4V được sử dụng rộng rãi cho nhiều nhiệm vụ thị giác khác nhau, chẳng hạn như:
** Thí nghiệm và kết quả**
Các nhà nghiên cứu sử dụng chiến lược "chia để trị" để chạy các thí nghiệm và đánh giá. Đối với mỗi trường hợp, họ sử dụng một cửa sổ trò chuyện mới để không có rò rỉ ngữ cảnh trong quá trình đánh giá.
Cụ thể, các nhà nghiên cứu đã chọn một tập hợp con nhỏ dữ liệu xác thực từ mỗi tập dữ liệu. Đối với mỗi hình ảnh trong tập dữ liệu, chúng phủ lên một tập hợp các điểm đánh dấu trên khu vực được trích xuất bằng cách sử dụng hộp công cụ Phân đoạn hình ảnh. Đồng thời, dựa trên các nhiệm vụ cụ thể, các nhà nghiên cứu sử dụng các công cụ phân đoạn khác nhau để đề xuất các khu vực.
Bảng 1 dưới đây liệt kê chi tiết thiết lập cho từng tác vụ.
Kết quả định lượng
Các kết quả thí nghiệm chi tiết được thể hiện trong Bảng 2 dưới đây.
Kết quả cho thấy hiệu suất zero-sample của GPT-4V + SoM gần với MaskDINO được tinh chỉnh và tốt hơn đáng kể so với OpenSeeD. Hiệu suất tương tự của GPT-4V trên COCO và ADE20K thể hiện khả năng khái quát hóa mạnh mẽ của nó cho một loạt các tác vụ miền trực quan và ngữ nghĩa.
Sau đó là nhiệm vụ giới thiệu, nơi các nhà nghiên cứu đánh giá mô hình RES và REC trên tập dữ liệu RefCOCOg. Họ đã sử dụng MaskDINO để đưa ra một mặt nạ và phủ lên mặt nạ và số trên hình ảnh. Cả hai mIoU đều được sử dụng làm số liệu đánh giá và so sánh với các mô hình dành riêng cho SOTA PolyFormer và SEESURE.
Kết quả cho thấy GPT-4V + SoM đánh bại các mô hình chuyên dụng như Grounding DINO, Polyformer và các LMM nguồn mở gần đây như Shikra, LLaVA-1.5, MiniGPT-v2 và Ferret.
Tiếp theo là nhiệm vụ liên kết cụm từ trên Flickr30K, nơi các nhà nghiên cứu sử dụng Grounding DINO để tạo ra các đề xuất hộp cho mỗi hình ảnh. GPT-4V + SoM đạt được hiệu suất không lấy mẫu mạnh hơn GLIPv2 và Nối đất INO.
Cuối cùng, các nhà nghiên cứu đã đánh giá nhiệm vụ phân đoạn video trên tập dữ liệu DAVIS2017. GPT-4V + SoM đạt được hiệu suất theo dõi tốt nhất (78,8 J &F) so với các mô hình thị giác chuyên dụng khác.
Nghiên cứu cắt bỏ
Các nhà nghiên cứu khám phá cách các loại thẻ ảnh hưởng đến hiệu suất cuối cùng của các nhiệm vụ liên kết cụm từ trên tập dữ liệu Flickr30k và so sánh hai loại thẻ. Đầu tiên là số và mặt nạ, và thứ hai là số, mặt nạ và hộp.
Kết quả được hiển thị trong Bảng 3 bên dưới và việc thêm các hộp bổ sung có thể cải thiện đáng kể hiệu suất.
Như thể hiện trong Bảng 4 bên dưới, sử dụng mặt nạ sự thật trong SoM có thể cải thiện hiệu suất trên RefCOCOg lên 14,5% (mIoU).