Trong lĩnh vực đa phương thức (ngôn ngữ hình ảnh) các mô hình lớn, trong khi cạnh tranh các thông số để giành được hiệu suất, theo đuổi các thông số nhỏ hơn, tốc độ nhanh hơn và hiệu suất mạnh hơn là một con đường nghiên cứu khác.
Nguồn hình ảnh: Được tạo bởi Unbounded AI
Trong thời đại của các mô hình lớn, các thông số của mô hình ngôn ngữ hình ảnh (VLM) đã mở rộng lên hàng chục, thậm chí hàng trăm tỷ, khiến hiệu suất tiếp tục tăng. Đồng thời, các mô hình nhỏ hơn vẫn quan trọng, chúng dễ đào tạo và dịch vụ hơn, thân thiện với môi trường hơn và cung cấp chu kỳ nghiên cứu nhanh hơn cho thiết kế mô hình.
Trong lĩnh vực này, Google Research đã đưa ra một mô hình gọi là PaLI (Pathways Language and Image) vào năm ngoái. Là một mô hình lớn đa phương thức, một trong những cấu trúc chính của PaLI là tái sử dụng xương sống đơn phương thức lớn cho mô hình ngôn ngữ và hình ảnh, tái sử dụng mT5-XXL với các tham số 13B về ngôn ngữ và ViT-G với các thông số 2B và ViT-e với các thông số 4B về tầm nhìn. Vào thời điểm đó, PaLI đạt được hiệu suất tốt hơn hầu hết các mẫu cũ và mới.
Kể từ đó, Google đã tiếp tục tập trung vào mô hình quy mô nhỏ hơn và gần đây đã đề xuất PaLI-3, mô hình thế hệ thứ ba của dòng PaLI. Với mô hình cơ sở được đào tạo trước chỉ với các thông số 5B, họ đã tối ưu hóa phương pháp đào tạo và đạt được kết quả SOTA cạnh tranh và mới trên nhiều điểm chuẩn VLM.
Phương pháp này bao gồm ba phần chính, đó là đào tạo trước so sánh các bộ mã hóa hình ảnh trên dữ liệu văn bản hình ảnh quy mô web, bộ dữ liệu lai được cải thiện cho đào tạo đa phương thức PaLI và đào tạo độ phân giải cao hơn.
*Tác giả đến từ Google Research, Google DeepMind và Google Cloud. *
Địa chỉ giấy:
Hình dưới đây cho thấy tổng quan về mô hình 5B PaLI-3, trong đó các hình ảnh được mã hóa riêng thành mã thông báo trực quan bằng cách so sánh mô hình tầm nhìn 2B SigLIP được đào tạo trước. Sau đó, cùng với truy vấn, các mã thông báo trực quan này được chuyển đến Biến áp UL2 của cấu trúc bộ mã hóa-giải mã 3B, tạo ra câu trả lời mong đợi. Trong thiết lập này, so với mô hình PaLI trước đây của một mô hình được đào tạo trước phân loại duy nhất, mô hình được đào tạo trước cung cấp một mã thông báo hữu ích hơn đáng kể.
Hiệu quả của nó như thế nào? PaLI-3 triển khai SOTA mới trên các tác vụ yêu cầu hiểu văn bản được định vị trực quan và định vị mục tiêu, bao gồm 8 nhiệm vụ hiểu văn bản được định vị trực quan và nhiệm vụ phân đoạn biểu thức tham chiếu trên tập dữ liệu RefCOCO. PaLI-3 cũng vượt trội trong một loạt các nhiệm vụ tầm nhìn được phân loại.
Ngoài ra, các nhà nghiên cứu cũng thực hiện các thí nghiệm cắt bỏ để so sánh với mô hình cơ sở ViT được đào tạo trước khi phân loại và xác nhận thêm tính khả thi của các bộ mã hóa hình ảnh được đào tạo trước trên dữ liệu văn bản hình ảnh quy mô web nhiễu, do đó trở thành một giải pháp thay thế ưa thích để đào tạo về dữ liệu được phân loại.
Ngoài mô hình 5B PaLI-3, các nhà nghiên cứu cũng sử dụng phương pháp SigLIP được đề xuất gần đây để xây dựng mô hình tầm nhìn tương phản đa ngôn ngữ SOTA với các thông số mở rộng đến 2B.
Giới thiệu mô hình
Kiến trúc
Ở cấp độ cao hơn, kiến trúc của PaLI-3 theo kiến trúc của Chen et al. (2023b; a): Mô hình ViT mã hóa hình ảnh dưới dạng mã thông báo và được chuyển đến máy biến áp của cấu trúc bộ mã hóa-giải mã cùng với các đầu vào văn bản như câu hỏi, lời nhắc và hướng dẫn, dẫn đến đầu ra văn bản.
Hãy bắt đầu với thành phần trực quan. Các nhà nghiên cứu đã sử dụng phương pháp đào tạo SigLIP để khởi tạo xương sống trực quan của PaLI-3 từ mô hình ViT-G / 14 được đào tạo trước so sánh (thông số khoảng 2B). Nói tóm lại, họ đã đào tạo mô hình ViT-G / 14 để nhúng hình ảnh và mô hình biến áp nhúng văn bản để nhúng hình ảnh và văn bản, tương ứng, để các bộ phân loại nhị phân với entropy chéo sigmoid sử dụng sản phẩm chấm nhúng hình ảnh và văn bản có thể phân loại chính xác xem hình ảnh và văn bản tương ứng của chúng có tương ứng với nhau hay không.
ĐIỀU NÀY TƯƠNG TỰ NHƯ CLIP VÀ CĂN CHỈNH, NHƯNG HIỆU QUẢ HƠN, CÓ THỂ MỞ RỘNG VÀ MẠNH MẼ HƠN. Đồng thời, phương pháp này là đào tạo trước thành phần nhúng hình ảnh ViT, vì vậy khi ViT được đưa vào PaLI, biến áp nhúng văn bản sẽ bị loại bỏ.
Hãy nhìn vào mô hình PaLI hoàn chỉnh. Đầu ra của bộ mã hóa hình ảnh ViT tạo thành mã thông báo trực quan trước khi gộp chung và được ánh xạ tuyến tính và thêm vào mã thông báo văn bản đầu vào được nhúng. Các mã thông báo này sau đó được chuyển đến mô hình bộ giải mã bộ mã hóa 3B UL2 được đào tạo trước để tạo đầu ra văn bản. Đầu vào văn bản cho mô hình thường chứa lời nhắc mô tả loại tác vụ và mã hóa đầu vào văn bản cần thiết cho tác vụ.
Đào tạo
Quá trình đào tạo bao gồm nhiều giai đoạn.
Giai đoạn 0: Đào tạo trước đơn phương thức. Theo giao thức đào tạo SigLIP, bộ mã hóa hình ảnh có độ phân giải đào tạo là 224×224; Bộ mã hóa-giải mã văn bản là mô hình 3B UL2 được đào tạo theo quy trình giảm tiếng ồn lai được mô tả bởi Tay et al.
Giai đoạn 1: Đào tạo đa phương thức. Mô hình PaLI kết hợp được đào tạo về các tác vụ và dữ liệu đa phương thức bằng cách kết hợp bộ mã hóa hình ảnh với bộ giải mã văn bản, tại thời điểm đó, bộ mã hóa hình ảnh vẫn bị đóng băng ở độ phân giải 224×224. Bằng cách lọc heuristic chất lượng văn bản và sử dụng mục tiêu đào tạo SplitCap, các thành phần pha trộn chính một lần nữa được lấy từ tập dữ liệu WebLI.
Giai đoạn 2: Nâng cấp. Đầu vào độ phân giải cao là một cách được chấp nhận rộng rãi để cải thiện hiệu suất, cả vì có thể cảm nhận được nhiều chi tiết hơn trong hình ảnh và vì mô hình được cải thiện bằng cách tăng độ dài trình tự. Bài viết này tăng độ phân giải của PaLI-3 bằng cách làm tan băng bộ mã hóa hình ảnh, giữ các điểm kiểm tra ở độ phân giải 812×812 và 1064×1064.
Di chuyển tác vụ. Cuối cùng, đối với từng nhiệm vụ riêng lẻ (điểm chuẩn), bài báo này tinh chỉnh mô hình PaLI-3 trên dữ liệu đào tạo của nhiệm vụ bằng cách sử dụng bộ mã hóa hình ảnh ViT bị đóng băng; Đối với hầu hết các tác vụ, bài viết này tinh chỉnh điểm kiểm tra độ phân giải 812×812, nhưng đối với cả hai tác vụ tìm hiểu tài liệu, bài viết này tăng độ phân giải lên 1064×1064.
Thử nghiệm và kết quả
Thí nghiệm đầu tiên so sánh kết quả của các mô hình ViT khác nhau theo khung PaLI và các nhà nghiên cứu đã xem xét hai mô hình ViT: Classif và SigLIP.
Kết quả, được hiển thị trong Bảng 1, cho thấy rằng trong khi mô hình SigLIP tụt lại phía sau trong phân loại tuyến tính mẫu nhỏ, bằng cách sử dụng PaLI-3, mô hình SigLIP cung cấp lợi ích khiêm tốn cho các nhiệm vụ đơn giản hơn như chú thích và trả lời câu hỏi và lợi ích to lớn trên các tình huống phức tạp hơn, cụ thể là các nhiệm vụ hiểu văn bản và không gian.
Ngoài ra, các nhà nghiên cứu đã đánh giá PaLI-3 trên các bộ dữ liệu TextCaps, TextVQA, STVQA, OCRVQA, InfographicVQA, DocVQA, ChartQA, Scree2Words, WidgetCap. Kết quả được thể hiện trong Bảng 2, trong đó PaLI-3 chỉ thấp hơn 0,7 điểm so với phương pháp SOTA khi sử dụng hệ thống OCR bên ngoài. Tuy nhiên, trong trường hợp không có hệ thống bên ngoài như vậy, PaLI-3 cao hơn 4, 4 điểm so với sự kết hợp của tất cả các phương pháp SOTA. Đối với TextCaps, TextVQA, InfographicVQA và DocVQA, PaLI-3 có lợi thế từ 8 điểm trở lên.
Phân đoạn biểu thức tham chiếu
Các nhà nghiên cứu đã mở rộng PaLI-3 để dự đoán mặt nạ phân đoạn với đầu ra giống như ngôn ngữ. Để làm điều này, họ đã sử dụng Ning et al. (2023) Vectorized Variational Autoencoder (VQ-VAE). VQ-VAE được đào tạo để học 128 mã thông báo mặt nạ và bộ mã hóa của nó có thể đánh dấu mặt nạ phân đoạn 64 × 64 pixel dưới dạng 16 mã thông báo mặt nạ, bộ giải mã có thể chuyển đổi trở lại.
Các nhà nghiên cứu đã huấn luyện PaLI-3 để dự đoán một mặt nạ phân đoạn duy nhất, đầu tiên xuất ra 4 tọa độ dưới dạng văn bản và biểu diễn chúng dưới dạng các hộp giới hạn. Tiếp theo là 16 mã thông báo mặt nạ, đại diện cho các mặt nạ trong hộp giới hạn.
Bảng 1 cho thấy rằng đào tạo trước tương phản hiệu quả hơn so với đào tạo trước phân loại cho các nhiệm vụ nhắm mục tiêu như vậy. Bảng 3 dưới đây cho thấy mô hình PaLI-3 hoàn chỉnh vượt trội hơn một chút so với nghệ thuật trước đây về phân đoạn biểu hiện tham chiếu.
Hiểu hình ảnh
Tiếp theo, các nhà nghiên cứu đánh giá PaLI-3 về nhiệm vụ hiểu ngôn ngữ hình ảnh chung. Cũng như công việc trước đây của họ, họ không sử dụng mô-đun OCR bên ngoài vì các điểm chuẩn này hiếm khi liên quan đến văn bản trong hình ảnh.
Kết quả cho thấy PaLI-3 có kích thước nhỏ hơn nhiều so với các mẫu SOTA gần đây, nhưng nó cho thấy hiệu suất rất mạnh trong các điểm chuẩn này. Đối với COCO, PaLI-3 vượt trội so với tất cả các mẫu ngoại trừ BEiT-3 và 17B và 55B PaLI. Trên VQAv2 và TallyQA, PaLI-3 vượt qua tất cả các mẫu trước đó ngoại trừ PaLI-X. Đối với các nhiệm vụ OKVQA, PaLI-3 chỉ thua PaLM-E (562B) và PaLI-X (55B), nhưng vẫn vượt trội so với mẫu Flamingo (80B) 32 phát.
Phụ đề video và Hỏi &Đáp
Nghiên cứu đã tinh chỉnh và đánh giá mô hình PaLI-3 trên 4 tiêu chuẩn phụ đề video: MSR-VTT, VATEX, ActivityNet Captions và Spoken Moments in Time. Ngoài ra, nghiên cứu cũng làm tương tự trên 3 điểm chuẩn trả lời câu hỏi video: NExT-QA, MSR-VTT-QA và ActivityNet-QA.
Mặc dù không sử dụng dữ liệu video để đào tạo trước, PaLI-3 đã đạt được kết quả QA video tuyệt vời với kích thước mô hình nhỏ: hiệu suất hiện đại trên MSR-VTT-QA và ActivityNet-QA, và kết quả cạnh tranh trên NextQA. Cải tiến liên tục trong QA hình ảnh và video làm nổi bật những lợi ích của việc áp dụng ViT so sánh.
Ngoài ra, PaLI-3 đạt được kết quả phụ đề video rất tốt, trung bình chỉ thấp hơn 3 điểm CIDEr so với kết quả SOTA. Xem xét kích thước mô hình, PaLI-3 dường như là một lựa chọn tuyệt vời cả về hiệu suất và tính thực tế.
** Đánh giá bộ mã hóa hình ảnh trực tiếp **
Các nhà nghiên cứu cũng đánh giá mô hình ViT-G, có thể hiểu là không phải là PaLI-3 hoàn chỉnh, như thể hiện trong Bảng 6.
Đầu tiên, nghiên cứu đã kiểm tra khả năng phân loại hình ảnh bằng cách sử dụng điểm chuẩn ImageNet tiêu chuẩn và hai biến thể phổ biến nhất của nó. Kết quả cho thấy SigLIP tụt hậu một chút về độ chính xác top-1 và v2, nhưng kết quả tương đương trong ReaL.
Thứ hai, nghiên cứu báo cáo kết quả của các mô hình khác nhau trên điểm chuẩn Crossmodal-3600. Kết quả cho thấy mô hình SigLIP ViT-G tốt hơn đáng kể so với mô hình ViT-e lớn hơn.
Cuối cùng, nghiên cứu cũng báo cáo kết quả thăm dò tuyến tính, cho thấy SigLIP kém hơn các mô hình khác.
Bảng 7 và 8 đánh giá tính công bằng, thiên vị và các vấn đề tiềm ẩn khác với mô hình.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Mô hình ngôn ngữ hình ảnh PaLI-3 của Google xuất hiện, với các thông số chỉ 5B, nhỏ hơn, nhanh hơn và mạnh hơn
Trong thời đại của các mô hình lớn, các thông số của mô hình ngôn ngữ hình ảnh (VLM) đã mở rộng lên hàng chục, thậm chí hàng trăm tỷ, khiến hiệu suất tiếp tục tăng. Đồng thời, các mô hình nhỏ hơn vẫn quan trọng, chúng dễ đào tạo và dịch vụ hơn, thân thiện với môi trường hơn và cung cấp chu kỳ nghiên cứu nhanh hơn cho thiết kế mô hình.
Trong lĩnh vực này, Google Research đã đưa ra một mô hình gọi là PaLI (Pathways Language and Image) vào năm ngoái. Là một mô hình lớn đa phương thức, một trong những cấu trúc chính của PaLI là tái sử dụng xương sống đơn phương thức lớn cho mô hình ngôn ngữ và hình ảnh, tái sử dụng mT5-XXL với các tham số 13B về ngôn ngữ và ViT-G với các thông số 2B và ViT-e với các thông số 4B về tầm nhìn. Vào thời điểm đó, PaLI đạt được hiệu suất tốt hơn hầu hết các mẫu cũ và mới.
Kể từ đó, Google đã tiếp tục tập trung vào mô hình quy mô nhỏ hơn và gần đây đã đề xuất PaLI-3, mô hình thế hệ thứ ba của dòng PaLI. Với mô hình cơ sở được đào tạo trước chỉ với các thông số 5B, họ đã tối ưu hóa phương pháp đào tạo và đạt được kết quả SOTA cạnh tranh và mới trên nhiều điểm chuẩn VLM.
Phương pháp này bao gồm ba phần chính, đó là đào tạo trước so sánh các bộ mã hóa hình ảnh trên dữ liệu văn bản hình ảnh quy mô web, bộ dữ liệu lai được cải thiện cho đào tạo đa phương thức PaLI và đào tạo độ phân giải cao hơn.
Địa chỉ giấy:
Hình dưới đây cho thấy tổng quan về mô hình 5B PaLI-3, trong đó các hình ảnh được mã hóa riêng thành mã thông báo trực quan bằng cách so sánh mô hình tầm nhìn 2B SigLIP được đào tạo trước. Sau đó, cùng với truy vấn, các mã thông báo trực quan này được chuyển đến Biến áp UL2 của cấu trúc bộ mã hóa-giải mã 3B, tạo ra câu trả lời mong đợi. Trong thiết lập này, so với mô hình PaLI trước đây của một mô hình được đào tạo trước phân loại duy nhất, mô hình được đào tạo trước cung cấp một mã thông báo hữu ích hơn đáng kể.
Ngoài ra, các nhà nghiên cứu cũng thực hiện các thí nghiệm cắt bỏ để so sánh với mô hình cơ sở ViT được đào tạo trước khi phân loại và xác nhận thêm tính khả thi của các bộ mã hóa hình ảnh được đào tạo trước trên dữ liệu văn bản hình ảnh quy mô web nhiễu, do đó trở thành một giải pháp thay thế ưa thích để đào tạo về dữ liệu được phân loại.
Ngoài mô hình 5B PaLI-3, các nhà nghiên cứu cũng sử dụng phương pháp SigLIP được đề xuất gần đây để xây dựng mô hình tầm nhìn tương phản đa ngôn ngữ SOTA với các thông số mở rộng đến 2B.
Giới thiệu mô hình
Kiến trúc
Ở cấp độ cao hơn, kiến trúc của PaLI-3 theo kiến trúc của Chen et al. (2023b; a): Mô hình ViT mã hóa hình ảnh dưới dạng mã thông báo và được chuyển đến máy biến áp của cấu trúc bộ mã hóa-giải mã cùng với các đầu vào văn bản như câu hỏi, lời nhắc và hướng dẫn, dẫn đến đầu ra văn bản.
Hãy bắt đầu với thành phần trực quan. Các nhà nghiên cứu đã sử dụng phương pháp đào tạo SigLIP để khởi tạo xương sống trực quan của PaLI-3 từ mô hình ViT-G / 14 được đào tạo trước so sánh (thông số khoảng 2B). Nói tóm lại, họ đã đào tạo mô hình ViT-G / 14 để nhúng hình ảnh và mô hình biến áp nhúng văn bản để nhúng hình ảnh và văn bản, tương ứng, để các bộ phân loại nhị phân với entropy chéo sigmoid sử dụng sản phẩm chấm nhúng hình ảnh và văn bản có thể phân loại chính xác xem hình ảnh và văn bản tương ứng của chúng có tương ứng với nhau hay không.
ĐIỀU NÀY TƯƠNG TỰ NHƯ CLIP VÀ CĂN CHỈNH, NHƯNG HIỆU QUẢ HƠN, CÓ THỂ MỞ RỘNG VÀ MẠNH MẼ HƠN. Đồng thời, phương pháp này là đào tạo trước thành phần nhúng hình ảnh ViT, vì vậy khi ViT được đưa vào PaLI, biến áp nhúng văn bản sẽ bị loại bỏ.
Hãy nhìn vào mô hình PaLI hoàn chỉnh. Đầu ra của bộ mã hóa hình ảnh ViT tạo thành mã thông báo trực quan trước khi gộp chung và được ánh xạ tuyến tính và thêm vào mã thông báo văn bản đầu vào được nhúng. Các mã thông báo này sau đó được chuyển đến mô hình bộ giải mã bộ mã hóa 3B UL2 được đào tạo trước để tạo đầu ra văn bản. Đầu vào văn bản cho mô hình thường chứa lời nhắc mô tả loại tác vụ và mã hóa đầu vào văn bản cần thiết cho tác vụ.
Đào tạo
Quá trình đào tạo bao gồm nhiều giai đoạn.
Giai đoạn 0: Đào tạo trước đơn phương thức. Theo giao thức đào tạo SigLIP, bộ mã hóa hình ảnh có độ phân giải đào tạo là 224×224; Bộ mã hóa-giải mã văn bản là mô hình 3B UL2 được đào tạo theo quy trình giảm tiếng ồn lai được mô tả bởi Tay et al.
Giai đoạn 1: Đào tạo đa phương thức. Mô hình PaLI kết hợp được đào tạo về các tác vụ và dữ liệu đa phương thức bằng cách kết hợp bộ mã hóa hình ảnh với bộ giải mã văn bản, tại thời điểm đó, bộ mã hóa hình ảnh vẫn bị đóng băng ở độ phân giải 224×224. Bằng cách lọc heuristic chất lượng văn bản và sử dụng mục tiêu đào tạo SplitCap, các thành phần pha trộn chính một lần nữa được lấy từ tập dữ liệu WebLI.
Giai đoạn 2: Nâng cấp. Đầu vào độ phân giải cao là một cách được chấp nhận rộng rãi để cải thiện hiệu suất, cả vì có thể cảm nhận được nhiều chi tiết hơn trong hình ảnh và vì mô hình được cải thiện bằng cách tăng độ dài trình tự. Bài viết này tăng độ phân giải của PaLI-3 bằng cách làm tan băng bộ mã hóa hình ảnh, giữ các điểm kiểm tra ở độ phân giải 812×812 và 1064×1064.
Di chuyển tác vụ. Cuối cùng, đối với từng nhiệm vụ riêng lẻ (điểm chuẩn), bài báo này tinh chỉnh mô hình PaLI-3 trên dữ liệu đào tạo của nhiệm vụ bằng cách sử dụng bộ mã hóa hình ảnh ViT bị đóng băng; Đối với hầu hết các tác vụ, bài viết này tinh chỉnh điểm kiểm tra độ phân giải 812×812, nhưng đối với cả hai tác vụ tìm hiểu tài liệu, bài viết này tăng độ phân giải lên 1064×1064.
Thử nghiệm và kết quả
Thí nghiệm đầu tiên so sánh kết quả của các mô hình ViT khác nhau theo khung PaLI và các nhà nghiên cứu đã xem xét hai mô hình ViT: Classif và SigLIP.
Kết quả, được hiển thị trong Bảng 1, cho thấy rằng trong khi mô hình SigLIP tụt lại phía sau trong phân loại tuyến tính mẫu nhỏ, bằng cách sử dụng PaLI-3, mô hình SigLIP cung cấp lợi ích khiêm tốn cho các nhiệm vụ đơn giản hơn như chú thích và trả lời câu hỏi và lợi ích to lớn trên các tình huống phức tạp hơn, cụ thể là các nhiệm vụ hiểu văn bản và không gian.
Các nhà nghiên cứu đã mở rộng PaLI-3 để dự đoán mặt nạ phân đoạn với đầu ra giống như ngôn ngữ. Để làm điều này, họ đã sử dụng Ning et al. (2023) Vectorized Variational Autoencoder (VQ-VAE). VQ-VAE được đào tạo để học 128 mã thông báo mặt nạ và bộ mã hóa của nó có thể đánh dấu mặt nạ phân đoạn 64 × 64 pixel dưới dạng 16 mã thông báo mặt nạ, bộ giải mã có thể chuyển đổi trở lại.
Các nhà nghiên cứu đã huấn luyện PaLI-3 để dự đoán một mặt nạ phân đoạn duy nhất, đầu tiên xuất ra 4 tọa độ dưới dạng văn bản và biểu diễn chúng dưới dạng các hộp giới hạn. Tiếp theo là 16 mã thông báo mặt nạ, đại diện cho các mặt nạ trong hộp giới hạn.
Bảng 1 cho thấy rằng đào tạo trước tương phản hiệu quả hơn so với đào tạo trước phân loại cho các nhiệm vụ nhắm mục tiêu như vậy. Bảng 3 dưới đây cho thấy mô hình PaLI-3 hoàn chỉnh vượt trội hơn một chút so với nghệ thuật trước đây về phân đoạn biểu hiện tham chiếu.
Tiếp theo, các nhà nghiên cứu đánh giá PaLI-3 về nhiệm vụ hiểu ngôn ngữ hình ảnh chung. Cũng như công việc trước đây của họ, họ không sử dụng mô-đun OCR bên ngoài vì các điểm chuẩn này hiếm khi liên quan đến văn bản trong hình ảnh.
Kết quả cho thấy PaLI-3 có kích thước nhỏ hơn nhiều so với các mẫu SOTA gần đây, nhưng nó cho thấy hiệu suất rất mạnh trong các điểm chuẩn này. Đối với COCO, PaLI-3 vượt trội so với tất cả các mẫu ngoại trừ BEiT-3 và 17B và 55B PaLI. Trên VQAv2 và TallyQA, PaLI-3 vượt qua tất cả các mẫu trước đó ngoại trừ PaLI-X. Đối với các nhiệm vụ OKVQA, PaLI-3 chỉ thua PaLM-E (562B) và PaLI-X (55B), nhưng vẫn vượt trội so với mẫu Flamingo (80B) 32 phát.
Nghiên cứu đã tinh chỉnh và đánh giá mô hình PaLI-3 trên 4 tiêu chuẩn phụ đề video: MSR-VTT, VATEX, ActivityNet Captions và Spoken Moments in Time. Ngoài ra, nghiên cứu cũng làm tương tự trên 3 điểm chuẩn trả lời câu hỏi video: NExT-QA, MSR-VTT-QA và ActivityNet-QA.
Mặc dù không sử dụng dữ liệu video để đào tạo trước, PaLI-3 đã đạt được kết quả QA video tuyệt vời với kích thước mô hình nhỏ: hiệu suất hiện đại trên MSR-VTT-QA và ActivityNet-QA, và kết quả cạnh tranh trên NextQA. Cải tiến liên tục trong QA hình ảnh và video làm nổi bật những lợi ích của việc áp dụng ViT so sánh.
Ngoài ra, PaLI-3 đạt được kết quả phụ đề video rất tốt, trung bình chỉ thấp hơn 3 điểm CIDEr so với kết quả SOTA. Xem xét kích thước mô hình, PaLI-3 dường như là một lựa chọn tuyệt vời cả về hiệu suất và tính thực tế.
** Đánh giá bộ mã hóa hình ảnh trực tiếp **
Các nhà nghiên cứu cũng đánh giá mô hình ViT-G, có thể hiểu là không phải là PaLI-3 hoàn chỉnh, như thể hiện trong Bảng 6.
Đầu tiên, nghiên cứu đã kiểm tra khả năng phân loại hình ảnh bằng cách sử dụng điểm chuẩn ImageNet tiêu chuẩn và hai biến thể phổ biến nhất của nó. Kết quả cho thấy SigLIP tụt hậu một chút về độ chính xác top-1 và v2, nhưng kết quả tương đương trong ReaL.
Thứ hai, nghiên cứu báo cáo kết quả của các mô hình khác nhau trên điểm chuẩn Crossmodal-3600. Kết quả cho thấy mô hình SigLIP ViT-G tốt hơn đáng kể so với mô hình ViT-e lớn hơn.
Cuối cùng, nghiên cứu cũng báo cáo kết quả thăm dò tuyến tính, cho thấy SigLIP kém hơn các mô hình khác.