Tháng trước, ChatGPT đã chính thức ra mắt khả năng nhận dạng hình ảnh và giọng nói.
Đầu tháng này, Microsoft đã phát hành một phiên bản đa phương thức 166 trang của các tài liệu liên quan đến GPT-4V, chi tiết các chức năng và cách sử dụng GPT-4V, thu hút sự chú ý rộng rãi trong ngành.
Tuy nhiên, Google không chịu thua kém trong cuộc đua về mô hình ngôn ngữ hình ảnh. **
Gần đây, Google Research, Google DeepMind và Google Cloud đã cùng nhau tung ra một mô hình ngôn ngữ hình ảnh (VLM) nhỏ hơn, nhanh hơn và mạnh mẽ hơn, PaLI-3, cạnh tranh đáng kể với các mô hình tương tự lớn hơn 10 lần.
Các nhà nghiên cứu đã so sánh mô hình máy biến áp trực quan (ViT) được đào tạo trước bằng cách sử dụng các mục tiêu phân loại với mô hình được đào tạo trước tương phản (SigLIP) và thấy rằng trong khi PaLI-3 hoạt động hơi kém trên các điểm chuẩn phân loại hình ảnh tiêu chuẩn, PaLI dựa trên SigLip cho thấy hiệu suất tuyệt vời trong các điểm chuẩn đa phương thức khác nhau, đặc biệt là trong bản địa hóa và hiểu văn bản.
Bài báo nghiên cứu, có tiêu đề "* Mô hình ngôn ngữ thị giác PaLI-3: Nhỏ hơn, nhanh hơn, mạnh hơn *", đã được công bố trên trang web in trước arXiv.
Nhóm nghiên cứu tin rằng PaLI-3 chỉ với 5 tỷ thông số đã nhen nhóm nghiên cứu về các thành phần cốt lõi của VLM phức tạp, có khả năng thúc đẩy sự phát triển của một thế hệ mô hình lớn hơn.
** Học đa phương thức có độ phân giải cao hơn **
Gần đây, các mô hình ngôn ngữ hình ảnh lớn đã sử dụng bộ mã hóa hình ảnh được đào tạo trước trong các mô hình lớn hơn của chúng, một số trong đó được đào tạo trước bằng cách sử dụng phân loại có giám sát (ví dụ: PaLI, PaLI-X, Flamingo, PaLM-E), một số sử dụng bộ mã hóa CLIP được đào tạo trước (ví dụ: BLIPv2, CrossTVR, ChatBridge) và một số sử dụng đào tạo trước đa phương thức tùy chỉnh (ví dụ: BEiT3, CoCa, SimVLM).
**Phương pháp đào tạo cho nghiên cứu này bao gồm ba thành phần chính: đào tạo trước tương phản các bộ mã hóa hình ảnh trên dữ liệu văn bản hình ảnh quy mô mạng, cải thiện kết hợp dữ liệu đào tạo đa phương thức PaLI và đào tạo ở độ phân giải cao hơn. **
Trong giai đoạn đào tạo trước một phương thức, bộ mã hóa hình ảnh sử dụng giao thức đào tạo SigLIP để đào tạo trước so sánh về ghép nối văn bản hình ảnh trên web. Các nhà nghiên cứu đã sử dụng một phương pháp lọc dựa trên mô hình bảo tồn khoảng 40% các cặp đôi. Bộ mã hóa hình ảnh được đào tạo ở độ phân giải 224×224. Bộ giải mã văn bản là mô hình 3B UL2 được đào tạo về chương trình khử nhiễu lai.
Trong giai đoạn đào tạo đa phương thức, các nhà nghiên cứu đã kết hợp một bộ mã hóa hình ảnh với bộ giải mã văn bản để tạo thành mô hình PaLI. Mô hình này được đào tạo cho các tác vụ đa phương thức, giữ cho bộ mã hóa hình ảnh bị đóng băng, sử dụng độ phân giải gốc (224×224).
Hỗn hợp dữ liệu chính đến từ các bộ dữ liệu WebLI, được lọc và sử dụng với các mục tiêu đào tạo cụ thể. Các yếu tố khác bao gồm phụ đề đa ngôn ngữ, xử lý OCR, VQA và VQG đa ngôn ngữ, VQA nhận biết đối tượng và phát hiện đối tượng. Mặc dù không bao gồm các tác vụ hoặc dữ liệu từ video, PaLI-3 vẫn cạnh tranh trên các điểm chuẩn này nhờ bộ mã hóa hình ảnh mạnh mẽ. Ngoài ra, khả năng hiểu tài liệu và hình ảnh đã được cải thiện hơn nữa bằng cách thêm các tài liệu PDF có chứa văn bản và hình ảnh web dày đặc, chẳng hạn như áp phích hoặc tài liệu, cũng như văn bản bằng hơn 100 ngôn ngữ, vào WebLI.
Trong giai đoạn tăng độ phân giải, độ phân giải của PaLI-3 được nghiên cứu bằng cách tinh chỉnh toàn bộ mô hình (làm tan băng bộ mã hóa hình ảnh) và sử dụng các bài học ngắn để tăng dần độ phân giải, duy trì các điểm kiểm tra ở độ phân giải 812×812 và 1064×1064. Việc pha trộn dữ liệu chủ yếu tập trung vào các phần liên quan đến định vị trực quan của văn bản và phát hiện đối tượng.
** Cải thiện tác vụ hiểu hình ảnh và định vị văn bản **
Đầu tiên, các nhà nghiên cứu đã tiến hành so sánh có kiểm soát các mô hình ViT khác nhau trong khuôn khổ PaLI. Nó đã được tìm thấy rằng, mặc dù mô hình SigLIP có hiệu suất kém trong phân loại tuyến tính mẫu nhỏ, khi được sử dụng trong PaLI-3, mô hình SigLIP cung cấp hiệu suất khiêm tốn cho các tác vụ "đơn giản" như chú thích và trả lời câu hỏi, và cải tiến lớn trên văn bản cảnh "phức tạp" hơn và các nhiệm vụ hiểu không gian như các biến thể TextVQA và RefCOCO. **
PaLI-3 sau đó được đánh giá trong một nhiệm vụ hiểu văn bản được định vị trực quan, với hình ảnh trong các bộ dữ liệu khác nhau, từ hình ảnh tự nhiên, minh họa, tài liệu và giao diện người dùng. **PaLI-3 đạt được hiệu suất hiện đại trên hầu hết các tiêu chuẩn phụ đề và VQA, có hoặc không có đầu vào OCR bên ngoài. Ngoại lệ duy nhất là AI2D và ChartQA, đòi hỏi không chỉ sự hiểu biết mà còn cả lý luận mạnh mẽ về biểu đồ. Đối với cả hai điểm chuẩn, PaLI-3 tụt hậu một chút so với PaLI-X.
Ngoài ra, các nhà nghiên cứu đã mở rộng khả năng của PaLI-3 để dự đoán mặt nạ phân đoạn với đầu ra giống như ngôn ngữ. Kết quả thực nghiệm cho thấy đối với loại nhiệm vụ nội địa hóa này, đào tạo trước so sánh có hiệu quả hơn so với đào tạo trước phân loại. **Mô hình PaLI-3 hoàn chỉnh vượt trội hơn một chút so với các phương pháp hiện đại về biểu diễn ngón tay. **
Trong phần Hiểu hình ảnh tự nhiên, PaLI-3 được đánh giá về các nhiệm vụ hiểu ngôn ngữ hình ảnh chung, bao gồm chú thích COCO và VQAv2, ** mặc dù quy mô nhỏ hơn nhiều so với các mô hình SOTA gần đây, PaLI-3 hoạt động rất tốt trên các điểm chuẩn này. **
Trong phần phụ đề video và Hỏi & Đáp, các nhà nghiên cứu đã tinh chỉnh và đánh giá mô hình PaLI-3 trên 4 điểm chuẩn phụ đề video: MSR-VTT, VATEX, ActivityNet Captions và Spoken Moments in Time. Bài kiểm tra tương tự sau đó được thực hiện trên 3 điểm chuẩn trả lời câu hỏi video: NExT-QA, MSR-VTT-QA và ActivityNet-QA. **Mặc dù không được đào tạo trước với dữ liệu video, PaLI-3 đã đạt được kết quả đảm bảo chất lượng video tuyệt vời ở kích thước mô hình nhỏ hơn. **
Nói chung, trong nghiên cứu này, các nhà nghiên cứu đã đi sâu vào việc đào tạo trước các bộ mã hóa hình ảnh trong VLM, đặc biệt là các mô hình loại PaLI. Lần đầu tiên, hai phương pháp phân loại tiền đào tạo và đào tạo trước văn bản hình ảnh (tương phản) được so sánh rõ ràng và thấy rằng phương pháp sau dẫn đến VLM tốt hơn và hiệu quả hơn, đặc biệt là trong các nhiệm vụ bản địa hóa và hiểu văn bản.
Ngoài ra, các nhà nghiên cứu lưu ý trong bài báo: "Đây chỉ là một khía cạnh nhỏ của VLM và chúng tôi hy vọng rằng nghiên cứu này và kết quả của nó sẽ truyền cảm hứng cho việc khám phá sâu hơn về nhiều khía cạnh khác của đào tạo VLM." "
Liên kết giấy:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Mặt GPT-4V! Mô hình ngôn ngữ hình ảnh PaLI-3 của Google xuất hiện, nhỏ hơn, nhanh hơn và mạnh hơn
Nguồn: Tiêu đề học thuật
Tháng trước, ChatGPT đã chính thức ra mắt khả năng nhận dạng hình ảnh và giọng nói.
Đầu tháng này, Microsoft đã phát hành một phiên bản đa phương thức 166 trang của các tài liệu liên quan đến GPT-4V, chi tiết các chức năng và cách sử dụng GPT-4V, thu hút sự chú ý rộng rãi trong ngành.
Gần đây, Google Research, Google DeepMind và Google Cloud đã cùng nhau tung ra một mô hình ngôn ngữ hình ảnh (VLM) nhỏ hơn, nhanh hơn và mạnh mẽ hơn, PaLI-3, cạnh tranh đáng kể với các mô hình tương tự lớn hơn 10 lần.
Các nhà nghiên cứu đã so sánh mô hình máy biến áp trực quan (ViT) được đào tạo trước bằng cách sử dụng các mục tiêu phân loại với mô hình được đào tạo trước tương phản (SigLIP) và thấy rằng trong khi PaLI-3 hoạt động hơi kém trên các điểm chuẩn phân loại hình ảnh tiêu chuẩn, PaLI dựa trên SigLip cho thấy hiệu suất tuyệt vời trong các điểm chuẩn đa phương thức khác nhau, đặc biệt là trong bản địa hóa và hiểu văn bản.
Bài báo nghiên cứu, có tiêu đề "* Mô hình ngôn ngữ thị giác PaLI-3: Nhỏ hơn, nhanh hơn, mạnh hơn *", đã được công bố trên trang web in trước arXiv.
** Học đa phương thức có độ phân giải cao hơn **
Gần đây, các mô hình ngôn ngữ hình ảnh lớn đã sử dụng bộ mã hóa hình ảnh được đào tạo trước trong các mô hình lớn hơn của chúng, một số trong đó được đào tạo trước bằng cách sử dụng phân loại có giám sát (ví dụ: PaLI, PaLI-X, Flamingo, PaLM-E), một số sử dụng bộ mã hóa CLIP được đào tạo trước (ví dụ: BLIPv2, CrossTVR, ChatBridge) và một số sử dụng đào tạo trước đa phương thức tùy chỉnh (ví dụ: BEiT3, CoCa, SimVLM).
**Phương pháp đào tạo cho nghiên cứu này bao gồm ba thành phần chính: đào tạo trước tương phản các bộ mã hóa hình ảnh trên dữ liệu văn bản hình ảnh quy mô mạng, cải thiện kết hợp dữ liệu đào tạo đa phương thức PaLI và đào tạo ở độ phân giải cao hơn. **
Trong giai đoạn đào tạo trước một phương thức, bộ mã hóa hình ảnh sử dụng giao thức đào tạo SigLIP để đào tạo trước so sánh về ghép nối văn bản hình ảnh trên web. Các nhà nghiên cứu đã sử dụng một phương pháp lọc dựa trên mô hình bảo tồn khoảng 40% các cặp đôi. Bộ mã hóa hình ảnh được đào tạo ở độ phân giải 224×224. Bộ giải mã văn bản là mô hình 3B UL2 được đào tạo về chương trình khử nhiễu lai.
Trong giai đoạn đào tạo đa phương thức, các nhà nghiên cứu đã kết hợp một bộ mã hóa hình ảnh với bộ giải mã văn bản để tạo thành mô hình PaLI. Mô hình này được đào tạo cho các tác vụ đa phương thức, giữ cho bộ mã hóa hình ảnh bị đóng băng, sử dụng độ phân giải gốc (224×224).
Trong giai đoạn tăng độ phân giải, độ phân giải của PaLI-3 được nghiên cứu bằng cách tinh chỉnh toàn bộ mô hình (làm tan băng bộ mã hóa hình ảnh) và sử dụng các bài học ngắn để tăng dần độ phân giải, duy trì các điểm kiểm tra ở độ phân giải 812×812 và 1064×1064. Việc pha trộn dữ liệu chủ yếu tập trung vào các phần liên quan đến định vị trực quan của văn bản và phát hiện đối tượng.
** Cải thiện tác vụ hiểu hình ảnh và định vị văn bản **
Đầu tiên, các nhà nghiên cứu đã tiến hành so sánh có kiểm soát các mô hình ViT khác nhau trong khuôn khổ PaLI. Nó đã được tìm thấy rằng, mặc dù mô hình SigLIP có hiệu suất kém trong phân loại tuyến tính mẫu nhỏ, khi được sử dụng trong PaLI-3, mô hình SigLIP cung cấp hiệu suất khiêm tốn cho các tác vụ "đơn giản" như chú thích và trả lời câu hỏi, và cải tiến lớn trên văn bản cảnh "phức tạp" hơn và các nhiệm vụ hiểu không gian như các biến thể TextVQA và RefCOCO. **
Ngoài ra, các nhà nghiên cứu đã mở rộng khả năng của PaLI-3 để dự đoán mặt nạ phân đoạn với đầu ra giống như ngôn ngữ. Kết quả thực nghiệm cho thấy đối với loại nhiệm vụ nội địa hóa này, đào tạo trước so sánh có hiệu quả hơn so với đào tạo trước phân loại. **Mô hình PaLI-3 hoàn chỉnh vượt trội hơn một chút so với các phương pháp hiện đại về biểu diễn ngón tay. **
Trong phần Hiểu hình ảnh tự nhiên, PaLI-3 được đánh giá về các nhiệm vụ hiểu ngôn ngữ hình ảnh chung, bao gồm chú thích COCO và VQAv2, ** mặc dù quy mô nhỏ hơn nhiều so với các mô hình SOTA gần đây, PaLI-3 hoạt động rất tốt trên các điểm chuẩn này. **
Nói chung, trong nghiên cứu này, các nhà nghiên cứu đã đi sâu vào việc đào tạo trước các bộ mã hóa hình ảnh trong VLM, đặc biệt là các mô hình loại PaLI. Lần đầu tiên, hai phương pháp phân loại tiền đào tạo và đào tạo trước văn bản hình ảnh (tương phản) được so sánh rõ ràng và thấy rằng phương pháp sau dẫn đến VLM tốt hơn và hiệu quả hơn, đặc biệt là trong các nhiệm vụ bản địa hóa và hiểu văn bản.
Ngoài ra, các nhà nghiên cứu lưu ý trong bài báo: "Đây chỉ là một khía cạnh nhỏ của VLM và chúng tôi hy vọng rằng nghiên cứu này và kết quả của nó sẽ truyền cảm hứng cho việc khám phá sâu hơn về nhiều khía cạnh khác của đào tạo VLM." "
Liên kết giấy: