AI có captcha của Google và mô hình lớn đa phương thức mới nhất chính xác hơn sự hiểu biết về không gian GPT-4V

Nguồn gốc: Qubits

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Google CAPTCHA không thể ngăn chặn AI!

** Mô hình lớn đa phương thức mới nhất ** giúp bạn dễ dàng tìm thấy tất cả các đèn giao thông trong hình và khoanh tròn chính xác vị trí cụ thể.

Hiệu suất trực tiếp vượt quá GPT-4V.

Đây là mẫu xe cỡ lớn đa phương thức "Ferret" do nhóm nghiên cứu của Apple và Đại học Columbia mang đến.

Nó có khả năng tương quan đồ họa và văn bản mạnh mẽ hơn, giúp cải thiện độ chính xác của các mô hình lớn trong nhiệm vụ "nhìn, nói và trả lời".

Ví dụ, phần rất nhỏ (vùng 1) trong hình dưới đây cũng có thể được phân biệt là một cú sốc.

GPT-4V không trả lời đúng và không hoạt động tốt ở các phần nhỏ.

Vậy, Ferret làm điều đó như thế nào?

** "Điểm một chút" hình ảnh mô hình lớn hiểu **

Vấn đề cốt lõi mà Ferret giải quyết là làm cho sự hiểu biết không gian về cả đề cập và tiếp đất gần gũi hơn.

Tài liệu tham khảo đề cập đến việc mô hình hiểu chính xác ngữ nghĩa của một khu vực nhất định, nghĩa là vị trí mà nó có thể biết là gì.

Định vị là đưa ra ngữ nghĩa để mô hình có thể tìm thấy mục tiêu tương ứng trong biểu đồ.

Đối với con người, hai khả năng này là một sự kết hợp tự nhiên, nhưng nhiều mô hình đa phương thức hiện có chỉ sử dụng tham chiếu và định vị một mình.

Do đó, Ferret đã đề xuất một loại phương pháp biểu diễn vùng hỗn hợp mới có thể kết hợp các tọa độ rời rạc và các tính năng liên tục để biểu diễn các vùng trong một hình ảnh.

Điều này cho phép mô hình phân biệt các đối tượng gần giống với các hộp giới hạn.

Ví dụ, trong trường hợp của hai đối tượng trong hình dưới đây, nếu chỉ sử dụng hộp giới hạn rời rạc, mô hình sẽ cảm thấy rất "nhầm lẫn". Kết hợp với các biểu diễn pha trộn dạng tự do liên tục, vấn đề này được giải quyết tốt.

Để trích xuất các đặc điểm liên tục của các khu vực khác nhau, bài báo đề xuất một bộ lấy mẫu trực quan nhận thức không gian có khả năng xử lý sự khác biệt thưa thớt giữa các hình dạng khác nhau.

Do đó, Ferret có thể chấp nhận nhiều đầu vào khu vực khác nhau như điểm, hộp giới hạn và hình dạng tự do và hiểu ngữ nghĩa của chúng.

Trong đầu ra, nó có thể tự động tạo tọa độ của từng đối tượng được neo dựa trên văn bản.

Để đạt được điều này, kiến trúc của mô hình Ferret bao gồm các thành phần như bộ mã hóa hình ảnh, bộ lấy mẫu trực quan nhận biết không gian và mô hình ngôn ngữ (LLM).

Ferret kết hợp tọa độ rời rạc và các tính năng liên tục để tạo thành một đại diện vùng lai.

Biểu diễn này được thiết kế để giải quyết thách thức đại diện cho các khu vực có hình dạng và định dạng khác nhau, bao gồm điểm, hộp giới hạn và hình dạng tự do.

Mỗi tọa độ trong tọa độ rời rạc được lượng tử hóa thành một tọa độ rời rạc của khung mục tiêu và lượng tử hóa này đảm bảo độ bền của mô hình với các kích thước hình ảnh khác nhau.

Các tính năng liên tục được trích xuất bởi bộ lấy mẫu trực quan nhận thức không gian, sử dụng mặt nạ nhị phân và bản đồ tính năng để lấy mẫu ngẫu nhiên các điểm trong ROI và thu được các tính năng thông qua nội suy tuyến tính.

Các tính năng này được xử lý bởi một mô-đun nhận thức không gian lấy cảm hứng từ mô hình đám mây điểm 3D, ngưng tụ thành một vectơ duy nhất và ánh xạ tới mô hình ngôn ngữ lớn (LLM) để xử lý thêm.

Để tăng cường khả năng của Ferret, bài báo cũng tạo ra một bộ dữ liệu gọi là GRIT.

Bộ dữ liệu này chứa 1,1 triệu mẫu và bao gồm bốn loại chính: các đối tượng riêng lẻ, mối quan hệ giữa các đối tượng, mô tả khu vực cụ thể và lý luận phức tạp dựa trên khu vực.

Bộ dữ liệu GRIT bao gồm dữ liệu được chuyển đổi từ các bộ dữ liệu công khai, dữ liệu điều chỉnh lệnh được tạo thông qua ChatGPT và GPT-4 và thêm 95K mẫu âm tính khó được cung cấp để cải thiện tính mạnh mẽ của mô hình.

Kết quả thực nghiệm cho thấy, mô hình không chỉ cho thấy hiệu suất vượt trội trong các nhiệm vụ tham chiếu và nội địa hóa cổ điển, mà còn vượt xa các mô hình MLLM hiện có khác trong đối thoại đa phương thức dựa trên khu vực và nhu cầu nội địa hóa.

Ngoài ra, nghiên cứu đề xuất một Ferret-Bench có thể đánh giá khả năng tham chiếu / bản địa hóa, ngữ nghĩa, kiến thức và khả năng lý luận của các khu vực địa phương của một hình ảnh.

Mô hình Ferret, được đánh giá trên LLaVA-Bench và Ferret-Bench, đã xuất sắc trong tất cả các nhiệm vụ, đặc biệt là trên ba nhiệm vụ mới đòi hỏi nền tảng tham chiếu và trực quan.

Hơn nữa, có một sự cải thiện đáng kể trong các chi tiết mô tả của hình ảnh, và có sự giảm đáng kể ảo giác.

Tất cả đội Trung Quốc

Mô hình lớn Ferret được phối hợp mang đến bởi AI / ML của Apple và nhóm nghiên cứu Đại học Columbia, với một dòng sản phẩm toàn Trung Quốc.

Có Hạo Huyền và Trương Hạo Thiên làm việc chung.

You Haoxuan hiện là tiến sĩ khoa học máy tính tại Đại học Colum và sẽ gia nhập nhóm AI / ML của Apple sau khi tốt nghiệp. Anh tốt nghiệp Đại học Xidian năm 2018.

Mối quan tâm nghiên cứu của ông bao gồm hiểu ngôn ngữ thị giác, tạo văn bản-hình ảnh và ngôn ngữ hình ảnh.

Zhang Haotian hiện là một nhà nghiên cứu trí tuệ trực quan trong nhóm AI / ML của Apple.

Trước khi gia nhập Apple, Haotian đã nhận bằng tiến sĩ tại Đại học Washington và bằng cử nhân tại Đại học Giao thông Thượng Hải.

Ông là một trong những tác giả chính của GLIP / GLIPv2, đã được đề cử cho CVPR2022 giải thưởng giấy tốt nhất.

Ngoài ra, nhóm nghiên cứu bao gồm Gan Zhe, Wang Zirui, Cao Liangliang, Yang Yinfei và các nhà nghiên cứu mô hình lớn đa phương thức xuất sắc khác của Google và Microsoft.

Địa chỉ giấy:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)