*Nguồn hình ảnh: được tạo bởi công cụ Unbounded AI
Khi OpenAI lần đầu tiên phát hành mẫu AI thế hệ văn bản hàng đầu GPT-4, công ty đã giới thiệu tính đa phương thức của mô hình này -- nói cách khác, khả năng hiểu không chỉ văn bản mà còn cả hình ảnh. OpenAI cho biết GPT-4 có thể chú thích và thậm chí giải thích các hình ảnh tương đối phức tạp, chẳng hạn như xác định bộ chuyển đổi Lightning Cable từ hình ảnh iPhone được cắm vào đó.
Nhưng kể từ khi GPT-4 được phát hành vào cuối tháng 3, OpenAI đã giữ lại khả năng chụp ảnh của mô hình này, được cho là do lo ngại về việc sử dụng sai mục đích và các vấn đề về quyền riêng tư. Cho đến gần đây, bản chất chính xác của những lo ngại này vẫn còn là một bí ẩn. Đầu tuần này, OpenAI đã xuất bản một bài viết kỹ thuật mô tả chi tiết công việc của mình nhằm giảm bớt các khía cạnh có vấn đề của công cụ phân tích hình ảnh GPT-4.
Cho đến nay, GPT-4 hỗ trợ thị giác (được gọi nội bộ là "GPT-4V" tại OpenAI) chỉ được sử dụng thường xuyên bởi hàng nghìn người dùng Be My Eyes, một ứng dụng giúp người khiếm thị và người mù điều hướng xung quanh họ. Tuy nhiên, trong vài tháng qua, OpenAI cũng bắt đầu làm việc với các "đội đỏ" để khám phá mô hình nhằm tìm ra các dấu hiệu của hành vi bất ngờ, theo tờ báo.
Trong bài báo, OpenAI tuyên bố rằng họ có các biện pháp bảo vệ để ngăn chặn GPT-4V bị sử dụng cho mục đích xấu, chẳng hạn như bẻ khóa CAPTCHA, xác định một người hoặc ước tính tuổi hoặc chủng tộc của họ và đưa ra kết luận dựa trên thông tin không có trong ảnh. . OpenAI cũng cho biết họ đã nỗ lực ngăn chặn những thành kiến có hại hơn trong GPT-4V, đặc biệt là những thành kiến liên quan đến ngoại hình, giới tính hoặc chủng tộc của một người.
Nhưng giống như tất cả các mô hình AI, các biện pháp bảo vệ chỉ có thể đi xa.
Bài báo cho thấy GPT-4V đôi khi gặp khó khăn trong việc đưa ra những suy luận chính xác, chẳng hạn như bằng cách kết hợp không chính xác hai chuỗi văn bản trong một hình ảnh để tạo ra một thuật ngữ hư cấu. Giống như GPT-4 cơ sở, GPT-4V có xu hướng gây ảo giác hoặc bịa đặt sự thật với giọng điệu có căn cứ. Ngoài ra, nó còn bỏ sót các từ hoặc ký tự, bỏ qua các ký hiệu toán học và không nhận dạng được các đối tượng và cài đặt địa điểm khá rõ ràng.
Vì vậy, không có gì ngạc nhiên khi OpenAI tuyên bố rõ ràng rằng GPT-4V không thể được sử dụng để phát hiện các chất hoặc hóa chất nguy hiểm trong hình ảnh. (Phóng viên này thậm chí còn chưa nghĩ đến trường hợp sử dụng như vậy, nhưng rõ ràng OpenAI đủ quan tâm đến triển vọng mà công ty cảm thấy cần phải chỉ ra điều đó). Các thành viên đội đỏ phát hiện ra rằng mặc dù mô hình đôi khi xác định chính xác các loại thực phẩm độc hại, chẳng hạn như nấm độc, nhưng nó cũng xác định sai các chất như fentanyl, carfentanil và cocaine trong hình ảnh cấu trúc hóa học.
GPT-4V cũng hoạt động kém khi áp dụng vào hình ảnh y tế, đôi khi đưa ra câu trả lời sai cho cùng một câu hỏi khi nó đã trả lời đúng trong các tình huống trước đó. Ngoài ra, GPT-4V không biết một số thông lệ tiêu chuẩn, chẳng hạn như xem ảnh quét với bệnh nhân quay mặt về phía bạn (có nghĩa là phía bên phải của hình ảnh tương ứng với phía bên trái của bệnh nhân), điều này cũng có thể dẫn đến chẩn đoán sai.
Ở những nơi khác, OpenAI cảnh báo, GPT-4V cũng không hiểu sắc thái của một số biểu tượng căm thù nhất định - ví dụ: nó không biết ý nghĩa hiện đại của Temple Cross (dành cho quyền lực tối cao của người da trắng) ở Hoa Kỳ. Thậm chí còn lạ hơn, và có lẽ là một triệu chứng của xu hướng ảo giác, người ta đã quan sát thấy GPT-4V sáng tác các bài hát hoặc bài thơ ca ngợi một số nhân vật hoặc nhóm đáng ghét khi được cung cấp hình ảnh về họ, ngay cả khi những nhân vật hoặc nhóm đó không được đại diện.
GPT-4V cũng phân biệt đối xử với một số giới tính và loại cơ thể nhất định -- mặc dù chỉ khi các biện pháp bảo vệ lợi nhuận của OpenAI bị vô hiệu hóa. Trong một thử nghiệm, khi được yêu cầu đưa ra lời khuyên cho một phụ nữ mặc áo tắm, GPT-4V đã đưa ra những câu trả lời gần như hoàn toàn liên quan đến khái niệm cân nặng và tình trạng thể chất của người phụ nữ, OpenAI viết. Chúng tôi nghi ngờ rằng điều này sẽ không xảy ra nếu người trong ảnh là nam giới.
Đánh giá từ những cảnh báo của bài báo, GPT-4V vẫn còn rất nhiều công việc đang được tiến hành -- vẫn còn vài bước nữa so với tầm nhìn ban đầu của OpenAI. Trong nhiều trường hợp, công ty đã phải thực hiện các biện pháp bảo vệ quá nghiêm ngặt để ngăn chặn các mô hình truyền bá thông tin độc hại hoặc sai lệch hoặc xâm phạm quyền riêng tư cá nhân.
OpenAI tuyên bố họ đang xây dựng các biện pháp “giảm nhẹ” và “quy trình” để mở rộng khả năng của mô hình theo cách “an toàn”, chẳng hạn như cho phép GPT-4V mô tả khuôn mặt và con người mà không cần đặt tên. Nhưng bài viết này cho thấy GPT-4V không phải là toàn năng và OpenAI vẫn còn rất nhiều việc phải làm.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Khả năng đa phương thức của ChatGPT đã tạo ra một cơn sốt, nhưng bài báo của chính nó tiết lộ rằng GPT-4V vẫn có sai sót
Viết bởi Kyle Wiggers
Nguồn: TechCrunch
Khi OpenAI lần đầu tiên phát hành mẫu AI thế hệ văn bản hàng đầu GPT-4, công ty đã giới thiệu tính đa phương thức của mô hình này -- nói cách khác, khả năng hiểu không chỉ văn bản mà còn cả hình ảnh. OpenAI cho biết GPT-4 có thể chú thích và thậm chí giải thích các hình ảnh tương đối phức tạp, chẳng hạn như xác định bộ chuyển đổi Lightning Cable từ hình ảnh iPhone được cắm vào đó.
Nhưng kể từ khi GPT-4 được phát hành vào cuối tháng 3, OpenAI đã giữ lại khả năng chụp ảnh của mô hình này, được cho là do lo ngại về việc sử dụng sai mục đích và các vấn đề về quyền riêng tư. Cho đến gần đây, bản chất chính xác của những lo ngại này vẫn còn là một bí ẩn. Đầu tuần này, OpenAI đã xuất bản một bài viết kỹ thuật mô tả chi tiết công việc của mình nhằm giảm bớt các khía cạnh có vấn đề của công cụ phân tích hình ảnh GPT-4.
Cho đến nay, GPT-4 hỗ trợ thị giác (được gọi nội bộ là "GPT-4V" tại OpenAI) chỉ được sử dụng thường xuyên bởi hàng nghìn người dùng Be My Eyes, một ứng dụng giúp người khiếm thị và người mù điều hướng xung quanh họ. Tuy nhiên, trong vài tháng qua, OpenAI cũng bắt đầu làm việc với các "đội đỏ" để khám phá mô hình nhằm tìm ra các dấu hiệu của hành vi bất ngờ, theo tờ báo.
Trong bài báo, OpenAI tuyên bố rằng họ có các biện pháp bảo vệ để ngăn chặn GPT-4V bị sử dụng cho mục đích xấu, chẳng hạn như bẻ khóa CAPTCHA, xác định một người hoặc ước tính tuổi hoặc chủng tộc của họ và đưa ra kết luận dựa trên thông tin không có trong ảnh. . OpenAI cũng cho biết họ đã nỗ lực ngăn chặn những thành kiến có hại hơn trong GPT-4V, đặc biệt là những thành kiến liên quan đến ngoại hình, giới tính hoặc chủng tộc của một người.
Nhưng giống như tất cả các mô hình AI, các biện pháp bảo vệ chỉ có thể đi xa.
Bài báo cho thấy GPT-4V đôi khi gặp khó khăn trong việc đưa ra những suy luận chính xác, chẳng hạn như bằng cách kết hợp không chính xác hai chuỗi văn bản trong một hình ảnh để tạo ra một thuật ngữ hư cấu. Giống như GPT-4 cơ sở, GPT-4V có xu hướng gây ảo giác hoặc bịa đặt sự thật với giọng điệu có căn cứ. Ngoài ra, nó còn bỏ sót các từ hoặc ký tự, bỏ qua các ký hiệu toán học và không nhận dạng được các đối tượng và cài đặt địa điểm khá rõ ràng.
GPT-4V cũng hoạt động kém khi áp dụng vào hình ảnh y tế, đôi khi đưa ra câu trả lời sai cho cùng một câu hỏi khi nó đã trả lời đúng trong các tình huống trước đó. Ngoài ra, GPT-4V không biết một số thông lệ tiêu chuẩn, chẳng hạn như xem ảnh quét với bệnh nhân quay mặt về phía bạn (có nghĩa là phía bên phải của hình ảnh tương ứng với phía bên trái của bệnh nhân), điều này cũng có thể dẫn đến chẩn đoán sai.
GPT-4V cũng phân biệt đối xử với một số giới tính và loại cơ thể nhất định -- mặc dù chỉ khi các biện pháp bảo vệ lợi nhuận của OpenAI bị vô hiệu hóa. Trong một thử nghiệm, khi được yêu cầu đưa ra lời khuyên cho một phụ nữ mặc áo tắm, GPT-4V đã đưa ra những câu trả lời gần như hoàn toàn liên quan đến khái niệm cân nặng và tình trạng thể chất của người phụ nữ, OpenAI viết. Chúng tôi nghi ngờ rằng điều này sẽ không xảy ra nếu người trong ảnh là nam giới.
OpenAI tuyên bố họ đang xây dựng các biện pháp “giảm nhẹ” và “quy trình” để mở rộng khả năng của mô hình theo cách “an toàn”, chẳng hạn như cho phép GPT-4V mô tả khuôn mặt và con người mà không cần đặt tên. Nhưng bài viết này cho thấy GPT-4V không phải là toàn năng và OpenAI vẫn còn rất nhiều việc phải làm.