Lệnh cấm đa phương thức ChatGPT được dỡ bỏ, cư dân mạng đang phát điên!

**Nguồn:**Xinzhiyuan

Vào thứ Tư, OpenAI vừa công bố dỡ bỏ lệnh cấm đối với khả năng đa phương thức của ChatGPT.

Bây giờ, ngay khi nó được đưa lên mạng, cư dân mạng ngay lập tức phát điên.

Tiếp theo, chúng ta hãy xem khả năng nhận dạng hình ảnh của ChatGPT mạnh đến mức nào.

Chụp ảnh và tải lên, mã sẽ được tạo ngay lập tức

Một cư dân mạng đã quay video và tải lên hình ảnh bảng trắng trong một cuộc họp, sau đó yêu cầu ChatGPT viết mã.

Ngoài ra, bạn có thể tải lên bản phác thảo vẽ tay và yêu cầu ChatGPT tạo một trang web bằng HTML.

Whoosh whoosh, mã xuất hiện mỗi phút.

Đây đơn giản là khả năng đa phương thức được Greg Brockman thể hiện khi GPT-4 vừa được phát hành trong năm nay.

Ví dụ khác, hãy chụp ảnh sổ ghi chép danh sách việc cần làm của bạn.

Sau đó, hãy để GPT-4 tạo GUI Tkinter Python và sau đó nó được triển khai...

Bản thảo cuộn cổ, được dịch trong nháy mắt

Đây là một bản thảo khác của nhà giả kim Robert Boyle ở thế kỷ 17. GPT-4 có đọc được không?

Đây là một miếng bánh cho nó.

Ví dụ: "Sổ tay hướng dẫn sử dụng thuốc của người Catalan về xác ướp thuốc".

ChatGPT cũng có thể phiên âm và dịch.

Benjamin Breen, phó giáo sư lịch sử tại UCSC, cho biết:

Điều này sẽ có tác động đáng kể đến các nhà sử học. Hãy tưởng tượng một GPT-4 đa phương thức tùy chỉnh được đào tạo trên một bộ bản thảo cụ thể. Nó không chỉ có thể phiên âm mà còn có thể dịch và phân loại. (Theo tôi, việc viết mà không có LLM là một vấn đề lớn).

Bảng tóm tắt cũng rất 6

Bạn cũng có thể ra lệnh cho GPT-4 trích xuất dữ liệu dựa trên biểu đồ.

Sau đó, mã Python có thể được tạo để sao chép biểu đồ và làm cho nó giống biểu đồ hơn.

Sau đó ném biểu đồ xu hướng chứng khoán vào đó, nó cũng có thể phân tích và tóm tắt các đặc điểm.

Nhận biết hình ảnh “IQ vượt trội”

Cho GPT-4 một bức tranh trừu tượng.

Nó thực sự có thể xác định chính xác ẩn dụ về "tầm quan trọng của giao tiếp" mà bốn bức tranh này muốn thể hiện. Điều này thật quá đáng.

GPT-4V thậm chí có thể đọc được chữ viết tay của bác sĩ.

Một số cư dân mạng Nhật Bản đã trực tiếp sử dụng Tôn Ngộ Không của "Dragon Ball" để làm bài kiểm tra ChatGPT.

Ngoài ra còn có nhiều mã xác minh khác nhau cho "bạn có phải là con người không?"

Tải lên một phần công việc của riêng bạn và GPT-4 cũng có thể cung cấp cho bạn các đề xuất cải tiến.

Một số cư dân mạng phát hiện ra rằng GPT-4V đã đưa ra câu trả lời chính xác cho câu hỏi này trong bài báo kosmos-1, nhưng đã xảy ra lỗi trong quá trình suy luận.

Với tính năng này, trẻ không còn phải làm bài tập về nhà nữa.

Tổng hợp từ cư dân mạng

Ngoài trải nghiệm trên, một số cư dân mạng đã viết một bài dài giới thiệu bài thử nghiệm GPT-4V của riêng mình.

Bài kiểm tra 1: Câu hỏi và câu trả lời trực quan

Hãy cho tôi một biểu tượng cảm xúc và xem GPT-4V hiểu nó đến mức nào?

GPT-4V giải thích thành công lý do tại sao nó thú vị và đề cập đến các thành phần riêng lẻ của bức tranh cũng như cách chúng được kết nối với nhau.

Điều đáng chú ý là GPT-4V có thể đọc và phản hồi các nhận xét trong ngoặc được cung cấp.

Mặc dù vậy, GPT-4V vẫn mắc lỗi, đánh dấu gà rán là "NVIDIA BURGER" thay vì "GPU".

Sau đó, kiểm tra lại với đồng xu, hình ảnh đồng xu Mỹ. GPT-4V có thể xác định thành công nguồn gốc và mệnh giá của đồng xu.

Nhưng nếu là hình nhiều đồng xu và hỏi GPT-4V thì tôi có bao nhiêu tiền?

Tại thời điểm này, nó chỉ có thể xác định được số lượng xu chứ không thể xác định được loại tiền tệ.

Kiểm tra 2: Nhận dạng OCR

Chụp ảnh văn bản từ các trang web và upload lên, GPT-4V đọc nội dung rất tốt.

Bài kiểm tra 3: Toán OCR

OCR toán học là một dạng nhận dạng ký tự quang học đặc biệt nhắm vào các phương trình toán học.

Một cư dân mạng đã hỏi GPT-4V một bài toán và trình bày dưới dạng ảnh chụp màn hình của tài liệu.

Bài toán này liên quan đến việc tính độ dài của một đường dây kéo cho 2 góc, với lời nhắc "giải nó" trên hình ảnh.

Mô hình xác định các vấn đề có thể giải quyết bằng phép đo lượng giác, xác định các hàm sẽ được sử dụng và cung cấp hướng dẫn từng bước về cách giải quyết vấn đề. GPT-4V sau đó sẽ cung cấp câu trả lời chính xác cho câu hỏi.

Phải nói rằng, thẻ hệ thống GPT-4V cho biết rằng mô hình có thể thiếu các ký hiệu toán học.

Các bài kiểm tra khác nhau, bao gồm các bài kiểm tra với phương trình hoặc biểu thức viết tay trên giấy, có thể cho thấy mô hình không đủ khả năng trả lời các câu hỏi toán học.

Kiểm tra 4: Phát hiện đối tượng

Yêu cầu GPT-4V phát hiện con chó trong hình ảnh và cung cấp các giá trị x_min, y_min, x_max và y_max liên quan đến vị trí của con chó, tọa độ hộp giới hạn được GPT-4V trả về không khớp vị trí của con chó.

Mặc dù GPT-4V rất mạnh trong việc trả lời các câu hỏi về hình ảnh nhưng mô hình này không thể thay thế các mô hình phát hiện đối tượng tinh chỉnh khi bạn muốn biết vị trí của đối tượng trong ảnh.

Bài kiểm tra 5: Mã xác minh

GPT-4V được phát hiện có khả năng nhận dạng hình ảnh chứa mã xác minh nhưng thường thất bại trong thử nghiệm.

Trong ví dụ về chọn lưới đèn giao thông, GPT-4V đã chọn ít lưới chứa đèn giao thông hơn.

Bài kiểm tra 6: Giải ô chữ và Sudoku

Trong bài kiểm tra Sudoku, GPT-4V nhận ra trò chơi nhưng hiểu sai cấu trúc của bàn cờ nên trả về kết quả không chính xác.

Nhân tiện, chức năng kết nối mạng ChatGPT đã hoạt động trở lại.

Người giới thiệu:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)