ChatGPT có thể giúp mọi người sửa xe đạp bằng cách nhìn vào hình ảnh

2023-10-31 07:57:53

Nguồn: Vỏ trái cây

ChatGPT4 đã mạnh mẽ và bây giờ, với một bản cập nhật khác, họ đang chứng minh rằng họ có thể mạnh hơn nữa.

Ngày 25/9, OpenAI thông báo ChatGPT sẽ bổ sung thêm chức năng đa phương thức - ChatGPT giờ đây không chỉ có thể nhắn tin đối thoại mà còn có thể nhìn, nghe và nói. Người ta nói rằng tính năng này sẽ có sẵn cho người dùng Plus và người dùng doanh nghiệp trong vòng hai tuần và sẽ có sẵn miễn phí cho tất cả người dùng trong tương lai (mặc dù tôi có khuôn mặt đen và chưa chờ cập nhật).

ChatGPT, có thể nhìn thấy và nói, tương đương với việc trang bị cho một bộ não vốn đã mạnh mẽ với tai mắt, và theo trình diễn của OpenAI, chức năng đa phương thức có thể mở rộng việc sử dụng ChatGPT lên một phạm vi chưa từng có.

01 Thị lực của ChatGPT

Sau khi cập nhật, ChatGPT có thể đọc hình ảnh.

Chỉ cần chụp ảnh và đưa cho nó một bức ảnh và nó có thể giúp bạn sửa lò vi sóng, sửa xe đạp, lật qua các công thức nấu ăn và thậm chí phân tích các báo cáo kinh doanh phức tạp. OpenAI nói rằng nếu bạn có màn hình cảm ứng, bạn cũng có thể khoanh tròn các phần của hình ảnh mà bạn muốn nó tập trung vào.

Trong video demo, người dùng đã đưa cho ChatGPT một hình ảnh của chiếc xe đạp và hỏi nó cách điều chỉnh chiều cao yên.

GPT cho biết cần tìm cần điều chỉnh độ cao dưới yên xe, tuy nhiên chiếc xe này không có cần điều chỉnh, chỉ có bu lông điều chỉnh và sau khi người dùng khoanh tròn bu lông trong ảnh, GPT đã cập nhật ngay công dụng của bu lông.

Sau đó, người dùng cũng tải lên hộp công cụ và hướng dẫn sử dụng xe đạp, và GPT đã đưa ra tên chi tiết của công cụ, vị trí của nó và cách sử dụng nó.

Không sửa được xe đạp, không vấn đề gì, chỉ cần hỏi ChatGPT

So với tìm kiếm nhận dạng hình ảnh thông thường, ChatGPT có thể xử lý hình ảnh và văn bản cùng một lúc, đồng thời cũng có thể nhận dạng nhiều hình ảnh, hiệu ứng giống như hướng dẫn kết nối video của bậc thầy sửa chữa ô tô.

Một người dùng khác đã gửi một bức ảnh về chiếc bánh pizza cho ChatGPT và hỏi nó xem pizza đã được nướng chưa, và ChatGPT đánh giá rằng bánh pizza nên có thể ăn được thông qua các cạnh bánh pizza giòn vàng và phô mai nâu tan chảy trong hình, sau đó đưa ra hướng dẫn kiểm tra hoàn hảo - lấy bánh pizza ra và xem, nếu đế bánh pizza đã giòn và bề mặt nóng, thì bánh pizza thực sự có thể ăn được.

Hiệu ứng này gần giống như video hướng dẫn của một đầu bếp người Ý

Tất nhiên, bạn cũng có thể sử dụng tính năng này để gian lận trong trò chơi.

Willy đâu? Có lẽ là trò chơi hình ảnh nổi tiếng nhất trong thế giới nói tiếng Anh, Willy mặc quần áo sọc đỏ và trắng, đội mũ pompom và kính gọng đen, ẩn mình trong biển người, và tìm thấy Willy từ mọi loại môi trường lộn xộn là một kỷ niệm tuổi thơ tốt đẹp đối với nhiều người.

Khi bạn còn là một đứa trẻ, bạn có thể đã nhìn thấy người đàn ông gầy gò nhỏ bé này đang vội chết

Nhưng ChatGPT có thể phá hỏng trò chơi trong một giây. Nó không chỉ ngay lập tức xác định Willy, mà còn cho bạn biết rằng Willy đang ở phía bên phải của bãi biển ở giữa bãi biển, hòa mình với một nhóm người với những chiếc dù màu xanh.

Không chỉ vậy, nó còn giả vờ nói với bạn rằng việc tìm thấy Willy trong một bức tranh như vậy là một thử thách thú vị.

Cảm ơn bạn, ChatGPT, vì đã phá hỏng trò chơi này

Tuy nhiên, một số cư dân mạng đã sử dụng phiên bản mới cho rằng chức năng nhận dạng bản đồ ChatGPT không mạnh như tưởng tượng ** - ít nhất là nó không thể hiểu được cuống đồng âm. Hình ảnh Für Elise của Beethoven, nhưng nó nói rằng For Lease, ChatGPT đã không nhận ra điểm số, không hiểu trò đùa và đưa ra lời giải thích.

Đủ khó, nhưng không

Nhận dạng hình ảnh mạnh mẽ như vậy làm dấy lên lo ngại về quyền riêng tư - nó có thể dễ dàng trở thành đồng phạm khi tìm kiếm thông tin cá nhân. OpenAI hứa hẹn rằng công ty sẽ hạn chế khả năng xác định và tìm kiếm thông tin cá nhân của ChatGPT, để bảo vệ quyền riêng tư cá nhân của mọi người ở mức độ lớn nhất.

02 GPT có thể nói tốt

Phiên bản nâng cao của ChatGPT cũng có chức năng trò chuyện.

Mô hình nhận dạng giọng nói của OpenAI được gọi là mô hình Whisper và người dùng có thể nói câu hỏi của riêng họ, và mô hình sẽ chuyển đổi giọng nói thành văn bản, sau đó chuyển đổi câu trả lời thành đầu ra giọng nói thông qua hệ thống tổng hợp giọng nói.

Mô hình tổng hợp giọng nói lần này đã phát hành năm loại giọng nói, bao gồm giọng nữ bị kiềm chế cảm xúc và giọng nói phẳng, và giọng nữ dì nhiệt tình với giọng nói bị kìm nén và thất vọng. Năm giọng nói này được phân biệt cao, cảm xúc tự nhiên và lời nói rõ ràng, tốt hơn một chút so với tổng hợp lời nói trước đó.

Năm vai trò để lựa chọn

Mặc dù chỉ có năm mẫu âm thanh được phát hành lần này, tiềm năng của mô hình này không dừng lại ở đó - OpenAI đã hợp tác với Spotify để dịch podcast sang các ngôn ngữ khác trong khi vẫn duy trì chất lượng âm thanh của đài truyền hình ở mức độ lớn nhất. Nếu bạn muốn, hệ thống tổng hợp giọng nói này có thể bắt chước giọng nói của bất kỳ người nào trên hành tinh.

Hiện tại, phiên bản giọng nói của ChatGPT vẫn chỉ có sẵn trên ứng dụng.

03 Có nhất thiết phải là một điều tốt để có thể nhìn và nghe?

ChatGPT rất mạnh mẽ, nhưng với chi phí nào?

Cách hiệu quả nhất để phân biệt giữa con người và máy móc trên quy mô lớn là CAPTCHA và khả năng đọc hình ảnh của ChatGPT từng khiến mọi người lo lắng rằng CAPTCHA có thể không còn bẫy được AI nữa.

Ai đó đã gửi cho ChatGPT câu hỏi kiểm tra kinh điển sau: Tìm một con Chihuahua và một chiếc bánh việt quất trong 16 bức ảnh và ChatGPT đã giải quyết vấn đề một cách hoàn hảo.

Nhưng captcha phổ biến nhất, ChatGPT mới vẫn không thể nhận ra.

Câu hỏi này yêu cầu ChatGPT chọn tất cả các tín hiệu trong sơ đồ và nó cho tỷ lệ lỗi lên đến 50.

Tuy nhiên, trước những mã xác minh mà họ không nhận ra, ChatGPT4 vẫn có cách giải quyết. Trong vấn đề này, nó có một hồ sơ hình sự.

Vào ngày 27 tháng 3 năm nay, OpenAI đã phát hành một báo cáo kỹ thuật GPT-4 chỉ ra rằng trước các mã xác minh không thể nhận ra, GPT-4 đã tìm ra một cách khác để truy cập TaskRabbit (một nền tảng biểu diễn nước ngoài) để phát hành các nhiệm vụ, đánh lừa con người ở phía bên kia rằng họ bị khiếm thị và cần người khác giúp xác định mã xác minh.

Trong một số trường hợp, ChatGPT có thể chủ động đánh lừa con người, đây là một hướng đi rất nguy hiểm. May mắn thay, phiên bản công khai của GPT-4 đã bị loại bỏ tính năng này.

Vào ngày 30 tháng 11 năm 2022, ChatGPT lần đầu tiên được ra mắt và trong vòng chưa đầy một năm, khả năng của nó đã tiến bộ nhảy vọt, và dường như nó đã thách thức ranh giới đạo đức và đạo đức của nhân loại. Sự ra mắt của tính năng mới này đã khiến chúng tôi lo lắng rằng ChatGPT, ngày càng trở nên mạnh mẽ hơn, sẽ trở thành một con thú trong lồng, và một ngày nào đó nó sẽ thoát khỏi lồng và làm hại mọi người. Và chúng ta đã sẵn sàng cho ngày đó chưa?

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
#Show My Alpha Points
19k Phổ biến
#SOL Futures Reach New High
2k Phổ biến
#ETH ETF Sees 12 Weeks of Inflows
2k Phổ biến
#Crypto Market Rebound
170k Phổ biến
#CandyDrop Airdrop Event 6.0
96k Phổ biến

Ghim

sơ đồ trang web