OpenAI thông báo rằng ChatGPT sẽ sớm “nhìn, nghe và nói”

2023-09-26 10:22:32

Các tính năng mới bao gồm nhận dạng giọng nói và khả năng chuyển văn bản thành giọng nói sẽ được triển khai trong hai tuần tới.

Theo thông báo từ OpenAI vào ngày 25 tháng 9, ChatGPT sẽ sớm cung cấp các tính năng mới cho phép người dùng tương tác với nó thông qua nhận dạng hình ảnh và giọng nói.

OpenAI thông báo rằng người dùng sẽ có thể tương tác với ChatGPT bằng lệnh thoại, mang lại trải nghiệm người dùng được cá nhân hóa hơn. Công ty cho biết tính năng này được hỗ trợ bởi mô hình chuyển văn bản thành giọng nói, tạo ra âm thanh dựa trên lời nói mẫu tối thiểu do các diễn viên lồng tiếng chuyên nghiệp tạo ra. Công ty cho biết tính năng này cũng được hỗ trợ bởi Whisper, hệ thống nhận dạng giọng nói nguồn mở của họ.

Khả năng giọng nói dự kiến sẽ cung cấp nhiều trường hợp sử dụng hơn, chẳng hạn như hỗ trợ các công việc như đọc truyện trước khi đi ngủ, tạo công thức nấu ăn, viết bài phát biểu, ngâm thơ, giải thích các cụm từ phổ biến và thậm chí giải quyết "các cuộc tranh luận trên bàn ăn tối".

OpenAI cho biết thêm người dùng sẽ sớm có thể cung cấp hình ảnh (hoặc chọn các phần hình ảnh) cho ChatGPT để diễn giải và phản hồi.

OpenAI thừa nhận rủi ro

OpenAI thừa nhận nguy cơ gian lận và làm giả và cho biết họ đang hạn chế khả năng thoại của nền tảng trò chuyện thoại của mình. Nó nhấn mạnh rằng nó sử dụng các diễn viên lồng tiếng chuyên nghiệp - chứ không phải giọng nói của người dùng - để phát ra âm thanh. OpenAI cho biết thêm rằng một số nhóm khác được phép sử dụng tính năng giọng nói cho các mục đích khác; ví dụ: Spotify đang dịch các podcast tham gia sang ngôn ngữ mới và sử dụng giọng nói gốc của mỗi máy chủ.

Công ty lưu ý rằng nhận dạng hình ảnh gây ra rủi ro về quyền riêng tư và cho biết để đáp lại, nó đã hạn chế khả năng đưa ra tuyên bố về mọi người của ChatGPT. Nó lưu ý rằng ChatGPT "không phải lúc nào cũng chính xác", nhưng cho biết mô tả chung về hình ảnh có thể hữu ích, trích dẫn công việc ban đầu của nó với Be My Eyes, một ứng dụng dành cho người mù và thị lực kém.

OpenAI cho biết họ sẽ giới thiệu khả năng thoại và hình ảnh cho ChatGPT Plus và Enterprise trong hai tuần tới. Công ty cho biết tính năng giọng nói sẽ có sẵn trên iOS và Android (chọn tham gia) và tính năng hình ảnh sẽ có sẵn trên tất cả các nền tảng.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
1/3
1Simple Earn Annual Rate 24.4%
39k Phổ biến
2Gate Launchpad List IKA
41k Phổ biến
3ETH Trading Volume Surges
42k Phổ biến
4Gate ETH 10th Anniversary Celebration
22k Phổ biến
5Trump’s AI Strategy
18k Phổ biến

Ghim

sơ đồ trang web