OpenAI оголошує, що ChatGPT незабаром «бачить, слухає та говорить»

Нові функції, зокрема розпізнавання мовлення та перетворення тексту в мовлення, будуть запущені протягом наступних двох тижнів.

Згідно з оголошенням OpenAI від 25 вересня, ChatGPT незабаром запропонує нові функції, які дозволять користувачам взаємодіяти з ним за допомогою розпізнавання зображень і голосу.

OpenAI оголосила, що користувачі зможуть взаємодіяти з ChatGPT за допомогою голосових команд, що дозволить персоналізувати роботу користувача. Компанія каже, що ця функція працює на основі моделі перетворення тексту в мовлення, яка генерує аудіо на основі мінімального зразка мовлення, створеного професійними акторами голосу. Компанія заявила, що ця функція також працює на основі Whisper, її системи розпізнавання мовлення з відкритим кодом.

Очікується, що голосові можливості запропонують ширший діапазон використання, наприклад, допомога в таких завданнях, як читання казок перед сном, створення рецептів, написання промов, декламування віршів, пояснення загальних фраз і навіть вирішення «дебатів за обіднім столом».

OpenAI додала, що незабаром користувачі зможуть надавати зображення (або окремі частини зображень) у ChatGPT для інтерпретації та відповіді.

OpenAI визнає ризик

OpenAI визнала ризик шахрайства та підробок і заявила, що відповідно обмежує голосові можливості своєї платформи голосового чату. У ньому підкреслюється, що для виведення звуку використовуються професійні актори голосу, а не голос користувача. OpenAI додає, що деяким іншим групам дозволено використовувати функцію голосу для інших цілей; наприклад, Spotify перекладає подкасти-учасники на нові мови та використовує оригінальний голос кожного хоста.

Компанія зазначила, що розпізнавання зображень створює ризик для конфіденційності, і заявила, що у відповідь обмежила можливість ChatGPT робити заяви про людей. Було зазначено, що ChatGPT «не завжди точний», але сказав, що загальний опис зображення може бути корисним, посилаючись на його ранню роботу з Be My Eyes, додатком для сліпих і людей зі слабким зором.

OpenAI заявив, що в найближчі два тижні представить можливості голосу та зображення в ChatGPT Plus і Enterprise. Компанія повідомила, що голосова функція буде доступна на iOS і Android (за бажанням), а функція зображення буде доступна на всіх платформах.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити