OpenAI объявляет, что ChatGPT скоро будет «видеть, слушать и говорить»

2023-09-26 10:22:32

Новые функции, включая распознавание речи и преобразование текста в речь, будут реализованы в течение следующих двух недель.

Согласно объявлению OpenAI от 25 сентября, ChatGPT вскоре предложит новые функции, которые позволят пользователям взаимодействовать с ним посредством распознавания изображений и голоса.

OpenAI объявила, что пользователи смогут взаимодействовать с ChatGPT с помощью голосовых команд, что обеспечивает более персонализированный пользовательский опыт. Компания заявляет, что эта функция основана на модели преобразования текста в речь, которая генерирует звук на основе минимального образца речи, созданного профессиональными актерами озвучивания. Компания заявила, что эта функция также поддерживается Whisper, ее системой распознавания речи с открытым исходным кодом.

Ожидается, что голосовые возможности будут предлагать более широкий спектр вариантов использования, таких как помощь в таких задачах, как чтение сказок на ночь, создание рецептов, написание речей, чтение стихов, объяснение общих фраз и даже решение «дебатов за обеденным столом».

OpenAI добавила, что вскоре пользователи смогут предоставлять изображения (или выбирать части изображений) в ChatGPT для интерпретации и ответа.

OpenAI признает риск

OpenAI признала риск мошенничества и подделки и заявила, что соответствующим образом ограничивает голосовые возможности своей платформы голосового чата. Он подчеркивает, что для вывода звука используются профессиональные актеры озвучивания, а не голос пользователя. OpenAI добавляет, что некоторым другим группам разрешено использовать голосовую функцию для других целей; например, Spotify переводит участвующие подкасты на новые языки и использует оригинальный голос каждого ведущего.

Компания отметила, что распознавание изображений создает угрозу конфиденциальности, и заявила, что в ответ ограничила возможность ChatGPT делать заявления о людях. Он отметил, что ChatGPT «не всегда точен», но сказал, что общее описание изображения может быть полезным, ссылаясь на свою раннюю работу с Be My Eyes, приложением для слепых и слабовидящих людей.

OpenAI заявила, что в ближайшие две недели представит возможности голосовой связи и изображений в ChatGPT Plus и Enterprise. Компания заявила, что голосовая функция будет доступна на iOS и Android (по согласию), а функция изображения будет доступна на всех платформах.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
1/3
1Simple Earn Annual Rate 24.4%
39k Популярность
2Gate Launchpad List IKA
41k Популярность
3ETH Trading Volume Surges
42k Популярность
4Gate ETH 10th Anniversary Celebration
22k Популярность
5Trump’s AI Strategy
18k Популярность

Закрепить

Карта сайта