Новые функции, включая распознавание речи и преобразование текста в речь, будут реализованы в течение следующих двух недель.
Согласно объявлению OpenAI от 25 сентября, ChatGPT вскоре предложит новые функции, которые позволят пользователям взаимодействовать с ним посредством распознавания изображений и голоса.
OpenAI объявила, что пользователи смогут взаимодействовать с ChatGPT с помощью голосовых команд, что обеспечивает более персонализированный пользовательский опыт. Компания заявляет, что эта функция основана на модели преобразования текста в речь, которая генерирует звук на основе минимального образца речи, созданного профессиональными актерами озвучивания. Компания заявила, что эта функция также поддерживается Whisper, ее системой распознавания речи с открытым исходным кодом.
Ожидается, что голосовые возможности будут предлагать более широкий спектр вариантов использования, таких как помощь в таких задачах, как чтение сказок на ночь, создание рецептов, написание речей, чтение стихов, объяснение общих фраз и даже решение «дебатов за обеденным столом».
OpenAI добавила, что вскоре пользователи смогут предоставлять изображения (или выбирать части изображений) в ChatGPT для интерпретации и ответа.
OpenAI признает риск
OpenAI признала риск мошенничества и подделки и заявила, что соответствующим образом ограничивает голосовые возможности своей платформы голосового чата. Он подчеркивает, что для вывода звука используются профессиональные актеры озвучивания, а не голос пользователя. OpenAI добавляет, что некоторым другим группам разрешено использовать голосовую функцию для других целей; например, Spotify переводит участвующие подкасты на новые языки и использует оригинальный голос каждого ведущего.
Компания отметила, что распознавание изображений создает угрозу конфиденциальности, и заявила, что в ответ ограничила возможность ChatGPT делать заявления о людях. Он отметил, что ChatGPT «не всегда точен», но сказал, что общее описание изображения может быть полезным, ссылаясь на свою раннюю работу с Be My Eyes, приложением для слепых и слабовидящих людей.
OpenAI заявила, что в ближайшие две недели представит возможности голосовой связи и изображений в ChatGPT Plus и Enterprise. Компания заявила, что голосовая функция будет доступна на iOS и Android (по согласию), а функция изображения будет доступна на всех платформах.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
OpenAI объявляет, что ChatGPT скоро будет «видеть, слушать и говорить»
Новые функции, включая распознавание речи и преобразование текста в речь, будут реализованы в течение следующих двух недель.
Согласно объявлению OpenAI от 25 сентября, ChatGPT вскоре предложит новые функции, которые позволят пользователям взаимодействовать с ним посредством распознавания изображений и голоса.
OpenAI объявила, что пользователи смогут взаимодействовать с ChatGPT с помощью голосовых команд, что обеспечивает более персонализированный пользовательский опыт. Компания заявляет, что эта функция основана на модели преобразования текста в речь, которая генерирует звук на основе минимального образца речи, созданного профессиональными актерами озвучивания. Компания заявила, что эта функция также поддерживается Whisper, ее системой распознавания речи с открытым исходным кодом.
Ожидается, что голосовые возможности будут предлагать более широкий спектр вариантов использования, таких как помощь в таких задачах, как чтение сказок на ночь, создание рецептов, написание речей, чтение стихов, объяснение общих фраз и даже решение «дебатов за обеденным столом».
OpenAI добавила, что вскоре пользователи смогут предоставлять изображения (или выбирать части изображений) в ChatGPT для интерпретации и ответа.
OpenAI признает риск
OpenAI признала риск мошенничества и подделки и заявила, что соответствующим образом ограничивает голосовые возможности своей платформы голосового чата. Он подчеркивает, что для вывода звука используются профессиональные актеры озвучивания, а не голос пользователя. OpenAI добавляет, что некоторым другим группам разрешено использовать голосовую функцию для других целей; например, Spotify переводит участвующие подкасты на новые языки и использует оригинальный голос каждого ведущего.
Компания отметила, что распознавание изображений создает угрозу конфиденциальности, и заявила, что в ответ ограничила возможность ChatGPT делать заявления о людях. Он отметил, что ChatGPT «не всегда точен», но сказал, что общее описание изображения может быть полезным, ссылаясь на свою раннюю работу с Be My Eyes, приложением для слепых и слабовидящих людей.
OpenAI заявила, что в ближайшие две недели представит возможности голосовой связи и изображений в ChatGPT Plus и Enterprise. Компания заявила, что голосовая функция будет доступна на iOS и Android (по согласию), а функция изображения будет доступна на всех платформах.