OpenAI、ChatGPT がまもなく「見て、聞いて、話す」ようになると発表

音声認識やテキスト読み上げ機能などの新機能は、今後 2 週間にわたって公開される予定です。

9 月 25 日の OpenAI の発表によると、ChatGPT は、ユーザーが画像および音声認識を通じて対話できる新機能を間もなく提供する予定です。

OpenAI は、ユーザーが音声コマンドを使用して ChatGPT と対話できるようになり、よりパーソナライズされたユーザー エクスペリエンスが可能になると発表しました。同社によると、この機能はプロの声優が作成した最小限のサンプル音声に基づいて音声を生成するテキスト読み上げモデルによって強化されているという。同社によれば、この機能は同社のオープンソース音声認識システムである Whisper によっても実現されているという。

音声機能は、就寝前の物語の読み上げ、レシピの作成、スピーチの執筆、詩の朗読、一般的なフレーズの説明、さらには「ディナーテーブルの議論」の解決などのタスクの支援など、より幅広いユースケースを提供すると期待されています。

OpenAIは、ユーザーが解釈と応答のためにChatGPTに画像(または画像の一部を選択)を間もなく提供できるようになるだろうと付け加えた。

OpenAI はリスクを認識しています

OpenAIは詐欺や偽造のリスクを認めており、それに応じて音声チャットプラットフォームの音声機能を制限していると述べた。オーディオの出力にユーザーの声ではなくプロの声優を使用していることを強調しています。 OpenAIは、他の特定のグループが他の目的で音声機能を使用することを許可されていると付け加えた;例えば、Spotifyは参加しているポッドキャストを新しい言語に翻訳し、各ホストのオリジナルの音声を使用している。

同社は画像認識がプライバシーのリスクを引き起こすと指摘し、それに応じてChatGPTが人物について発言する能力を制限したと述べた。 ChatGPTは「必ずしも正確ではない」と指摘したが、目の見えない人や弱視の人向けのアプリ「Be My Eyes」との初期の取り組みを引き合いに出し、画像の一般的な説明が役立つ可能性があると述べた。

OpenAIは、今後2週間以内にChatGPT PlusとEnterpriseに音声と画像の機能を導入すると発表した。同社によると、音声機能はiOSとAndroid(オプトイン)で利用可能となり、画像機能はすべてのプラットフォームで利用できるようになるという。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)