OpenAI 宣布ChatGPT 即將“看、聽、說”

2023-09-26 10:22:32

包括語音辨識和文字轉語音功能在內的新功能將在接下來的兩週內推出。

根據OpenAI 9 月25 日的公告，ChatGPT 很快就會提供新功能，讓用戶可以透過圖像和語音識別與其互動。

OpenAI 宣布用戶將能夠使用語音命令與ChatGPT 進行交互，從而實現更個人化的用戶體驗。該公司表示，該功能由文字轉語音模型提供支持，該模型可以根據專業配音演員創建的最小樣本語音生成音訊。該公司表示，該功能還由其開源語音辨識系統Whisper 提供支援。

語音功能預計將提供更廣泛的用例，例如協助閱讀睡前故事、創建食譜、撰寫演講、背誦詩歌、解釋常用短語，甚至解決「餐桌辯論」等任務。

OpenAI 補充說，用戶很快將能夠向ChatGPT 提供圖像（或選擇圖像的某些部分）以進行解釋和回應。

OpenAI 承認風險

OpenAI 承認存在欺詐和假冒風險，並表示，相應地，它正在限制其語音聊天平台的語音功能。它強調它使用專業配音演員——而不是用戶的聲音——來輸出音訊。 OpenAI 補充說，某些其他團體被允許將語音功能用於其他目的；例如，Spotify 正在將參與的播客翻譯成新語言，並使用每位主持人的原始聲音。

該公司指出，圖像識別存在隱私風險，並表示，作為回應，它限制了ChatGPT 發表有關人物的聲明的能力。它指出ChatGPT“並不總是準確”，但表示對圖像的一般描述可能很有用，並引用了其早期與Be My Eyes 的合作，Be My Eyes 是一款針對盲人和弱視人士的應用程式。

OpenAI 表示，將在未來兩週內向ChatGPT Plus 和Enterprise 引入語音和影像功能。該公司表示，語音功能將在iOS 和Android 上提供（可選擇加入），圖像功能將在所有平台上提供。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

0/400

暫無留言