OpenAIはGPT-5の商標を申請しましたが、いつリリースされますか?それはどんな新しい能力をもたらすのでしょうか？

Question

出典: AGI イノベーション ラボ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-61db342df5-dd1a6f-1c6801) 画像ソース: Unbounded AI によって生成‌8 月 1 日、OpenAI は次の内容を含む「GPT-5」の商標出願を正式に提出しました。※人間の音声やテキストを人工的に生成するソフトウェア* 音声データファイルをテキストに変換* 音声および音声認識* 機械学習ベースの言語および音声処理GPT-5の商標出願書類によると、GPT-5商標は音声とテキストを生成するAIの機能をカバーしており、音声ファイルをテキストに変換し、音声と音声認識を実現し、言語と音声処理に機械学習技術を使用することもできます。 。これは、GPT-5 が音声機能をサポートすることを意味する可能性があり、これによりユーザーはより高度で効率的な音声およびテキスト処理エクスペリエンスを実現し、マルチモーダル機能がさらに強化されます。## GPT-5 はいつ登場しますか?GPT-4が2023年3月にリリースされると、OpenAIは2023年12月に次世代モデルをリリースすると予想されている。 Runway の共同創設者である Siqi Chen 氏は以前、GPT5 は今年 12 月にトレーニングを完了する予定であり、Openai は汎用人工知能 (AGI) を実現できると期待していると聞いたと述べました。つまり、それが本当に AGI であるかどうかについて、私たち全員が激しく議論することになります。しかし、4月のMITのイベントでOpenAIがGPT-5のトレーニングを行っているかどうか尋ねられたとき、OpenAIの最高経営責任者（CEO）サム・アルトマン氏は「トレーニングはしないし、しばらくはトレーニングしない」と述べた。今年6月のインタビューで、OpenAIの創設者兼最高経営責任者（CEO）のサム・アルトマン氏は、何がGPT-5を立ち上げたのか尋ねられたとき、「私も興味があるが、答えはない。すぐにGPT-5は登場しないだろう、セキュリティを大きくしなければならない」と述べた。その一部。それでも、OpenAIは2023年10月までに、GPT-3.5と同様にGPT-4とGPT-5の中間バージョンであるGPT-4.5を発売する可能性があると信じている人もいる。 GPT-4.5 は最終的にマルチモーダル機能、つまり画像とテキストを分析する機能をもたらすと言われています。 OpenAI は、早ければ 2023 年 3 月の GPT-4 開発者ライブストリーム中に GPT-4 のマルチモーダル機能を発表し、デモンストレーションしました。 Microsoft は、Bing Chat で GPT-4 のマルチモーダル機能をリリースしました。 GPT-4 の次のメジャー アップデートがもうすぐそこまで来ているようです。さらに、OpenAI は現在、GPT-5 の作業を開始する前に GPT-4 モデルで多くの作業を行う必要があります。現在、GPT-4 の推論時間は非常に長く、実行コストが非常に高くなります。 GPT-4 API へのアクセスは依然として困難です。さらに、OpenAI はつい最近、まだベータ版である ChatGPT プラグインとコード インタプリタへのアクセスを開放しました。インターネット ブラウジングは、有料サイトのコンテンツを表示するため、GPT-4 から削除されました。GPT-4 は非常に強力ですが、OpenAI は計算効率がモデルを持続的に実行するための重要な要素の 1 つであることを認識していると思います。新しい機能を追加すると、すべてのチェックポイントが確実に稼働していることを確認しながら、大規模なインフラストラクチャを処理できるようになります。したがって、乱暴な推測ですが、政府機関による規制上のハードルがないと仮定すると、GPT-5 は 2024 年にリリースされる可能性があります。## 予測: GPT-5 の特徴と機能**幻覚を軽減**業界で話題になっているのは、GPT-5によってAGI（人工知能）が実現されるということだ。とりわけ、GPT-5 は推論時間の短縮、効率の向上、幻覚の軽減などを実現するはずです。ほとんどのユーザーが AI モデルをあまり信頼しない主な理由の 1 つである幻覚から始めましょう。OpenAI によると、9 つのカテゴリすべてにわたる内部敵対的設計の事実評価において、GPT-4 は GPT-3.5 よりも 40% 高いスコアを獲得しています。 GPT-4 は、不正確なコンテンツや許可されていないコンテンツに応答する可能性が 82% 低くなりました。カテゴリ全体の精度テストでは 80% のスコアに非常に近づいています。これは幻想に対する大きな飛躍です。現在、OpenAI は GPT-5 で幻覚を 10% 未満に減らすことが期待されており、これは LLM モデルを信頼できるものにする上で非常に大きな効果となります。**計算効率モデル**GPT-4 は実行コストが高く (1,000 トークンあたり 0.03 ドル)、推論に時間がかかることはすでにわかっています。また、古い GPT-3.5 ターボ モデルは GPT-4 より 15 倍安い (1K トークンあたり 0.002 ドル)。 SemiAnalysis による最近のレポートによると、GPT-4 は高密度モデルではなく、「専門家の混合」アーキテクチャに基づいています。これは、GPT-4 がさまざまなタスクに 1 兆 8,000 億のパラメーターを持つ 16 の異なるモデルを使用することを意味します。このような大規模なインフラストラクチャでは、GPT-4 モデルの実行と保守のコストが非常に高価になります。実際、多くの新しい大型モデルは「小型で洗練された」ことを追求し始めており、大型モデルのパラメータはできるだけ少なく、それ以上ではありません。Google PaLM 2 モデルの最近の解釈では、PaLM 2 パラメータは非常に小さいですが、パフォーマンスは高速です。**多感覚 AI モデル**GPT-4 はマルチモーダル AI モデルであると宣言されていますが、画像とテキストの 2 種類のデータのみを扱います。 GPT-5 により、OpenAI は真のマルチモダリティに向けて大きな一歩を踏み出す可能性があります。テキスト、オーディオ、画像、ビデオ、深度データ、温度も処理できます。さまざまなモダリティからのデータ ストリームを相互接続して、埋め込みスペースを作成できるようになります。**長期記憶**GPT-4 のリリースにより、OpenAI は、1K トークンあたり 0.06 ドルのコストで、最大コンテキスト長 32K トークンを実現します。数か月以内に、標準の 4K トークンから 32K トークンへの移行がすぐにわかりました。最近、Anthropic は、Claude AI チャットボットのコンテキスト ウィンドウを 9,000 トークンから 100,000 トークンに増加しました。 GPT-5 は、より長いコンテキスト長を通じて長期記憶のサポートをもたらす可能性があると期待されています。これにより、AI キャラクターや友達があなたのキャラクターや思い出を今後何年にもわたって覚えておくことができます。それに加えて、単一のコンテキスト ウィンドウにブックやテキスト ドキュメント ライブラリを読み込むこともできます。長期記憶のサポートのおかげで、さまざまな新しい AI アプリケーションが登場する可能性があり、GPT-5 はこれを可能にする可能性があります。GPT-5 はいつリリースされ、どのような破壊的イノベーションをもたらすと思いますか?参考文献: