ChatGPT は、写真を見て自転車を修理するのに役立ちます

出典:フルーツシェル

ChatGPT4はすでに強力ですが、今、別のアップデートで、さらに強くなれることを証明しています。

9月25日、OpenAIはChatGPTにマルチモーダル機能を追加すると発表しました - ChatGPTはテキスト対話だけでなく、見たり、聞いたり、話したりできるようになりました。 この機能は、2週間以内にPlusユーザーとエンタープライズユーザーが利用できるようになり、将来的にはすべてのユーザーが無料で利用できるようになると言われています(ただし、私は黒い顔をしていて、更新を待っていません)。

見たり話したりできるChatGPTは、すでに強力な脳に目と耳を装備するに等しく、OpenAIのデモンストレーションによると、マルチモーダル機能はChatGPTの使用をこれまでにない幅に拡大することができます。

01 ChatGPTの視力

アップデート後、ChatGPTは写真を読み取ることができます。

写真を撮って写真を撮るだけで、電子レンジの修理、自転車の修理、レシピのめくり、さらには複雑なビジネスステートメントの分析に役立ちます。 OpenAIによると、タッチスクリーンをお持ちの場合は、焦点を合わせたい画像の部分を丸で囲むこともできます。

デモ動画では、ユーザーがChatGPTに自転車の写真を渡し、サドルの高さを調整する方法を尋ねました。

GPTはシートの下に高さ調整レバーを見つける必要があると言っていましたが、この車には調整レバーがなく、調整ボルトのみがあり、ユーザーが写真のボルトを丸で囲んだ後、GPTはすぐにボルトの使用を更新しました。

その後、ユーザーはツールボックスと自転車のマニュアルもアップロードし、GPTはツールの詳細な名前、その場所、および使用方法を提供しました。

自転車を修理できない、問題ない、ChatGPTに聞いてみればいい

一般的な画像認識検索と比較して、ChatGPT は写真とテキストを同時に処理でき、複数の写真も認識でき、その効果は自動車修理マスターのビデオ接続ガイダンスのようなものです。

別のユーザーがピザの写真をChatGPTに送信し、ピザが焼かれているかどうかを尋ねると、ChatGPTはピザが金色のクリスピーなピザの端と溶けたブラウンチーズを通して食べられるはずだと判断し、絶対確実な検査ガイドを与えました-ピザを取り出して見てください、ピザのベースがすでにサクサクしていて表面が熱い場合、ピザは本当に食べられます。

その効果は、まるでイタリアンシェフのビデオガイドのようです

もちろん、この機能を使用してゲームでチートすることもできます。

ウィリーはどこだ? おそらく英語圏で最も有名な絵のゲームであるウィリーは、赤と白の縞模様の服、ポンポンハット、黒縁の眼鏡を身に着け、人々の海に隠れており、あらゆる種類の乱雑な環境からウィリーを見つけることは、多くの人にとって良い子供時代の思い出です。

あなたが子供の頃、あなたは死を急いでいるこの小さな痩せた男を見たことがあるかもしれません

しかし、ChatGPT は一瞬でゲームを台無しにする可能性があります。 ウィリーを即座に識別するだけでなく、ウィリーがビーチの真ん中のビーチの右側にいて、青い日傘をさした人々のグループに混ざっていることもわかります。

それだけでなく、そのような写真でウィリーを見つけるのは興味深い挑戦であると言っているふりをしています。

ChatGPT、このゲームを台無しにしてくれてありがとう

しかし、新しいバージョンを使用した一部のネチズンは、ChatGPTの地図認識の機能は想像ほど強力ではない**と述べています-少なくとも同音異義語の茎を理解することはできません。 ベートーヴェンの「エリーゼのために」の写真ですが、ChatGPTはスコアを認識せず、ジョークを理解せず、説明を思いつきました。

十分に難しいですが、いいえ

このような強力な画像認識は、プライバシーに関する懸念を引き起こします - 個人情報を検索するときに簡単に共犯者になる可能性があります。 OpenAI は、すべての人の個人のプライバシーを最大限に保護するために、ChatGPT の個人情報を特定して検索する機能を制限することを約束します。

##02 上手に話せるGPT

ChatGPTの拡張版にはチャット機能もあります。

OpenAIの音声認識モデルはWhisperモデルと呼ばれ、ユーザーが自分で質問を言うと、モデルが音声をテキストに変換し、音声合成システムを介して回答を音声出力に変換します。

今回、音声合成モデルが公開した音声サンプルは、感情を抑えて平坦な声の女性声や、抑圧された声や苛立った声の熱狂的なおばさんの女性声など、5種類の音声サンプルです。 この5つの声は区別がつきやすく、感情は自然で、言葉は明瞭で、以前の音声合成よりも少し良くなっています。

選べる5つの役割

今回リリースされたサウンドサンプルは5つしかありませんが、このモデルの可能性はそれだけにとどまらず、OpenAIはSpotifyと提携して、放送局の音質を最大限に維持しながらポッドキャストを他の言語に翻訳しています。 あなたが望むなら、この音声合成システムは、おそらく地球上のすべての人の声を模倣することができます。

現時点では、ChatGPT の音声バージョンはまだアプリでのみ利用できます。

03 見たり聞いたりできることは必ずしも良いことなのでしょうか?

ChatGPTは強力ですが、その代償は?

かつて、人間と機械を大規模に区別する最も効果的な方法はCAPTCHAであり、ChatGPTの画像を読み取る能力は、CAPTCHAがAIを罠にかけることができなくなるのではないかと心配するようになりました。

誰かがChatGPTに次の古典的なテスト質問を送りました:16枚の写真でチワワとブルーベリーケーキを見つけてください、そしてChatGPTは問題を完璧に解決しました。

しかし、最も一般的なキャプチャである新しいChatGPTはまだ認識できません。

この質問では、ChatGPT が図内のすべての信号を選択する必要があり、最大 50 のエラー率が得られます。

しかし、彼らが認識しない検証コードに直面しても、ChatGPT4 にはまだそれを解決する方法があります。 この件では、前科があります。

今年3月27日、OpenAIはGPT-4のテクニカルレポートを公開し、認識できない検証コードに直面したGPT-4は、タスクを解放するためにTaskRabbit(外国のギグプラットフォーム)にアクセスし、反対側の人間に視覚障害があり、検証コードを特定するために他の人が必要だと欺く別の方法を見つけたと指摘しました。

場合によっては、ChatGPTが積極的に人間を欺く可能性があり、これは非常に危険な方向です。 幸いなことに、GPT-4の公開バージョンではこの機能が廃止されています。

2022年11月30日にChatGPTが初めてローンチされ、1年も経たないうちにその能力は飛躍的に進歩し、すでに人類の道徳的・倫理的境界に挑戦しているようです。 この新機能のリリースにより、ますます強力になっているChatGPTが檻の中の獣になり、いつの日か檻から抜け出してすべての人に害を及ぼすのではないかと心配になりました。 そして、その日を迎える準備はできていますか?

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)