**出典:**新志源水曜日、OpenAI は ChatGPT のマルチモーダル機能の解禁を発表したばかりです。さて、それがオンラインになるとすぐに、ネチズンはすぐに熱狂します。次に、ChatGPT の画像認識機能がどれほど強力であるかを見てみましょう。写真を撮ってアップロードすると、コードがすぐに生成されますネチズンは会議中にビデオを録画し、ホワイトボードの写真をアップロードし、ChatGPT にコードを書くように依頼しました。 また、手描きのスケッチをアップロードして、ChatGPT に HTML で Web ページを作成するように依頼することもできます。 シューシュー、コードが毎分出てきました。これは、GPT-4 が今年リリースされたばかりのときに Greg Brockman によって実証されたマルチモーダル機能にすぎません。 別の例として、To Do リスト ノートの写真を撮ります。 次に、GPT-4 に Python Tkinter GUI を作成させ、実装しました...## 一目で翻訳された古代の巻物写本こちらは 17 世紀の錬金術師ロバート ボイルが描いた別の写本ですが、GPT-4 はそれを読み取ることができますか? これは簡単です。 たとえば、「薬用ミイラに関するカタルーニャ医学マニュアル」。 ChatGPT は文字起こしや翻訳もできます。 UCSC歴史学のベンジャミン・ブリーン准教授はこう語った。これは歴史家に大きな影響を与えるだろう。特定の原稿セットでトレーニングされたカスタム マルチモーダル GPT-4 を想像してください。文字起こしだけでなく、翻訳や分類も可能です。 (私の意見では、LLM を使用せずに書くことは大きな問題です)。## チャートの概要も非常に6GPT-4 にコマンドを発行して、チャートに基づいてデータを抽出することもできます。  その後、Python コードを作成してグラフを複製し、よりグラフらしくすることができます。 次に、株価トレンドチャートを投げると、特徴を分析して要約することもできます。## 写真を認識する「優れた IQ」GPT-4 に抽象的な画像を与えます。この4枚の絵が表現したい「コミュニケーションの大切さ」のメタファーを的確に捉えている、これはとんでもないことだ。 GPT-4Vは医師の手書き文字も読み取ることができます。  日本のネチズンの中には、「ドラゴンボール」の孫悟空を直接使用して ChatGPT テストを受ける人もいました。 「あなたは人間ですか?」という認証コードもいろいろあります。 自分の作品をアップロードすると、GPT-4 が改善のための提案を提供することもできます。 一部のネチズンは、GPT-4V が kosmos-1 論文のこの質問に対して正しい答えを与えているが、推論プロセスに誤りがあることを発見しました。 この機能により、子供たちは宿題をする必要がなくなります。## ネチズンからのまとめ上記の経験に加えて、一部のネチズンは GPT-4V の独自のテストを紹介する長い記事を書きました。 **テスト 1: 視覚的な質問と回答**絵文字を与えて、GPT-4V がそれをどの程度理解できるか見てみましょう。 GPT-4V は、なぜそれが興味深いのかをうまく説明し、画像の個々のコンポーネントとそれらがどのように接続されているかについて言及しています。GPT-4V は、提供された括弧で囲まれたコメントを読み取り、応答できることは注目に値します。それにもかかわらず、GPT-4V は依然としてミスを犯し、フライド チキンに「GPU」ではなく「NVIDIA BURGER」とマークを付けました。次に、コイン、つまりアメリカの 1 ペニーの写真を使ってもう一度テストします。 GPT-4V は、コインの起源と額面を正常に識別できます。 しかし、それが複数のコインと GPT-4V の写真の場合、私はどれくらいのお金を持っているでしょうか?現時点では、コインの数のみを識別できますが、通貨の種類は識別できません。 **テスト 2: OCR 認識**Web ページからテキスト画像をキャプチャしてアップロードすると、GPT-4V はコンテンツを非常によく読み取ることができます。 **テスト 3: 数学 OCR**数学 OCR は、数式を対象とした特殊な形式の光学式文字認識です。ネチズンは GPT-4V に数学的な問題を尋ね、それを文書のスクリーンショットの形で提示しました。この問題には、画像上に「解決してください」というプロンプトが表示され、2 つの角度を指定してジッパー ラインの長さを計算することが含まれます。  このモデルは、三角法を使用して解決できる問題を特定し、使用する関数を特定し、問題の解決方法を段階的に示します。 GPT-4V は質問に対する正しい答えを提供します。そうは言っても、GPT-4V システム カードには、モデルに数学記号が欠落している可能性があると記載されています。紙に手書きされた方程式や式を使用したテストなど、さまざまなテストでは、数学の質問に答えるモデルの能力が不十分であることが示される場合があります。**テスト 4: 物体検出**GPT-4V に画像内の犬を検出し、犬の位置に関連する x\_min、y\_min、x\_max、および y\_max の値を提供するように依頼すると、GPT-4V によって返された境界ボックスの座標が一致しません犬の位置。 GPT-4V は画像の質問に答えるのに非常に強力ですが、画像内の物体がどこにあるかを知りたい場合、このモデルは微調整された物体検出モデルに代わることはできません。**テスト 5: 検証コード**GPT-4V は検証コードを含む画像を認識できることが判明しましたが、多くの場合テストに失敗しました。信号機グリッドを選択する例では、GPT-4V は信号機を含むグリッドをより少なく選択しました。 **テスト 6: クロスワード パズルと数独**Sudoku テストでは、GPT-4V はゲームを認識しましたが、ボードの構造を誤解したため、不正確な結果を返しました。 ところで、ChatGPTネットワーク機能が復活しました。 参考文献:
ChatGPTマルチモーダル禁止が解除され、ネチズンは大騒ぎ!
**出典:**新志源
水曜日、OpenAI は ChatGPT のマルチモーダル機能の解禁を発表したばかりです。
さて、それがオンラインになるとすぐに、ネチズンはすぐに熱狂します。
次に、ChatGPT の画像認識機能がどれほど強力であるかを見てみましょう。
写真を撮ってアップロードすると、コードがすぐに生成されます
ネチズンは会議中にビデオを録画し、ホワイトボードの写真をアップロードし、ChatGPT にコードを書くように依頼しました。
これは、GPT-4 が今年リリースされたばかりのときに Greg Brockman によって実証されたマルチモーダル機能にすぎません。
一目で翻訳された古代の巻物写本
こちらは 17 世紀の錬金術師ロバート ボイルが描いた別の写本ですが、GPT-4 はそれを読み取ることができますか?
これは歴史家に大きな影響を与えるだろう。特定の原稿セットでトレーニングされたカスタム マルチモーダル GPT-4 を想像してください。文字起こしだけでなく、翻訳や分類も可能です。 (私の意見では、LLM を使用せずに書くことは大きな問題です)。
チャートの概要も非常に6
GPT-4 にコマンドを発行して、チャートに基づいてデータを抽出することもできます。
写真を認識する「優れた IQ」
GPT-4 に抽象的な画像を与えます。
この4枚の絵が表現したい「コミュニケーションの大切さ」のメタファーを的確に捉えている、これはとんでもないことだ。
ネチズンからのまとめ
上記の経験に加えて、一部のネチズンは GPT-4V の独自のテストを紹介する長い記事を書きました。
絵文字を与えて、GPT-4V がそれをどの程度理解できるか見てみましょう。
GPT-4V は、提供された括弧で囲まれたコメントを読み取り、応答できることは注目に値します。
それにもかかわらず、GPT-4V は依然としてミスを犯し、フライド チキンに「GPU」ではなく「NVIDIA BURGER」とマークを付けました。
次に、コイン、つまりアメリカの 1 ペニーの写真を使ってもう一度テストします。 GPT-4V は、コインの起源と額面を正常に識別できます。
現時点では、コインの数のみを識別できますが、通貨の種類は識別できません。
Web ページからテキスト画像をキャプチャしてアップロードすると、GPT-4V はコンテンツを非常によく読み取ることができます。
数学 OCR は、数式を対象とした特殊な形式の光学式文字認識です。
ネチズンは GPT-4V に数学的な問題を尋ね、それを文書のスクリーンショットの形で提示しました。
この問題には、画像上に「解決してください」というプロンプトが表示され、2 つの角度を指定してジッパー ラインの長さを計算することが含まれます。
そうは言っても、GPT-4V システム カードには、モデルに数学記号が欠落している可能性があると記載されています。
紙に手書きされた方程式や式を使用したテストなど、さまざまなテストでは、数学の質問に答えるモデルの能力が不十分であることが示される場合があります。
テスト 4: 物体検出
GPT-4V に画像内の犬を検出し、犬の位置に関連する x_min、y_min、x_max、および y_max の値を提供するように依頼すると、GPT-4V によって返された境界ボックスの座標が一致しません犬の位置。
テスト 5: 検証コード
GPT-4V は検証コードを含む画像を認識できることが判明しましたが、多くの場合テストに失敗しました。
信号機グリッドを選択する例では、GPT-4V は信号機を含むグリッドをより少なく選択しました。
Sudoku テストでは、GPT-4V はゲームを認識しましたが、ボードの構造を誤解したため、不正確な結果を返しました。