カイル・ウィガーズ著出典: TechCrunch *画像ソース: *Unbounded AI* ツール* によって生成OpenAI が主力テキスト生成 AI モデル GPT-4 を最初にリリースしたとき、同社はこのモデルのマルチモダリティ、つまりテキストだけでなく画像も理解できる機能を宣伝しました。 OpenAIによると、GPT-4は比較的複雑な画像にキャプションを付けたり、ライトニングケーブルアダプタに差し込まれたiPhoneの画像からライトニングケーブルアダプタを識別したりすることもできるという。しかし、GPT-4が3月下旬にリリースされて以来、OpenAIは悪用とプライバシー問題への懸念から、このモデルの画像処理機能を維持していると伝えられている。最近まで、これらの懸念の正確な性質は謎のままでした。今週初め、OpenAI は、GPT-4 画像解析ツールの問題点を軽減するための取り組みを詳しく説明した技術文書を発表しました。現在まで、視覚対応 GPT-4 (OpenAI 内部では「GPT-4V」と呼ばれています) は、視覚障害者や視覚障害者が周囲を移動するのを支援するアプリである Be My Eyes の数千人のユーザーによってのみ定期的に使用されています。しかし、論文によると、過去数カ月にわたり、OpenAIは予期せぬ動作の兆候をモデルで調査するために「レッドチーム」と協力し始めたという。論文の中でOpenAIは、CAPTCHAの解読、個人の特定や年齢や人種の推定、写真に存在しない情報に基づいた結論の導き出しなど、GPT-4Vの悪用を防ぐための安全策が講じられていると主張している。 。 OpenAIはまた、GPT-4Vのより有害なバイアス、特に人の外見、性別、人種に関連するバイアスを抑制するために取り組んできたと述べた。しかし、すべての AI モデルと同様に、安全対策には限界があります。この論文は、GPT-4V が、画像内の 2 つのテキスト文字列を誤って組み合わせて架空の用語を作成するなど、正しい推論を行うのに苦労する場合があることを示しています。ベースの GPT-4 と同様に、GPT-4V は幻覚を見せたり、権威ある口調で事実を捏造したりする傾向があります。さらに、単語や文字を見逃したり、数学記号を無視したり、かなり明白なオブジェクトや場所の設定を認識できません。 したがって、OpenAI が GPT-4V を画像内の危険物質や化学物質の検出に使用することはできないと明確に述べているのも不思議ではありません。 (この記者はそのような使用例を考えもしませんでしたが、OpenAI はこの見通しに十分な関心を持っているようで、同社はそれを指摘する必要があると感じました)。赤チームのチームは、このモデルが毒キノコなどの有毒な食品を時々正確に識別する一方、化学構造の画像に含まれるフェンタニル、カルフェンタニル、コカインなどの物質も誤って識別することを発見しました。GPT-4V は、医療画像処理に適用した場合もパフォーマンスが悪く、以前の状況では正しく答えていたのに、同じ質問に対して誤った答えを返すことがありました。さらに、GPT-4V は、患者を正面に向けた状態で画像スキャンを表示する (つまり、画像の右側が患者の左側に対応する) など、一部の標準的な慣行を認識していませんが、これも誤診につながる可能性があります。 他にも、GPT-4Vは特定のヘイトシンボルのニュアンスを理解していないとOpenAIは警告している――例えば、米国における(白人至上主義を表す)神殿の十字架の現代的な意味を理解していない。さらに奇妙なことに、そしておそらくその幻覚傾向の症状である GPT-4V は、たとえその人物やグループが表現されていないとしても、特定の憎しみに満ちた人物やグループの画像を与えられると、それを称賛する歌や詩を作るのが観察されています。GPT-4V は、OpenAI の収量保護機能が無効になっている場合に限り、特定の性別や体型も差別します。あるテストで、水着を着た女性にアドバイスを与えるように求められたとき、GPT-4Vはほぼ完全に女性の体重と体調の概念に関連した回答を返したとOpenAIは書いている。写真に写っている人物が男性であれば、このようなことは起こらないと思われます。 論文の警告から判断すると、GPT-4V はまだ進行中の作業であり、OpenAI の当初のビジョンからはまだ数歩離れています。多くの場合、同社は、モデルが有害な情報や誤った情報を広めたり、個人のプライバシーを侵害したりするのを防ぐために、過度に厳格な保護措置を導入する必要がありました。OpenAIは、GPT-4Vが名前を付けずに顔や人物を記述できるようにするなど、モデルの機能を「安全な」方法で拡張するための「緩和策」と「プロセス」を構築していると主張している。しかしこの論文は、GPT-4V が万能ではなく、OpenAI にはまだやるべきことがたくさんあることを示しています。
ChatGPT のマルチモーダル機能はブームを巻き起こしましたが、GPT-4V にはまだ欠陥があることが独自の論文で明らかになりました
カイル・ウィガーズ著
出典: TechCrunch
OpenAI が主力テキスト生成 AI モデル GPT-4 を最初にリリースしたとき、同社はこのモデルのマルチモダリティ、つまりテキストだけでなく画像も理解できる機能を宣伝しました。 OpenAIによると、GPT-4は比較的複雑な画像にキャプションを付けたり、ライトニングケーブルアダプタに差し込まれたiPhoneの画像からライトニングケーブルアダプタを識別したりすることもできるという。
しかし、GPT-4が3月下旬にリリースされて以来、OpenAIは悪用とプライバシー問題への懸念から、このモデルの画像処理機能を維持していると伝えられている。最近まで、これらの懸念の正確な性質は謎のままでした。今週初め、OpenAI は、GPT-4 画像解析ツールの問題点を軽減するための取り組みを詳しく説明した技術文書を発表しました。
現在まで、視覚対応 GPT-4 (OpenAI 内部では「GPT-4V」と呼ばれています) は、視覚障害者や視覚障害者が周囲を移動するのを支援するアプリである Be My Eyes の数千人のユーザーによってのみ定期的に使用されています。しかし、論文によると、過去数カ月にわたり、OpenAIは予期せぬ動作の兆候をモデルで調査するために「レッドチーム」と協力し始めたという。
論文の中でOpenAIは、CAPTCHAの解読、個人の特定や年齢や人種の推定、写真に存在しない情報に基づいた結論の導き出しなど、GPT-4Vの悪用を防ぐための安全策が講じられていると主張している。 。 OpenAIはまた、GPT-4Vのより有害なバイアス、特に人の外見、性別、人種に関連するバイアスを抑制するために取り組んできたと述べた。
しかし、すべての AI モデルと同様に、安全対策には限界があります。
この論文は、GPT-4V が、画像内の 2 つのテキスト文字列を誤って組み合わせて架空の用語を作成するなど、正しい推論を行うのに苦労する場合があることを示しています。ベースの GPT-4 と同様に、GPT-4V は幻覚を見せたり、権威ある口調で事実を捏造したりする傾向があります。さらに、単語や文字を見逃したり、数学記号を無視したり、かなり明白なオブジェクトや場所の設定を認識できません。
GPT-4V は、医療画像処理に適用した場合もパフォーマンスが悪く、以前の状況では正しく答えていたのに、同じ質問に対して誤った答えを返すことがありました。さらに、GPT-4V は、患者を正面に向けた状態で画像スキャンを表示する (つまり、画像の右側が患者の左側に対応する) など、一部の標準的な慣行を認識していませんが、これも誤診につながる可能性があります。
GPT-4V は、OpenAI の収量保護機能が無効になっている場合に限り、特定の性別や体型も差別します。あるテストで、水着を着た女性にアドバイスを与えるように求められたとき、GPT-4Vはほぼ完全に女性の体重と体調の概念に関連した回答を返したとOpenAIは書いている。写真に写っている人物が男性であれば、このようなことは起こらないと思われます。
OpenAIは、GPT-4Vが名前を付けずに顔や人物を記述できるようにするなど、モデルの機能を「安全な」方法で拡張するための「緩和策」と「プロセス」を構築していると主張している。しかしこの論文は、GPT-4V が万能ではなく、OpenAI にはまだやるべきことがたくさんあることを示しています。