タイピング作業よりも大きなモデルに図を見てもらいましょう! NeurIPS 2023の新しい調査では、マルチモーダルクエリ手法が提案され、精度が7.8%向上

巴比特_

2023-10-22 07:08:10

元のソース: 量子ビット

画像ソース:無制限のAIによって生成

大きなモデルの「写真を読む」能力はとても強いのに、なぜ間違ったものを探し続けるのですか?

たとえば、見た目の悪いコウモリをラケットと混同したり、一部のデータセットで珍しい魚を認識しなかったり...

これは、大きなモデルに「何かを見つけさせる」ときに、テキストを入力することが多いためです。

説明が曖昧または部分的すぎる場合、「バット」(バットまたはビート? または「キプリノドンディアボリス」とAIは混乱します。

これにより、オブジェクト検出、特にオープンワールド(未知のシーン)オブジェクト検出タスクを実行するために大規模なモデルが使用されるようになり、効果が期待したほど良くないことがよくあります。

さて、NeurIPS 2023に含まれる論文がついにこの問題を解決しました。

本稿では,入力に画像例を追加するだけでよいマルチモーダルクエリに基づく物体検出手法MQ-Detを提案する.

ベンチマーク検出データセットLVISでは、MQ-Detは主流検出大規模モデルのGLIP精度を平均約7.8%向上させ、13のベンチマーク小規模サンプルダウンストリームタスクの精度を平均6.3%向上させます。

これはどの程度正確に行われますか? 見てみましょう。

以下は、論文の著者であるZhihuブロガー@Qinyuanxiaからの複製です。

MQ-Det: マルチモーダルクエリのためのオープンワールドオブジェクト検出大規模モデル
1.1 テキストクエリからマルチモーダルクエリへ
1.2 MQ-Det プラグアンドプレイマルチモーダルクエリモデルアーキテクチャ
1.3 MQ-Det 効率的なトレーニング戦略 ※1.4 実験結果:ファインチューニングフリー評価 *1.5 実験結果:少ショット評価
1.6 物体検出の見通しのマルチモーダルクエリ

MQ-Det: マルチモーダルクエリのためのオープンワールドオブジェクト検出の大規模モデル**

野生でのマルチモーダルクエリオブジェクト検出

論文リンク:

コードアドレス:**

### 1.1 テキストクエリからマルチモーダルクエリへ

1枚の写真は千の言葉の価値があります:グラフィックの事前トレーニングの台頭により、テキストのオープンセマンティクスの助けを借りて、オブジェクト検出は徐々にオープンワールド知覚の段階に入りました。このため、多くの大規模な検出モデルは、テキストクエリのパターン、つまり、カテゴリテキストの説明を使用してターゲットイメージ内の潜在的なターゲットをクエリします。しかし、このアプローチはしばしば「広範だが洗練されていない」という問題に直面します。

たとえば、(1)図1の細粒物体(フィンガリング)検出は、限られたテキストでさまざまな細粒の種を説明するのが難しい場合が多く、(2)カテゴリのあいまいさ(「バット」はバットとラケットの両方を指す場合があります)。

しかし、上記の問題は、テキストよりもターゲットオブジェクトに豊富な特徴の手がかりを提供する画像例によって解決できますが、同時にテキストは強い一般化を持っています。

したがって、2つのクエリメソッドを有機的に組み合わせる方法は自然なアイデアになりました。

マルチモーダルクエリ機能の取得の難しさ:マルチモーダルクエリでこのようなモデルを取得する方法には、次の3つの課題があります。 (1)限られた画像例で直接微調整すると、壊滅的な忘却につながりやすくなります。 (2)大規模な検出モデルをゼロからトレーニングすると、一般化は適切ですが、たとえば、シングルカードトレーニングGLIPでは、3,000万データ量で480日間のトレーニングが必要です。

マルチモーダルクエリオブジェクトの検出:上記の考慮事項に基づいて、著者はシンプルで効果的なモデル設計とトレーニング戦略を提案します-MQ-Det。

MQ-Devは、既存のフリーズされたテキストクエリ検出大規模モデルに基づいて視覚的な例の入力を受け取るために少数のゲート認識モジュール(GCP)を挿入し、高性能マルチモーダルクエリの検出器を効率的に取得するための視覚条件マスク言語予測トレーニング戦略を設計します。

1.2 MQ-Det プラグアンドプレイマルチモーダルクエリモデルアーキテクチャ

** **####### △図1 MQ-Detメソッドアーキテクチャ図

ゲート知覚モジュール

図1に示すように、著者は、既存のフリーズされたテキストクエリ検出大規模モデルのテキストエンコーダー側にゲーティング認識モジュール(GCP)をレイヤーごとに挿入し、GCPの動作モードは次の式で簡潔に表すことができます。

i番目のカテゴリには、最初にターゲット画像Iとのクロスアテンション(X-MHA)を行う視覚的な例Viを入力します

その表現能力を広げ、次に各カテゴリテキストTIと対応するカテゴリの視覚的な例

クロスアテンションを実行する

その後、元のテキストtiとテキストの視覚的な拡張がゲーティングモジュールゲートによって強化されます

現在のレイヤーの出力を取得するための融合

。このシンプルな設計は、次の 3 つの原則に従います。 (2)意味的完全性。 (3)反健忘症、具体的な議論は原文にあります。

1.3 MQ-Det 効率的なトレーニング戦略

凍結言語クエリ検出器に基づく変調トレーニング

テキストクエリ自体の現在のトレーニング前の検出大規模モデルは優れた一般化を持っているため、著者は、元のテキストの特徴に基づいて視覚的な詳細をわずかに調整するだけでよいと考えています。

この記事では、元の事前トレーニング済みモデルのパラメータを開いて微調整した後、壊滅的な忘却を引き起こすのは簡単であるという特定の実験的デモンストレーションもありますが、オープンワールド検出の能力は失われます。

したがって、MQ-Detは、フリーズしたテキストクエリの事前トレーニング済み検出器に基づいて、既存のテキストクエリの検出器に視覚情報を効率的に挿入し、トレーニングによって挿入されたGCPモジュールのみを変調できます。

本論文では、MQ-Detの構造設計と学習技術を現在のSOTAモデルであるGLIPとGroundingDINOにそれぞれ適用し、この方法の汎用性を検証しています。

視覚条件によるマスク言語予測トレーニング戦略

また、著者たちは、事前学習済みモデルのフリーズによって引き起こされる学習怠惰の問題を解決するために、視覚的に条件付けされたマスキング言語予測学習戦略を提案している。

いわゆる学習怠惰とは、検出器がトレーニングプロセス中に元のテキストクエリの特性を維持する傾向があるため、新しく追加されたビジュアルクエリ機能を無視することを意味します。

この目的のために、MQ-Det はトレーニング中にランダムに使用されます[MASK] token はテキストトークンを置き換え、モデルにビジュアルクエリ機能側からの学習を強制します。

この戦略は単純ですが、非常に効果的であり、実験結果から、この戦略は大幅なパフォーマンスの向上をもたらしました。

1.4 実験結果:ファインチューニングフリー評価

ファインチューニングフリー:MQ-Detは、カテゴリテキストのみを使用する従来のゼロショット評価と比較して、より実用的な評価戦略を提案します:ファインチューニングフリー。これは、カテゴリテキスト、画像例、または両方の組み合わせを使用したオブジェクト検出として定義され、ダウンストリームの微調整はありません。

ファインチューニングフリー設定では、MQ-Detはカテゴリごとに5つの視覚的な例を選択し、オブジェクト検出用のカテゴリテキストを結合しますが、他の既存のモデルはビジュアルクエリをサポートしておらず、オブジェクト検出にはプレーンテキストの説明のみを使用できます。次の表は、LVIS MiniVal と LVIS v1.0 での結果を示しています。マルチモーダルクエリの導入により、オープンワールドのオブジェクト検出機能が大幅に向上したことがわかります。

** **###### △表1 LVISベンチマークデータセットにおける各検出モデルのファインチューニングフリー性能

表1からわかるように、MQ-GLIP-LはGLIP-Lに基づいてAPを7%以上改善しており、その効果は非常に大きいです。

1.5 実験結果:少数ショット評価

** **#### △表2 ODinW-35 における各モデルと ODinW-13 の 13 サブセットの 35 の検出タスクにおけるパフォーマンス

著者らはさらに、下流の35検出タスクであるODinW-35で包括的な実験を行った。表2からわかるように、MQ-Detは強力なファインチューニングフリーパフォーマンスを備えているだけでなく、優れた少量サンプル検出機能も備えており、マルチモーダルクエリの可能性をさらに確認しています。図2は、MQ-DetからGLIPへの大幅な改善も示しています。

** **###### △図2 データ利用効率の比較横軸:トレーニングサンプルの数、縦軸:OdinW-13の平均AP

1.6 マルチモーダルクエリオブジェクト検出の展望

実用的なアプリケーションに基づく研究分野として、物体検出はアルゴリズムの着陸に大きな注意を払っています。

以前のプレーンテキストクエリオブジェクト検出モデルは優れた一般化を示していますが、実際のオープンワールド検出中国語ではきめ細かい情報をカバーすることは困難であり、画像の豊富な情報粒度がこのリンクを完全に完成させます。

これまでのところ、テキストは一般的であるが正確ではなく、画像は正確であるが一般的ではないことがわかり、2つ、つまりマルチモーダルクエリを効果的に組み合わせることができれば、オープンワールドのオブジェクト検出がさらに進むようになります。

MQ-Detはマルチモーダルクエリの第一歩を踏み出し、その大幅なパフォーマンスの向上は、マルチモーダルクエリターゲット検出の大きな可能性も示しています。

同時に、テキストの説明と視覚的な例の導入により、ユーザーはより多くの選択肢を利用でき、オブジェクト検出がより柔軟でユーザーフレンドリーになります。

元のリンク:

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

1 いいね

報酬
1
コメント
共有

0/400

コメントなし

トピック
1/3
1CandyDrop Airdrop Event 6.0
65k 人気度
2White House Crypto Report
62k 人気度
3Join Alpha RION Airdrop to Earn $40
46k 人気度
4Fed Holds Rates Decision
9k 人気度
5July Spark Program TOP 10 Creators Announced
3k 人気度

ピン

サイトマップ