新しいビッグモデルは毎回GPT-4を上回っていると主張しており、これらのレビューツールをまとめました

出典:AIパイオニアオフィサー

画像ソース:無制限のAIによって生成

ChatGPTの出現以来、世界中のビッグモデルの「軍拡競争」がありました。 報道によると、今年1月から7月にかけて、合計64の大型モデルが中国で発売されました。 2023年7月現在、中国では合計130の大型モデルが発売されています。

「百モデル戦争」は、今日の灼熱の「戦争状況」を説明するのに十分ではないので、どの大きなモデルが良いですか? これは、大規模なモデルの評価と切り離せません。

しかし、現段階では、認識された効果的な評価方法がないため、国内外の大規模モデル評価の分野で「リスト戦争」が発生しています。 不完全な統計では、現在市場には50以上の評価ツール(システム)があり、同様のリストの結果は大きく異なる可能性があります。 「ブラッシングポイント」に対する国民の疑念は無限大です。

**業界では、一般に、大規模なモデルを評価するための2つの顕在化基準があると考えています:1つはパラメータの数であり、もう1つは評価セットです。 **

いわゆるパラメータ量とは、モデルの重みや偏りなど、モデルで学習できるパラメータの数を指します。 パラメータ数のサイズはモデルの複雑さを決定し、より多くのパラメータとレイヤーの数は、大きなモデルと小さなモデルを区別する特徴的な機能です。 2022年には、テキストから画像への生成モデルであるDiffusionをリリースしたStability AIから、OpenAIが立ち上げたChatGPTまで、米国の大型モデルのバッチが発表され、モデルパラメータの規模は数百億、数千億の時代に入り始めました。

**表面指標から、数千億のパラメータを持つモデルは、一般的に数百億のパラメータよりも優れたパフォーマンスを発揮します。 ただし、これは絶対的なものではなく、ヒープ パラメーターによって必ずしも機能が向上するとは限りません。 では、同じパラメータ水準を持つモデルは、良いものと悪いものをどのように区別すべきでしょうか? これには、大規模モデルの2番目の評価ディメンションである評価セットの導入が必要です。

評価セットは、異なるシナリオや異なるタスクにおいて、基本モデルとその微調整アルゴリズムの包括的な効果を効果的に評価するために構築された単一タスクまたはマルチタスクの統合ベンチマークデータセットであり、オープンとクローズの2つの形式があります。

**これらの評価セットは、さまざまな分野の試験問題のようなものであり、これらの「試験問題」で大規模なモデルのスコアをテストすることで、人々はより大きなモデルのパフォーマンスをより直感的に比較できます。 **

スモールモデルの時代には、ほとんどのモデル機関は、モデルの品質を判断するための基礎として学術評価セットの効果を使用します。 現在、大手モデルメーカーも学術ベンチマークフレームワークに積極的に参加し始めており、それを権威ある承認およびマーケティングの基礎と見なしています。

市場には、MMLU、中国の評価モデルC-、SuperCLUEなど、多くの大規模なモデル評価セットがあります。

-1- 評価ツール

MMLU

大規模モデルの言語理解評価である大規模マルチタスク言語理解は、2020年9月にカリフォルニア大学バークレー校の研究者によって開始された、大規模モデルの最も有名な意味理解評価の1つです。 **このテストは、初等数学、米国の歴史、コンピューターサイエンス、法律など、57のタスクをカバーしています。 **タスクは幅広い知識をカバーし、大規模なモデルの基本的な知識カバレッジと理解度を評価するために英語で行われます。

論文住所:

公式ウェブサイト:

ビッグモデルリーダーボード:

C-

C-は、包括的な中国のベースモデル評価キットです。 2023年5月に上海交通大学、清華大学、エジンバラ大学の研究者が共同で立ち上げたこの質問には、中国の大規模モデルの理解度を測定するための52の異なる分野と4つの難易度をカバーする13,948の多肢選択問題が含まれています。

論文住所:

プロジェクトアドレス:

公式ウェブサイト:

スーパークルー

一般的な大規模モデルの中国の総合評価ベンチマークであるモデルの能力は、基本能力、専門能力、中国特性能力の3つの異なる側面から評価されます。

その中で、基本的な能力能力には、**意味理解、対話、論理的推論、役割シミュレーション、コード、生成と作成、およびその他の10の能力が含まれます。 **

専門的な能力には以下が含まれます:数学、物理学、地理学から社会科学までの50以上の能力をカバーする中等、大学、および専門試験が含まれます。

中国語の特徴能力:中国語の特徴を持つタスクには、中国語のイディオム、詩、文学、グリフなど10以上の能力が含まれています。

プロジェクトアドレス:

公式ウェブサイト:

スーパークルーランギャリスト

中国のユニバーサルラージモデル匿名戦闘評価ベンチマークは、ChatbotArenaと同じで、匿名およびランダムな対決評価のためにさまざまなラージモデル製品をクラウドソーシングし、結果はイロレーティングシステムに基づいています。

プロジェクトアドレス:

リブ

チャットボットアリーナ

ChatbotArenaは、カリフォルニア大学バークレー校、カリフォルニア大学サンディエゴ校、カーネギーメロン大学によって設立された研究機関であるLMSYS Orgによる大規模言語モデル(LLM)のベンチマークプラットフォームです。

**クラウドソーシングベースの匿名ランダムマッチのためのLLMベンチマークプラットフォーム。 **デモ体験アドレスからバトルプラットフォームに入ります。 興味のある質問を入力し、質問を送信した後、匿名モデルがペアでプレイして関連する回答をそれぞれ生成し、ユーザーは回答を判断し、モデルAが優れている、モデルBが優れている、同点、すべてが悪いという4つの判断オプションのいずれかを選択する必要があります。 会話の複数のラウンドのサポート。 最後に、Eloスコアリングシステムを使用して、大規模なモデルの機能を包括的に評価します。 (自分でモデルを指定して効果を確認することはできますが、最終ランキングにはカウントされません)。

プロジェクトアドレス:

公式ウェブサイト:

Flagは、3次元評価フレームワーク「能力-タスク-指標」**を用いて、網羅的かつ詳細な評価結果を提供する大規模モデル評価プラットフォームです。 このプラットフォームは、30以上の能力、5つのタスク、4つのカテゴリーの指標、22の主観的および客観的評価データセットと84433の質問を含む、合計600以上の包括的な評価の次元を提供してきました。

Flagの第1フェーズでは、大規模言語モデル評価システム、オープンソースの多言語テキストおよびグラフィックス大規模モデル評価ツールmCLIP-、およびオープンソースのテキストおよび画像生成評価ツールImageを立ち上げました。 Libraはまた、言語モデルをより科学的かつ包括的に評価するために、言語モデルの評価と心理学、教育、倫理、その他の社会的分野のクロスリサーチを引き続き探求していきます。 大規模なモデル開発者とユーザーを対象としたFlagは、開発チームがモデルの弱点を理解し、技術革新を推進できるように設計されています。

プロジェクトアドレス:

公式ウェブサイト:

オープンコンパス

2023年8月、上海人工知能ラボ(Shanghai AI Lab)は、完全なオープンソースの再現可能な評価フレームワーク**を通じて、大規模言語モデルとマルチモーダルモデルのさまざまなモデルのワンストップ評価をサポートするOpenCompass大規模モデルオープン評価システムを正式に開始し、評価結果リストを定期的に公開しています。

公式ウェブサイト:

プロジェクトアドレス:

JioNLP

人間のユーザーに対するLLMモデルのヘルプ効果と補助能力を調べるために、「スマートアシスタント」のレベルに達することができるかどうか、多肢選択式の質問は、中国の客観的知識のカバレッジに焦点を当てた中国本土のさまざまな専門試験から導き出され、32%を占めています。 主観的な質問は毎日の要約から来ており、主にLLMの一般的な機能に対するユーザーの影響を調べます。

プロジェクトアドレス:

データセットの測定

清華セキュリティビッグモデル評価

清華社が収集したレビューのコレクションは、ヘイトスピーチ、偏見のある差別的なスピーチ、犯罪と法律、プライバシー、倫理、道徳を含む8つのカテゴリをカバーしており、きめ細かいカテゴリに分類された40以上の第2レベルのセキュリティカテゴリが含まれています**。

住所:

LLM-3

復旦大学のNLP研究所によって立ち上げられ、専門知識と能力の評価に焦点を当てており、哲学、経済学、法律、教育、文学、歴史、科学、工学、農業、医学、軍事科学、管理、芸術など、教育省によって指定された13の分野と50以上の第2レベルの分野をカバーし、合計で約20Wの標準的な生成的な質問と回答の質問があります。 LLM-3評価では、ランキングブラッシング現象の発生を防ぐため、新しい評価モードである「問題バンク試験」モードを採用しています。

住所:

ガカオベンチ

GAOKAO-benchは、中国の大学入試問題をデータセットとして、大規模モデルの言語理解能力や論理的推論能力を評価する評価フレームワークです。

プロジェクトアドレス:

パンダLM

自動スコアリング モデルを直接トレーニングし、0.1.2 の 3 ポイント システムで 2 つの候補モデルをスコアリングします。

プロジェクトアドレス:

ビッグベンチ

Googleが発行したレビューのコレクションであるBIG-benchは、言語学、子どもの発達、数学、常識的推論、生物物理学、社会的偏見、ソフトウェア開発などのトピックに関する204のタスクで構成されています。

プロジェクトアドレス:

MMCU

Oracle Yi AI Research Instituteは、マルチタスクを処理する際の中国の大規模モデルの精度を測定するテストを提案しており、データセットのテスト内容は、医療、法律、心理学、教育の4つの主要分野をカバーしています。 **質問数は、医学の分野で2819の質問、法律の分野で3695の質問、心理学の分野での2001の質問、教育の分野での10,000の質問を含む3331+に達しました。

プロジェクトアドレス:

行動

2023 年 4 月に開始された Microsoft のビッグ モデル基本コンピテンシー評価ベンチマークは、中国語と英語のデータを含む、世界中の一般の人間の候補者を対象とした 20 の公式、公的、高水準の入学および資格試験をカバーする、人間の認知と問題解決における大規模モデルの一般的な能力を測定します**。 したがって、テストは中国語と英語の両方をカバーする人間のテスト結果に傾いています。

論文住所:

GSM8K

OpenAIの大規模なモデルである数学的推論能力評価ベンチマークは、中学校レベルで8,500の高品質の数学問題データセットをカバーしています。 データセットは、以前の数学テキストの問題データセットよりも大きく、言語はより多様で、質問はより困難です。 このテストは2021年10月にリリースされ、依然として非常に難しいテストベンチマークです。

論文住所:

HELM 評価方法には、主にシーン、適応、インジケーター**の 3 つのモジュールが含まれており、各評価実行では、シーン、適応モデルのプロンプト、および 1 つ以上のインジケーターを指定する必要があります。 主に英語をカバーし、精度、不確実性/キャリブレーション、堅牢性、公平性、バイアス、毒性、推論効率を含む7つの指標があります。 タスクには、Q&A、情報検索、要約、テキスト分類などが含まれます。

論文住所:

プロジェクトアドレス:

中国語-LLalA-アルパカ

これは相対値としてスコアリングされ、GPT4が優先され、一部がChatGPT3になります。

プロジェクトアドレス:

MTベンチ

大規模モデルのマルチターン対話と指示追従機能を評価します。 データセットには、80(8カテゴリ*10質問)の高品質でマルチラウンドの対話の質問が含まれており、それぞれが6つの有名な大規模モデル(GPT-4、GPT-3.5、Claud-v1、Vicuna-13B、Alpaca-13B、およびLLaMA-13B)によって回答され、手動でソートされて3.3Kペアペアを取得します。

論文住所:

MTベンチとチャットボットアリーナによるジャッジとしてのLLMの審査

ギットハブ

プロジェクトアドレス:

/ツリー/メイン/ファストチャット/llm_judge

データダウンロードアドレス:

-2- 評価モード

上記の評価ツールを通じて、現在の一般的な大規模モデル評価モードは、大まかに4つのタイプに要約できることがわかります。

**1.質問を採点します。 **主にさまざまな評価データセットを収集し、データセットをさまざまな次元機能に分割します。 大規模なモデルでこれらのデータセットを実行できるようにするいくつかのタスクを設計することにより、スコアは標準の回答に対して計算されます。 典型的な例は、OpenCompass、huggingfaceのopenLLMリーダーボードなどです。

**2. GPT-4を審査員にしましょう。 評価用のデータセットを収集し(オープンソースではなく、標準的な回答がないデータセットも含まれます)、GPT-4に大規模モデル生成の結果を判断させます。 この審査プロセスを採点するには、直接採点する方法と、事実、正確性、セキュリティコンプライアンスなどのいくつかの側面を設計し、より詳細なレベルで評価する方法の2つの方法があります。

**3.アリーナモード。 **競争の激しいゲームのアリーナに似ています。 2つの大きなモデルプレーヤーがPKするたびに、ユーザー(場合によってはGPT-4)がどちらのモデルが優れているかを評価し、勝った大きなモデルには余分なポイントがあり、負けた大きなモデルにはマイナスがあります。 十分なPKラウンドが実行されると、大規模なモデルのスコアランキングがあり、比較的公平であり、モデルの強さを客観的に反映できます。 典型的な例は、カリフォルニア大学バークレー校のチャットボットアリーナリーダーボードです。

**4.個々のコンピテンシーの評価。 たとえば、数学的能力、コード能力、推論能力など、これらの能力を評価することは、大きなモデルが本当に人間のような思考能力を持っているかどうかを判断するだけでなく、特定の分野で大きなモデル(コードアシスタントなど)を選択するのに直接役立ちます。

-3- 評価結果「大きく異なる」

多くの異なる評価ツールがあり、異なる評価ツールの評価結果も「非常に異なる」。

8月15日、機関の人工知能大型モデル体験レポートがリリースされ、国内の主流大型モデルの使用経験の水平評価が実施されました。 このリストは、中国の8つの主流AIモデルを500の質問で評価し、最終的にXunfei Xinghuoが1位、Baidu Wenxinが2位、Ali Tongyi Qianwenが下から2位にランクされました。

9月、人気のあるオープンソース評価リストの最新号C-リストの最新号では、ユンティアンライフの大型モデル「ユンティアンシュ」が1位にランクインし、GPT-4は10位にランクされました。

同月、SuperCLUEは9月の大型モデルリストを発表した。 GPT-4は総合リストの1位にランクされ、SenseTimeのSenseChat 3.0は中国のリストのトップにランクされました。

10月19日、スタンフォード大学は2023年の基本モデル透明性指数を発表し、10の主流の基本モデルの透明性を評価し、Llama 2が1位、GPT-4が3位にランクされました。

さまざまなレビューツールの結果が大きく異なるのはなぜですか? 主な理由は次のとおりです。

**1.人気のある各学術レビューセットには独自の焦点があります。 **たとえば、Metaで最も一般的に使用されているGSM8KとMMLUは、さまざまなレベルのテストセットです-前者は初等数学、後者はより高度な学際的な質問と回答です。 クラスの生徒がさまざまな科目で試験を受けるのと同じように、大きなモデルは当然、リストごとにランク付けが異なります。

**2.大規模モデル評価における主観的質問の割合が増加する。 **国内外の大型モデルの現在の評価リストでは、主観的な質問と客観的な質問を組み合わせるという考えは、業界で一般的に認識されています。 しかし、主観的な質問の課題は、すべての人の心の評価基準が一貫しているかどうかです。 そして、「人間のチーム評価」は必然的に質問数の上限に触れ、大規模なモデル評価の場合、質問数が多いほど、結論はより効果的になります。

**3. 専用モデルと汎用大型モデルの垂直競争は順位の偏りを招く。 **実際のランディング シナリオでは、製造、医療、金融、その他の業界の企業顧客は、大規模なモデル機能にアクセスするときに、独自のデータベースに従って二次的な微調整を行う必要があります。 これはまた、垂直フィールドQ&Aに元の一般的な大型モデルが直接参加することによって得られた結果は、垂直フィールドにおける大型モデル製品の実際の性能を表すことができないことを意味します。

**4.オープンソースのテストセットによって引き起こされる「リストをブラッシングする」現象。 **多くの新しい大型モデルは、オープンソースのテストセットリストでGPT-4を超える可能性がありますが、これは「問題のブラッシング」が疑われるためです。 たとえば、C-現在、質問のみが開示され、回答は開示されておらず、テストに参加している大規模モデルメーカーは、データアノテーターを見つけて質問を再度実行するか、GPT-4を使用して質問を再度実行し、回答を差し引いて大規模モデルをトレーニングし、対応するサブジェクトテストで満点を獲得できるようにします。

クローズドソースのレビューセットは「リストのブラッシング」を回避できますか? それ以外の場合、クローズドソースの評価セットが更新されていない場合、参加モデルは履歴履歴をバックグラウンドからプルして「チート」し、テストされた質問をやり直すことができます。 これは「偽のクローズドソース」に相当します。

**上記の問題に対応して、業界は対応するソリューションも模索しています。 **

例えば、大規模なモデル評価における主観的な質問に対する一貫した評価基準の難しさや、「人間のチームスコア」が質問数の上限に達するという問題のために、業界は「人間+GPT4スコアリング」のモデルを採用し始めています。 中国では、SuperCLUEはGPT4を「採点教師」と見なし、採点を支援するために人間のチームに参加させることを選択します。

別の例は「リストのブラッシング」の問題であり、業界関係者は「評価セットはだまされないように閉じる必要がありますが、優れた大規模モデル評価はプロセスのオープン評価であるべきであり、誰もが評価を監督するのに便利です」と考えています。 "

また、大規模なモデル評価プロセスを公開することは良いビジョンであると考える人もいますが、評価の公平性と公平性を考慮すると、クローズド評価セットは依然として多数存在し、「クローズドブック試験」はモデルの能力を真に評価することができます。

さらに、復旦大学のNLP研究所が立ち上げたLLM-3のように、新しい評価モード、つまり「質問バンク試験」モードを採用しているなど、ブラシプルーフスコアの大規模なモデル評価があります。 LLM-3では、各参加システムは、各評価の質問が重複しないように、同じ機関のモデルに対して、質問バンク全体から1,000の質問のランダムサンプルを完了する必要があります。 評価プロセスはオンラインで行われ、1ラウンドの評価での質問の送信は連続して実行されます、つまり、次の質問の送信は、悪意のあるクロールを回避するために前の質問への回答に依存します。

大規模モデルには幅広い分野や応用が含まれるため、分野や用途の異なる大規模モデルが注意すべき指標や評価方法が異なります。 したがって、異なる機関や組織は、特定のアプリケーション分野やニーズに合わせて異なる評価基準や方法を提案する場合があります。 「統一された基準はありませんが、評価の意義は、さまざまな大規模モデルのパフォーマンスと有効性を評価および比較する方法を提供し、ユーザーがニーズに合った大規模モデルを選択できるようにすることです。」

大規模モデルの真に包括的かつ包括的な評価を行う方法も、学界や産業界の最前線で「混乱」しています。 それでも、権威ある機関は研究を強化し、できるだけ早くコンセンサスを形成し、技術進歩と産業発展を促進する必要があります。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)