半年以上経過、ChatGPTのランキングはほぼ「最下位」

巴比特_

2023-09-08 06:02:49

出典: TMTポストメディア

著者: 三安テクノロジー

昨日、筆者は誤って写真をスワイプしてしまいました。

画像によると、OpenAIのGPT-4は11の大型モデル中最下位にランクされている（1位は0）。一部のネチズンは「GPT4: 苦情を訴えるにはどうすればよいですか?」という言葉を付け加えた。

今年の初め、ChatGPT が普及した後、他社も大型モデルのコンセプトを提案し始めました。

まだ半年以上しか経っていないのに、GPTはすでに「底を打った」のでしょうか？

そこで筆者はGPTランキングがどのようなものか見てみたかった。

テスト時間もテストチームも異なり、GPT-4 は 11 位です

前回の記事の写真の情報から判断すると、今回のランキングはCリストからとなります。

C-List は、C-Global Large Model Comprehensive Exam Test List の正式名で、清華大学、上海交通大学、エディンバラ大学が共同で構築した中国語モデル総合試験評価キットです。

このスイートは、人文科学、社会科学、科学と工学、および微積分や線形代数などの複数の知識分野をカバーする 52 科目を含むその他の専攻の 4 つの主要な方向をカバーしていると報告されています。中国語の知識・推理問題は合計13,948問あり、難易度は中学、学部、大学院、専門の4つのレベルに分かれています。

そこで最新のC-listを確認してみました。

Cリストの最新のランキングは前回の記事の写真のランキングと一致しており、上位11の大型モデルの中ではGPT-4が最下位となっている。

C リストによると、これらの結果はゼロショット (ゼロサンプル学習) テストまたは少数ショット (少数ショット学習) テストを表しますが、少数ショットが必ずしもゼロショットより優れているわけではありません。

C- 社は、テストで、命令の微調整後の多くのモデルがゼロショットの方が優れていることが判明したと述べました。テストしたモデルの多くは、ゼロショットと少数ショットの両方の結果を示しており、ランキングでは全体の平均スコアがより優れた設定が示されています。

また、C リストは、大きなモデルの名前にある「*」がモデルの結果が C チームによってテストされ、その他の結果がユーザーの提出を通じて取得されることを示していることも示しています。

さらに、著者は、これらの大規模モデルのテスト結果の提出にかかる時間が大きく異なることにも気づきました。

GPT-4 テスト結果は 5 月 15 日に提出され、第 1 位の Yutianshu は 8 月 31 日に、第 2 位の Galaxy は 8 月 23 日に、第 3 位の YaYi は 8 月 31 日に提出されました。。

そして、上位 16 の大型モデルのうち、名前に「*」が追加された GPT-4 のみが C チームによってテストされました。

そこで著者は完全な C リストを再度確認しました。

最新の C リストには、66 の大型モデルのランキングが含まれています。

このうち、名前に「*」が含まれるのは 11 個のみで、C チームによってテストされており、テストの提出時期は 5 月 15 日でした。

C チームがテストしたこれらの大規模モデルでは、OpenAI の GPT-4 が 11 位、ChatGPT が 36 位、Tsinghua Zhipu AI の ChatGLM-6B が 60 位、Fudan の MOSS が 6 位にランクされました。

これらのランキングは国産大型モデルの開発の勢いを示しているが、結局のところ同じチームが同時にテストしたものではなく、誰が強いのか誰が弱いのかを十分に証明するには不十分だと筆者は考えている。この大きなモデルたち。

これは、それぞれ異なるテスト時間があり、異なるレポートに回答する生徒のクラスに似ています。各生徒のスコアを信頼して比較するにはどうすればよいでしょうか?

大手モデル開発者は何と言っていますか?中国語やその他の能力の点で ChatGPT を上回ったと多くの人が言っています

最近、大手模型サークルがとても賑やかです。

また、Baidu、Byteなど8社の大型モデル製品は「生成型人工知能サービス管理暫定措置」の登録を通過し、オンラインで正式にサービスを開始して一般向けにサービスを提供できるようになった。他社からも大型モデルの自社製品が続々と発売されている。

では、これらのビッグモデルの開発者はどのように製品を紹介しているのでしょうか?

7月7日、2023年世界人工知能会議「ビッグモデル時代における汎用人工知能産業の発展の機会とリスク」フォーラムで、復旦大学コンピューター科学技術学部教授であり、 MOSS システムは、Fudan の会話型大規模言語モデル MOSS が今年 2 月にリリースされて以来、「最新の MOSS は中国語の機能で ChatGPT を超えることができた」と繰り返し述べています。

7 月末、NetEase Youdao は大規模な翻訳モデルを開始し、NetEase Youdao の CEO である Zhou Feng 氏は、社内テストで中国語と英語の翻訳において、ChatGPT の翻訳能力を上回り、Google 翻訳のレベルを超えたと公に述べました。 **

8月下旬、2023年Yabuliフォーラムサマーサミットで、iFlytekの創設者兼会長であるLiu Qingfeng氏は講演し、「iFlytek Sparkモデルのコード生成および完成機能はChatGPTを超えており、この機能は現在のコード機能に対応するロジック、アルゴリズム、メソッドシステム、およびデータの準備は完了しており、必要なのは時間と計算能力だけです。」

SenseTime は最近のプレスリリースで、今年 8 月に新しいモデル internlm-123b がトレーニングを完了し、パラメーターの数が 1,230 億に増加したと述べました。 **合計 300,000 の質問を含む世界的な 51 の有名な評価セットにおいて、全体的なテスト結果は、gpt-3.5-turbo や Meta Company が新たにリリースした llama2-70b などのモデルを上回り、世界第 2 位にランクされました。 **

SenseTime によると、**internlm-123 は 12 の主要な評価で 1 位にランクされました。このうち、評価セットの総合テストにおけるagiスコアは57.8でgpt-4を上回り1位、**知識常識qaの評価スコアは88.5で1位、internlm-123bは5つの読解評価のスコアすべてがリストのトップになりました。

また推理の5つの評価でも1位となった。

今月初め、Zuoyebang は自社開発の Galaxy モデルを正式にリリースしました。

Zuoyebang 氏は、Galaxy モデルは、C と CMMLU という 2 つの権威ある大規模言語モデル評価ベンチマークで結果を達成したと述べました。データによると、Jobbang Galaxy の大型モデルは、平均スコア 73.7 点で C リストで 1 位にランクされ、同時に CMMLU リストの 5 ショットおよびゼロショット評価でも 1 位にランクされています。平均スコアはそれぞれ 74.03 点と 73.85 点まず、上記の 2 つの権威あるリストで平均スコアで 1 位にランクされた最初の主要な教育モデルとなりました。

昨日、Baichuan Intelligent は、公式のオープンソースで微調整された Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat およびそれらの 4 ビット量子化バージョンを発表しました。

Baichuan Intelligence の創設者兼 CEO である Wang Xiaochuan 氏は、中国分野、Q&A 環境、要約環境における微調整された Chat モデルの実際のパフォーマンスは、ChatGPT-3.5 などのクローズドソースモデルのパフォーマンスを上回っていると述べました。 **

本日、2023 Tencent Global Digital Ecology Conferenceで、TencentはHunyuan大型モデルを正式にリリースしました。 Tencent Group の副社長 Jiang Jie 氏は、**Tencent Hunyuan 大型モデルの中国語機能は GPT-3.5 を超えていると述べました。 **

これら開発者の自己紹介に加え、一部のメディアやチームによる大型モデルの評価も行われた。

8月初旬、清華大学ジャーナリズム・コミュニケーション学部の教授兼博士指導教員である沈洋氏のチームは、「大規模言語モデルの総合パフォーマンス評価報告書」を発表した。報告書によると、**Baidu Wenxinyiyan の 3 つの主要な側面における 20 の指標における総合スコアは全国をリードしており、ChatGPT よりも優れており、その中で中国語の意味理解が上位にランクされており、一部の中国語能力は GPT-4 よりも優れています。 **

8月中旬、一部のメディアは、8月11日にXiaomiの大型モデルMiLM-6BがC-およびCMMLUの大型モデル評価リストに掲載されたと報じた。現在のところ、MiLM-6B は C 合計リストで 10 位、同じパラメータレベルで 1 位、CMMLU 中国大型モデルで 1 位にランクされています。

8月12日、天津大学は「大型モデル評価報告書」を発表した。このレポートは、**GPT-4 と Baidu Wenxinyiyan の総合的なパフォーマンスが他のモデルよりも大幅に優れており、スコアに大きな違いはなく、同じレベルであることを示しています。 Wen Xinyiyan は、ほとんどの中国タスクで ChatGPT を上回り、GPT-4 との差を徐々に縮めました。 **

8月下旬、一部メディアはKuaishouが自社開発した大規模言語モデル「KwaiYii」の内部テストが開始されたと報じた。最新のCMMLUの中国向けランキングでは、KwaiYiの13B版であるKwaiYii-13Bが5打点、0打点ともに1位となり、人文科学や中国特有のトピックなどに強く、平均スコアは1点以上でした。 61点。

上記の内容から、これらの大規模モデルは、特定のランキングではトップである、または特定の側面では ChatGPT を超えていると主張していますが、そのほとんどが特定の分野で優れたパフォーマンスを発揮していることがわかります。

さらに、GPT-3.5やGPT-4を超える総合スコアもいくつかありますが、GPTテストはまだ5月にあり、過去3か月でGPTが向上していないと誰が保証できますか？

OpenAI の状況

UBS Groupの2月のレポートによると、ChatGPTの立ち上げからわずか2か月後、2023年1月末時点で月間アクティブユーザー数は1億人を超え、史上最も急速に成長している消費者向けアプリケーションとなった。

しかし、ChatGPTの開発はそれほど順調ではありません。

今年 7 月、多くの GPT-4 ユーザーが、以前の推論機能と比較して GPT-4 のパフォーマンスが低下したと不満を述べました。

一部のユーザーは、Twitter や OpenAI オンライン開発者フォーラムで、ロジックの弱さ、間違った答えの多さ、提供された情報を追跡できないこと、指示に従うのが難しいこと、基本的なソフトウェアコードに括弧を入れるのを忘れること、ほとんどのことしか覚えていないことなどに焦点を当てて問題を指摘しています。最近のヒントなど

8月には、OpenAiが潜在的な財政危機に陥り、2024年末までに破産する可能性があるとの別の報告書が発表された。

報告書では、OpenAI の人工知能サービス ChatGPT を実行するだけで 1 日あたり約 70 万米ドルの費用がかかると述べています。現在、同社は GPT-3.5 と GPT-4 で利益を上げようとしていますが、まだ損益分岐点に達するほどの収益を生み出していません。

しかし、OpenAIにも新たな転換点が訪れるかもしれない。

最近、OpenAI は 11 月に初の開発者カンファレンスを開催すると発表しました。

OpenAIはGPT-5をリリースしないと述べたが、世界中から数百人の開発者がOpenAIチームに参加して「新しいツール」をプレビューし、アイデアを交換する予定だと述べた。

これは、ChatGPT が新たな進歩を遂げたことを意味しているのかもしれません。

同紙によると、8月30日、関係者が明らかにしたところによると、OpenAIはAIソフトウェアとその運営を推進するコンピューティングパワーの販売により、今後12カ月で10億ドル以上の収益を達成する見込みだという。

本日、別のメディア報道によると、モルガン・スタンレーは今月下旬、OpenAIと共同開発した生成型人工知能チャットボットを発売する予定だという。

モルガン・スタンレーの銀行家と取引する人は金持ちか、お金のかかる人のどちらかです。この今後の生成型人工知能チャットボットがモルガン・スタンレーの顧客に異なるエクスペリエンスをもたらすことができれば、OpenAI にとっては大きな利益となるかもしれません。

人工知能時代の到来は止められないものになっています。どちらが優れているかについては、自分自身で判断するだけではなく、ユーザーに評価してもらう必要があります。また、国内の大型モデルは、具体的な機能や総合的な機能の点で、必ず ChatGPT に追いつくと考えています。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
共有

0/400

コメントなし

トピック
1/3
1Altcoin Season Coming?
24k 人気度
2Stablecoin Regulation Crackdown
9k 人気度
3Gate June Transparency Report
22k 人気度
4ETH Breaks Through $3,800
28k 人気度
5Institutions Buying Bitcoin
17k 人気度

ピン

サイトマップ