大昌がChatGPTを追い抜く

原作: Luozhi Magnolia

出典: ビジネスレビューの新しい抜粋

画像の出典: Unbounded AI ツールによって生成

ChatGPT の開始から 200 日が経過し、国内の大規模モデルの開発は「ハリケーン」モードを開始しました。

中国では10億パラメータを超える規模の大型モデルが79機リリースされているという。

大規模モデルの進化分野は、百度のモデルの混戦に焦点を当てています。Baidu Wenxin の大規模モデルは 3.5 形態に進化し、Ali Tongyi Qianwen はファミリー モデルを構築し、JD Yanxi の大規模モデルは自社の「オーダーメイド」産業用大規模モデルです。

大工場の大規模モデルの進化論は残酷かつ現実的であり、追いつくか淘汰されるかのどちらかである。

先を行って熱心にトレーニングしている Baidu Wenxin Big Model 3.5 は、Wenxin の Yiyan 能力の最新バージョンが ChatGPT 3.5 を上回ったと最近発表しました。

自然選択、適者生存、大手メーカーと大型モデルが ChatGPT を追い越しました。

大きなファクトリーモデル、ChatGPT3.5 以上

すっきりとしたショートヘアに内外白のスーツジャケットを着て、AI大型モデル技術力評価報告会に登場した。

出張から戻ったばかりのBaidu Group副社長Wu Tian氏は会議で「Wenxin Yiyanの新バージョンはChatGPT 3.5を超えた。これは中国で関連技術作業を行う上で重要なマイルストーンでもある」と述べた。

HKUST Xunfei の Liu Qingfeng が Spark の大型モデルが ChatGPT を超えようとしていると述べたことを受けて、これはもう 1 つの大手メーカーが大型モデルが ChatGPT を超えることを正式に確認しました。

今年3月、Baiduの次世代知識強化大規模言語モデル「Wenxin Yiyan」のテストが公募されたが、このモデルはWenxin大規模モデルのバージョン3.0をベースとしている。 3 か月以上を経て、Wenxin モデルはバージョン 3.5 にアップグレードされ、その効果、機能、パフォーマンスが包括的に向上しました。

Wenxin Yiyan 3.5 が ChatGPT3.5 を上回ったのは、おそらく機能面での新しいプラグイン メカニズムのおかげであり、Wenxin Large Model 3.5 はプラグインを通じて大型モデルの機能境界を拡張しました。

大型モデルは大型モデルの技術力と基礎能力を重視します。今年 5 月に Baidu が発売した新しい大型ベース モデルは Wenxin Large Model 3.5 で、このモデルは Wenxin Yiyan システムの基本モデルです。

バージョン 3.5 では、基本的なモデル トレーニングにおいて、最先端のアダプティブ ハイブリッド並列トレーニング テクノロジと FlyPaddle の混合精度計算戦略も採用されており、モデルの反復速度が大幅に向上していることは注目に値します。

周知のとおり、Baidu は、チップ層、フレームワーク層、モデル層、アプリケーション層の合計 4 層からなるフルスタック人工知能技術の研究開発を深く育成してきました。

チップ層にはKunlun Coreがあり、フレームワーク層には大規模モデルの効率的なトレーニングと推論を強力にサポートする深層学習プラットフォームPaddleがあり、モデル層にはWenxin大規模モデルがあり、アプリケーション層では現在15万社がWenxin Yiyanテストへのアクセスを申請しています。

その中で、フライングパドルプラットフォームの開発者は750万人、中国のソフトウェア実務者は800万人から1,000万人であるのに対し、ソフトウェア実務者とディープラーニング開発者は全く同じではないものの、人材数の優位性により、Ultrainの存在と同様に、Wenxin 3.5がChatGPTに追いつくための大容量シンクタンクも提供されている。

外国企業と比較して、中国企業は中国語コーパスの取得や中国文化の理解において当然有利であり、中国の製造業はカテゴリーが最も充実しており、実業界向けのAIGCを訓練するのに有利な条件を備えています。

Wenxin Yiyan をベースにした Wenxin Big Model 3.0 は 100 日以上前にリリースされましたが、FlyPaddle と Wenxin の共同最適化により、Wenxin Big Model 3.5 は急速に成長し、最新のモデル効果は 50% 増加し、トレーニング速度は 2 倍、推論速度は 30 倍に増加し、ChatGPT を超えることに成功しました。

Baidu は、基本テクノロジーに加えて、知識強化、検索強化、対話強化という 3 つの追加強化テクノロジーを開発しました。

大きなモデルを人間に例えると、知識構造や知識体系に沿って学習すれば、学習効率は高くなります。次に、検索ツールの使用方法を学び、エンドツーエンドで非常に簡素化された検索を実現し、適時性を向上させます。

大きなモデルが単独で学習を終えた後、フィードバック集中トレーニングを学習する必要があります。対話の強化は、大きなモデルに継続的に質問をさせ、対話の中で何が正しくて何が間違っているかを大きなモデルに伝え、プロンプトの方法を通じて、大きなモデルに記憶メカニズムを強化させ、私たちが望む方法で効果的に質問に答えさせ、より良い答え方を子供に教えます。

技術力に加えて、大型モデルには接地性も必要です。

産業応用に関しては、Baidu Wenxin の大規模モデルは産業慣行から生まれ、産業慣行に貢献しており、すでに大規模モデル産業実装の重要な道筋を模索しており、産業のインテリジェントな変革を加速するために多くの産業と分野をカバーする大規模モデルもリリースしています。

現在、国家グリッド、浦東開発、太康、吉利、ハルビン、深センガス、TCL、百度文新などの企業が相互に協力している。

さらに、百度は過去10年間で研究開発に1000億元以上を投資しており、2021年にはその中核となる研究開発投資が23%以上を占めることになる。人工知能専攻の出願・認可数は5年連続で中国第1位、ディープラーニング特許出願数は世界第1位となっている。 AI 大規模モデルの分野における Baidu の躍進は、Baidu の要素リソースへの強力な投資とも密接に関係しています。

大きな工場と大きなモデルが研究開発を争う時代が来たことがわかります。

大きな工場と大きなモデルのどちらが優れていますか?

今年上半期には大型モデルの生産を正式に表明した企業が100社近くに達し、各大型モデルが熾烈な争いを繰り広げた。その中には、Ali、Baidu、Tencent、JD.com、ByteDanceなどの大手インターネットプレーヤーや、HKUST Xunfei、SenseTimeなどのAI企業などの「無名軍団」も混じっている。

半年をかけて、コンセプトから着地までのプロセスを完了した大型モデルトラックは、どのトラックでも非常に爆発的です。

しかし今のところ、どちらの大型モデルが優れているかを検証するための明確な指標や指針はなく、「王坡はメロンを売り、メロンを売り、自慢する」という自己評価が次々と発表され、客観性があまりない。

では、100 台のモデルの戦いで、誰が優れているのでしょうか?

IDCが発表した最新の「AI大規模モデル技術力評価レポート2023」では、AI大規模モデル技術力評価フレームワークが初めて提案されています。

評価モデルには、製品テクノロジー、サービス エコロジー、および産業アプリケーションの 3 つの側面があります。

最大 12 の特定の下位指標があります: アルゴリズム モデル、サービス能力、一般能力、イノベーション能力、プラットフォーム能力、セキュリティと説明可能性、生態学的協力、業界範囲、金融、産業、医療、エネルギー。

その中でも、アルゴリズム モデルと業界カバレッジは、大規模モデルの能力を測定する 2 つの最も重要な指標であり、特に、この 2 つは継続的な反復改善のためのフライホイールを形成できます。

製品の技術力のうち「アルゴリズムモデル」次元は、大規模モデル機能の中核となる要素であり、大規模モデルの適用効果を決定する根幹でもあります。

その理由は、アルゴリズム モデル テクノロジーのブレークスルーと、一般的な効果の利点を備えた大規模なモデル ベースの実現を通じてのみ、より幅広い業界をサポートし、あらゆる階層が技術のブレークスルーによってもたらされる利益を十分に享受できるようになり、AI 実装の敷居が高いというジレンマを解決できるからです。

業界のアプリケーション能力に関して、アプリケーションの範囲の広さは大規模モデルメーカーにとって最も懸念される指標であり、これは大規模モデルの効果と業界結合能力の普遍的なリーダーシップを包括的に反映しています。

したがって、「産業範囲」は、企業レベルの顧客の数と上陸産業の数を通じて、産業実装における大規模モデルの強みを反映します。

この評価には、Baidu、Ali、Tencent、Huawei、iFlytek、360、SenseTime、4Paradigmを含む14メーカーを含む国内主流の大型モデルが参加しました。

大手メーカーと大型モデルは激しい競争を繰り広げていますが、Baidu はチップ層 - Kunlun コア、フレーム層 - フライング パドル、モデル層 - Wenxin 大型モデル、およびさまざまな AI アプリケーションという「チップ - フレームワーク - モデル - アプリケーション」の 4 層の技術スタックを完全にレイアウトしているという独自の利点を持っています。その中でも、Baidu が自社開発した深層学習プラットフォーム Flying Paddle は、大型モデルの効率的なトレーニングと推論を強力にサポートします。

Aliyun も非常に注目を集めており、12 指標中 6 指標が満点を獲得しており、「サービス能力」で満点を獲得した唯一のベンダーです。基本模型のプロバイダーとして、大手模型メーカーのプラットフォーム能力、サービス能力、生態協力レベルは業界の発展にとって非常に重要です。 Alibaba Cloud は 3 つの指標すべてで満点を獲得しました。

現在、Alibaba Cloud の汎用大規模モデル ファミリは、テキスト、音声、画像、その他のモダリティを処理または生成する機能を備えています。過去 3 か月間、Alibaba Cloud は基本モデル「Tongyi Thousandquestions」、オーディオとビデオの大規模モデル製品「Tongyi Tingwu」、AI 絵画作成大規模モデル「Tongyi Wanxiang」を相次いでリリースしており、Tongyi 大規模モデルファミリーは現在も絶え間なく反復と進化を続けています。

大手インターネット企業である Tencent Cloud と JD Cloud は、業界側に焦点を当て、それぞれの特性に基づいて業界の大規模モデルをリリースすることを選択しました。

Tencent Cloud は、大規模な業界モデルの構築に基づいて、独自のデータを使用して微調整し、より高いデータ精度とより強力なプライバシーとセキュリティを備えた独自のモデルを作成します。

数年前からサプライチェーンを育成してきたJD.comにとって、長期にわたって電子商取引事業と物流事業に注力し、サプライチェーンに注力することはより良い選択である。京東が延西の大型モデルの記者会見で述べたように、「サプライチェーンを現実化することによってのみ、大型モデルを現実化できる」。

HKUST iFLYTEKなどのAIメーカーもバーティカル分野で満点を獲得しており、これらの企業はバーティカル産業に参入するチャンスがあり、メーカー間の競争では、バーティカル分野で明らかな優位性を持つ企業がリードすることになる。

IFLYTEK を例に挙げると、IFLYTEK は 20 年以上にわたり人工知能の分野に注力しており、多くのコア技術は国際トップレベルにあります。Spark ビッグ モデルは、ビッグ モデルの言語理解能力と一般的な表現能力を検索プラグインと組み合わせ、新しい知識の更新の難しさや、事実に対する質問と回答が「違いを生みやすい」という業界の問題を効果的に解決します。

大規模モデルの学習コストが非常に高いため、一般の開発者や中小企業には手を付けることができず、他の工場も頑張っていますが、先は長く、残酷な言い方をすれば、食卓に並ぶ機会さえ少ないかもしれません。

ビッグモデルは将来どこへ向かうのでしょうか?

つい最近の WAIC カンファレンスで、大規模モデルに参入したプレーヤーたちは、最初に技術的な問題を解決し、次にシーンを実装し、最後にビジネスとスケールを実現するという重要なポイントをすでに描いていました。

現在、大規模モデルがシナリオや産業と深く統合され始めていることがわかります。たとえば、コード生成やタンパク質構造予測などの分野の大規模モデルでは、大規模モデルがテクノロジー企業だけでなく、あらゆる分野に応用されていることを確認しています。

国内大型モデルは大型コンセプト株の段階をあっという間に飛び越え、AI大型モデルはパラメータの競争からアプリケーションの競争へと発展した。

たとえば、ファーウェイのPangu大型モデルは、気象学、医療研究開発、電力、言語などの分野で導入され、数千億のパラメータを備えた複数の大型モデルを提供してきました。 Tencent Cloud の大規模なインダストリ モデル機能は、財務リスク管理、インタラクティブ翻訳、デジタル スマート カスタマー サービスなどのシナリオに適用され、インテリジェント アプリケーションの効率が向上し、ワンストップ MaaS サービスにより企業の負担が軽減されます。

金融分野を例に挙げたアプリケーション シナリオに特化した大規模インダストリ モデルは、以前と比べて効率が 10 倍向上した金融リスク管理ソリューションをサポートできます。

この大規模モデルは、長年蓄積された不正防止の経験と数千の実際のビジネス シナリオを組み合わせたもので、従来のモデルと比較して、全体的な不正防止効果が約 20% 向上しました。企業は、サンプルの収集、モデルのトレーニングから導入と起動に至るまで、モデルに基づいたリスク管理機能を反復して、プロセス全体で人手による関与をゼロにすることができ、モデリング時間は 2 週間からわずか 2 日に短縮されます。

サンプルの蓄積が限られている場合でも、迅速な構築を完了でき、「コールドスタート」プロセスをスキップできます。

いかに着地させて商品化するかがメーカーの焦点となっている。

これは、AI が大規模で再現可能な産業実装の段階に入ったことを意味し、下流の小サンプルまたはゼロサンプル学習を使用することによってのみ良好な結果を達成できるため、AI 開発コストが削減されます。 Baidu Wenxin の大型モデルがアップグレードされた後、コストは以前の 10% に削減することに成功しました。

どの業界でもやがて寡占化が進み、大型モデルも例外ではありません。

過去数か月の間に、多数の新しい大型モデルが登場しましたが、それがチャンスを掴みたいという狂気のような願望と後れを取ることへの恐怖なのか、それとも長期にわたるコースレイアウトと献身的な研究なのか、それをよく知っているのは各プレーヤーだけです。

100 台のモデルの混戦は段階的な現象にすぎず、最終結果は依然として少数の大型モデルに集中します。その理由は次のとおりです。

まず、進化の過程で、さまざまな企業や機関が徐々に独自の位置づけを見つけ、徐々に細分化に向かい、最終的にはより完全な大規模モデルに組み込まれるようになりました。

第二に、何年もの蓄積が必要です。実際に根底から構築される大規模なモデルは非常に高価で、非常に包括的な能力を必要とし、精神的に絶対的な長期主義が必要です。これは、絶対的な経済力のないプレイヤーは道半ばで取り残されるか、光への道で「死ぬ」ことを意味します。

3 つ目は、アプリケーションレベルでの大型モデルの将来には想像の余地がたくさんあるということです。どの業界にも大きな発展の余地があると仮定すると、新しい AI テクノロジーを使用して効率を向上させることができ、アプリケーション レベルでの価値は間違いなく転用され、複数の大型ヘッド モデルに依存することで、非常に幅広いアプリケーション エコロジーが得られます。

将来的には、すべての企業が大型モデルに強く依存し、すべての製品が大型モデルに基づいて開発されることは否定できません。

業界普及率と市場シェアは、大企業モデルが寡占化するための最も重要な課題要素となっています。

原文表示
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)