出典: Brain polar body 画像ソース: Unbounded AIによって生成大規模なデータ、大きなパラメーター、および大きな計算能力により、大規模なモデルの特定の機能が「出現」し、テクノロジー界で広く普及しています。大きなモデルを作る主な考え方は、モデルが「機能しない」と簡単に言わず、「まだ機能しない」場合は、モデルを大きくすることです。そのため、1年足らずで大型モデルのパラメータ規模は100倍に増加し、現在は1兆レベルを超え、リソース消費は膨大であり、ストレージコスト、推論コスト、運用保守コスト、ランディングコストもますます高くなっています。 そして社会的コスト。現在、大型モデルはまだ事業化の黎明期にあり、大型モデルへの投資をどう回収するかについては未知数や不確実性が多く、大型モデルは大型化が進み、2022年に約5億4000万ドルの損失を被るMicrosoftのOpen AIに支えられ、非常に金を稼ぐビジネスとなっています。増え続けるコストは、現実のお金の請求書であり、大規模なモデル企業に重くのしかかる「わら」です。 Anthropic の CEO である Dario Amodei 氏は最近、同社のモデルには今後 2 年間で 100 億ドルの費用がかかると予測しています。企業自体に加えて、社会も大規模モデルの隠れたコストを負担しています。 Googleの報告によると、PaLMのトレーニングは約2か月で約3.4kWhの電力を消費し、これは300世帯の年間総エネルギー消費量に相当します。 大規模モデルがもたらす環境への高いエネルギー消費の負担とコストは、最終的には社会全体が負担します。明らかに、商業的にも環境的にも、競争モデルの規模は持続不可能です。盲目的に偉大さを求める時代は過ぎ去りました。問題は、大規模モデルの「負担を軽減する」にはどうすればよいかということです。実際、一般大型モデルのヘッドメーカーは「コストスリム化」キャンペーンを積極的に実施している。たとえば、Microsoft は Microsoft Build 2020 で、GPT-3 を強化する AI スーパーコンピューティング スーパーコンピューターは、AI モデルを他のプラットフォームよりも 16 倍効率的にすることができ、トレーニングの高速化により時間とリスク コストを削減できると発表しました。国産大型モデルも例外ではありません。早くもバージョン2.0では、Pangu大規模モデルは、トレーニングコストを削減するために、疎+高密度アーキテクチャを採用しようとしました。 発売から1か月後、Wenxin Yiyanは技術的手段によって大規模モデルの推論性能を10倍近く向上させ、推論コストを元のコストの10分の1に削減しました。肥大化して重くならないためにも、誰もが使えるツールになることが必須であり、大型模型の「コストスリム化運動」です。 どう。 この記事では、この問題について説明します。 ## **一口で太った男は作れない** 大規模モデルのどのコストを最適化でき、どのコストを削減でき、どのコストをさらに投資する必要があるか。 これを理解する前に、まず太る方法を知っておく必要があります。 大規模モデルのパフォーマンスとユーザーエクスペリエンス(健全性)を確保するために、「コスト削減」を合理的かつ正確に行うことができます。簡単に言うと、AIの3つの要素(データ、計算能力、アルゴリズム)は、大規模なモデルのコストを決定する上で最も重要な要素です。データから始めましょう。 **ガベージイン、ガベージアウト、大型モデルの時代にも適用できます。データの品質は、大規模モデルの機能を直接決定します。 OpenAIは、さまざまな業界で専門的なデータを処理するために多くの博士号を取得しており、ユニコーン企業のScale AIなどの多くのデータアノテーション会社を雇って、GPT-3に大規模なデータセットを供給しています。 同時に、アルゴリズムモデルは反復的にアップグレードされ続け、使用量の増加とパフォーマンスの最適化に伴い、データ量の需要は短期間継続します。中国語の大規模モデルのコストが高い主な理由の 1 つは、中国語のデータと英語の量と質の間にまだギャップがあり、中国語の大規模モデルをトレーニングするには、より多くの中国語データを収集して処理する必要があることです。 一方、英語の文法構造は中国語よりも単純であり、中国語のテキストの複雑さと多様性、一部の中国語の単語はさまざまな意味、豊かな文脈、文脈理解における多くの曖昧さと困難を表現できるため、中国語モデルのトレーニングの難易度も高まり、中国語の大規模モデルのトレーニングをサポートするために追加のリソースが必要です。コンピューティングパワーについて話しましょう。 **リソースは、大規模なモデルのトレーニング、運用、サービス、およびイテレーション全体を通じて計算および保存する必要があります。大規模モデルの学習は「暴力的な美学」に重点が置かれており、パラメータが大きいほど、学習に使用される計算リソースが多くなります。 GPT-3は、10,000個のGPUと285,000個のプロセッサコアを搭載したスーパーコンピューターを使用しています。 国内のWenxin 4.0も、パドルプラットフォームをベースにしたVankaクラスターでトレーニングされています。それだけではありません。 大規模なモデルはデプロイ後にサービスに公開され、使用量が増えるにつれて、より多くの推論タスクを完了する必要があります。 24時間で「考える」「アウトプットする」という推論プロセスも、人間の脳が多数の複雑なタスクを処理するときにグリコーゲンを消費する必要があるのと同じように、コンピューティングリソースを消費し続け、空腹を感じやすく、エネルギーを補給するために大量の食事を食べなければなりません。 そのため、大規模なモデルの推論コストも非常に高くなります。175B展開後のGPT-3の推論には少なくとも5つのA100 GPUが必要であり、Wenxin Yiyanなど中国で社会全体に公開されている大型モデルは、前世代の8〜10倍の推論コストがかかると言われています。最後に、アルゴリズムについて説明しましょう。 **大規模モデルのコンピューティングリソースへの大きな依存を減らすために、主流の解決策は、パフォーマンスの変わらずに基づいてモデルを最適化し、推論速度の高速化、遅延の低減、リソース要件の低減であり、これはROIの入出力比が高くなり、トレーニングと推論に必要なコンピューティングリソースの単価が低くなります。知性の分だけ労力がかかるし、才能がないと本当に演じられる大きな模型を作るのは無理だ。 アルゴリズムの開発、テスト、イテレーション、製品化など、すべてに多くの技術的才能が必要です。 人件費が高いかどうかは、大規模モデルのビジネスモデルが堅牢かどうかにかかっています。完全な学歴を持つ人材チームは、研究開発段階で非常に競争力があります。 問題は、どうやってお金を稼ぐかです。 API呼び出しまたは使用料、トークンは1セント未満であり、投資収益率は遠く離れている可能性があります。 有料サブスクリプション(プロフェッショナルバージョン)、ヘッドラージモデルにはサイフォン効果があり、誰もがOpenAIまたはBATHやその他の大手メーカーを選択し、独自のラージモデルがユーザーに受け入れられ、喜んで支払うことができるかどうかは不明です。 業界の顧客向けに開発をカスタマイズするには、ToBは業界、研究、開発、テスト、反復を深く理解し、年収数千万のアルゴリズムエンジニアが建設現場に数か月滞在でき、プロジェクトの粗利益率はあまり良くないと推定されます。したがって、大規模モデルが成功するかどうかは、アルゴリズム自体の能力だけでなく、開発から実装までのビジネスサイクルが持続可能かどうかにも左右されます。 ## **口を閉じて足を開く** 大きなモデルのコストを余分な脂肪を減らしたい人と比較すると、この目標は2つの基本的な方法に分けることができます。1つは「熱差」を作ることです。 口を閉ざして足を開き、投資をコントロールし、余分なコストを差し引き、事業化を加速して収入を増やし、自然に痩せることです。2つ目は「痩せやすい」ようになることです。 大型モデルのメカニズムを完全に理解し、新しいアーキテクチャを使用してトランスフォーマーの注意メカニズムの問題を解決し、「どのように食べても太らない」という体格を持っています。2番目はとても魅力的だと思いませんか?コストをコントロールしたり、ユーザーを引き付けたり、サービスをカスタマイズしたり、簡単に嘘をついてお金を稼ぐ必要はありませんか? 実に。現在、すべての大規模言語モデルはTransformerアーキテクチャを使用しており、長いテキストや高解像度の画像を処理することが難しく、論理的推論と知識の帰納は「奇跡を勢いよく生み出す」に依存しており、コストがかかります。 基本原理の多くは未だに不明瞭であり、「幻覚」の発生や推論能力の限界など、多くの既存の問題を引き起こしています。チューリング賞受賞者のYann LeCun氏は、大規模言語モデルの技術パラダイムを何度も批判しており、「LLMは世界を非常に表面的に理解している」と述べており、世界がどのように機能しているかを学ぶための「世界モデル」を構築し、内部モデルを形成し、この内部モデルを使用してさまざまなタスクを実行したいと考えています。 また、汎用人工知能の一般知能について、それぞれの研究分野から議論する科学者も多くいます。要約すると、現在の大規模言語モデルの原則の多くは明確ではなく、テクノロジーはまだ変化しています。 将来的には、盲目的に大きくなろうとする現在のモデルを覆す他の技術的パラダイムが出現する可能性があり、そうなれば、過剰なコストや痛みを伴う「スリム化」は不要になるかもしれません。根底にある原理を研究し、より強力な汎用人工知能技術を見つけることはクールに聞こえるかもしれませんが、それは実際にはスコアラインではなく、明確なタイムラインはまだありません。 このラウンドの大規模言語モデルの技術的パラダイムは、エンジニアリングの実践において実現可能であり、業界で機能し、品質と効率を向上させる明確な効果があります。 まずそれを使用し、現在を把握することは、テクノロジー企業にとって最優先事項です。したがって、大規模なモデル企業は、口を閉ざし、足を開き、できるだけ早くコストを制御し、商業化を加速し、良性で持続可能な開発のための「カロリー差」を生み出すことしかできません。 ## **「カロリー差」を生む4つの近代化運動** では、具体的にどのように「熱差」をつくり出しているのでしょうか。 **現在市場に出回っている主流の手法に基づいて、それらを「4つのモダナイゼーション運動」としてまとめます:データスケール、モデル圧縮、コンピューティング効率、ビジネス階層化。 **データスケールとは、データの限界利益を改善し、スケール効果を通じて最高のコストパフォーマンスを得ることです。 規模効果は主に3つの方法で達成され、1つは産業集中の規模であり、国家レベルはデータの生産、収集、保存、処理、分析、サービスなどのリンクを含む「データ要素市場の育成を加速する」ことを明確に提案しており、工業化は大規模なモデル企業のデータコストの削減に役立ちます。 2つ目はAIツールの適用で、データエンジニアリングのあらゆる側面への手作業の参加を減らし、事前学習済みデータの処理を高速化し、モデル学習のコスト削減と効率の向上を実現します。 3つ目は、フィードバックデータのスケールです。 Baidu Wenxin Yiyan、SenseTimeの「SenseChat」、Baichuan Intelligenceの「Baichuan Model」、iFLYTEKの「Spark Model」など、早期に社会全体にサービスを開始した一部の大規模モデルは、限界利益を伴う最適なデータスケールに早く到達することが期待されています。データにはわずかなメリットしかありません。 OpenAlでは、すでにユーザーがチャットデータをトレーニングに使用するかどうかを決定できるため、ユーザーのフィードバックデータに頼ることができなくなり、データの保存と計算のコストを制御できます。モデル圧縮は、モデルのパフォーマンスを向上させ、より少ないリソースでより高いパフォーマンスを実現し、圧縮テクノロジを使用してリソースを大量に消費する大規模なモデルをよりコンパクトで効率的なバージョンに変換することです。 脂肪を筋肉に変えるのと同じように、筋肉は密度が高くなり、体重(パフォーマンス)は変わりませんが、人は痩せます(小さくなります)。現在、大規模なモデルの圧縮には、定量化、枝刈り、知識の抽出という 3 つの一般的な方法があります。 **脂肪吸引と同等の定量化は、単純で粗雑ですが効果的です。 モデルの精度が高いほど、より多くのストレージ容量が必要になります。 ただし、推論では、複雑なモデルで非常に小さな勾配変化をキャプチャする必要がないため、量子化はモデルのパラメータ精度を直接低下させ、いくつかの詳細情報を「抽出」できるため、占有スペースが削減され、推論能力が低下することはありません。 例えば、Qualcomm AI Researchは、量子化技術を用いてモデルの精度を低い精度に維持しており、Androidスマートフォンに初めてStable Diffusionを導入しました。 定量技術は、WenxinやPanguなどの国内の大型モデルにも適用されています。剪定は「切除」と同様に、多数の冗長な構造やニューロンなど、効果にほとんど影響しないいくつかの側枝を直接減算し、これらの小さな重みが取り除かれるため、モデルの効果にほとんど影響せず、モデルのサイズが小さくなります。 もちろん、剪定は「クラフトジョブ」であり、剪定の精度が高ければ高いほど、モデルへの精度の低下は小さくなり、圧縮効果も高くなります。知識の蒸留は、大型モデルの「サウナ」を放置することであり、1,000億のモデルを1回のパスで蒸留して、同様の性能とシンプルな構造を持ついくつかの小型モデルを製造し、着陸コストが低くなります。 課題は、1,000億規模のモデル蒸留も非常に多くの計算資源を消費し、1,000億から数千万へのデータ量のギャップが大きすぎて蒸留効果に影響を与えやすいことです。 非破壊蒸留は大手メーカーの技術競争のポイントの一つです。モデル圧縮技術は計算資源も消費するため、計算基盤の計算効率を向上させることが特に重要です。コンピューティング効率は、大規模なモデルメーカーがより高い効率でモデルサービスを提供するための前提です。チップとコンピューティングクラスタの性能は、研究と最適化の焦点です。 Microsoft Cloud Azure は、OpenAI 専用の AI コンピューティング用のスーパーコンピューターを構築しました。 BaiduやHuaweiなどの国内メーカーは、自社開発のチップとディープラーニングフレームワークを持っており、エンドツーエンドの最適化を通じてコンピューティング効率を向上させ、大規模モデルのトレーニング速度と推論速度を向上させ、トレーニング時間とコストを削減できます。しかし、インダストリモデルやインダストリモデルなど、一般的ではない大規模モデルでは、スケール効果やハードウェア最適化技術が限られており、インフラを自分で構築・保守するコストが非常に大きいため、クラウドサービスを利用してサービスをトレーニング・展開する方が費用対効果の高い選択肢となります。最終的な分析では、大規模なモデルでは、ROIを最適化してコストを回収するという目的を達成するために、商業収益を増やす必要があります。 現在、さまざまな大型モデルの商品化は、明らかな階層的特性を反映しています。簡単に言うと、ボリュームも機能も方向性も異なる大型モデルであり、製品化の道筋がはっきりし始めている。一般的なモデルは、規模の経済と高価値市場に基づいています。 OpenAIは膨大な数のユーザーがおり、APIエコノミーの発展はスケール効果があり、先行投資はビジネスボリュームの成長と均等に共有できます。 BATH(百度、アリババ、テンセント、ファーウェイ)などは独自のクラウドビジネスを持ち、業界サービス、特に金融、鉱業、政府業務などの大政府や企業の顧客リーチ能力で豊富な経験を蓄積しており、商業的変革の大きな可能性を秘めています。 ToBの顧客の高い要件は、モデルのエクスペリエンスと効果の向上を促進し、ToC市場にサービスを提供し、規模を通じてコストをさらに償却することもできます。大規模インダストリモデルは、製品とビジネスの境界を積極的に制限し、コアビジネスと機能に焦点を当て、より少ないリソースで特殊な小規模モデルを開発して、投資と商業化のROIバランスを実現します。 たとえば、金融分野では、Du Xiaomanの「Xuanyuan 70B」は、金融知識の理解を深め、制御性とセキュリティの面で金融顧客の特別な要件を満たすために多数の専門的な金融コーパスを組み込んでおり、何百もの金融機関によってトライアルに申請されています。全体として、大規模モデルは普遍的で一般化された道路であるだけでなく、何千もの産業の民営化とパーソナライズされた展開は、価格、プライバシー、セキュリティなどの意思決定要因を生み出し、多数のセグメンテーションビジネスチャンスをもたらします。 一般的な大規模モデル、業界大規模モデル、独自の小規模モデル、階層的+共同作業により、事業化への道が開かれます。 調和と違いは、産業チェーンのあらゆる役割の知恵を試します。長期的でサステナブルなサービスのためには、口を閉ざし、足を開くことが必要であり、大型モデルの「コストダウン」が唯一の方法です。このプロセスは痛みを伴うかもしれませんが、業界全体の健全な発展を守るために堀を凝縮します。コンピュータが誕生したばかりの20世紀40年代、人々はこの「機械の怪物」の巨体に驚嘆したが、その後、情報化時代の飛躍が始まった。 スマートフォンが誕生した当初、フィーチャーフォンメーカーは非常に皮肉を言っていましたが、誰もがインターネットにアクセスできるこのような包括的な接続がモバイルインターネットの繁栄を促進するとは思っていませんでした。大規模モデルの改良と低さが進むにつれて、「すべての人のためのAI」はもはや遠い夢ではなくなるでしょう。
大型模型の「コストスリム化」の動き
出典: Brain polar body
大規模なデータ、大きなパラメーター、および大きな計算能力により、大規模なモデルの特定の機能が「出現」し、テクノロジー界で広く普及しています。
大きなモデルを作る主な考え方は、モデルが「機能しない」と簡単に言わず、「まだ機能しない」場合は、モデルを大きくすることです。
そのため、1年足らずで大型モデルのパラメータ規模は100倍に増加し、現在は1兆レベルを超え、リソース消費は膨大であり、ストレージコスト、推論コスト、運用保守コスト、ランディングコストもますます高くなっています。 そして社会的コスト。
現在、大型モデルはまだ事業化の黎明期にあり、大型モデルへの投資をどう回収するかについては未知数や不確実性が多く、大型モデルは大型化が進み、2022年に約5億4000万ドルの損失を被るMicrosoftのOpen AIに支えられ、非常に金を稼ぐビジネスとなっています。
増え続けるコストは、現実のお金の請求書であり、大規模なモデル企業に重くのしかかる「わら」です。 Anthropic の CEO である Dario Amodei 氏は最近、同社のモデルには今後 2 年間で 100 億ドルの費用がかかると予測しています。
企業自体に加えて、社会も大規模モデルの隠れたコストを負担しています。 Googleの報告によると、PaLMのトレーニングは約2か月で約3.4kWhの電力を消費し、これは300世帯の年間総エネルギー消費量に相当します。 大規模モデルがもたらす環境への高いエネルギー消費の負担とコストは、最終的には社会全体が負担します。
明らかに、商業的にも環境的にも、競争モデルの規模は持続不可能です。
盲目的に偉大さを求める時代は過ぎ去りました。
問題は、大規模モデルの「負担を軽減する」にはどうすればよいかということです。
実際、一般大型モデルのヘッドメーカーは「コストスリム化」キャンペーンを積極的に実施している。
たとえば、Microsoft は Microsoft Build 2020 で、GPT-3 を強化する AI スーパーコンピューティング スーパーコンピューターは、AI モデルを他のプラットフォームよりも 16 倍効率的にすることができ、トレーニングの高速化により時間とリスク コストを削減できると発表しました。
国産大型モデルも例外ではありません。
早くもバージョン2.0では、Pangu大規模モデルは、トレーニングコストを削減するために、疎+高密度アーキテクチャを採用しようとしました。 発売から1か月後、Wenxin Yiyanは技術的手段によって大規模モデルの推論性能を10倍近く向上させ、推論コストを元のコストの10分の1に削減しました。
肥大化して重くならないためにも、誰もが使えるツールになることが必須であり、大型模型の「コストスリム化運動」です。 どう。 この記事では、この問題について説明します。
一口で太った男は作れない
大規模モデルのどのコストを最適化でき、どのコストを削減でき、どのコストをさらに投資する必要があるか。 これを理解する前に、まず太る方法を知っておく必要があります。 大規模モデルのパフォーマンスとユーザーエクスペリエンス(健全性)を確保するために、「コスト削減」を合理的かつ正確に行うことができます。
簡単に言うと、AIの3つの要素(データ、計算能力、アルゴリズム)は、大規模なモデルのコストを決定する上で最も重要な要素です。
データから始めましょう。 **ガベージイン、ガベージアウト、大型モデルの時代にも適用できます。
データの品質は、大規模モデルの機能を直接決定します。 OpenAIは、さまざまな業界で専門的なデータを処理するために多くの博士号を取得しており、ユニコーン企業のScale AIなどの多くのデータアノテーション会社を雇って、GPT-3に大規模なデータセットを供給しています。 同時に、アルゴリズムモデルは反復的にアップグレードされ続け、使用量の増加とパフォーマンスの最適化に伴い、データ量の需要は短期間継続します。
中国語の大規模モデルのコストが高い主な理由の 1 つは、中国語のデータと英語の量と質の間にまだギャップがあり、中国語の大規模モデルをトレーニングするには、より多くの中国語データを収集して処理する必要があることです。 一方、英語の文法構造は中国語よりも単純であり、中国語のテキストの複雑さと多様性、一部の中国語の単語はさまざまな意味、豊かな文脈、文脈理解における多くの曖昧さと困難を表現できるため、中国語モデルのトレーニングの難易度も高まり、中国語の大規模モデルのトレーニングをサポートするために追加のリソースが必要です。
コンピューティングパワーについて話しましょう。 **
リソースは、大規模なモデルのトレーニング、運用、サービス、およびイテレーション全体を通じて計算および保存する必要があります。
大規模モデルの学習は「暴力的な美学」に重点が置かれており、パラメータが大きいほど、学習に使用される計算リソースが多くなります。 GPT-3は、10,000個のGPUと285,000個のプロセッサコアを搭載したスーパーコンピューターを使用しています。 国内のWenxin 4.0も、パドルプラットフォームをベースにしたVankaクラスターでトレーニングされています。
それだけではありません。 大規模なモデルはデプロイ後にサービスに公開され、使用量が増えるにつれて、より多くの推論タスクを完了する必要があります。 24時間で「考える」「アウトプットする」という推論プロセスも、人間の脳が多数の複雑なタスクを処理するときにグリコーゲンを消費する必要があるのと同じように、コンピューティングリソースを消費し続け、空腹を感じやすく、エネルギーを補給するために大量の食事を食べなければなりません。 そのため、大規模なモデルの推論コストも非常に高くなります。
175B展開後のGPT-3の推論には少なくとも5つのA100 GPUが必要であり、Wenxin Yiyanなど中国で社会全体に公開されている大型モデルは、前世代の8〜10倍の推論コストがかかると言われています。
最後に、アルゴリズムについて説明しましょう。 **
大規模モデルのコンピューティングリソースへの大きな依存を減らすために、主流の解決策は、パフォーマンスの変わらずに基づいてモデルを最適化し、推論速度の高速化、遅延の低減、リソース要件の低減であり、これはROIの入出力比が高くなり、トレーニングと推論に必要なコンピューティングリソースの単価が低くなります。
知性の分だけ労力がかかるし、才能がないと本当に演じられる大きな模型を作るのは無理だ。 アルゴリズムの開発、テスト、イテレーション、製品化など、すべてに多くの技術的才能が必要です。 人件費が高いかどうかは、大規模モデルのビジネスモデルが堅牢かどうかにかかっています。
完全な学歴を持つ人材チームは、研究開発段階で非常に競争力があります。 問題は、どうやってお金を稼ぐかです。 API呼び出しまたは使用料、トークンは1セント未満であり、投資収益率は遠く離れている可能性があります。 有料サブスクリプション(プロフェッショナルバージョン)、ヘッドラージモデルにはサイフォン効果があり、誰もがOpenAIまたはBATHやその他の大手メーカーを選択し、独自のラージモデルがユーザーに受け入れられ、喜んで支払うことができるかどうかは不明です。 業界の顧客向けに開発をカスタマイズするには、ToBは業界、研究、開発、テスト、反復を深く理解し、年収数千万のアルゴリズムエンジニアが建設現場に数か月滞在でき、プロジェクトの粗利益率はあまり良くないと推定されます。
したがって、大規模モデルが成功するかどうかは、アルゴリズム自体の能力だけでなく、開発から実装までのビジネスサイクルが持続可能かどうかにも左右されます。
口を閉じて足を開く
大きなモデルのコストを余分な脂肪を減らしたい人と比較すると、この目標は2つの基本的な方法に分けることができます。
1つは「熱差」を作ることです。 口を閉ざして足を開き、投資をコントロールし、余分なコストを差し引き、事業化を加速して収入を増やし、自然に痩せることです。
2つ目は「痩せやすい」ようになることです。 大型モデルのメカニズムを完全に理解し、新しいアーキテクチャを使用してトランスフォーマーの注意メカニズムの問題を解決し、「どのように食べても太らない」という体格を持っています。
2番目はとても魅力的だと思いませんか?
コストをコントロールしたり、ユーザーを引き付けたり、サービスをカスタマイズしたり、簡単に嘘をついてお金を稼ぐ必要はありませんか? 実に。
現在、すべての大規模言語モデルはTransformerアーキテクチャを使用しており、長いテキストや高解像度の画像を処理することが難しく、論理的推論と知識の帰納は「奇跡を勢いよく生み出す」に依存しており、コストがかかります。 基本原理の多くは未だに不明瞭であり、「幻覚」の発生や推論能力の限界など、多くの既存の問題を引き起こしています。
チューリング賞受賞者のYann LeCun氏は、大規模言語モデルの技術パラダイムを何度も批判しており、「LLMは世界を非常に表面的に理解している」と述べており、世界がどのように機能しているかを学ぶための「世界モデル」を構築し、内部モデルを形成し、この内部モデルを使用してさまざまなタスクを実行したいと考えています。 また、汎用人工知能の一般知能について、それぞれの研究分野から議論する科学者も多くいます。
要約すると、現在の大規模言語モデルの原則の多くは明確ではなく、テクノロジーはまだ変化しています。 将来的には、盲目的に大きくなろうとする現在のモデルを覆す他の技術的パラダイムが出現する可能性があり、そうなれば、過剰なコストや痛みを伴う「スリム化」は不要になるかもしれません。
根底にある原理を研究し、より強力な汎用人工知能技術を見つけることはクールに聞こえるかもしれませんが、それは実際にはスコアラインではなく、明確なタイムラインはまだありません。 このラウンドの大規模言語モデルの技術的パラダイムは、エンジニアリングの実践において実現可能であり、業界で機能し、品質と効率を向上させる明確な効果があります。 まずそれを使用し、現在を把握することは、テクノロジー企業にとって最優先事項です。
したがって、大規模なモデル企業は、口を閉ざし、足を開き、できるだけ早くコストを制御し、商業化を加速し、良性で持続可能な開発のための「カロリー差」を生み出すことしかできません。
「カロリー差」を生む4つの近代化運動
では、具体的にどのように「熱差」をつくり出しているのでしょうか。 **現在市場に出回っている主流の手法に基づいて、それらを「4つのモダナイゼーション運動」としてまとめます:データスケール、モデル圧縮、コンピューティング効率、ビジネス階層化。 **
データスケールとは、データの限界利益を改善し、スケール効果を通じて最高のコストパフォーマンスを得ることです。 規模効果は主に3つの方法で達成され、1つは産業集中の規模であり、国家レベルはデータの生産、収集、保存、処理、分析、サービスなどのリンクを含む「データ要素市場の育成を加速する」ことを明確に提案しており、工業化は大規模なモデル企業のデータコストの削減に役立ちます。 2つ目はAIツールの適用で、データエンジニアリングのあらゆる側面への手作業の参加を減らし、事前学習済みデータの処理を高速化し、モデル学習のコスト削減と効率の向上を実現します。 3つ目は、フィードバックデータのスケールです。 Baidu Wenxin Yiyan、SenseTimeの「SenseChat」、Baichuan Intelligenceの「Baichuan Model」、iFLYTEKの「Spark Model」など、早期に社会全体にサービスを開始した一部の大規模モデルは、限界利益を伴う最適なデータスケールに早く到達することが期待されています。
データにはわずかなメリットしかありません。 OpenAlでは、すでにユーザーがチャットデータをトレーニングに使用するかどうかを決定できるため、ユーザーのフィードバックデータに頼ることができなくなり、データの保存と計算のコストを制御できます。
モデル圧縮は、モデルのパフォーマンスを向上させ、より少ないリソースでより高いパフォーマンスを実現し、圧縮テクノロジを使用してリソースを大量に消費する大規模なモデルをよりコンパクトで効率的なバージョンに変換することです。 脂肪を筋肉に変えるのと同じように、筋肉は密度が高くなり、体重(パフォーマンス)は変わりませんが、人は痩せます(小さくなります)。
現在、大規模なモデルの圧縮には、定量化、枝刈り、知識の抽出という 3 つの一般的な方法があります。 **
脂肪吸引と同等の定量化は、単純で粗雑ですが効果的です。 モデルの精度が高いほど、より多くのストレージ容量が必要になります。 ただし、推論では、複雑なモデルで非常に小さな勾配変化をキャプチャする必要がないため、量子化はモデルのパラメータ精度を直接低下させ、いくつかの詳細情報を「抽出」できるため、占有スペースが削減され、推論能力が低下することはありません。 例えば、Qualcomm AI Researchは、量子化技術を用いてモデルの精度を低い精度に維持しており、Androidスマートフォンに初めてStable Diffusionを導入しました。 定量技術は、WenxinやPanguなどの国内の大型モデルにも適用されています。
剪定は「切除」と同様に、多数の冗長な構造やニューロンなど、効果にほとんど影響しないいくつかの側枝を直接減算し、これらの小さな重みが取り除かれるため、モデルの効果にほとんど影響せず、モデルのサイズが小さくなります。 もちろん、剪定は「クラフトジョブ」であり、剪定の精度が高ければ高いほど、モデルへの精度の低下は小さくなり、圧縮効果も高くなります。
知識の蒸留は、大型モデルの「サウナ」を放置することであり、1,000億のモデルを1回のパスで蒸留して、同様の性能とシンプルな構造を持ついくつかの小型モデルを製造し、着陸コストが低くなります。 課題は、1,000億規模のモデル蒸留も非常に多くの計算資源を消費し、1,000億から数千万へのデータ量のギャップが大きすぎて蒸留効果に影響を与えやすいことです。 非破壊蒸留は大手メーカーの技術競争のポイントの一つです。
モデル圧縮技術は計算資源も消費するため、計算基盤の計算効率を向上させることが特に重要です。
コンピューティング効率は、大規模なモデルメーカーがより高い効率でモデルサービスを提供するための前提です。
チップとコンピューティングクラスタの性能は、研究と最適化の焦点です。 Microsoft Cloud Azure は、OpenAI 専用の AI コンピューティング用のスーパーコンピューターを構築しました。 BaiduやHuaweiなどの国内メーカーは、自社開発のチップとディープラーニングフレームワークを持っており、エンドツーエンドの最適化を通じてコンピューティング効率を向上させ、大規模モデルのトレーニング速度と推論速度を向上させ、トレーニング時間とコストを削減できます。
しかし、インダストリモデルやインダストリモデルなど、一般的ではない大規模モデルでは、スケール効果やハードウェア最適化技術が限られており、インフラを自分で構築・保守するコストが非常に大きいため、クラウドサービスを利用してサービスをトレーニング・展開する方が費用対効果の高い選択肢となります。
最終的な分析では、大規模なモデルでは、ROIを最適化してコストを回収するという目的を達成するために、商業収益を増やす必要があります。 現在、さまざまな大型モデルの商品化は、明らかな階層的特性を反映しています。
簡単に言うと、ボリュームも機能も方向性も異なる大型モデルであり、製品化の道筋がはっきりし始めている。
一般的なモデルは、規模の経済と高価値市場に基づいています。 OpenAIは膨大な数のユーザーがおり、APIエコノミーの発展はスケール効果があり、先行投資はビジネスボリュームの成長と均等に共有できます。 BATH(百度、アリババ、テンセント、ファーウェイ)などは独自のクラウドビジネスを持ち、業界サービス、特に金融、鉱業、政府業務などの大政府や企業の顧客リーチ能力で豊富な経験を蓄積しており、商業的変革の大きな可能性を秘めています。 ToBの顧客の高い要件は、モデルのエクスペリエンスと効果の向上を促進し、ToC市場にサービスを提供し、規模を通じてコストをさらに償却することもできます。
大規模インダストリモデルは、製品とビジネスの境界を積極的に制限し、コアビジネスと機能に焦点を当て、より少ないリソースで特殊な小規模モデルを開発して、投資と商業化のROIバランスを実現します。 たとえば、金融分野では、Du Xiaomanの「Xuanyuan 70B」は、金融知識の理解を深め、制御性とセキュリティの面で金融顧客の特別な要件を満たすために多数の専門的な金融コーパスを組み込んでおり、何百もの金融機関によってトライアルに申請されています。
全体として、大規模モデルは普遍的で一般化された道路であるだけでなく、何千もの産業の民営化とパーソナライズされた展開は、価格、プライバシー、セキュリティなどの意思決定要因を生み出し、多数のセグメンテーションビジネスチャンスをもたらします。 一般的な大規模モデル、業界大規模モデル、独自の小規模モデル、階層的+共同作業により、事業化への道が開かれます。 調和と違いは、産業チェーンのあらゆる役割の知恵を試します。
長期的でサステナブルなサービスのためには、口を閉ざし、足を開くことが必要であり、大型モデルの「コストダウン」が唯一の方法です。
このプロセスは痛みを伴うかもしれませんが、業界全体の健全な発展を守るために堀を凝縮します。
コンピュータが誕生したばかりの20世紀40年代、人々はこの「機械の怪物」の巨体に驚嘆したが、その後、情報化時代の飛躍が始まった。 スマートフォンが誕生した当初、フィーチャーフォンメーカーは非常に皮肉を言っていましたが、誰もがインターネットにアクセスできるこのような包括的な接続がモバイルインターネットの繁栄を促進するとは思っていませんでした。
大規模モデルの改良と低さが進むにつれて、「すべての人のためのAI」はもはや遠い夢ではなくなるでしょう。