メタ商用オープンソースの最も強力なモデルの背後にある巨大な救命競争、マスクとアップルは別の方法を見つける

2023-08-04 08:37:59

文：Guo Xiaojing、Tencent Technology

画像ソース: Unbounded AI によって生成

Meta は 7 月 19 日、Meta の大規模言語モデルの最新バージョンであり、Meta にとって初のオープンソース商用大規模言語モデルである Llama2 の正式リリースを公式 Web サイトで発表し、同時に Microsoft Azure も発表しました。 Llama2 と徹底的に連携します。

Meta の公式データによると、Llama 2 は前世代と比較してトレーニングデータが 40% 向上しており、70 億、130 億、700 億のパラメータの 3 つのバージョンが含まれています。 Llama 2 の事前トレーニング済みモデルは、Llama 1 の 2 倍のコンテキスト長を持つ 2 兆個のトークンでトレーニングされており、その微調整されたモデルは 100 万を超えるヒューマンアノテーションでトレーニングされています。

その性能はGPT-3.5に匹敵すると言われており、オープンソースの最高の大型モデルとしても知られています。このニュースが発表されると、メディアや業界は、Llama2 のオープンソース商用化が大型モデルの分野における競争環境を変えるだろうという結論さえ与えました。この事件の影響はどの程度ですか?それは業界にどのような影響をもたらすでしょうか？私たちは業界の 2 人をチャットに招待しました。1 人は Leo Group Digital Technology Co., Ltd. の製品 R&D センターの次長である周松涛氏です。彼はチームを率い、製品のほとんどを評価しました。国内外の主流大型モデル; その他長年にわたり国内外のテクノロジー産業の生態を深く観察してきた安新源宇宙研究所所長の焦娟氏です。

以下は 2 人の主な観点です:

① Llama2 はモデルパラメータ、消費時間、計算消費電力などを総合的に考慮しており、GPT-3.5 と比較して自信があります。

② 生成型人工知能は、オープンソースシステム全体に地球を揺るがす変化をもたらします。

③ 将来的には、オープンソースとクローズドソースは間違いなく互いに揺れ動き、この分野では長期にわたって相互ゲームと競争のパターンが形成されるでしょう。

④ Llama2 の商用オープンソースは、必ずしも大規模モデルを使用する起業家のコストを削減するとは限りませんが、大規模モデルのサービスプロバイダーが価格競争を始める可能性があり、これはユーザーと起業家にとって朗報です。

⑤ AI分野における海外の巨大企業の競争は、もはや第二曲線の発展のような単純なものではなく、熾烈かつ決定的であり、時には命を救うほどのものであり、その背後にある理由は熟考する価値がある。

会話内容の抜粋は以下の通りです。

**Tencent Technology: 業界の実務者やアプリケーターの観点から、大規模なモデルをどのように評価すればよいでしょうか? **

周松濤氏: MMLU は世界で最も広く使われている大規模モデルの評価フレームワークであり、人文科学から社会科学、科学、工学に至る 57 分野の総合的な知識と能力を考慮しており、私たちの評価のほとんどはこのフレームワークに基づいています。ただし、私たちの業界は広告業界ですので、広告業界の特性を踏まえて、その他の評価項目をいくつか追加します。

私たちはまた、グループの経営会議で、広告業界の焦点は創造性ではなくコントロールであると述べました。生成された結果は、広告主、その製品のパフォーマンス、外観、ロゴなどと 100% 一致する必要があります。これらの削減が達成されて初めて、多様性と想像力の余地が生まれます。そこで、大型モデルの幻覚の制御については別のテストを行う予定です。しかし、市場にある画像生成用の大規模な言語モデルや拡散モデルのほとんどは、広告主のニーズを完全に満たすことが困難です。汎用の大型モデルが登場した後、本格的な製品化までの道のりは長い。

さらに、私たちが考慮する最も重要なことはコストの問題です。クローズドソースモデルには直接見積システムがあり、通常 数千のトークンのコストを測定します。オープンソースモデルの場合、デプロイメントから微調整、最終的なオンライン推論に至るまで、より多くのリンクが測定および計算されます。どのくらいのコンピューティングパワーが消費されるか、オープンソースモデルを維持するためにどれだけの開発コストとデータコストが投資されるかなどです。ソースモデル。

大規模モデルの品質フィードバックとコスト見積もりによってモデルの評価が形成されます。簡単に言うと、コストパフォーマンスが高いほど人気が高くなります。

Jiao Juan: 私たちの観点からすると、より重要なのは、いくつかの垂直要件をどのように定義するかです。なぜなら、世界規模で見ると、ハードテクノロジー企業であろうとインターネット企業であろうと、本当に要件を定義できる企業はそれほど多くないかもしれないため、この命題は次のように変換できます。モデル企業自体がいくつかの垂直要件を設定していますか? そうでない場合は、環境に配慮したパートナーと協力して、より良い垂直カテゴリーの方向性を探ることはできますか。もちろん、特定の企業が独自にデータを蓄積し、特定の方向に経験を蓄積できればそれに越したことはありません。これは、垂直分割された業界のニーズを適用し、定義するという観点からの私たちの視点です。

**Tencent Technology: Llama2 はパフォーマンスの点で本当に GPT-3.5 を上回る、またはそれに匹敵するのでしょうか? **

周松濤氏: Llama2 の大型モデルはまだ評価中であり、完成には約 2 週間かかります。しかし、この論文の研究とこれまでに行われたいくつかの簡単な評価から、いくつかの一般的な比較を行うことができます。

トレーニング前の段階と GPT の元のモデルの間にはいくつかの違いがあり、これらの変更は他のモデル会社によってこれまでに行われたものではありません。 1 つ目は、事前トレーニング段階で従来の Transformer のマルチヘッドアテンションメカニズムをシャードグループメカニズムに変更することです。これは、ビッグデータ処理や大規模な並列データの処理を行っていたときに使用したシャーディングテクノロジに少し似ているか、模倣しています。アテンションに必要な多数のクエリ (リクエスト) をグループ化し、各グループをトレーニングユニットに入れることで、理論的には並列処理の効率と速度が大幅に向上します。この部分は、これまでの大規模並列処理の経験を踏まえて、Meta が新たに加えた変更だと思います。

この変更に基づくと、理論的には、計算能力要件と消費時間の点で、既存の大型モデルよりも何倍も高いと思います。 Llama2 のリリース時期は発表によれば 1 月と予想されますが、リリース時期から計算すると、Llama1 よりパラメータ数が多いため、Llama1 の事前学習時間よりも短くなるはずです。このようにして、複数ラウンドのトレーニングの可能なサイクルが短縮されます。これは、論文で言及されている GQA と密接に関連しています。 GPT-4 の具体的な数値はわかりませんが、外部の推測によると、GPT-4 は GPT-3 や GPT-3.5 よりもはるかに高いと考えられます。

GQA については、**GQA の処理方法により、十分なコンピューティング能力カード、特に GPU 並列コンピューティング能力リソースを備えたユーザーのトレーニング速度が実際に向上できると現在感じています。 **ただし、テストとピアレビューにより、この機能にはコンピューティングパワープールとハードウェアのサイズに関して高い要件があることがわかりました。よく知られた理由により、中国本土の開発者には大規模な GPU 並列コンピューティングリソースがほとんどないため、**GQA私たちに悪影響を及ぼす可能性があります。 **

さらに、2 番目のポイントは、調整段階で、GPT システムが正規化中に階層化されたデータ処理を行っていることがわかっているため、データトレーニングの結果は非常に正確になりますが、大量の計算能力も消費します。しかし、Llama2 は別のソリューションを使用します。これは、階層化処理に基づいて重み係数を追加することです。これは、効率の向上と精度の維持に非常に役立ち、計算能力の節約にも役立ちます。これら 2 つのポイントは、事前トレーニング段階で行われた最適化です。 **

さらに、論文では、Llama1 の埋め込み位置は固定されており、変更できないことにも言及しています。しかし、Llama2 ではこれを動的に調整できるので、これも明るい点です。私たちもこれには非常に興味があり、実際にどのような効果が得られるのか知りたいと思っています。

これらに加えて、Llama2 は Llama1 と GPT シリーズのエンジニアリング経験を明らかに吸収しています。つまり、RHLF 段階での成功経験が再利用されており、大幅に改善されているはずです。

最後は比率パラメータですが、これまで見てきたのは公式サイトで公開されているパラメータです。人為的に強化されたフィードバックを含めるとパラメーターは100万以上あり、微調整部分は10万以上に達します。あえてこれらのパラメータを公開するということは、Meta がモデルのパラメータ、時間の消費、計算の消費電力を総合的に考慮する自信があることを意味します。

**Tencent Technology: 商用オープンソースの基準が月間アクティブユーザー数 7 億以下に設定されているのはなぜですか? **

Jiao Juan: 冗談ですが、この規制はまだ「非常にオープン」だと思います。メタは、他の人が研究するのを妨げることはできないので、それを手放すという明るいカードを切りました。本質的に、それは内部ゲームの結果です。メタの財務指標は2021年初めからあまり良くなかったため、第2の成長曲線を模索してきた。 2021 年 10 月に、Meta は名前を All in Metaverse に変更しましたが、大幅な改善は見られませんでした。自社のハードウェアと統合できる現行の大型モデルを発売した。これは明るいカードを切ったようなものです。ハードウェア、ソフトウェア、オペレーティングシステムが必要です。AI 時代に独自の地位を確立したいと考えていますが、同時にオープンソースになることは望んでいません。競合他社にとって有益すぎる。ご覧のとおり、7 億の月間アクティブ製品には、YouTube 25 億、Apple 18 億、Microsoft 14 億、Samsung 10 億、LinkedIn 9 億、Snapchat 7 億 5,000 万などが含まれます。

**Tencent Technology: 商用オープンソースと研究ライセンスの本質的な違いは何ですか?オープンソースエコシステムにはどのような影響がある可能性がありますか? **

周松濤: 大きな言語モデルの発生後、オープンソースの問題も非常に複雑になり、オープンソースの定義とこのルールについては誰もが多くの調整を行ってきました。これには、アルゴリズム自体のオープンソース化、データ研究のオープンソース化などが含まれます。新しい言語モデルまたは生成モデルの全体的なオープンソースの判断については、まず、そのアルゴリズムコードがオープンソースであるかどうか、次にそのトレーニング番号セットがオープンソースになるかどうかによって決まります。 3つ目はオープンソースのアルゴリズムをベースにしており、微調整などの処理を行った場合、認可ポリシーにどのような制約がかかるか。 4 つ目は、モデル側が制御できるかどうかにかかわらず、モデル推論の結果を使用することです。私たちは通常、これらの方向から、このモデルの「オープンソース」が本当に私たちにとって応用価値があるかどうかを判断します。

オープンソース研究と商用オープンソースに関しては、最も典型的な例は Stability AI という会社だったと記憶していますが、LLama2 がオープンソース化される 2 週間前に、StabilityAI の XL バージョンもリリースされました。オープンソースであり、モデルを使用できることが明確に規定されており、例えば研究者や特定の大学に所属している場合、データを使って研究を行うことはありますが、このモデルを商用化に使用する場合は完全に禁止されており、使用するには別途認可申請が必要です。

大規模モデルのオープンソース認証は、元のオープンソースのロジックから大きく変わったと思います。リンクとプロセスは非常に慎重に設定されています。生成人工知能がオープンソース全体に地球を揺るがす変化をもたらす可能性があります。ソースシステム。 **

**Tencent Technology: Llama2 の商用オープンソースは、大型モデルの競争環境にどのような影響を与えるでしょうか? **

Jiao Juan: 海外の巨大企業の競争では、自社の製品やサービスを認識できるようにするというスタイルがあるので、メタはメタバースと呼ばれ、アップルはニューユニバースと呼ばれる必要があります。他の人がソースを閉じるなら、私はオープンソースを占領します。かつてのオープンソースというのは、自由な感覚を持ったオタクがやっていたこともあり、考え方は比較的シンプルでした。しかし、これほど大規模な企業体がこの問題を主導している現在、問題はむしろ商業的利益に関わるものとなっている。

Zhou Songtao: 生成型人工知能システムの競争環境の 3 つの要素、つまりコンピューティング能力、アルゴリズム、モデルは変わっていないと思います。実際、このモデルは競争要因の 3 分の 1 しか占めていません。モデルが変更されたとしても、3 分の 1 か 3 分の 1 を少し超える程度しか変わりません。私はその方が楽観的だと考えていますし、そうなる可能性もあります。約45％に達します。 **

国内と海外のパターンは依然として同じではなく、外国のアルゴリズムレベルでのパターンはより明白です。外国のデータは基本的にクリーン化されベクトル化されており、トレーニングデータセットはすでに十分であり、特定の業界向けの独自データがない限り、データに関する競争上の優位性は明らかではありません。コンピューティング能力は、外国の巨人が差を広げることができる分野ではなく、実際、巨人はコンピューティング能力を争う強さを持っています。

まず第一に、コアとなる基礎アルゴリズムを保有する国内企業は実際には非常に限られており、第二に、国内データのクリーニングとベクトル化の程度は実際には高くありません。初期の段階では、企業が構造化データ処理に多大な力を投資していれば、コンピューティング能力とアルゴリズムの不足を実際に補うことができました。第三に、この国には短期的にはコンピューティング能力が実際に不足しています。したがって、LLama2 オープンソースが国内情勢に与える影響は、現時点では簡単に判断することはできません。

さらに、外国では、Google は生成型人工知能全体の真の先駆者であり、その後、彼はほとんど殉教者になりました。それは、生成型人工知能全体のソース論文が「Attending is all you need」であり、最初期のオープンソースモデル T5 を含めると、実際には Google であるためです。かつて Google は群衆を誇りに思っていました。予期せぬことに、ダークホースである OpenAI は後に消滅しました。初期の GPT-1 と GPT-2 はオープンソースであり、オープンソースになった GPT-3 はクローズドソースでした。 OpenAI が市場に参入すると、オープンソースが生成人工知能全体の主流になります。

OpenAI はこの時点で Microsoft を発見し、非常に高価なコンピューティング能力も有していたため、Google の強力な競争相手となりました。 2022 年から、生成人工知能市場はクローズドソースシステムへの参入を開始します。 OpenAI はアルゴリズムを習得し、Microsoft のコンピューティング能力とデータを追加し、製品をクローズドソース化した結果、この製品は現象レベルのヒットとなり、Microsoft と OpenAI の両方がその恩恵を受けました。 Meta がこの分野への参入を決めたとき、最初から開発経緯を入念に検討したと推測されるが、OpenAI がオープンソース分野から撤退してクローズドソースとなった今、オープンソース手法で打破するつもりだ。あなたの魔法をもう一度。

その前に、Meta は、オープンソース化後のいくつかの中小企業、特に Stability AI の活力にも注目していましたが、この会社には深い基盤がなく、まだ多くの議論があります。

Llama1 が 3 月にオープンソースを発表したと記憶していますが、その時も「誤ってオープンソースだった」と言っていたのですが、その後 Stability AI も「誤ってコードを漏洩したのでオープンソースだ」と言ってきました。全体的な流れとしては、Google がオープンソースの方向性を打ち出し、その後 OpenAI と Microsoft がそれをクローズドソースシステムに戻し、その後 Meta と Stability AI が再びオープンソースシステムに戻すというものです。私は将来的には **Open になると思います。ソースとクローズドソースは互いにスイングしなければならず、この分野では長い間相互ゲームと競争のパターンが形成されるでしょう。 **

**Tencent Technology: Meta オープンソース Llama2 は最後の手段ですか、それとも積極的な戦略的選択ですか? **

Jiao Juan: AR 分野の 3 つの主要な競合他社、Meta、Microsoft、Google は 10 年以上にわたって戦ってきたため、これは積極的な戦略的選択であるはずです。 Meta は、少なくとも Google よりも早く、すぐに LLama2 を立ち上げました。オープンソースとクローズドソースの選択によって本質的な利益要求がなくなるわけではないので、競争パターンを完全に変えることはあまり意味がないのではないかと思います。 2つ目は、国内の状況が異なるため、国内の競争パターンを再度観察する必要があるということです。

オープンソースであろうとクローズドソースであろうと、新たな大きなチャンスに直面した世界中の企業の間で、基本的に戦略的な選択が必要になります。前線の配置に努める際には、可能な限りビアの後背地も攻略したいと考えています。海外の巨大企業の競争は、もはや第 2 または N 番目の成長曲線を描くほど単純ではありません。競争は熾烈かつ決定的であり、たとえ少しでも命が救われます。

軍拡競争のような断固としたやり方でこれを行わなければならないほど、彼らの行動の背後にどのような環境や背景があるのか、これが最も皆さんの議論に値すると思います。

最近では注目すべき出来事もいくつかあり、マスク氏の X-AI 会社が設立され、現実の物理世界を再理解したいと考えており、すべての巨人が AGI の真の実現に注目しています。このマップはどんどん大きくなっていきます。ただし、新しいビジネスの世界と新しいビジネスの風景を推進するには、常に新しい人気のあるアプリや製品が必要であり、2023 年にこれを達成するのは難しいかもしれません。私たちは 2024 年に希望を託すことができます。おそらく Apple の MR メガネが新たなチャンスとなるでしょう。

**Tencent Technology: 他の 2 つの海外の巨人、マスクとアップルも、大型モデルの分野での進歩について注目を集める発表をしていないことがわかりました。これについてどう思いますか? **

Jiao Juan: 彼らは当面は我慢しているだけで、確かなことは、彼らが発売するものは決して大型モデルとは呼ばれないということです。私たちは次のレベル、身体化された知性に焦点を当てることができると思います。この方向に関しては、マスク氏は最も心配していない。 Apple の最大の利点は、ソフトウェアとハードウェアの組み合わせにあります。

Zhou Songtao: 私たち自身で大まかにテストしたところ、**M2 チップは浮動小数点演算能力の点で Nvidia のカードと競合できます。 ** Apple はソフトウェアとハードウェアの統合を採用する可能性がありますが、これは実際には大型モデルの現在の競争環境を超えています。

身体化された知能は、将来の一般的な人工知能の開発における新たなマイルストーンになる可能性があると思います。なぜなら、一度強力な推論能力を身につけると、それは間違いなく物理世界に拡張され、物理世界を制御する核心となるからです。身体に埋め込むか、物理世界のセンサーに埋め込むと、これは身体化された知性となるシステムです。先ほど周さんがおっしゃったように、これは一連のマスク企業になってしまった。

ソフトウェアとハードウェアを組み合わせて一般的な人工知能全体を見ると、競争の状況が再び変化していることがわかります。競争しているのはもはや Google、メタ、オープン AI ではありませんが、より多くのハードウェア企業が参入している可能性があります。の。

**Tencent Technology: Llama2 の商用オープンソースですが、大規模モデルの開始コストを削減することは可能ですか? **

Zhou Songtao: これについては今はわかりません。API のレンタル費用は節約できますが、OpenAI の 6 月 15 日の大幅な値下げはほぼ 10% オフであることがわかります。そのため、クローズドソースモデルも価格との戦いになります。戦争。逆に、オープンソースモデルを利用した場合、ハードウェアコスト、演算能力コスト、データコストはどれくらいかかるのでしょうか？隠れたコストを見積もるのは困難です。 LLama2 のオープンソースから単純に言えば、それは必ずしも起業家精神にとってコストを節約する方法ではないと思います。

推論コストについては、現在海外テスターの評価記事を計測し組み合わせたところ、分類やラングチェーンワークフローなど一部の特定のタイプの推論タスクではLlama2の推論効率や消費時間が低下するものの、その他のタイプではLlama2の推論効率や消費時間が低下することが分かりました。 **GPT-3.5-turbo-0615 のスナップショットバージョンと比較した場合、必ずしも安価であるとは限りません (推論コンピューティングの消費電力の観点からのみ); **現在のオリジナルバージョンは非常に流暢で正確に理解できます中国語ですが、中国語表現はほぼ 0 です。**そのため、Llama2 を完全に使用したい中国人起業家は、中国語表現の微調整や指導を解決するために多額の費用を費やすか、オープンソースコミュニティが中国語表現を提供するのを待つ必要があります。バージョン... このコストは低くありません。 **

さらに、**Llama2 の商用オープンソースは実際に大規模なサービスプロバイダーに価格競争を引き起こす可能性があり、これはユーザーや起業家にとって朗報です。 **

Jiao Juan: 率直に言って、私は今でも中国の産業モデルや垂直モデルに期待しています。私は個人的に、この業界での堅実な業績と継続的なデータ蓄積とプラットフォーム構築の経験を特徴とする有望な企業をいくつか選びました。また、今回のラウンドはチケットが高いか安いかの問題ではなく、高いか安いかに関わらず、誰もが変革に直面していると思います。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

3 いいね

報酬
3
コメント
共有

0/400

コメントなし

トピック
Gate 2025 Q2 Report Released
2410 人気度
Gate Derivatives Volume Hits New High
4629 人気度
CPI Data Incoming
32315 人気度
4Join Gate VIP to Win MacBook
29439 人気度
5MicroStrategy Buys More Bitcoin
496 人気度
6BTC Hits New High
93263 人気度
7My Gate Moments
26234 人気度
8VIP Exclusive Airdrop Carnival
25187 人気度
9Fed June Meeting Minutes
6045 人気度
10Gate Alpha Trading Share
13483 人気度

ピン

サイトマップ