大規模なモデルによってデータが枯渇しても、一般的な人工知能が登場するでしょうか?

Question

出典：自動運転後半![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0f892af477-dd1a6f-6d2ef1) 画像ソース: Unbounded AI によって生成‌私たちは一般的な人工知能の前夜にいます。 ChatGPT は世界中で熱狂を引き起こしましたが、同時に大規模な AI モデルの競争も引き起こしました。 Google はベンチマークとして Bard を立ち上げ、Amazon も戦場に加わり、メタバースに大きく賭けていた Meta も負けじと LLaMa と SAM を立ち上げました。海のこちら側で、最も多くの資源を持つと認められるBATが生成モデル上で再会した。大型モデルのトレンドに乗って、身体化された知性が大きな変化を起こしているようです。起業ブームが到来し、すべてが10年前に戻ったかのようです。 **今回のみ、汎用人工知能の特異点が大型モデルによって開かれ、データが正式に舞台の中心に立っています。 **## **01. 大規模モデルの開発における重要な要素は何ですか**1. **コンピューティング能力により、大規模なモデルは富を賭けたゲームになります**大規模モデルとは、平たく言えば、膨大な数のパラメータを持つモデルです。単一の GPU で実行できた以前の小型モデルと比較すると、大企業が積み上げた膨大な計算能力に頼らなければ完成できませんでした。たとえば、OpenAI ChatGPT には現在、トレーニングごとに最大 100 万米ドルの費用がかかります。小規模な研究室が人工知能の波に参加する可能性は、大規模なモデルによって直接終わりを告げられ、強力な蓄積を持つ企業のみが人工知能の波を完成させることができます。したがって、一般的な大型モデルの起業家精神の波の中で登場したヒーローは、美団の王恵文氏、Sinovation Venturesの李凱福氏、SOGOUの王暁川氏など、インターネット起業家精神の波で素晴らしいストーリーを残した人物だけである。モデルのムーアの法則が出現し、モデルが大規模化することで世界の理解と推論能力が向上しており、このような傾向に、立ち止まってためらう暇はありません。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a9a8463401-dd1a6f-6d2ef1) 1. **アルゴリズムモデル中心の開発モデルは終わった**現時点では、一般的な人工知能企業の開発モデルは依然としてモデルを中心とした「伝統的な」開発モデル、つまりデータセットを固定してモデルを反復するものです。アルゴリズム エンジニアは通常、いくつかのベンチマーク データ セットに焦点を当て、予測精度を向上させるためにさまざまなモデルを設計します。大規模なモデルが雨後のキノコのように出現していますが、実際には、ほとんどのモデルの背後にあるアルゴリズムは一貫している傾向があり、大きなモデル変更は発生していません。データ量の積み重ねにより、トレーニングされたモデルは、小さな変更を加えたモデルよりもはるかに優れたパフォーマンスを発揮します。たとえば、数か月前、人工知能のパイオニアである Yann LeCun は、ChatGPT は技術的には新しいものではないが、優れたパフォーマンスを達成していると述べた記事を発表しました。アルゴリズムを慎重に変更しても、データを追加して反復するよりも良い結果が得られない可能性があります。単一のデータセットでトレーニングされたモデルのパフォーマンスと比較すると、大量の高品質データによってもたらされるモデルのパフォーマンスは、次元削減に大きな打撃を与えます。 **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7795ab74b7-dd1a6f-6d2ef1) 1. データが大規模モデル開発の中核要素となるOpenAI の大規模モデルの成功は、ビッグデータと大規模モデルの量的な変化が質的な変化をもたらすという Ilya の信念に由来しています。たとえば、ChatGPT はトレーニングに少なくとも 40T の大規模データを使用しますが、有効なデータ量が増加し続ければ、より優れたパフォーマンスを達成できます。大規模言語モデルの緊急能力に関する Google の調査によると、モデル パラメーターの特定の臨界点で、モデルは突然予期せぬ能力を獲得しました。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-43bc9589e2-dd1a6f-6d2ef1) 非常に多くのパラメータを合理的にトレーニングできるようにするには、高品質のデータが鍵となります。 ChatGPT の開発を例にとると、GPT-1 は 4629 MB のテキスト データのみを使用しましたが、GPT-2 は Reddit からクロールおよびフィルタリングされたテキスト 40 GB を使用し、GPT-3 は少なくとも 45 TB のプレーン テキストを使用しました。 -4 のトレーニングプロセスは公開されていませんが、GPT-4 の推論速度が GPT-3 に比べてはるかに遅いことを考慮すると、モデルのパラメータ数も増加していると推測でき、それに対応するトレーニングが行われます。データには明らかにさらに多くのデータが必要です。これらの高品質のデータは、ChatGPT が初めて英語圏に登場した重要な理由であり、英語のトレーニング テキストは中国語のトレーニング テキストよりも標準化されており、内容が充実しています。中国人民大学学際科学研究所のヤン・ドン所長も、ChatGPTの成功の根本的な理由はテクノロジーそのものだけではなく、中国におけるデータの非オープン性とデータ独占という深刻な問題にもあると考えている。最近リリースされた Meta のセマンティック セグメンテーション モデル Segment Anything Model については、教師ありモデル全体に明らかな革新性はありませんが、セマンティック セグメンテーションの分野で大量のデータを使用することで、モデルのパフォーマンスが驚くべきものになっています。画像セマンティック セグメンテーションの分野では、数千万の画像と数十億のセグメンテーション マスクはこれまで見たことがありません。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5e0755349c-dd1a6f-6d2ef1) **AIの開発モデルはモデル中心からデータ中心に変わりつつあります。 **データはどこから入手しますか? 世界中のデータはモデルに十分な大きさですか?## **02. 実際のデータは大規模なモデルによって枯渇してしまう**この世界では人間の活動が常に行われているので、残されたデータの痕跡は増え続けるべきではないでしょうか。なぜ疲れ果てているのでしょうか？### **高品質のデータは不足しています**人間の活動によって生成されたすべてのトレースをモデル トレーニングに使用できるわけではなく、モデル トレーニングに入力される高品質のデータのみが最良の結果を生み出すことができます。自然言語処理の分野では、当然デジタル化された書籍や科学論文が高品質のデータとなります。論理的な関係が良好であれば、相対的な精度も確保できます。チャット記録や通話などの低品質データは、データの連続性が低いため、トレーニングへの影響は比較的限られています。 ChatGPT 3 の開発ドキュメントには、データ フィルタリングが 45TB のプレーン テキストに対して高品質フィルタリングを実行した後、有効データの 1.27% のみを使用して 570GB のテキストが得られたと記載されています。自動運転の分野では、さまざまなシナリオから高品質のデータが生成されます。たとえば、曲率が比較的小さい道路は非常に頻繁に出現しますが、実際には、出現回数が増えるほど、その重要性は低くなります。逆に、一部の型破りなシナリオ (コーナーケースなど) では、データ品質が高くなり、シナリオの適応を個別に行う必要があります。ただし、これらの比較的小さなサンプルは、大規模なモデルのパラメーター要件に直面した場合、ほとんどバケツの一滴にすぎません。### **データのセキュリティとプライバシーによってもたらされる制限**生成 AI の開発には、データ セキュリティをめぐる論争が伴いました。 Stable Diffusion が利用可能になってから多くのアーティストの間で不満が生じ、その圧力を受けて、Stability AI はアーティストが対象を絞った方法で作品を削除し、トレーニング セットに参加できないようにすると発表しました。場合によっては、公開されているデータには、個人を特定できる情報、財務情報、医療記録などの機密情報が含まれる場合があります。多くの業界や地域では、機密情報を含むデータを入手することが非常に困難であるため、データ収集の困難さが増し、対応するデータセットの増加率が低下します。これは、大規模なインダストリ モデルにとって制約となっています。たとえば、医療分野では、その分野の特殊性とプライバシーにより、厳格なプライバシー保護と規制上の制限の下では、大規模モデルのトレーニングに使用できる量のデータを取得することは不可能です。### **高品質の実データは大規模モデルのトレーニングをサポートするには十分ではない可能性があります**論文「データが不足しますか? 機械学習におけるデータセットのスケーリングの限界の分析」では、データ不足 (データ量が大規模モデルのトレーニングのニーズを満たすのに十分ではない) の可能性を調査しています。モデルの成長率* *2026 年頃までに、高品質の NLP データではトレーニングをサポートできなくなる**。言語および視覚モデルのデータ ストックは、トレーニング データセットのサイズよりもはるかにゆっくりと増加しているため、現在の傾向が続くと、データの枯渇によりデータセットの増加が最終的に停止します。データの量が増加するにつれて、制御できないデータ収集方法で収集されたデータのほとんどは意味がありません。たとえば、自動運転シナリオでは、車両は路上で常に新しいデータを収集しますが、実際に使用できるデータはごくわずかです。そのため、Nvidia CEO の Jensen Huang 氏と Ilya Sutskever 氏の最近の会話では、データ枯渇の可能性についても議論されました。## **03. 合成データは大規模モデルの膨大なデータ要件を満たすことができます**データ中心の開発モデルでは、データが最も重要な部分になります。トレーニング アルゴリズムにはデータが必要ですが、高品質のデータを入手するのは困難です。大規模モデルの膨大なデータ要件はどのように満たされるべきでしょうか?食品に合成肉があるように、データも人工的に合成できるのでしょうか？合成データは、デジタル世界で作成されたデータです。合成データは実際のデータよりも制御性が高く、数学的および物理的な意味で実際のデータの特性を反映でき、モデルのトレーニング時にデータのバランスを確保するために方向性を持ってデータを生成できます。### **合成データには情報デルタが含まれています**実際のデータにおけるデータの分布を学習し、この分布に基づいてさらに多くのデータを生成して、さまざまなシナリオで大規模なモデルをトレーニングするのに十分なデータを確保します。さまざまな要素の組み合わせによってさまざまなシーンが生まれ、シーンの変化によって情報量も増加するため、合成されたデータの有効性が確保されます。2017年のOpenAIとカリフォルニア大学バークレー校の研究によると、実際のシーンに基づいて、カメラの位置、オブジェクトの色、形状、照明などを一般化して、学習者の学習用に大量の合成データが生成されます。物体検出モデル。実際のデータを一切使用しないことに基づいて、検出モデルの 3D 誤差は 1.5cm 以内に抑えられ、非常に優れたロバスト性を備えています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0146688a69-dd1a6f-6d2ef1) たとえば、自動運転の分野では、合成データを使用して、一般化された天候と照明を通じて、前方の車の典型的な現実のカットイン シーンを再現できます。結果として得られたデータを使用してモデルをトレーニングすると、モデルはさまざまな天候や照明条件下でもより堅牢なパフォーマンスを発揮できるようになります。 Nvidia の 2018 年の研究によると、ランダム化された車両の位置とテクスチャで生成された合成データを使用してモデルをトレーニングすることで、検出モデルのパフォーマンスが大幅に向上しました。これは、合成データの車両位置がより均一に分布し、生成されたデータがより広範囲に分布していることに起因すると考えられます。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5dbda969ef-dd1a6f-6d2ef1) 合成データは実際のデータよりも制御性が高く、数学的および物理的な意味で実際のデータの特性を反映でき、モデルのトレーニング時にデータのバランスを確保するために方向性を持ってデータを生成できます。ターゲットを絞った方法でデータを生成する場合、大規模なモデルの特性をカスタマイズする可能性があります。たとえば、大規模な言語モデルには、特定の質問に答えるときにバイアスがかかり、特定の画像を生成するときに特別なスタイルと要素が含まれることが望まれます。 。これはすべて、カスタム合成データを通じて実現できます。実際のデータに基づいていますが、実際のデータとは異なります。合成データのこの特性により、合成データはますます広く使用されており、テストに使用されるだけでなく、モデルをより強力にするためのトレーニング データとしても使用できます。### **合成データのコスト上の利点は非常に大きい**データのコストは収集とラベル付けから発生しますが、どちらの部分においても、合成データには大きな利点があります。実際のデータの非効率な収集と比較して、合成データはターゲットを絞った方法でシナリオを生成できるため、データのすべてのバイトが価値のあるものになります。大規模なデータ収集チームも、大規模なデータ返却システムやデータ フィルタリング システムも必要ありません。合成データは運用開始時からのモデル トレーニングのニーズに基づいており、出力のほとんどを直接使用できます。これによりデータコストが削減され、収集コストが削減されます。同時に、合成データのラベル付けコストは実際のデータに比べて非常に有利であり、データ サービス プラットフォーム Diffgram の推定によると、自動運転画像のラベル付けにおけるラベリング ボックスの平均価格は約 0.03 米ドルです。画像に完全にラベルを付けるための総コストは約 0.03.5.79 米ドルで、合成データの場合、注釈の価格は基本的にゼロに近く、データ計算コストのみのものもあり、かかるコストはわずか約 6 セントです。つまり、合成データを使用すると、より制御可能、効率的、低コストの方法で大規模なモデルをトレーニングできます。**実際のデータの収集がまだ焼畑農業や畜産業の時代にあるとすれば、合成データの生成は効率的で自動化された産業の時代に入り、大規模で高品質の製品を大量に提供します。低コスト。 **「MIT Technology Review」によると、合成データは、2022 年に世界でトップ 10 の画期的なテクノロジーの 1 つに挙げられています。合成データは、データ リソースが不十分な分野における人工知能の開発の遅れを解決できると考えられています。## **04. 合成データが必要となる業界は何ですか****実は海外では合成データが広く使われており、ロボティクス、自動運転、自然言語処理、金融、医療などの分野で合成データを目にすることができます。 **2018 年の時点で、OpenAI はシミュレーション環境を使用してロボット コントローラーをトレーニングしていました。トレーニング プロセスでは環境ダイナミクスがランダム化され、コントローラーが物理的なロボットに直接適用されます。このようにして、ロボットは単純なタスクを実行するときに単純なタスクを処理できるようになります。外部環境の変化。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8d42e2c10d-dd1a6f-6d2ef1) JPモルガン・チェースの2019年のレポートによると、同社は金融詐欺データが非常に少ないという問題を克服するために、合成データを使用して金融詐欺検出モデルをトレーニングしたという。スタンフォード大学も最近、70 億のパラメータを備えた独自の大規模会話モデル Alpaca をリリースしました。特に興味深いのは、研究に関係するデータ セットが OpenAI の API を使用してチームによって生成されたことです。つまり、トレーニング データ セット全体がデータ構成と最終的な効果は GPT-3.5 に匹敵します。再び自動運転を例に挙げると、コンピューター ビジョンの重要な応用として、自動運転業界は合成データの使用において大きな進歩を遂げてきました。テストのコストを削減し、反復効率を向上させるために、シミュレーション エンジンは自動運転アルゴリズムのテストと検証に業界で広く使用されています。ビジョンベースの自動運転機能では、世界の認識を完成させるためにディープラーニング モデルをトレーニングするために、大量の実際のシーン データを収集する必要があります。ただし、大量生産されたロングテール データは、現実世界では収集が困難または不可能であることがよくあります。同時に、同じ物体の外観であっても、時間や気象条件が異なると大きく異なる可能性があり、視覚認識に大きな課題をもたらします。実際のデータの収集と比較して、合成データのコストは制御可能であり、手動による注釈を必要としないため、一貫性のないデータ収集、フロー プロセス、および人間の基準によって引き起こされる人的エラーが大幅に削減されます。したがって、業界では合成データがロングテール問題を解決する効果的な方法の 1 つであると考えられています。しかし、自動運転システムをより適切に訓練するには、ほとんどのシミュレーション データの品質は十分ではなく、現実世界を反映することができず、現実世界を高度に抽象化したものにすぎません。そのため、業界の多くの企業はデータのリアリティの向上に多額の投資を行っており、たとえば、Nvidia の自動運転シミュレーション ソフトウェア DriveSim は、高度な物理レンダリング テクノロジを使用して合成データのリアリティを向上させています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-628c99907d-dd1a6f-6d2ef1) Cruise と Waymo は、NeRF 関連テクノロジーを使用してデジタル ツイン ワールドを生成し、合成データを生成します。Nvidia も 2022 年に Instant NGP を提案し、NeRF のトレーニング効率を大幅に向上させました。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1938a186d7-dd1a6f-6d2ef1) 2021 年の AIDay の時点で、Telsa は高速道路を走る家族やラベル付けが難しい群衆のシーンを使用して認識システムをトレーニングしました。これは非常に印象的でした。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-bb8ef9b3a3-dd1a6f-6d2ef1) 同時にシリコンバレーでは、自動運転にサービスを提供するParallel DomainとApplied Intuition、一般的なマシンビジョン業界にサービスを提供するDatagen、Gretel AIなど、業界の最前線に立つ合成データ企業が数多く誕生し始めています。これらの企業の背後には、業界をリードする巨人が立っています。Gartner は、2024 年にはトレーニング データの 60% が成人向けデータに置き換えられ、2030 年には合成データが実際のデータに完全に取って代わり、AI をトレーニングするための主要なデータ ソースになると予測しています。しかし、実際には中国では合成データを活用する例は比較的少なく、現在でもほとんどの企業が実際のデータを使用してモデルのトレーニングを完了しています。## **05. 合成データの制限**実際のデータを完全に置き換える前に、合成データで解決する必要がある問題は何ですか?ここでは自動運転を例に挙げて考察していきます。### **真実**知覚的な観点から見ると、確かに真正性は最初の評価指標です。このデータのバッチがトレーニング システムに入力される前に、それが本物であることを確認するための人間の目視検査に合格できるでしょうか?リアリズムのデメリットとしては、肉眼で見える現実はデータの実際の有効性を表しているわけではなく、やみくもに写真の視覚的なリアリズムを追求しても、実際に数値化できる意味が無い可能性があります。合成データの信頼性を評価するための定量的基準は、合成データ セットでトレーニングされたアルゴリズムの実際のデータ セットに対する合成データ セットの改善に基づく必要があります。現在、合成データの信頼性に対する最も高い要件が求められる自動運転業界では、Cruise、Nvidia、Waymo、Tesla などの例がすでに存在しており、これらの企業は、合成データに基づいて実際の道路でのアルゴリズムのパフォーマンスを効果的かつ大幅に向上させています。合成データ。もちろん、アルゴリズムが向上するにつれて、合成データの信頼性に対する要件も高まります。生成 AI における最近の継続的な進歩により、合成データのリアリズムを向上させるための実用的な良い方向性が得られました。### **シーンの多様性**自動運転シナリオの構築など、合成データ世界モデルの構築。仮想世界を作成し、現実世界の動作をシミュレーションして、合成データが湧き水のように流れ出るようにする必要があります。従来の方法は、人工アルゴリズム モデリングに基づいています。たとえば、従来の合成データ プロデューサーの構築方法は、シーン構築の速度を決定する物理エンジンのみに基づいています。物理世界全体では、3D アセット エンジニアが手動で構築する必要があります。建物や道路標識は手動で構築する必要があり、配置によりシーンの構築速度が制限され、シーンの多様性が大幅に制限されます。 Diffusion Model や Nerf などの生成 AI は、合成データの生産ラインにデータ中心の自動モデリングの可能性を提供します。人工的に構築されたシーンは、合成データの一般化を大きく制限しますが、結局のところ、トレーニングされたアルゴリズムが現実世界で十分なパフォーマンスを発揮できるほど堅牢であることが望まれます。当然のことながら、人工的な構築物で現実世界のすべてのシーンをカバーできるわけではなく、現実世界のすべてをカバーするのに十分なデータを作成するには、現実世界の暗黙の表現を学習し、十分に多様なシーンを生成する必要があります。これは生成 AI に依存する必要があります。### **生産性**汎用性の高い大量のデータを迅速に提供するためには、クラウド上での大規模並列生産が最優先であり、高い計算能力で迅速なデータ生産をサポートすることで、現実世界では比類のない速度でデータを合成することが可能になります。## **06. 生成 AI により、大規模な実際のデータを合成データで置き換えることが可能になります**NVidia Huang Renxun 氏は、人間の反射や夢は合成データの一部であり、AI が AI をトレーニングするためにデータを生成するのと同じであると考えています。大規模モデルの膨大なデータ要件を満たすには、合成データの生産リンクを完全に自動化し、AI による AI のトレーニングを可能にする必要があります。最近の拡散モデルと NeRF の急速な発展のおかげで、高品質の AI 合成データはもはや夢物語ではありません。マルコフ連鎖に基づく拡散モデルの洗練された数学的プロセスにより、より大規模でより安定した画像生成モデルの作成が可能になり、敵対的生成ネットワークのトレーニングが難しすぎるという問題も克服されます。安定拡散モデルは、拡散モデルの無限の可能性を人々に見せるために膨大な画像コレクションを使用します。また、ControlNet 関連ネットワークの導入により、特定の分野での適応がより便利になります。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-284d009079-dd1a6f-6d2ef1) NeRF (Neural Radiance Fields) は、3D 世界の構築をニューラル ネットワークの学習プロセスに変えます。ニューラル フィールド (Neural Field) とボクセル レンダリングを効果的に組み合わせて、3D 世界を非常にリアルに再構築し、煩雑なプロセスを置き換えることが非常に期待されています。物理エンジンの構築プロセス。 Waymo は、サンフランシスコを効率的に再構築し、そこで合成データを生成するために、このテクノロジーに基づいて BlockNeRF を開発しました。最近の CVPR ハイライト ペーパー UniSim は、NeRF のアプリケーションを大きく前進させました。これらのテクノロジーに基づいて、AIGC ユニコーンが出現し始めました。 StabilityAI (拡散モデル)、Midjourney (拡散モデル)、LumaLab AI (NeRF) が大量のデータバッチでトレーニングされた後は、写真の信頼性を疑うことはできなくなり、結果として得られる芸術的な効果と新しいデータ表現により、次のことが可能になります。合成データの一般化の明るい未来がここにあります。## **07、最後に記載**ChatGPT は出発点にすぎず、自然言語分野の大規模モデルは火花にすぎません。 ChatGPT は人間の自然言語データを学習することによって得られる基本的な人工知能機能をすでに備えていますが、実際、世界についての人間の認知的思考は言語とテキストに限定されず、マルチモーダルです (画像、テキスト、音声、光、電気、フィルム...）。実際の AGI は、世界中のすべてのモーダル情報を人間と同じように瞬時に、効率的に、正確に、論理的に処理し、さまざまなクロスモーダルまたはマルチモーダルのタスクを完了できなければならないことを推測するのは難しくありません。身体化されたインテリジェンスの最近の流行は、新しいマルチモーダルなインタラクション手法の出現にも期待されています。これにはマルチモーダル データも必要ですが、実際のデータを取得することがさらに困難になり、マルチモーダルな実際のデータはさらに希少になります。例えば、どこにでもあるテキストデータや画像データに比べ、対応する高品質な3Dデータセットは数えるほどしかありません。一般的に使用される科学研究の画像データ セットには、通常、数億枚以上の画像が含まれていますが、科学研究に使用できる高品質の 3D データ セットの多くには、数千または数万の 3D モデルしか含まれていません。人工知能に 3D 世界を理解させたい場合は、3D モデルを含む大量のマルチモーダル データが必要になります。これを解決するには合成データも必要になる場合があります。ワールド モデルの構築を自動化し、AI がマルチモーダル データを制御可能に生成できるようにし、よりインテリジェントな大規模モデルをトレーニングすることが、汎用人工知能への真の道です。いくつかの参考文献:************