人間のデータは OpenAI によって使い果たされ、その後はどうなるでしょうか?

画像ソース: Unbounded AI によって生成

「Bigger than Bigger」(Bigger than Bigger)とは、その年の Apple の広告で、AI 分野で最も注目されているビッグ言語モデルを説明するために使用されていますが、何も問題はないようです。

大規模モデルのパラメーターは数十億、数百億、数千億と徐々に荒くなり、それに応じて AI のトレーニングに使用されるデータの量も飛躍的に増加しました。

OpenAI の GPT を例にとると、GPT-1 から GPT-3 まで、そのトレーニング データ セットは 4.5 GB から 570 GB まで急激に増加しました。

少し前に Databricks によって開催された Data+AI カンファレンスで、a16z の創設者である Marc Andreessen は、過去 20 年間にインターネットによって蓄積された膨大なデータが、この AI の新しい波の台頭の重要な理由であると信じていました。前者は後者に使用可能なトレーニング データを提供します。

ただし、ネットユーザーが AI のトレーニングに役立つデータや役に立たないデータをインターネット上に大量に残したとしても、これらのデータは底を打つ可能性があります。

人工知能の研究および予測機関であるエポック社が発表した論文では、高品質のテキスト データが 2023 年から 2027 年の間に枯渇すると予測しています

研究チームは、分析方法に重大な限界があることとモデルの不正確さが高いことを認めているが、AIがデータセットを消費する速度が恐ろしいことを否定するのは難しい。

低品質テキスト、高品質テキスト、画像の機械学習データ消費量とデータ生成傾向|EpochAI

「人間」のデータが枯渇すると、AIのトレーニングには必然的にAI自身が生成したコンテンツが使用されることになる。しかし、このような「内部ループ」は大きな課題を引き起こすでしょう。

少し前に、ケンブリッジ大学、オックスフォード大学、トロント大学などの研究者が、AI が生成したコンテンツを AI のトレーニングとして使用すると、新しいモデルの崩壊につながると指摘する論文を発表しました。 **

では、AI学習用の「生成データ」が原因でクラッシュが発生する原因は何なのでしょうか?何か助けはありますか?

01 AI の「近親交配」の結果

「The Curse of Recursion: Training with Generated Data Makes Models Forget」というタイトルの論文で、研究者らは、「モデルの崩壊」は数世代のモデルの退化プロセスであると指摘しています。

前世代のモデルによって生成されたデータは、次世代のモデルを汚染します。モデルが数世代にわたって「継承」されると、モデルは世界を誤って認識するようになります。

モデル反復の模式図|arxiv

モデルの崩壊は 2 つのステップで発生します。

  • 初期のモデル崩壊では、モデルは元のデータ、つまり「クリーンな人間のデータ」の分布情報を失い始めます。 ※後段では、旧世代モデル本来の分布情報の「誤解」をモデルに絡め、現実を歪めます。

研究者らはまず、少数ショット モデル GMM (ガウス混合モデル) と VAE (変数オートエンコーダー) をゼロからトレーニングしました。 GMM を例にとると、以下の図の左端は元のデータの正規分布です。

ご覧のとおり、モデルは最初はデータに非常によく適合しています。 50 回目の反復までに、基礎となるデータ分布が誤って認識され始めました。 反復が 2000 回に達すると、モデルは非常に小さな点に収束します。これは、モデルが着実に間違った答えを出力し始めることを意味します

反復0、50、100、150、200、350、2000でのGMMフィッティングデータの例|arxiv

実験結果に対する事前トレーニングの影響を検証するために、研究者らは、Meta が開発した 1 億 2,500 万パラメータの LLM (Large Language Model) OPT-125m で実験を実施しました (データセットは Wikipedia の wikitext2 から取得しています)。

GMM や VAE などの小規模モデルとは異なり、LLM を最初からトレーニングするコストは非常に高いため、すべて事前トレーニングされています。実験結果は次のとおりです。

入力: ポインツ ライトによると、1360 年以前の一部の活動は通常、熟練の石工と巡回石工の小規模なチームによって実行され、地元の教区の労働力によって補われていました。しかし、他の著者はこのモデルを否定し、代わりにマスター建築家が教区教会の尖塔を英国の垂直スタイルで設計したことを示唆しています。 出力: ジェネレーション 0: ロンドンの聖ヨハネ大聖堂などのリバイバル建築物。現存する最古のバーティカル リバイバル建築は、18 世紀から 19 世紀後半に建てられたガーンジーの聖母教会に遡ります。垂直教会には 2 つのタイプがあります。 第一世代の教会: ローマのサン ピエトロ大聖堂やブエノスアイレスのサン ピエトロ大聖堂などの建物。これらの建物が教皇インノケンティウス 3 世の治世中に建てられたという証拠はありませんが、彼の後継者である教皇インノケンティウス 3 世の治世中に建てられた可能性はあります。第 7 世代: 英国建築。ニューヨーク・タイムズ紙とのインタビューでライト氏は、「やりたいことができることに何の問題もないと思う。ただそれが私には合わないだけだ」と述べ、「分からない」と付け加えた。楽しいと言えるなら、第 9 世代: 建築。最大の黒@-@tailhare、白@-@tailhare、青@-@tailhare、赤@-@tailhare、黄色@- の生息地の 1 つであることに加えて、

第9世代モデルの時点では、出力内容が全く理解できないものになっていることがわかります。

この論文の著者の一人であるイリア・シュマイロフ氏は、時間の経過とともにAIが生成したデータのエラーが蓄積し、このデータに基づいてトレーニングされた主要なモデルはさらに歪んだ現実の見方を生み出すと述べた。

02 モデルがクラッシュするのはなぜですか?

「モデル崩壊」の主な原因は、AIが本物の知能ではないことですが、その「知能」を近似する能力の裏には、実は大量のデータに基づく統計的手法が存在します。

基本的に、すべての教師なし機械学習アルゴリズムは単純なパターンに従います。一連のデータが与えられた場合、これらのデータの法則を記述できるモデルをトレーニングします

このプロセスでは、トレーニング セット内の確率が高いデータがモデルによって評価される可能性が高く、確率が低いデータはモデルによって過小評価されます。

たとえば、各面の確率を計算するために、100 個のサイコロを投げた結果を記録する必要があるとします。理論的には、各顔が出現する確率は同じです。実際には、サンプル サイズが小さいため、3 と 4 のケースがさらに多くなる可能性があります。ただし、モデルの場合、3 と 4 の出現確率が高いというデータが学習されるため、3 と 4 の結果が多く生成される傾向があります。

「モデル崩壊」の模式図|arxiv

もう 1 つの二次的な原因は、関数近似誤差です。また、実関数は非常に複雑であることが多いため、理解しやすいのですが、実際のアプリケーションでは、実関数を近似するために単純化された関数がよく使用され、誤差が生じます。

03 本当に運が悪いのですか?

心配!

それでは、人間のデータがますます減少しているため、AI トレーニングのチャンスは本当にないのでしょうか?

いいえ、AI をトレーニングするためのデータ枯渇の問題を解決する方法はまだあります。

データの「分離」

AI がますます強力になるにつれて、仕事を支援するために AI を使用する人が増えています。インターネット上の AIGC は爆発的に増加しており、「クリーンな人間のデータ セット」を見つけるのはますます困難になる可能性があります。

Google の深層学習研究部門である Google Brain の上級研究員である Daphne Ippolito 氏は、将来的には、人工知能なしでは高品質で保証されたトレーニング データを見つけることがますます困難になると述べています。

これは、高リスクの遺伝病を患っている人類の祖先のようなものですが、非常に強い生殖能力を持っています。短期間のうちに、彼は地球の隅々まで子孫を増やしました。そしてある時点で、遺伝病が発生し、人類はすべて滅亡します。

「モデルの崩壊」に対処するために、研究チームが提案したアプローチの 1 つは「先行者利益」です。つまり、人工的に生成されたクリーンなデータ ソースへのアクセスを保持し、AIGC をそこから分離することです。

同時に、これには多くのコミュニティと企業が協力して、人間のデータを AIGC 汚染から守る必要があります。

それでも、人的データが不足しているということは、そうすることで儲かる機会があることを意味しており、一部の企業はすでにそれを実行している。 Redditは、APIへのアクセスコストが大幅に増加すると述べた。同社幹部らは、今回の変更は(部分的には)AI企業によるデータ窃盗への対応だと述べた。 Redditの創設者兼最高経営責任者(CEO)のスティーブ・ハフマン氏はニューヨーク・タイムズに対し、「Redditのデータベースは本当に価値がある。しかし、その価値のすべてを世界最大手の企業に無料で提供する必要はない」と語った。

合成データ

同時に、AI が生成したデータに基づいて専門的に AI トレーニングに効果的に使用されています。一部の専門家の目には、AI によって生成されたデータによってモデルが崩壊するのではないかという現在の懸念は、いくぶん「注目を集めている」ようなものです。

Light Wheel Intelligence の創設者である Xie Chenguang 氏は Geek Park に対し、海外の論文でも言及されているように、AI が生成したデータを使用して AI モデルをトレーニングするとクラッシュが発生し、実験方法には偏りがあると語った。人間のデータであっても使えるものと使えないものに分かれることがあり、論文で言及されている実験は品質検査や有効性判断を経て学習データとして対象とされるのではなく、そのまま無差別に学習に利用され、モデルをクラッシュさせる可能性があることは明らかです。

Xie Chen 氏は、実際、OpenAI の GPT-4 は、前世代モデル GPT-3.5 によって生成された大量のデータをトレーニングに使用していることを明らかにしました。 Sam Altman 氏も最近のインタビューで、合成データは大規模なモデル データの不足を解決する効果的な方法であると述べています。重要な点は、AIが生成したデータが使えるものとそうでないものを区別し、学習済みモデルの効果に基づいて継続的にフィードバックする完全なシステムがあることです。これは、OpenAIが誇るユニークな仕組みの1つです。 AI アリーナ ** であるこの会社は、より多くの資金を調達し、より多くのコンピューティング パワーを購入するという単純なものではありません。

AI 業界では、モデルのトレーニングに合成データを使用することは、部外者にはまだ知られていないコンセンサスになっています。

Nvidia、Cruise、Weilai などの企業で自動運転シミュレーションを担当していた Xie Chen 氏は、現在のさまざまな大規模モデルのトレーニングのデータ量から判断すると、今後 2 ~ 3 年で人間の運転は自動運転シミュレーションに完全に移行すると考えています。データは確かに「枯渇」しているかもしれませんが、専用のシステムと手法に基づいて、AI によって生成される合成データは、無尽蔵の有効なデータ源となります**。また、利用シーンはテキストや画像にとどまらず、自動運転やロボット工学などの産業で必要とされる合成データの量はテキストデータの量をはるかに上回ります。

AI の 3 つの要素はデータ、計算能力、アルゴリズムです。データのソースは確立されており、アルゴリズムの大規模なモデルは常に進化しています。唯一残っている計算能力のプレッシャーは、Nvidia 創設者の黄仁訓氏が解決できると信じています。スムーズに。

原文表示
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)