AIは行き詰まるのか?大規模モデルをトレーニングするためのデータは 2026 年までに枯渇する可能性がある

出典: 「Tencent Technology」、著者: Jinlu

焦点を当てる:

  1. 最近の生成人工知能のブームでは、超大規模モデルのサポートが必要であり、大規模モデルは大量のデータでトレーニングする必要があるため、データの貴重性がますます高まっています。
  2. 研究者らは、データの需要が劇的に増加し、大規模モデルのトレーニングに使用できる高品質のテキスト データが 2026 年に枯渇する可能性があると考えています。データ争奪戦が始まっている。
  3. 米国ではモデルビルダーに対する著作権侵害訴訟が数多く起きており、OpenAI、Stability AI、Midjourney、Meta がすべて被告となっています。
  4. 人工知能企業は、他の企業とのデータ著作権契約の締結、自社ツールとのユーザーインタラクションを通じてデータの収集、企業顧客からの内部データの使用の試みなど、新しいデータソースを模索しています。

画像ソース: Unbounded AI によって生成

つい最近まで、アナリストたちは人工知能(AI)がクリエイティブ向けソフトウェア開発会社アドビの没落につながるのではないかと公然と推測していた。プロンプトテキストに基づいて画像を生成する Dall-E 2 や MidTrik などの新しいツールにより、Adobe の画像編集機能が不要になっているようです。ちょうど今年の4月にも、経済ニュースウェブサイトSeeking Alphaも「人工知能はアドビキラーになるのか?」というタイトルの記事を掲載した。

しかし実際には、事実はアナリストの想定とは大きく異なります。アドビは、数億枚のストック写真のデータベースを使用して、Firefly と呼ばれる独自の人工知能ツール スイートを構築しました。同社幹部のダナ・ラオ氏によると、3月の発売以来、Fireflyは10億枚以上の画像の作成に使用されているという。アドビは、競合他社のようにインターネットで画像をマイニングすることを避けることで、現在業界を悩ませている深刻化する著作権紛争を回避している。 Fireflyの発売以来、アドビの株価は36%上昇した。

データ争奪戦が始まります

いわゆる「ドゥームスレイヤー」に対するアドビの勝利は、急成長する人工知能ツール市場における覇権争いの広範な影響を浮き彫りにしている。いわゆる「生成人工知能」の最新の波を支える非常に大規模なモデルは、膨大な量のデータに依存しています。以前は、モデルビルダーは主にインターネットからデータを (多くの場合許可なく) スクレイピングしていました。現在、彼らはこの熱狂的なトレーニング体制を維持するための新しいデータソースを見つけています。同時に、膨大な量の新しいデータを抱える企業は、そこから利益を得る最善の方法を検討しています。データ争奪戦が始まっている。

人工知能モデルの 2 つの基本要素はデータ セットと処理能力です。システムはデータ セットでトレーニングされ、モデルは処理能力を通じてこれらのデータ セットの内部と外部の関係を検出します。ある意味、これら 2 つの基本は互換性があり、より多くのデータを取り込むか、より多くの処理能力を追加することでモデルを改善できます。しかし、後者は専用の AI チップの不足によりますます困難になっており、モデル構築者はデータの検索に倍力を注いでいます。

調査会社エポックAIは、データ需要が劇的に増加し、トレーニングに利用できる高品質のテキストが2026年までに枯渇する可能性があると考えている。 Google と Meta という 2 つのテクノロジー巨人の最新の人工知能モデルは、1 兆を超える単語でトレーニングされていると報告されています。比較すると、オンライン百科事典ウィキペディアに掲載されている英語の単語の総数は約 40 億語です。

重要なのはデータセットのサイズだけではありません。データが優れているほど、そのデータでトレーニングされたモデルのパフォーマンスも向上します。データ新興企業スケール AI のラッセル・カプラン氏は、テキストベースのモデルは、長く、よく書かれた、事実に正確な作品で理想的にトレーニングされると指摘しています。この情報を入力したモデルは、同様に高品質の出力を生成する可能性が高くなります。

同様に、AI チャットボットは、自分たちの仕事を段階的に説明するよう求められた場合に、より適切な答えを返すため、教科書などのリソースの必要性が増加します。専用の情報セットにより、よりニッチなアプリケーション向けにモデルを「微調整」できるため、さらに価値が高まります。 2018年にソフトウェアコードリポジトリのGitHubを75億ドルで買収したMicrosoftは、それを利用してコードを書くための人工知能ツールを開発した。

データ著作権訴訟が急増、AI企業はライセンス契約の締結に追われている

データの需要が高まるにつれて、データギャップへのアクセスはますます困難になり、コンテンツ作成者は現在、AI モデルによって吸収された素材に対する補償を要求しています。米国では模型製作者に対して多数の著作権侵害訴訟が起こされている。コメディアンのサラ・シルバーマンを含む作家グループが、人工知能チャットボットChatGPTの開発者であるOpenAIとFacebookの親会社Metaを訴えている。さらに、アーティストのグループも同様に、テキストから画像へのツールを開発している2社であるStability AIとMidjourneyを訴えている。

このすべての結果として、AI 企業がデータソースの獲得を競う中、相次ぐ取引が発生しています。 7月、OpenAIはAP通信と、同局のニュースアーカイブへのアクセス権を得る契約を結んだ。最近では、同社はまた、Meta も契約を結んでいる画像ライブラリプロバイダーである Shutterstock との契約を拡大した。

8月初旬、Googleが作詞作曲用の人工知能ツールの開発に役立てるためアーティストの声のライセンス供与についてレコードレーベルのユニバーサルミュージックと協議しているとの報道が浮上した。資産運用会社フィデリティによると、同社には多くのテクノロジー企業から財務データへのアクセスを求める打診があったという。噂によると、AI Labが画像と映画のアーカイブを求めてBBCに接近しているという。もう 1 つの興味深いターゲットは、学術雑誌のデジタル ライブラリである JSTOR です。

これらの情報保有者は、より大きな交渉力を活用しています。フォーラムの Reddit と、プログラマーに人気の質疑応答サイト Stack Overflow は、どちらもデータへのアクセスコストを引き上げています。どちらのサイトも、ユーザーが回答に「いいね!」をするため、モデルがどれが最も関連性が高いかを知るのに役立つため、特に価値があります。ソーシャルメディアサイトX(旧Twitter)は、ボットがサイト上の情報を収集する能力を制限する措置を講じており、そのデータにアクセスしたい人は誰でも料金を支払う必要がある。 Xのボス、イーロン・マスク氏は、そのデータを利用して独自の人工知能ビジネスを構築することを計画している。

したがって、モデル構築者は、既存のデータの品質を向上させるために取り組んでいます。多くの AI ラボでは、画像のラベル付けや回答の評価などのタスクを実行するために、大量のデータ アノテーターを雇用しています。これらの仕事の中には、生命科学を専攻した修士号または博士号の候補者が必要なほど複雑なものもあります。しかし、それらの仕事のほとんどは日常的なものであり、ケニアのような国の安い労働力に委託されている。

AI 企業は、ユーザーによるツールの操作を通じてデータも収集します。これらのツールの多くは、ユーザーがどの出力が役に立ったかを示す何らかの形式のフィードバック メカニズムを備えています。 Firefly のテキストから画像へのジェネレーターを使用すると、ユーザーは 4 つのオプションから選択できます。 Googleのチャットボット「Bard」も3つの答えを提供している。

ユーザーは、ChatGPT がクエリに応答するときに、ChatGPT に親指を立てることができます。この情報は基礎となるモデルへの入力としてフィードバックされ、スタートアップ Contextual AI の共同創設者である Douwe Kiela 氏が「データ フライホイール」と呼ぶものを形成します。チャットボットの回答の品質を示すより強力なシグナルは、ユーザーがテキストをコピーして別の場所に貼り付けるかどうかである、と同氏は付け加えた。この情報を分析することで、Google は翻訳ツールを迅速に改善することができます。

新しい分野を開拓すれば、企業顧客の内部データがお菓子になります

しかし、ほとんど活用されていないデータ源が 1 つあります。それは、テクノロジー企業の企業顧客内に存在する情報です。多くの企業は、コールセンターの記録から顧客の支出記録に至るまで、知らず知らずのうちに豊富な有用なデータを保有しています。この情報は、コールセンターの従業員が顧客の質問に答えたり、ビジネス アナリストが売上を伸ばす方法を見つけたりするなど、特定のビジネス目的に合わせてモデルを微調整するのに役立つため、特に価値があります。

しかし、この豊富な資源を活用するのは簡単ではありません。コンサルティング会社ベイン・アンド・カンパニーのアナリスト、ロイ・シン氏は、歴史的にほとんどの企業は、AIツールのトレーニングに最も役立つであろう巨大だが非構造化データセットにほとんど注意を払っていないと指摘する。このデータは多くの場合、複数のシステムに分散され、クラウドではなく企業サーバーに隠されています。

この情報を活用することで、企業は AI ツールをカスタマイズして特定のニーズをより適切に満たせるようになります。テクノロジー大手の Amazon と Microsoft は現在、Google と同様に、他の企業が非構造化データ セットをより適切に管理できるようにするツールを提供しています。データベース会社スノーフレークのクリスチャン・クライナーマン氏は、顧客が「データサイロの打破」を目指しているため、この分野は急成長していると述べた。

スタートアップ企業もこの新しい分野に群がっています。今年4月、人工知能に重点を置いたデータベース会社Weaviateは、評価額2億ドルで5000万ドルを調達した。わずか 1 週間後、ライバルの PineCone は 7 億 5,000 万ドルの評価額で 1 億ドルを調達しました。今月初め、別のデータベース新興企業 Neon も 4,600 万ドルを調達した。明らかに、データの争奪戦は始まったばかりです。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)