人間のデータは急いでいる、Microsoft OpenAIはAIにAIを供給し始めた、アルトマン氏「将来的にはすべてのデータが合成データになる」

巴比特_ · 2023-08-14T03:22:36+00:00

元のソース: Qubit![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-01997d7237-dd1a6f-1c6801) 画像ソース: Unbounded AI によって生成人間のデータが不足しており、AI が生成したデータを AI が食べ始めることになります。これが、**Microsoft** や **OpenAI** などの AI 最先端企業が直面している現状です。彼らは、Wikipedia、電子書籍、ニュースサイト、ブログ、Twitter、Reddit などのプラットフォームやフォーラムから大量のデータを収集しましたが、今ではデータが枯渇しつつあります。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-57675b84a3-dd1a6f-1c6801) しかし、より優れた大規模モデルをトレーニングするには、データがいくらあっても十分ではありません。「フィナンシャル・タイムズ」紙によると、多くの企業が大規模モデルで生成された結果、いわゆる**合成データ**（合成データ）をより小さいパラメータを持つ大規模モデルにフィードしており、その結果は悪くないことが判明したという。合成データの使用について、**OpenAI** CEO のサムアルトマンは気にしないだけでなく、「**将来のすべてのデータは合成データになる**」と述べています。評価額20億ドルのビッグモデル新興企業Cohereも合成データを利用している。同社の CEO であり、古典的な大型モデルのトランスフォーマー論文の著者の 1 人であるエイダンゴメス氏は、次のようにさえ信じています。> 合成データは、「**超インテリジェント**」AI システムへの道を加速する可能性があります。では、どの大規模モデルがすでに合成データを使用しているのでしょうか?また、これらの合成データはどこから来たのでしょうか?## **大きな AI はデータを合成し、小さな AI はデータを食べる**これらのいわゆる **合成データ**は、本質的には、**手動調整**後に、より優れたパフォーマンスを備えた現在の大規模モデルによって生成されたデータであり、その後、わずかに小さい大規模モデルに供給されます。たとえば、Cohere は 2 つの大きなモデルを使用して「ロールプレイング」対話を実行し、それらによって生成された結果を合成データにしようとしました。この2つの大型モデルはそれぞれ「数学の先生」と「生徒」の役割を果たし、仮想の数学指導授業を行っています。一方、Cohere は対話の生成を監督するために人間の従業員を傍観者に配置しました。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d02afb27ac-dd1a6f-1c6801) 会話がうまくいかないたびに、人間が介入してテキストを**修正**します。人手は必要ですが、科学、医学、ビジネスの専門家を雇って文章を書くよりもはるかに安価です。では、どのような大規模モデルがこれらの合成データを使用するのでしょうか?Microsoft Research の最近の研究では、合成データを使用して GPT-4 または PaLM-2** よりわずかに小さい言語モデルをトレーニングできることが示されました。GPT-4 によって生成された「4 歳児小説」データセット **TinyStories** を例に挙げます。このデータセットには、4 歳児が理解できる単語のみが含まれていることが証明されていますが、トレーニング後は大きなモデル、同じ文法的に正しく、スムーズに読めるストーリー:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b8b3a94c43-dd1a6f-1c6801) 合成データを使用する理由について、Cohere CEO の Aidan Gomez 氏は次のように考えています。> もちろんインターネットからデータが取得できればそれに越したことはありませんが、ネットワークのデータが乱雑すぎて全くニーズを満たせません。対照的に、合成データは、広く普及していなくても、すでに豊富に存在します。## **背後にある産業チェーンが出現**現在、Scale AIやGretel.aiなどの企業が合成データサービスを外部に提供し始めている。まず、**Scale AI** は、企業に合成データサービスを提供するために、合成データ製品 Scale Synthetic を発売しました。SemiAnalysis が GPT-4 の「ビッグレース」に関するニュースを発表した前回のニュースでは、GPT-4 データセットには Scale AI と内部命令の微調整データからの数百万行が含まれていることにも言及しました。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-392177f82a-dd1a6f-1c6801) 合成データプラットフォーム **Gretel.ai** については、公式 Web サイトから引用すると、Google、Riot Games、HSBC などのさまざまな企業と協力して、他の開発者が使用できる合成データをさらに生成しています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ce6cba0f31-dd1a6f-1c6801) Gretel.ai の CEO、Ali Golshan 氏は、合成データの利点は、統計的な整合性を維持しながら、データセット内のすべての個人のプライバシーを保護できることであると考えています。しかし、すべての人が合成データの「魔法のような操作」を受け入れているわけではなく、現在、各関係者の意見は主に 2 つの波に分かれています。合成データの使用を**承認**する人もいます。 CohereのようなAI企業を含め、大規模モデルに携わる多くの企業は今でもこのアプローチに固執しており、それがより優れたAIを生成し、さらには「超知能」を生み出す可能性があると信じています。別の部分では、合成データによって最終的には AI が「**自分自身を食べさせる**」ことができるようになると考えています。たとえば、オックスフォード大学、ケンブリッジ大学、インペリアルカレッジ、トロント大学、エディンバラ大学、および Vector Institute の研究では次のことが示されています。> 合成データを使用してトレーニングすると、モデルに不可逆的な欠陥が発生します。> **忘れてください**、最終的に自己生成データによって汚染される「ありえない出来事」を考えてください。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-250bb5c779-dd1a6f-1c6801) 一部のネチズンは、これらの合成データは最終的には「使用不可能な汚泥」のプールになり、それを *浄化**するためにデータサイエンティストを雇わなければならなくなると信じています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b0962baa2d-dd1a6f-1c6801) 一部のネチズンは、これが「**AI 近親交配**」のように聞こえると嘲笑しました。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c75dd937cd-dd1a6f-1c6801) AI は合成データを使用する必要があると思いますか?参考リンク：[1][2][3][4]

巴比特_

2023-08-14 03:22:36

元のソース: Qubit

画像ソース: Unbounded AI によって生成‌

人間のデータが不足しており、AI が生成したデータを AI が食べ始めることになります。

これが、Microsoft や OpenAI などの AI 最先端企業が直面している現状です。

彼らは、Wikipedia、電子書籍、ニュースサイト、ブログ、Twitter、Reddit などのプラットフォームやフォーラムから大量のデータを収集しましたが、今ではデータが枯渇しつつあります。

しかし、より優れた大規模モデルをトレーニングするには、データがいくらあっても十分ではありません。

「フィナンシャル・タイムズ」紙によると、多くの企業が大規模モデルで生成された結果、いわゆる合成データ（合成データ）をより小さいパラメータを持つ大規模モデルにフィードしており、その結果は悪くないことが判明したという。

合成データの使用について、OpenAI CEO のサムアルトマンは気にしないだけでなく、「将来のすべてのデータは合成データになる」と述べています。

評価額20億ドルのビッグモデル新興企業Cohereも合成データを利用している。同社の CEO であり、古典的な大型モデルのトランスフォーマー論文の著者の 1 人であるエイダンゴメス氏は、次のようにさえ信じています。

合成データは、「超インテリジェント」AI システムへの道を加速する可能性があります。

では、どの大規模モデルがすでに合成データを使用しているのでしょうか?また、これらの合成データはどこから来たのでしょうか?

大きな AI はデータを合成し、小さな AI はデータを食べる

これらのいわゆる 合成データは、本質的には、手動調整後に、より優れたパフォーマンスを備えた現在の大規模モデルによって生成されたデータであり、その後、わずかに小さい大規模モデルに供給されます。

たとえば、Cohere は 2 つの大きなモデルを使用して「ロールプレイング」対話を実行し、それらによって生成された結果を合成データにしようとしました。

この2つの大型モデルはそれぞれ「数学の先生」と「生徒」の役割を果たし、仮想の数学指導授業を行っています。一方、Cohere は対話の生成を監督するために人間の従業員を傍観者に配置しました。

会話がうまくいかないたびに、人間が介入してテキストを修正します。

人手は必要ですが、科学、医学、ビジネスの専門家を雇って文章を書くよりもはるかに安価です。

では、どのような大規模モデルがこれらの合成データを使用するのでしょうか?

Microsoft Research の最近の研究では、合成データを使用して GPT-4 または PaLM-2** よりわずかに小さい言語モデルをトレーニングできることが示されました。

GPT-4 によって生成された「4 歳児小説」データセット TinyStories を例に挙げます。このデータセットには、4 歳児が理解できる単語のみが含まれていることが証明されていますが、トレーニング後は大きなモデル、同じ文法的に正しく、スムーズに読めるストーリー:

合成データを使用する理由について、Cohere CEO の Aidan Gomez 氏は次のように考えています。

もちろんインターネットからデータが取得できればそれに越したことはありませんが、ネットワークのデータが乱雑すぎて全くニーズを満たせません。対照的に、合成データは、広く普及していなくても、すでに豊富に存在します。

背後にある産業チェーンが出現

現在、Scale AIやGretel.aiなどの企業が合成データサービスを外部に提供し始めている。

まず、Scale AI は、企業に合成データサービスを提供するために、合成データ製品 Scale Synthetic を発売しました。

SemiAnalysis が GPT-4 の「ビッグレース」に関するニュースを発表した前回のニュースでは、GPT-4 データセットには Scale AI と内部命令の微調整データからの数百万行が含まれていることにも言及しました。

合成データプラットフォーム Gretel.ai については、公式 Web サイトから引用すると、Google、Riot Games、HSBC などのさまざまな企業と協力して、他の開発者が使用できる合成データをさらに生成しています。

Gretel.ai の CEO、Ali Golshan 氏は、合成データの利点は、統計的な整合性を維持しながら、データセット内のすべての個人のプライバシーを保護できることであると考えています。

しかし、すべての人が合成データの「魔法のような操作」を受け入れているわけではなく、現在、各関係者の意見は主に 2 つの波に分かれています。

合成データの使用を承認する人もいます。 CohereのようなAI企業を含め、大規模モデルに携わる多くの企業は今でもこのアプローチに固執しており、それがより優れたAIを生成し、さらには「超知能」を生み出す可能性があると信じています。

別の部分では、合成データによって最終的には AI が「自分自身を食べさせる」ことができるようになると考えています。

たとえば、オックスフォード大学、ケンブリッジ大学、インペリアルカレッジ、トロント大学、エディンバラ大学、および Vector Institute の研究では次のことが示されています。

合成データを使用してトレーニングすると、モデルに不可逆的な欠陥が発生します。 忘れてください、最終的に自己生成データによって汚染される「ありえない出来事」を考えてください。

一部のネチズンは、これらの合成データは最終的には「使用不可能な汚泥」のプールになり、それを *浄化**するためにデータサイエンティストを雇わなければならなくなると信じています。

一部のネチズンは、これが「AI 近親交配」のように聞こえると嘲笑しました。

AI は合成データを使用する必要があると思いますか?

参考リンク： [1] [2] [3] [4]

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
共有

0/400

コメントなし

トピック
Gate 2025 Q2 Report Released
26416 人気度
CPI Data Incoming
57354 人気度
Altcoin Season Update
7700 人気度
4Gate Derivatives Volume Hits New High
15686 人気度
5Join Gate VIP to Win MacBook
29505 人気度
6MicroStrategy Buys More Bitcoin
1459 人気度
7BTC Hits New High
111967 人気度
8My Gate Moments
26096 人気度
9VIP Exclusive Airdrop Carnival
25665 人気度
10Fed June Meeting Minutes
6492 人気度

ピン

サイトマップ