人工知能研究者グループであるエポック社が昨年11月に発表した調査では、機械学習データセットが2026年までにすべての「高品質言語データ」を使い果たす可能性があると推定されている。そして、この研究が発表されたとき、大型モデルの世界的なブームはまだ起こっていませんでした。この研究によると、「高品質」セットの言語データは「書籍、ニュース記事、科学論文、ウィキペディア、フィルタリングされた Web コンテンツ」からのものだったという。
同時に、OpenAI などの生成 AI 開発組織が大規模な言語モデルをトレーニングするためのデータ収集の実践については、ますます物議を醸している。 6月末、OpenAIはChatGPTを訓練するために「大量の個人データ」を盗んだとして集団訴訟に見舞われた。 RedditやTwitterなどのソーシャルメディアは、プラットフォーム上のデータが無作為に使用されることに不満を表明しており、マスク氏は7月1日、この理由からツイートの読み取り数に一時的な制限を設けた。
He Conghui 氏は、モデル開発全体のパラダイムが「モデル中心」から「データ中心」に徐々に変化すると考えています。しかし、データ中心性には標準の欠如という問題があり、データ品質の重要性がよく言われますが、実際のところ、何が良いデータ品質であり、何が標準なのかを明確に言うのは現時点では難しいのです。
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
観察|大規模モデルの波がテキストの世界全体を枯渇させようとしている 高品質のデータはどこから来るのでしょうか?
出典: ザ・ペーパー
著者: シャオ・ウェン
ChatGPTのようなAIを活用したボットは間もなく「世界中のテキストが枯渇する」可能性があると専門家は警告する。同時に、AIによって生成されたデータを使用してAIに「フィードバック」したり、モデルを崩壊させたりします。将来のモデルのトレーニングに使用される高品質のデータはますます高価になり、ネットワークは断片化して閉鎖される可能性があります。
「大規模なインダストリ モデルなど、大規模なモデルの開発がさらに深くなる場合、必要なデータはインターネット上の無料のオープン データではありません。高精度でモデルをトレーニングするには、業界の専門知識、さらには商用の知識が必要です。」 「秘密。知識。誰もがそのようなコーパスに貢献するには、権利と利益を分配するためのメカニズムが必要です。」
人工知能インフラストラクチャの「トロイカ」の 1 つとして、データの重要性は常に自明のことです。大きな言語モデルのブームがピーク期を迎える中、業界はこれまで以上にデータに注目しています。
7月初旬、カリフォルニア大学バークレー校のコンピューターサイエンス教授であり、『人工知能—最新のアプローチ』の著者でもあるスチュアート・ラッセル氏は、ChatGPTなどのAIを活用したボットが間もなく「宇宙中のテキストを使い果たす」可能性があると警告した。 ." "、そして大量のテキストを収集してボットを訓練する技術は「困難に直面し始めている」。調査会社エポックは、機械学習データセットは2026年までにすべての「高品質言語データ」を使い果たす可能性があると予測している。
「データの品質とデータ量は、次の段階で大規模モデル機能の出現の鍵となるでしょう。」CITIC シンクタンクの専門委員会のディレクターで中国証券証券研究院の所長であるウー・チャオ氏は次のように述べています。 2023 年世界人工知能会議 (WAIC) での講演 「将来のモデルの品質の 20% はアルゴリズムによって決まり、80% はデータの品質によって決まるようになるだろう」と推定されています。 -品質の高いデータがモデルのパフォーマンスを向上させる鍵となります。」
しかし、高品質のデータはどこから来るのでしょうか?現在、データ産業は、データ品質の基準とは何か、データの共有と流通をどのように促進するか、価格設定や流通収益システムをどのように設計するかなど、依然として多くの喫緊の課題に直面している。
高品質のデータが緊急です
上海データエクスチェンジの副総支配人、魏志林氏は、7月8日の本紙(メディア含む)のインタビューで、データ、計算能力、アルゴリズムの「トロイカ」において、データは中核であり、最長であり、最も重要なものであると述べた。最も基本的な要素。
現在、大規模言語モデル(LLM)は驚異的な性能を持っており、その仕組みは「知的創発」と要約されていますが、簡単に言うと、これまで教えられなかったAIスキルを学習できるようになりました。そして、多数のデータセットは「知性の出現」の重要な基盤となります。
大規模な言語モデルは、数十億から数兆のパラメーターを持つディープ ニューラル ネットワークであり、構造化データ、オンライン ブック、その他のコンテンツを含む、数テラバイト (テラバイト、1TB = 1024MB) の巨大な自然言語コーパスで「事前トレーニング」されています。 China Electronics Jinxin Research Instituteの副所長であるShan Haijun氏は、2023年の世界人工知能会議中にPeng Mei Technologyに対し、大規模モデルは本質的に確率的生成モデルであり、その核となるハイライトは理解能力(コンテキスト即時学習)と推論にあると語った(思考連鎖)と価値観(ヒューマンフィードバック強化学習)。 ChatGPT の最大のブレークスルーは、約 1,750 億のパラメータと 45 TB のデータ量を備えた GPT-3 の登場でした。
「OpenAI は、その機能をますます強力にするために、より高品質なデータを求め、既存のデータを深く分析することに常に取り組んできました。」 7 月 12 日、復丹大学教授、上海データサイエンス重点研究所所長 Xiao Yanghua 氏同氏は本紙に対し、「大規模で高品質かつ多様なデータを取得し、これらのデータを詳細に分析することは、大規模モデルの開発を促進するための重要なアイデアの 1 つとなる可能性がある」と語った。
しかし、高品質のデータは不足しています。
人工知能研究者グループであるエポック社が昨年11月に発表した調査では、機械学習データセットが2026年までにすべての「高品質言語データ」を使い果たす可能性があると推定されている。そして、この研究が発表されたとき、大型モデルの世界的なブームはまだ起こっていませんでした。この研究によると、「高品質」セットの言語データは「書籍、ニュース記事、科学論文、ウィキペディア、フィルタリングされた Web コンテンツ」からのものだったという。
同時に、OpenAI などの生成 AI 開発組織が大規模な言語モデルをトレーニングするためのデータ収集の実践については、ますます物議を醸している。 6月末、OpenAIはChatGPTを訓練するために「大量の個人データ」を盗んだとして集団訴訟に見舞われた。 RedditやTwitterなどのソーシャルメディアは、プラットフォーム上のデータが無作為に使用されることに不満を表明しており、マスク氏は7月1日、この理由からツイートの読み取り数に一時的な制限を設けた。
7月12日のテクノロジー・金融メディアInsiderとのインタビューでラッセル氏は、未確認ではあるものの、多くの報道でOpenAIが民間ソースからテキストデータセットを購入したことが詳述されていると述べた。この買収についてはさまざまな説明が考えられるが、「質の高い公的データが十分にないというのが自然な推論だ」という。
一部の専門家は、データが枯渇する前に新しい解決策が現れるかもしれないと示唆しています。たとえば、大規模なモデルは継続的に新しいデータを自動的に生成し、高品質のフィルター処理を受け、それをモデルのトレーニングに使用できます。これは自己学習または「フィードバック」と呼ばれます。しかし、オックスフォード大学、ケンブリッジ大学、インペリアル・カレッジ・ロンドンの研究者らが今年5月にプレプリントプラットフォームarXivで発表した論文によると、AIが生成したデータを使ったAIトレーニングはAIモデルに不可逆的な欠陥を引き起こす可能性があるとのこと。それはモデルの崩壊です。これは、将来モデルのトレーニングに使用される高品質のデータがますます高価になり、ネットワークが断片化して閉鎖され、コンテンツ作成者がコンテンツが無料でクロールされないよう全力を尽くすことを意味します。
高品質のデータの取得がますます困難になることは明らかです。 「現在、私たちのデータのほとんどはインターネットから来ています。今年の下半期にはデータはどこから来るのでしょうか?これは非常に重要だと思います。最終的には、誰もがプライベートデータを共有するか、私が知らないデータをあなたが持っているでしょう。」上海人工知能研究所の若い科学者で、OpenDataLab の責任者である He Conghui 氏は、2023 年の世界人工知能会議でそれについて話しました。
ウー・チャオ氏はまた、次に高品質のデータを保有する人、あるいは高品質のデータを安定して生成できる人がパフォーマンス向上の鍵になると同紙に語った。
「データ中心」のトラブル
He Conghui 氏は、モデル開発全体のパラダイムが「モデル中心」から「データ中心」に徐々に変化すると考えています。しかし、データ中心性には標準の欠如という問題があり、データ品質の重要性がよく言われますが、実際のところ、何が良いデータ品質であり、何が標準なのかを明確に言うのは現時点では難しいのです。
実践の過程で、何従輝氏も次のような問題に直面しました。「このプロセスで私たちが実践しているのは、データを細分化して、より詳細にすることです。細分化フィールドと細分化トピックごとに、データの品質基準が徐々に高くなっています」同時に、データだけを見るだけでは不十分で、データの背後にも目を向け、データとモデルの性能向上を組み合わせて、その意図に対応するモデルの性能向上を実現します。データを収集し、一連のデータ品質反復メカニズムを一緒に策定します。」
昨年、何従輝氏が勤務する上海人工知能研究所は、人工知能向けのオープンデータプラットフォームOpenDataLabをリリースし、5,500を超える高品質のデータセットを提供しました。「しかし、これは公開データセットのレベルにすぎません。私たちはデータが公開されることを願っています」 「2 日前に取引所が設立されます。大規模なコーパス データ アライアンスにより、研究機関や企業に、より優れたデータ流通方法を提供できます。」
7月6日、2023年世界人工知能会議で、上海人工知能研究所、中国科学技術情報院、上海データグループ、上海デジタルビジネス協会、国家気象センター、中国中央ラジオテレビ、上海新聞産業集団が大規模な会合を開催した。他部門と共同で立ち上げたモデルコーパスデータアライアンスが正式設立を発表。
7月7日、上海データ取引所の公式ウェブサイトでコーパスが正式に公開され、金融、交通、医療分野をカバーするテキスト、音声、画像、その他のマルチモダリティを含む合計30近くのコーパスデータ製品がリストアップされた。
しかし、そのようなコーパス構築は当然のことではない。 「大規模企業が必要とする高品質のコーパスは存在するだろうか?対象となる利用者はデータをオープンすることに前向きなのだろうか?」と上海データエクスチェンジのゼネラルマネジャー、タン・チーフェン氏は2023年の世界人工知能会議で、主に次の点に問題があると述べた。オープン性の程度とデータ品質 2 つの方法。
魏志林氏は、「データの供給は現在多くの課題に直面している。大手メーカーはデータを公開することに消極的である。同時に、誰もがデータ共有プロセスにおけるセキュリティメカニズムについても懸念している」と語った。もう 1 つの重要な問題は、データのオープンな流通のための収益分配メカニズムに依然として疑問があることです。
具体的には、データ共有には 3 つの問題を解決する必要があります。 Shanghai Lingshu Technology Co., Ltd.の創設者兼最高経営責任者(CEO)のLin Le氏はPengpai Technologyに対し、まずデータは改ざんが容易であり、データが本物で信頼できるものであることを保証する必要があると説明した。 2つ目は、データのコピーが容易であるため所有関係が明確でなく、確認や利用許可にはブロックチェーンが必要となることです。 3 つ目は、プライバシーが漏洩しやすいことです。ブロックチェーンをプライバシー コンピューティング技術と組み合わせることで、データを利用可能にしたり非表示にしたりすることができます。
所得分配を解決する方法
Tang Qifeng氏は、データの品質は高いが公開性が低いサプライヤーにとって、コーパスデータ流通の信頼問題はデータトランザクションチェーンを通じて効果的に解決できると指摘し、「その核心の一つは所有権の問題と、その後の利益の分配にある」と述べた。大型モデルに参加します。」
清華大学学際情報核心技術研究所の副所長、林長楽氏は、データの価格設定と利益の分配方法に関する理論システムを設計している。
「ChatGPT は、ある程度まで、人間の多くの知識を数か月間無料で使用する可能性があります。大規模なモデルが一部の作家の記事を学習したり、同じスタイルの記事を書いたり、ゴッホの絵画を生成したりできることはわかりますが、そうではありません」 「この支払いは必要だが、これらのデータソースの主体はその恩恵を受けていない」と林長楽氏は2023年の世界人工知能会議で述べたので、大規模モデル時代の知的財産権というより根本的な観点があるかもしれない存在しない、あるいは従来の知的財産保護は存在しないと言われています。
しかし、Lin Changle 氏は、大型モデルの時代以降、知的財産権の保護はデータ権利の確認、価格設定、取引にまで発展すると考えています。 「大規模なインダストリ モデルなど、大規模なモデルの開発がさらに深くなる場合、必要なデータはインターネット上の無料のオープン データではありません。非常に高い精度でモデルをトレーニングするには、業界の専門知識、さらには商用の知識が必要です。」 「秘密。知識。誰もがそのようなコーパスに貢献するには、権利と利益を分配するためのメカニズムが必要です。」
Lin Changle 氏が現在取り組んでいる「データ資産マップ」は、データの権利を公平に分配するための一連の収入分配メカニズムを数学を使って証明するものです。
データ流通を解決するには
工業情報化省CCID研究所の副主任技師でロシア自然科学アカデミーの外国人学者でもあるLiu Quan氏がWAIC「数値と現実の統合、未来を導くインテリジェンス」で言及 産業用ブロックチェーン生態学最近、北京版「データ二十条」が業界に登場し、非常に大きな反響を呼び、データ流通過程における核心問題を解決したフォーラム。最も明らかなのは、政府データの所有者が誰であるかという問題が明確になることです。つまり、公的データは政府に属します。企業データと個人データはどうなるでしょうか? 「北京市データ交換局に委託業務を委託することができる。」
7月5日、中国共産党北京市委員会と北京市人民政府は「データ要素の役割をより適切に果たし、デジタル経済の発展をさらに加速することに関する実施意見」に関する通知を発表した。 「実施意見」は9部に分かれており、データ財産権、流通取引、所得分配、セキュリティガバナンスの観点から基本的なデータシステムを構築し、合計23項目の具体的要件を提案しており、北京版と呼ばれている。業界の「20のデータ記事」の1つです。
「国内の観点から見ると、統計によれば、データリソースの 80% が公共機関や政府機関に集中しています。私たちはデータ供給の問題をかなりの程度まで解決したいと考えており、データ 20 条に基づいて対応したいと考えています ( 「データ基本システムの構築に関する中国共産党中央委員会と国務院のデータ要素の役割の改善に関する意見」)公共データのオープン共有は、形成されたデータを促進するための複製可能なメカニズムとパラダイムのセットを形成することができます。公共事業に携わり、その後公共に奉仕するのです」と魏志林氏は語った。
魏志林氏は、現在の統計によれば、中国全体のデータ資源のストックは世界第2位だが、これらのデータはさまざまな場所に分散していると述べた。国家情報センターのデジタル中国研究所の副所長であるZhan Yubao氏は、7月7日に開催された2023年世界人工知能会議で、中国の現在の国家データ流通システムには次のものが含まれると述べた。 データ交換は2つあり、1つは上海データ交換1である。は深セン データ交換センターであり、中国には北京データ交換センターを含む 17 のデータ交換センターがあります。