7月6日、2023年世界人工知能会議(WAIC)科学フロンティア総会で、深層学習とコンピューターサイエンスの専門家であり、上海人工知能研究所の教授であり、ホン中文大学の教授でもある林大華氏は、次のように述べた。 Kong は、Shusheng Tianji LandMark の大型 3D リアルシーンモデルをリリースし、その技術原理と機能応用を紹介しました。
「Shusheng General Model System」(以下、「Shusheng Large Model」という)もカンファレンスで初めて公開されました。これには、Shusheng・Multimodal、Shusheng・Puyu、Shusheng・Tianji の 3 つの基本モデルと、初の大規模モデル指向 研究開発とアプリケーションのためのフルチェーンのオープンソース システム。
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
上海人工知能研究所が蜀盛・天吉ランドマークの3Dリアルシーンモデルを公開
出典: ザ・ペーパー
ウー・ティエンイー記者 インターン チェン・シャオルイ
・1,000億個のパラメータを備えた世界初のNeRF 3D現実大規模モデル・Sky LandMarkは複数の都市編集機能をサポートできます。デモンストレーションでは、武康ビルは NeRF テクノロジーを使用して、さまざまな期間に応じてそのスタイルと光と影の効果を変更でき、中国文化宮殿は全体の回転またはさまざまなレイヤーの回転を実行できます。
・上海人工知能研究所は、マルチモダリティ、Puyu、Tianjiの3つの基本モデルを含む学者向けの一般的な大規模モデルシステムを立ち上げ、同時に大規模モデル用の初のフルチェーンオープンソースシステムを立ち上げた開発と応用。
7月6日、2023年世界人工知能会議(WAIC)科学フロンティア総会で、深層学習とコンピューターサイエンスの専門家であり、上海人工知能研究所の教授であり、ホン中文大学の教授でもある林大華氏は、次のように述べた。 Kong は、Shusheng Tianji LandMark の大型 3D リアルシーンモデルをリリースし、その技術原理と機能応用を紹介しました。
林大華氏は、Shusheng・Tianji LandMarkは、上海人工知能研究所、香港中文大学、上海測量地図研究所が共同開発した世界初の1000億パラメータのNeRF 3D実物大規模モデルであると述べた。ライトフィールドモデリングはオブジェクトレベルから都市レベルまで拡張されます。林大華氏は、Shusheng・Tianji LandMarkのリリースは大規模モデルの革新的な応用であり、「将来都市レベルのAIGC(人工知能生成コンテンツ)を実現する技術的可能性を提供する」と述べた。
「Shusheng General Model System」(以下、「Shusheng Large Model」という)もカンファレンスで初めて公開されました。これには、Shusheng・Multimodal、Shusheng・Puyu、Shusheng・Tianji の 3 つの基本モデルと、初の大規模モデル指向 研究開発とアプリケーションのためのフルチェーンのオープンソース システム。
リンゴから街全体まで
「テキストを生成するだけでなく、大きなモデルは私たちにより想像力豊かな世界を提供することもできます。」 学者の Tianji LandMark は NeRF テクノロジーを使用して、大きなモデル テクノロジーの応用にさらなる可能性を提供すると Lin Dahua 氏は述べました。
NeRF は、2020 年 3 月に Google 研究チームによって初めて提案された新しいタイプの 3D ライト フィールド モデリング テクノロジーです。当初は 3D モデリングに適用され、小さなオブジェクト (リンゴの大きさ) のレベルに限定されていました。 。 「しかし、NeRF技術はそれ以上のものであると私たちは考えています。」とリン・ダーファ氏は述べ、「2021年12月10日、私たちのチームは初めてNeRFライトフィールドモデリングの能力を小さなリンゴの物体レベルから都市レベルに拡張することを提案しました。」 NeRF テクノロジーの機能を物体から都市まで拡張するのはこれが世界初であり、研究チームがしばらく都市レベルの NeRF を提案した後、カーネギー メロン大学と Google がそれぞれの都市レベルの NeRF テクノロジーをリリースしたと同氏は述べました。 。
「都市レベルの NeRF のコア技術に基づいて、私たちはその拡張性と機能を常に改善しています。」林ダーファ氏は、Shusheng・Tianji LandMark の 3D 現実大規模モデルは第 2 世代 CT NeRF 技術とアルゴリズムに基づいていると紹介しました。研究チームの優れた技術であり、100 平方キロメートルをカバーする 2,000 億のパラメータを含むあらゆる範囲の高精度リアルタイム レンダリングをサポートし、実際のシーンのあらゆる細部が 4K 高解像度をサポートします。
リアル3Dとは、一定範囲内の現実の人間の生産・生活・生態空間を時系列で3次元的に反映・表現したデジタル空間です。レポートによると、Shusheng・Tianji LandMark は、アルゴリズム、オペレーター、コンピューティング システムを統合し、モデル レベルで新しい実世界 3D モデル表現とトレーニング パラダイムを提案し、効率的にトレーニングしながら、大規模な 3D 都市シーンを正確に表現できます。高品質のニューラル レンダリング効果を実現します。高精度モデリング、高精度レンダリング、機能スケーラビリティ、トレーニングとインタラクションの統合という 4 つの側面で主導的役割を果たします。
Shusheng・Tianji LandMark は、都市レベルの編集やスタイル変換などの機能もサポートします。デモンストレーションでは、武康ビルは NeRF テクノロジーを使用して、さまざまな期間に応じてそのスタイルと光と影の効果を変更でき、中国文化宮殿は全体の回転またはさまざまなレイヤーの回転を実行できます。 「これは将来、都市レベルの AIGC に技術的な可能性をもたらします。」と Lin Dahua 氏は述べました。
中国文化宮殿のさまざまな部分は「回転」できます。
林大華氏は「新しい3Dリアルシーン生成技術を通じて、未来の都市空間に新たな想像力と革新空間を注入できることを願っている。将来的には、上海AIラボはShusheng Tianjiのモデリング範囲と機能を拡大し、 Shusheng Tianji のアルゴリズム、オペレーター、システムはすべてオープンソースです。」
学者向け初の一般的な大規模モデルシステム
林大華氏は会議で、マルチモーダル、Puyu、Tianjiの3つの基本モデルを含む一般的な大規模モデルシステムを学者向けに紹介し、同時に大規模向け初のフルチェーンオープンソースシステムを立ち上げた。スケールモデルの開発と応用。その中で、マルチモーダル大規模モデルは 200 億のパラメータを持ち、350 万のセマンティック タグをサポートし、80 以上のタスクで世界をリードしています。Pu 言語大規模モデルは、複数のパラメータをサポートする 1,000 億のパラメータを備え、中国で正式にリリースされた最初の大規模モデルです。言語。
「学者Puyuは、すべての次元でLLaMA-7B(メタAIのFAIRチームが開発した人工知能言語モデル)を上回りました。」 リン・ダーファ氏は、Shusheng Puyuは数千億のパラメータを持つ大規模なモデルとして、両方とも最高を上回る成果を達成したと述べました中国の既存のオープンソース モデル。
今年6月7日、上海AIラボとSenseTimeは香港中文大学、復旦大学、上海交通大学と共同で「Scholar・Puyu」の大規模言語モデルをリリースした。このモデルには 1,040 億のパラメータがあり、数千億のパラメータを持つ現在の大規模言語モデルの 1 つであり、1 兆 6,000 億のトークンを含む多言語の高品質データセットに基づいてトレーニングされています。
報道によると、Scholar・Puyuは6月の正式デビュー以来、1か月以内に5つの側面を含む包括的なアップグレードが行われたという。まず、コンテキスト ウィンドウの長さが 2K から 8K に増加したことで、長い入力を理解し、複雑な推論を展開し、長期にわたる複数回の対話を実行できるようになりました。第 2 に、多言語および構造化された表現機能がさらに向上しました。モデルの新バージョンは 20 以上の言語をサポートし、表やチャートを通じて複雑な情報を要約して表示することもできます。第三に、多次元機能が包括的に改善され、42 の主流評価セットのパフォーマンスが大幅に向上しました。が向上し、そのうち 35 個のパフォーマンスが ChatGPT を上回りました; 第 4 に、数理論理学的能力が大幅に向上し、数値計算、関数演算、方程式を解くなどの数学的能力が大幅に向上しました 数学評価セット GSM8K のパフォーマンス62.9点から73.2点に上昇 2023年大学入学試験の選択式問題では、正答率が70%以上向上 5つ目は、安全性と位置合わせ能力が大幅に向上 より効果的な指導の微調整により、ヒューマンフィードバックに基づく強化学習 (RLHF) を含め、新しいバージョンのモデルは人間の指示により確実に従うことができ、安全性も明らかに向上します。
「すべての大型モデルの究極の価値は、依然として生活と生産のための価値を生み出すことです。上海人工知能研究所は、イノベーションを通じて技術的なブレークスルーを達成するだけでなく、特定の業界でのこれらの技術の実装の促進にも尽力しています。」とリン・ダーファ氏は述べた。ミーティングにて。
Lin Dahua 氏は、大規模モデル自体に加えて、チームはツール システムのチェーン全体もオープンソース化し、大規模モデルの開発中のデータ、事前トレーニング、微調整、展開、評価の 5 つの主要なリンクをカバーしていると述べました。 「オープンソース ツール システムを通じて、モデルの価値が最大限に活用されています。オープンソースは、開発者が大規模なモデルに基づいて開発し、革新するのに本当に役立つと信じています。」
報告によると、正式なオープンソース バージョンは 70 億パラメータを備えた軽量の InternLM-7B で、40 の評価セットを含む全次元評価において優れたバランスのとれたパフォーマンスを示し、既存のオープンソース モデルを上回っています。