Zhang Yaqin、工学アカデミーの学者:事前トレーニングと生成型大型モデルは、自動運転技術のパラダイムに新たな変化をもたらす

画像ソース:無制限のAIによって生成

GPTに代表される生成型大規模モデルの出現は、人工知能技術にさらなる飛躍をもたらし、AI技術は、技術パラダイムを判別から生成へと変える過程にあります。 ジェネレーティブ、事前学習、マルチモーダルなどの大規模モデル技術の導入により、自動運転技術の成熟と無人化の可能性も提供しています。

世界をリードする人工知能研究機関であり、国内有数の自動運転AIテクノロジー企業である清華インテリジェント産業研究所(AIR)のMilli Zhixingは、大型モデルの技術トレンドとアプリケーションについて驚くほど一貫した判断を下しています。 同時に、両当事者は、データ主導の意思決定最適化の方向で詳細な調査を実施し、オールラウンドおよびマルチレベルの産学研究の緊密な協力を共同で推進し、自動運転の分野でのAIテクノロジーの適用を加速しました。

2023年10月11日、中国工程院の学者、清華大学教授、清華インテリジェント産業研究所(AIR)の社長である張亜秦は、ミリ・ジシンが開催した第9回HAOMO AI DAYに出席し、「インテリジェント運転の新たな進歩-ビッグモデル、ジェネレーティブアル、インテリジェントドライビング」と題した基調講演を行い、ジェネレーティブAIラージモデルの自動運転技術への応用に関する最新の考えを共有した。 Real2Sim2Real基本モデルプラットフォームと自動運転シミュレーションプラットフォームの構築における清華AIRの最新の成果を紹介した。

以下は、学者張亜琴のスピーチの全文です。

このような美しい天気、このような美しい場所、私はHAOMO AI DAYに参加できてとてもうれしいです、そしてまた招待してくれた張凱会長とWeihaoに感謝します。

今日は9回目のHAOMO AI DAYですが、まず、モモが4年足らずで達成した素晴らしい成果、特に彼自身の道を切り開いたことを祝福したいと思います。 Momoは自動運転でジェネレーティブラージモデルDriveGPTを最初にリリースし、急速に規模が拡大し、これほど短期間で自動運転分野のリーダーになることができたという印象があります。

今日はインテリジェントドライビングの新たな進歩について話したいのですが、私は長年同じトピックを使用してきましたが、内容が完全に異なることに気付くたびに、特に最近の生成AIが登場した後、自動運転の大きな推進がありました。

ネットワーキング、インテリジェンス、共有、電化という新しい「4つの近代化」について話してきましたが、その中で最も重要なのは、電化とインテリジェンスという2つの近代化です。 電化は新エネルギーとして理解することができ、現在、中国はすでに世界で最も活発で最大の新エネルギー市場であり、ユーザー規模であろうと輸出規模であろうと、新車の前半である世界初です。 下半期に最も重要なのはインテリジェントドライビングであり、今後5〜10年のグローバル競争のホットスポットと圧倒的な高さは自動運転です。 人工知能は自動運転のコアテクノロジーの原動力であり、HAOMO AI DAYは創業以来、同社のテクノロジーエンジンであるため、HAOMO AI DAYは非常に重要です。

なぜこれほど多くの企業がインテリジェント運転を行っているのですか? 従来の自動車メーカー、新しい力、ハイテク企業を含む自動運転市場に参入していますか? 実際、多くの技術的課題があり、まず、AIの観点から、自動運転は非常に複雑であり、多くの計算能力を必要とし、新しいアルゴリズムは、最も困難なAI垂直フィールドの問題であり、第二に、自動運転は、現在見られる集中知能、エッジ知能、自律知能の交差点でもあります。 今のテストビデオでは、自動運転が非常に多くの複雑なシナリオと変化に直面しており、確かに多くの課題があることがわかります。

しかし、自動運転は完全に実現可能であり、市場要因と非市場要因という重要な課題もあると思います。 市場要因には以下が含まれます:テクノロジーは実現可能ですか? ユーザーには本当のニーズがありますか? 産業エコロジーとビジネスモデル。 非市場要因も非常に重要であり、業界における技術的ブレークスルー、政府業界のサポート、およびポリシーと規制のブレークスルーが必要です。

技術面では、当初、自動運転が実現可能かどうか、特にL4以上で実現可能かどうかという話が多かったのでしょうか。 最初から実現可能だと思っていました。 最近、無人運転は有人運転の約10倍安全であるというデータをいくつか見ましたが、昨年は3回ほど話していましたが、今年は10倍に達しました。 これは、技術的なブレークスルーが完了したことを示しています。 商業化ロードマップには、現在、さまざまな方法があり、自転車インテリジェンスを使用しているもの、道路調整を使用しているもの、段階的なリープフロッグルート、オープンソース、クローズドルートがあり、さまざまな企業がさまざまなロードマップを模索しており、どれが完全に正しいかは言わず、業界はさまざまな方法で自動運転を試しています。 モモがプログレッシブなものを選んだことを私は知っています、そしてそれはすべて良いと思います、そして人々はそれをさまざまな方法で探求します。

最近、AIには多くの新しいブレークスルーがありました。 新しいアルゴリズム、新しいフレームワーク、特に事前トレーニング、マルチモーダル、マルチ教師あり学習、および大規模なモデルが主流になりつつあります。 トランスフォーマー以前は、ResNeTは非常に広く使用されているビジョンアルゴリズムフレームワークであり、ResNeTについて具体的に言及した理由は、このアルゴリズムは実際には中国の若い中国人科学者によって行われているため、中国の科学者は人工知能に多大な貢献をしてきました。 AIのコアは主にヨーロッパから来ており、基本的な理論はそこから来ているという多くの声明を聞いたことがありますが、中国の科学者は人工知能の分野でも多くの貢献をしています。

大規模なモデルでは、技術的な制限を突破することが重要です。 過去6〜70年の間に、ムーアの法則、フォンノイマンの建築、シャノンの3つの法則の3つの主要な理論があり、現在、3つの理論すべてが破られています。 ブレークスルーがなければ、大規模なモデルを達成することは不可能であり、新しいセンシング方法、新しい知覚方法、チップの新しいフレームワークなどを含む新しいコンピュータアーキテクチャのブレークスルーが必要であり、現在、主流のトランスフォーマーとCNN畳み込みニューラルネットワークも異なります。 現在、デジタル技術産業は主にシリコンウェーハベースのコンピューティングに基づいており、将来的には生物科学、光コンピューティング、量子コンピューティングが存在する可能性があります。

現在、大規模なモデルが生成AIをもたらすことは非常に重要であり、過去にはAIが分類、つまり判別AIについて話していました。 これで、新しいコンテンツのアイデア、データのアイデア、およびシーンの多くの新しいアイデアを完全に生成できるようになりました。 ここで、この分野での私の仕事について少しお話ししましょう。

大きなモデルは新しい方向に進みます。 1つ目はマルチモダリティで、自然言語、画像、ビデオだけでなく、すべての車両から放出されるセンシング信号、ライダーなどの物理的知覚、生体感覚信号も備えています。 GPT-4モデルはマルチモーダルであり、その機能は非常に強力ですが、効率は非常に低く、人間の脳の計算と意思決定の効率よりも少なくとも1000倍低いため、新しいアルゴリズムが必要であり、5年後に新しいアルゴリズムがあると思います。 2つ目は、エッジコンピューティング、携帯電話、車、ロボット、身体化されたインテリジェンスと物理的な世界のエッジに非常に複雑な大規模なモデルを配置する方法を含むタスクを自動的に完了できる自律知能であり、自動運転は最も重要な具体化されたインテリジェントシーンだと思います。 未来はブレインコンピュータインテリジェンスの段階であり、大きなモデルは生物学の世界、生命の世界をどのように使用するか、そして人と脳をよりよく接続する方法に直面するでしょう。

新しいテクノロジーアーキテクチャは、新しいAIオペレーティングシステムと同様に、大規模なモデルを使用し、自動運転やライフサイエンスなどの他の垂直モデルを含む多くの垂直モデルがあります。

3年間で急速に発展した百度を退職した後に設立した人工知能産業研究所である清華インテリジェント産業研究所(AIR)について簡単に説明しますが、深い産業的背景と深い学歴を持つ科学者や企業CTOのグループを見つけるのも幸運です。 現在、約300人のポスドクと学生がおり、自動運転は方向性の1つであり、約100人です。

AIR Research について話すたびに、25 年前に中国に戻ってマイクロソフト リサーチ アジアを設立したときのことを思い出します。 来月は、それ自体が大成功を収めているマイクロソフトリサーチアジアの25周年を祝います。 先ほどお話しした大きなモデルは、マイクロソフトリサーチで開発されたもので、中国産業の研究所を作ろうとしています。

さまざまな研究に従事する場合、インテリジェントドライビングなどの大きなフレームワークを持つことを望んでおり、最初にいくつかの技術的なルートを決定する必要があります。 まず、マルチモーダルな知覚が非常に重要であり、オリジナルからのマルチスケール、多次元データが非常に重要だと思います。 無人運転、インテリジェント運転を行うには、ロボットの利点は、まず第一に、より多くのデータを必要とすることであり、このデータの利点はまだ削除できないので、私はマスクがカメラのみを使用し、より多くのデータソースを使用する必要があると言ったことに同意しません。 第二に、多くの自動運転は今や多くの高解像度地図を使用するようになりますが、未来はライトマップであり、地図に完全に依存することはできません。

最終的な安全で信頼性の高い段階に到達するための自動運転は、エンドツーエンドで達成されなければならず、これも非常に困難であり、生成AI、強化学習、大規模言語モデルを含むより詳細な技術的要因があり、データ大規模モデルプラットフォーム、シミュレーションプラットフォームの2つのプラットフォームがあります。

AIRは自動運転の基本モデルも提案している。 まず、実世界のデータとシミュレーションデータなど、さまざまなデータを取得する方法を提案します。 データは制御されたパイプラインを介してクリーニングされ、認識モデル、クラウド内のいくつかの重要な場所での意思決定を含む意思決定モデル、および車両側での意思決定を含む2つの大きなモデルを通過し、一部のモジュールは情報ベース、一部は統計、一部はルールベースのモジュールです。

強化学習はバイドゥ以来使っているので、特に「強化学習」を取り出しましたが、使いにくいです。 自動運転の安全性は非常に重要であるため、使用するのはかなり難しいですが、これが私たちが本当により高い安全性を達成できる唯一の方法であり、強化学習は新しいことを学ぶことができ、現在、一般化手法は強化学習に依存して学習し、最近多くの新しい開発がありました。 強化学習を多くのシミュレーションや意思決定に活用し、実際の運転の挙動に活用する方法。 左側のモデルは垂直ビッグデータであり、強化学習を使用してモデルを調整する方法です。

さらに、ジェネレーティブAIをシミュレーションや意思決定にどのように使用できますか? ここには小さな例があり、大規模なモデルとディープラーニングの両方に透明性の問題があるので、この調査も行いましたが、なぜこの決定を下したのですか? 左、右、ブレーキをかけて、私が見ているものとなぜ私がこの決定を下しているのかを教えてください、そしてそれは決定を下す方法を導くことができます。 これは、実際のデータ、シミュレーションデータ、垂直モデル、および大規模なモデルを使用して、交通情報や歩行者情報などの意味的な深度シーンを生成することです。

もう一つは、人間の脳と機械の融合で、人間がどのように運転するかを研究しなければなりません。 人々は良い決定を下すこともあれば、そうでないこともあり、センサーを介してこの情報を収集します。 一方では、長い間、人と機械は一緒に運転する必要があり、無人の人々はゆっくりと人間の運転を理解する必要があります。 一方、モデルは、アルゴリズムの効率を向上させるためにアルゴリズムで使用されます。

最後に、強化学習を認知的意思決定に適用する方法について、Milliと深い技術協力を行えることを非常に嬉しく思います。 現在、強化学習は、関数定義の問題や政策の曖昧さなど、オンラインでもオフラインでも多くの問題を抱えているため、このような研究を数多く行ってきました。 ここ1年ほどで、国際トップカンファレンスでたくさんの論文が発表され、特許もありますが、最も重要なことは、それが自動車に使用され始め、ロジスティクスを見たばかりの車がこれらのアルゴリズムを使用し始めたことです。

要約すると、インテリジェント運転と自動運転のさまざまな段階を見ると、最初はLIDARとハードウェアによって駆動され、より多くは人工的なルールに基づいています。 2.0はソフトウェアとアルゴリズムによって駆動され、この段階ではより多くのセンサーがあり、機械学習とルールにも依存しています。 3.0の時代になった今、それは大きなモデルによって駆動され、この段階では、エンドツーエンドのアルゴリズムを使用する多くのセンサーがあり、強化学習も使用され、現実世界での自動運転をより大幅に実現できます。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)