Nature の最新表紙: AI が人間の世界チャンピオンを破り、ドローンレースの最速記録を樹立

2023-08-31 05:52:18

著者：ヤン・イーミ、編集者：アカデミック・ジュン

人工知能 (AI) が再び人間のチャンピオンを破りました。

今度はドローンレースの領域です。

チューリッヒ大学のロボティクスと知覚グループのエリア・カウフマン博士のチームと彼女のインテルチームは、自動運転システム - Swift を共同設計しました。これは、ドローンを 1 台で飛行させ、人間の敵を 1 台で倒すことができます。一対一のチャンピオンシップマッチ。

この大ヒット研究結果は、ネイチャー誌最新号の表紙記事として掲載されたばかりです。

写真 | 『Nature』最新号の表紙。 (出典: 自然)

『ネイチャー』誌に同時に掲載されたニュースと見解の記事の中で、オランダのデルフト工科大学の研究者であるグイド・デ・クルーン教授は、「カウフマンらによる研究は、ロボット工学者にとって大きな前進である」と書いた。現実のギャップを克服する。良い例。Swift は AI 学習技術と従来のエンジニアリングアルゴリズムを巧みに組み合わせてトレーニングされていますが、このテクノロジーの可能性を最大限に引き出すには、より現実的で多様な環境でシステムをさらに開発する必要があります。」

それにもかかわらず、研究チームは、この研究はモバイルロボット工学と機械知能における画期的な出来事であり、自律型地上車両、航空機、パーソナルロボットなどの他の物理システムへのハイブリッド学習ベースのソリューションの展開を促す可能性があると述べています。

AI とエンジニアリングアルゴリズムを統合したインテリジェントなトレーニング

現在、深層強化学習に基づく人工知能 (AI) システムは、Atari ゲーム、チェス、スタークラフト、グランツーリスモなどのゲームで人間のチャンピオンを上回っています。ただし、これらの成果はすべて現実世界ではなく仮想環境で行われました。

ドローンレースは経験豊富なパイロットにとってもAIにとっても挑戦的ですが、AIにとってはさらに挑戦的です。 仮想環境ではリソースがほぼ無制限ですが、現実世界に移行すると限られたリソースを使用する必要があるためです。人間のパイロットに代わるセンサーやコンピューティング機器を空に持ち運ぶ必要があるため、これは特にドローンに当てはまります。

さらに、現実世界は仮想世界よりもはるかに予測不可能です。シミュレートされたレーシングドローンは、事前にプログラムされた軌道に従って完全に飛行できますが、ドローンに発行された単一のコマンドが複数の影響を与える可能性があり、その影響を予測するのは難しく、AIによって訓練されたドローンの場合は特に複雑です。

従来のエンドツーエンドの学習方法では、仮想環境のマッピングを現実世界に移すことが困難です。仮想と現実の間には現実のギャップがあり、現実のギャップは学習における主な課題の 1 つとなっています。ロボット工学の分野。

この研究では、Swift システムは、AI 学習テクノロジーと従来のエンジニアリングアルゴリズムを統合することにより、インテリジェントなトレーニングを実現しました。まず、システムはドローンが撮影したカメラの画像を人工ニューラルネットワークを通じて処理し、ドアの角を正確に検出します。次に、両眼視ソフトウェアを使用してドローンの速度を計算します。

Swift システムのイノベーションは、ドローンのステータスを推力と回転速度を調整するコマンドにマッピングする別の人工ニューラルネットワークです。強化学習を使用して、シミュレーションでの試行錯誤のプロセスを通じて環境から得られる報酬を最適化します。このアルゴリズムでは、システムはエンドツーエンド学習ではなく強化学習を使用し、抽象的な概念を通じて現実とシミュレーションの間のギャップを埋めることができます。

状態は元の画像よりも高い抽象レベルでエンコードされるため、強化学習シミュレーターは複雑な視覚環境を必要としません。この最適化により、シミュレートされたシステムと実際のシステムの差が減少し、シミュレーションの速度が向上し、システムは約 50 分で学習を完了できるようになります。

論文によると、Swift は監視ポリシーと制御ポリシーという 2 つの主要なモジュールで構成されています。このうち、観測ポリシーは、高次元の視覚情報と慣性情報をタスク固有の低次元エンコードに変換できる視覚慣性推定器とゲート検出器で構成され、制御ポリシーは 2 層パーセプトロンで表され、低次元エンコードを受け入れ、それをドローンコマンドに変換します。

人間のパイロットを超えたスピードとパフォーマンス

この大会のコースは、外部の世界クラスのFPV（一人称視点）パイロットによって設計されました。このトラックは、30 × 30 × 8 メートルのスペースに配置された 7 つの正方形のゲートで構成され、長さ 75 メートルのトラックを形成します。

さらに、このトラックには、スプリット S などを含む、独特で挑戦的な操作が特徴です。たとえ衝突が起こっても、飛行機が飛行し続ける限り、パイロットはレースを続けることができます。衝突が発生し、どちらのドローンもコースを完了しなかった場合は、より遠くにいたドローンが勝ちます。

スウィフトは、アレックス・ヴァノーバー（2019年ドローン・レーシング・リーグ世界チャンピオン）、トーマス・ビットマッタ（2019年マルチGPチャンピオン）、マービン・シェイパー（3回スイスチャンピオン）らと複数のレースに出場してきました。

その中で、スウィフトはA・ヴァノーバー戦で9試合中5勝、T・ビットマッタ戦で7戦中4勝、M・シェパー戦で9試合中6勝した。

さらに、スウィフトは計10回失敗したが、そのうち40％は相手との衝突、40％はドアとの衝突、20％は人間のパイロットよりも遅い飛行が原因だった。

**全体として、スウィフトは人間のパイロットに対してほとんどのレースで勝利しました。さらに、スウィフトは人間のパイロット A. ヴァノーバーが達成した最高タイムを 0.5 秒上回り、レース最速記録を樹立しました。 **

データ分析から、特に離陸や緊急旋回などの重要な部分において、スウィフトは全体的に人間のパイロットよりも速いことがわかります。スウィフトの離陸反応時間は人間のパイロットより短く、平均で120ミリ秒早い。また、スイフトはさらに加速し、最初のゲートでより高い速度に達します。

さらに、スウィフトは、おそらくより長い時間スケールで軌道を最適化するため、急旋回中によりタイトな操縦を示します。対照的に、人間のパイロットは、将来のゲート位置を 1 つだけ考慮して、より短い時間スケールで行動を計画することを好みます。

さらに、**スウィフトはトラック全体で最高の平均速度を達成し、最短のレースラインを見つけて、車両を限界近くで飛行し続けることに成功しました。 **スウィフトと人間のチャンピオンを比較したタイムトライアルでは、自律型ドローンは平均値と分散が低く、より安定したラップタイムを示しましたが、人間のパイロットのパフォーマンスはより個別化されており、平均値と分散はより高くなりました。

総合的な分析の結果、自律型ドローン「Swift」は、スピードに優れているだけでなく、飛行戦略にも独特の特徴があり、競技全体を通じて高いパフォーマンスを維持することができ、優れたパフォーマンスを発揮したことがわかりました。

ドローンレースだけではない

この研究は、物理環境からのノイズが多く不完全な感覚入力に基づいた自律型ドローンレースを調査し、自律型物理システムがレースにおいてチャンピオンシップレベルのパフォーマンスを達成し、時には人間の世界チャンピオンを上回ることを実証し、ロボットが人気のレースで世界チャンピオンシップのパフォーマンスを達成する重要性を強調しています。スポーツ、ロボット工学とインテリジェンスの大きなマイルストーンを達成します。

ただし、研究対象のシステムは、人間のパイロットと比較して衝突後の回復について訓練されていません。これにより、衝突後にシステムが飛行を続ける能力が制限される一方、人間のパイロットはハードウェアが損傷してもレースを続けることができます。

さらに、Swift システムは、リフレッシュレートの低いカメラを使用するため、人間のパイロットよりも環境の変化に適応できません。この方法は自律ドローンレースでは優れていますが、他の現実世界では効果がありません。環境は完全に調査されていません。

明らかに、カウフマンと彼のチームの成果はドローンレースの分野に限定されるものではなく、この技術は軍事用途にも応用される可能性があります。さらに、同社のテクノロジーはドローンをよりスムーズに、より高速に、より長距離にできるようになり、ロボットが運転、清掃、検査などの分野で限られたリソースをより効果的に使用できるようになります。

しかし、これらの目標を達成するには、研究チームはまだ多くの課題を解決する必要があります。クルーン氏がレビュー記事で述べているように、「どんなレース環境でも人間のパイロットに勝つには、システムは風、照明条件の変化、不十分に定義されたゲート、人間と機械などの外乱に対処できなければなりません。他の要因。」