Чжан Яцинь, академік Інженерної академії: Попереднє навчання та генеративні великі моделі принесуть нові зміни в парадигму технології автономного водіння

Джерело зображення: Створено Unbounded AI

Поява генеративних великих моделей, представлених GPT, зробила черговий стрибок у технології штучного інтелекту, а технологія ШІ переживає процес зміни технічної парадигми з дискримінантної на генеративну. З впровадженням великих модельних технологій, таких як генеративне, попереднє навчання та мультимодальне, це також надає можливість для технології автономного водіння стати зрілою та безпілотною.

З Науково-дослідного інституту інтелектуальної промисловості Цінхуа (AIR), провідного світового науково-дослідного інституту штучного інтелекту, і провідної вітчизняної компанії з технологій штучного інтелекту автономного водіння, Міллі Чжисін має напрочуд послідовне судження про технічні тенденції та застосування великих моделей. У той же час обидві сторони також провели глибоке дослідження в напрямку оптимізації прийняття рішень на основі даних, спільно сприяли всебічній і багаторівневій співпраці між промисловістю, університетами та дослідженнями, а також прискорили застосування технології штучного інтелекту в галузі автономного водіння.

11 жовтня 2023 року Чжан Яцинь, академік Китайської інженерної академії, професор Університету Цінхуа та президент Науково-дослідного інституту інтелектуальної промисловості Цінхуа (AIR), відвідав 9-й HAOMO AI DAY, проведений Міллі Чжисіном, і виступив із програмною промовою під назвою «Новий прогрес інтелектуального водіння – велика модель, генеративний Al та інтелектуальне водіння», поділившись останніми думками про застосування великих моделей генеративного штучного інтелекту до технології автономного водіння. і представив останні досягнення Tsinghua AIR в побудові базової моделі платформи Real2Sim2Real і платформи симуляції автономного водіння.

Нижче наводимо повний текст виступу академіка Чжан Яциня:

Така прекрасна погода, таке прекрасне місце, я дуже радий взяти участь у HAOMO AI DAY, а також дякую голові Чжан Каю та Weihao за запрошення.

Сьогодні дев'ятий HAOMO AI DAY, перш за все, я хотів би привітати Момо з великими досягненнями, яких він досяг менш ніж за 4 роки, особливо торуючи свій власний шлях. У мене таке враження, що Momo був першим, хто випустив генеративну велику модель DriveGPT в автономному водінні, і вона швидко пішла в бік масштабів, і змогла за такий короткий час стати лідером у сфері автономного водіння.

Сьогодні я хочу поговорити про новий прогрес в інтелектуальному водінні, я використовую ту саму тему протягом багатьох років, але щоразу я виявлятиму, що контент зовсім інший, особливо після того, як нещодавно вийшов генеративний штучний інтелект, відбувається велика популяризація автономного водіння.

Ми говорили про нові "чотири модернізації" - мережеві, розвідувальні, спільне використання та електрифікації, найважливішими з яких є дві модернізації - електрифікація та інтелект. Електрифікацію можна розуміти як нову енергію, і зараз Китай вже є найактивнішим і найбільшим у світі ринком нової енергії, чи то в масштабах користувачів, чи то в масштабах експорту є першим у світі, тобто першою половиною нових автомобілів. Найголовніше у другій половині – це інтелектуальне водіння, а гарячою точкою та вершиною глобальної конкуренції в найближчі 5-10 років є автономне водіння. Штучний інтелект є основною технологічною рушійною силою автономного водіння, і з моменту свого заснування HAOMO AI DAY є технологічним двигуном компанії, тому HAOMO AI DAY дуже важливий.

Чому так багато компаній займаються розумним водінням? У тому числі традиційні виробники автомобілів, нові сили, високотехнологічні підприємства виходять на ринок автономного водіння? Насправді, існує багато технічних проблем, по-перше, з точки зору штучного інтелекту, автоматичне водіння є дуже складним, вимагає великої обчислювальної потужності, нових алгоритмів, є найскладнішою проблемою вертикального поля штучного інтелекту, по-друге, автоматичне водіння також є перетином концентрованого інтелекту, периферійного інтелекту та автономного інтелекту, які зараз спостерігаються. У тестовому відео ви можете побачити, що автономне водіння стикається з багатьма складними сценаріями та змінами, і справді є багато викликів.

Однак, на мою думку, автономне водіння цілком досяжне, і є деякі ключові проблеми, деякі з яких є ринковими факторами, а деякі – неринковими силами. До ринкових факторів належать: Чи можлива ця технологія? Чи є у користувачів реальні потреби? Промислова екологія та бізнес-модель. Також дуже важливими є неринкові фактори, які вимагають технологічних проривів у галузі, а також державної підтримки промисловості, проривів у політиці та регулюванні.

З точки зору технологій, на початку багато людей говорили про те, чи можливе водіння без водія, особливо чи можливо це вище L4? Я думав, що це можливо з самого початку. Останнім часом я бачив деякі дані, що безпілотне водіння приблизно в 10 разів безпечніше, ніж пілотоване, а в минулому році я говорив про 3 рази, а в цьому році досяг 10 разів. Це свідчить про те, що технологічний прорив завершено. У дорожній карті комерціалізації в даний час є безліч способів, деякі використовують велосипедну розвідку, деякі - координацію доріг, а є поступові, чехардні маршрути, відкритий вихідний код, закриті маршрути, різні компанії вивчають різні дорожні карти, не кажучи, яка з них повністю правильна, індустрія пробує автоматичне водіння різними способами. Я знаю, що Момо вибрав прогресивний, і я думаю, що це все добре, і люди досліджують це по-різному.

Останнім часом відбулося багато нових проривів у сфері штучного інтелекту. Ми бачимо, що нові алгоритми, нові фреймворки, особливо попереднє навчання, мультимодальне, мультиконтрольоване навчання та великі моделі стають мейнстрімом. До Transformer ResNeT був дуже широко використовуваним фреймворком для візуальних алгоритмів, і причина, чому я спеціально згадав ResNeT, полягає в тому, що цей алгоритм насправді робиться молодими китайськими вченими в Китаї, тому китайські вчені зробили великий внесок у штучний інтелект. Я чув багато тверджень про те, що ядро ШІ в основному з Європи, і базова теорія походить звідти, але китайські вчені також зробили великий внесок у сферу штучного інтелекту.

Великим моделям важливо подолати технічні обмеження. За останні шість-сімдесят років існувало три основні теорії: закон Мура, архітектура фон Неймана, три закони Шеннона, і тепер всі три теорії руйнуються. Якщо прориву не станеться, то великої моделі неможливо досягти, що вимагає нового методу зондування, нового методу сприйняття, прориву в новій архітектурі комп'ютера, включаючи новий каркас мікросхем і т.д., і тепер мейнстрімні згорткові нейронні мережі Transformer і CNN також відрізняються. В даний час індустрія цифрових технологій в основному заснована на обчисленнях на основі кремнієвих пластин, а в майбутньому можуть з'явитися біологічні науки, оптичні обчислення та квантові обчислення.

Наразі дуже важливо, щоб великі моделі приносили генеративний ШІ, а раніше ШІ говорив про класифікацію, тобто дискримінантний ШІ. Тепер можна повністю генерувати нові ідеї контенту, ідеї даних і багато нових ідей для сцен. Дозвольте мені тепер трохи розповісти про мою роботу в цій сфері.

Великі моделі йдуть в новому напрямку. По-перше, це мультимодальність, не тільки природна мова, зображення, відео, а й сприйняття сигналів, лідар та інше фізичне сприйняття та біосенсорні сигнали, що випромінюються всіма транспортними засобами. Ви бачите, що модель GPT-4 мультимодальна, її функція дуже потужна, але ефективність дуже низька, приблизно як мінімум у 1000 разів нижча, ніж ефективність обчислень та прийняття рішень людським мозком, тому все ще є потреба в нових алгоритмах, я думаю, що нові алгоритми будуть через 5 років. По-друге, це автономний інтелект, який може автоматично виконувати завдання, включаючи периферійні обчислення, як поставити дуже складні великі моделі на межі мобільних телефонів, автомобілів, роботів і втілений інтелект і фізичний світ разом, я думаю, що автоматичне водіння є найважливішою втіленою інтелектуальною сценою. Майбутнє – це етап мозково-комп'ютерного інтелекту, і велика модель зіткнеться з тим, як використовувати світ біології, світ життя і як краще пов'язати людей і мозок.

Нові технологічні архітектури будуть використовувати великі моделі, так само, як і нова операційна система штучного інтелекту, буде багато вертикальних моделей, включаючи автономне водіння або інші вертикальні моделі, такі як науки про життя.

Я коротко розповім про Науково-дослідний інститут інтелектуальної промисловості Цінхуа (AIR), який є науково-дослідним інститутом галузі штучного інтелекту, який я заснував після виходу на пенсію з Baidu, який швидко розвивався за 3 роки, і мені також пощастило знайти групу вчених і корпоративних технічних директорів з глибоким промисловим досвідом і глибокими академічними досягненнями. Зараз тут близько 300 докторантів і студентів, а автономне водіння - один з напрямків, близько 100 осіб.

Щоразу, коли я говорю про AIR Research, я згадую 25 років тому, коли я повернувся до Китаю, щоб заснувати Microsoft Research Asia. Наступного місяця відзначатиметься 25-річчя Microsoft Research Asia, яка сама по собі була досить успішною. Велика модель, про яку я щойно говорив, була розроблена в Microsoft Research, сподіваючись побудувати науково-дослідний інститут для китайської промисловості.

Коли ми займаємося різними дослідженнями, ми сподіваємося мати велику структуру, наприклад, інтелектуальне водіння, ми повинні спочатку визначити деякі технічні маршрути. Перш за все, я вважаю, що мультимодальне сприйняття дуже важливе, і дуже важливі багатомасштабні, багатовимірні дані з оригіналу. Тому що для безпілотного водіння, інтелектуального водіння перевага роботів полягає насамперед у тому, щоб вимагати більше даних, цю перевагу даних все одно не можна прибрати, тому я не згоден з тим, що Маск сказав, що лише використовувати камери, нам потрібно використовувати більше джерел даних. По-друге, багато автономних водіїв тепер будуть використовувати багато карт високої чіткості, але ми вважаємо, що майбутнє за світловими картами і не може повністю залежати від карт.

Автономне водіння, щоб досягти фінальної безпечної та надійної стадії, має бути досягнуто наскрізно, це також дуже складно, є більш детальні технічні фактори, включаючи генеративний ШІ, навчання з підкріпленням, велику мовну модель, у нас є дві платформи: платформа великої моделі даних, платформа моделювання.

Компанія AIR також запропонувала власну базову модель автономного водіння. По-перше, модель пропонує, як отримати різні дані, включаючи реальні дані та дані моделювання. Дані очищаються через контрольований конвеєр, а потім проходять через дві великі моделі: модель сприйняття, модель прийняття рішень, включаючи прийняття рішень у деяких ключових місцях у хмарі та на кінці транспортного засобу, деякі модулі базуються на інформації, деякі є статистичними, а деякі є модулями, заснованими на правилах.

Я спеціально виніс в нього «навчання з підкріпленням», тому що навчання з підкріпленням я використовую ще з часів Baidu, але воно складне у використанні. Оскільки безпека автономного водіння дуже важлива, вона досить складна у використанні, але я думаю, що це єдиний спосіб, яким ми можемо дійсно досягти вищої безпеки, навчання з підкріпленням може навчитися чомусь новому, і зараз метод узагальнення залежить від навчання з підкріпленням, і останнім часом з'явилося багато нових розробок. Як використовувати навчання з підкріпленням у багатьох симуляціях і прийнятті рішень, а також використовувати його в поведінці реального водіння. Модель зліва - це вертикальні великі дані, як використовувати навчання з підкріпленням для коригування моделі.

Крім того, як генеративний ШІ можна використовувати в симуляції та прийнятті рішень? Тут є невеликий приклад, і великі моделі, і глибоке навчання мають проблеми з прозорістю, тому ми теж провели це дослідження, чому я прийняв таке рішення? Поверніть ліворуч, праворуч, загальмуйте, скажіть мені, що я бачу і чому я приймаю це рішення, і це може підказати, як прийняти рішення. Це використання реальних даних, симуляційних даних, вертикальних моделей і великих моделей для генерації семантичних глибинних сцен, включаючи інформацію про дорожній рух і пішоходів.

Інший – це злиття людського мозку та машини, ми повинні вивчити, як люди керують автомобілем. Іноді люди приймають правильні рішення, іноді ні, і збирають цю інформацію за допомогою датчиків. З одного боку, довгий час людям і машинам доводиться їздити разом, а безпілотним людям доводиться потихеньку розуміти людське водіння. З іншого боку, модель використовується в алгоритмі для підвищення ефективності алгоритму.

Нарешті, ми дуже раді глибокій технічній співпраці з Міллі щодо того, як застосовувати навчання з підкріпленням для прийняття когнітивних рішень. В даний час навчання з підкріпленням має багато проблем, онлайн або офлайн, включаючи проблеми з визначенням функцій, неоднозначність політики, тому ми провели багато таких досліджень. За останній рік або близько того на International Top Conference було опубліковано дуже багато робіт, а також є патенти, і найголовніше, що його почали використовувати в автомобілях, і машина, яка тільки що побачила логістику, почала використовувати ці алгоритми.

Підводячи підсумок, можна сказати, що якщо ви подивитеся на різні етапи інтелектуального водіння та автоматичного водіння, то на початку він більше керується лідаром та апаратним забезпеченням, а більше базується на штучних правилах. 2.0 керується програмним забезпеченням та алгоритмами, і на цьому етапі більше датчиків, які також покладаються на машинне навчання та правила. Зараз, до ери 3.0, він приводиться в рух великими моделями, і на даному етапі з'являється безліч датчиків, які використовують наскрізні алгоритми, а також буде використовуватися навчання з підкріпленням, що дозволяє більшою мірою досягти автоматичного водіння в реальному світі.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити