LINGO-1, выпущенный Wayve, дает возможность автономного вождения! Как управлять этой машиной, она объясняет сама себе, большая языковая модель, это уже не черный ящик.
С момента изобретения самое тревожное в автономном вождении то, что люди не могут знать, что происходит у него в голове.
Начиная с сегодняшнего дня, он действительно сможет «высказать» свои мысли?
Недавно Wayve запустила LINGO-1, большую модель взаимодействия с автономным вождением, основанную на больших моделях визуального языкового действия (VLAM), которая глубоко интегрирует большие языковые модели и автономное вождение.
В частности, ЛИНГО-1 обучил модель видеоязыка, которую можно назвать весьма персонализированной — она может комментировать сцену, происходящую перед ней!
-Что ты делаешь? -Я осторожно перехожу дорогу, потому что дорожные условия сейчас сложные.
Что ты собираешься делать дальше? -Я собираюсь повернуть налево.
-Каковы потенциальные риски рассматриваемого сценария? - светофоры, велосипедисты, пешеходы, переходящие дорогу
Он ясно объяснит вам все ваши сомнения по поводу интеллектуальной системы вождения.
Вопрос: Почему это прекратилось? Ответ: Потому что сейчас красный свет.
После обучения работе с различными визуальными и языковыми данными LINGO-1 может не только выполнять задачи визуального ответа на вопросы (VQA), такие как восприятие, контрфактические действия, планирование, рассуждение и внимание, но также описывать поведение и рассуждения при вождении.
Другими словами, мы можем понять факторы, влияющие на решения вождения, задавая вопросы LINGO-1.
Пользователи сети посетовали: «Таким образом был открыт сквозной черный ящик. Это просто чудо в эпоху GPT. Система автономного вождения сделала большой шаг вперед по сравнению с взаимодействием с реальным физическим миром».
Вполне возможно, что по мере того, как мы расширяем границы воплощенного искусственного интеллекта, модель «зрение-речь-действие» будет иметь огромное влияние, поскольку язык предоставляет новую парадигму для улучшения того, как мы интерпретируем и обучаем модели самостоятельного вождения.
**Комплимент приходит в беспилотной машине? **
Уникальной особенностью LINGO-1 является использование эксперта-человека для обучения устным комментариям к сценам вождения, что позволяет модели связать восприятие окружающей среды, принятие решений о действиях и интерпретацию сцены, подобную человеческой.
Таким образом, он может интерпретировать решения и действия системы автономного вождения посредством взаимодействия на естественном языке.
Джим Фан, старший научный сотрудник NVIDIA в области искусственного интеллекта, взволнованно прокомментировал: «Это самая интересная работа в области автономного вождения, которую я читал за последнее время!»
Раньше автоматическое вождение представляло собой «восприятие -> действие вождения», но в будущем к автоматическому вождению добавился этап рассуждения, то есть «восприятие -> словесное рассуждение -> действие».
Каковы преимущества этого нового шага явного рассуждения? Джим Фан объясняет следующее:
Интерпретируемость: модель вождения больше не является загадочным черным ящиком.
Контрфактические сценарии: он способен представить сценарии, которых нет в обучающих данных, и рассуждать о том, как правильно с ними справиться.
Программирование с длинным хвостом: при вождении существует большое количество граничных сценариев, и невозможно обеспечить хорошее покрытие данных для всех сценариев. Вместо того, чтобы собирать тысячи примеров для «нейропрограммирования» конкретного случая, эксперты-люди могут писать подсказки (), чтобы объяснить небольшое количество примеров, тем самым направляя систему на то, как действовать в конкретных или сложных сценариях.
Мало того, LINGO-1 также тесно связан с некоторыми исследованиями в области игрового искусственного интеллекта, такими как MineDojo и Thought Cloning, которые оба являются агентами ИИ.
Первый может изучить модель вознаграждения, которая связывает текст обзора с видеопикселями Minecraft. Последний может реализовать полный набор связей «цикл пиксель->язык->действие».
LINGO-1 — Рассказчик управления разомкнутым контуром
Мое собственное объяснение
На что обращает внимание модель? что делаешь? Теперь это уже не загадка.
ЛИНГО-1 четко объяснит вам, что он делает на каждом этапе пути.
Например, если он хочет обогнать автомобиль, припаркованный на обочине -
ЛИНГО-1: Я обгоняю из-за медленного движения.
ЛИНГО-1: Я проезжаю мимо припаркованной машины.
ЛИНГО-1: Я ускоряюсь, потому что дорога впереди свободна.
При приближении к зебре——
ЛИНГО-1: Я сохраняю скорость, дорога еще свободна. ЛИНГО-1: Торможение и замедление сейчас. ЛИНГО-1: Остановитесь на пешеходном переходе. ЛИНГО-1: Я ускоряюсь с того места, где остановился. ЛИНГО-1: Я превышаю скорость, потому что дорога свободна.
При повороте налево на перекрестке——
ЛИНГО-1: Я остался на месте, потому что машина впереди тоже остановилась. ЛИНГО-1: Я ускоряюсь, потому что машина впереди отъехала. ЛИНГО-1: Я нажимаю на тормоз, чтобы остановиться на перекрестке. ЛИНГО-1: Я иду вперед, потому что полоса свободна. ЛИНГО-1: Завершите левый поворот и следуйте по маршруту.
### Визуальный ответ на вопрос (VQA)
Помимо объяснений, ЛИНГО-1 также может отвечать на ваши вопросы, что позволяет нам оценить его способности к пониманию сцены и рассуждению.
Например, если вы спросите ЛИНГО-1, на что следует обратить внимание на этом перекрестке?
Там написано: «Я должен обращать внимание на свет впереди меня, на велосипедиста передо мной и на пешехода, переходящего дорогу».
Спросите ЛИНГО-1, какая сейчас погода? Какое влияние это окажет на вождение?
Он скажет: «Сейчас дождливый день, и мне нужно быть предельно осторожным при вождении, потому что дорожное покрытие скользкое, и в дождливые дни видимость ухудшается».
ЛИНГО-1, как безопасно ездить рядом с велосипедом?
Там будет написано: «Я должен держаться на расстоянии от велосипедистов и останавливаться, когда это необходимо. Это потенциальная опасность. Кроме того, я должен обращать внимание на машины, припаркованные на обочине».
### Ключ: набор данных комментариев
Ключом к разработке LINGO-1 было создание масштабируемого и разнообразного набора данных. Этот набор данных содержит комментарии профессиональных водителей во время движения по Великобритании, включая изображения, языковые данные и данные о действиях.
Это напоминает нам сцену, когда мы учились водить машину у инструкторов в автошколе - время от времени они делали комментарии и объяснения вроде следующих, чтобы объяснить, почему они так себя ведут во время вождения, чтобы ученики могли сделать выводы. .
Транспортное средство/светофор впереди поменялось, пожалуйста, снизьте скорость - Пришло время перестроиться - Вы можете ускориться, будьте осторожны, не превышайте максимальную скорость - Внимание! Другие транспортные средства выехали на дорогу/остановились на перекрестке - Обратите внимание на перекресток с круговым движением и уступите дорогу впереди - Впереди припаркованные транспортные средства/светофоры/школы - Транспортное средство рядом с вами меняет полосу движения/объезжает припаркованное транспортное средство - Велосипедисты/ пешеходы ждут на зебре
Когда приведенные выше предложения, сенсорные образы и основные двигательные действия будут синхронизированы во времени, исследователи получат богатый набор данных о визуально-языковых действиях, который можно будет использовать для обучения моделей различным задачам.
Модель визуально-языкового действия (VLAM)
После появления LLM многие модели визуального языка (VLM) сочетают в себе возможности рассуждения LLM с изображениями и видео.
Далее Wayve запустила модель «Видение-Язык-Действие» (VLAM), которая содержит три типа информационных изображений, движущих данных и языка.
Раньше естественный язык редко использовался при обучении роботов (особенно в области автономного вождения).
Если будет добавлен естественный язык, это позволит нам более эффективно интерпретировать и обучать базовым моделям вождения.
Используя язык для объяснения различных причинных факторов в сценариях вождения, можно ускорить скорость обучения модели и распространить ее на новые сценарии.
А поскольку мы можем задавать модели вопросы, мы можем знать, что модель понимает и насколько хорошо она может рассуждать и принимать решения.
Система автономного вождения больше не является загадочным черным ящиком. Во время вождения мы можем время от времени спрашивать ее: «О чем вы думаете?»
Это, несомненно, повысит доверие общества к автономному вождению.
Кроме того, несмотря на небольшое количество обучающих выборок, способность к быстрому изучению естественного языка позволяет модели быстро и эффективно осваивать новые задачи и адаптироваться к новым сценариям.
Например, пока мы используем естественный язык, чтобы сказать модели: «Это поведение неправильное», мы можем исправить неправильное поведение системы автономного вождения.
Отныне, возможно, для создания базовой модели комплексного автономного вождения потребуется только естественный язык!
Точность 60%
За это время команда улучшала архитектуру модели и набор обучающих данных.
Из рисунка нетрудно увидеть, что производительность ЛИНГО-1 увеличилась вдвое по сравнению с началом.
В настоящее время точность ЛИНГО-1 достигла 60% человеческого уровня.
Очевидно, что внедрение естественного языка может произвести революцию в технологии автономного вождения во многих аспектах.
Улучшение интерпретируемости сквозных моделей
Отсутствие интерпретируемости моделей машинного обучения всегда было в центре внимания исследований.
Создавая интерактивный интерфейс, основанный на естественном языке, пользователи могут напрямую задавать вопросы, а ИИ отвечает на них, тем самым получая более глубокое понимание понимания моделью сцены и того, как она принимает решения.
Этот уникальный диалог между пассажирами и беспилотными автомобилями может повысить прозрачность и облегчить понимание этих систем и доверие к ним.
В то же время естественный язык также улучшает способность модели адаптироваться и учиться на обратной связи с человеком.
Подобно инструктору, который ведет студента за рулем, корректирующие инструкции и отзывы пользователей со временем улучшают понимание модели и процесс принятия решений.
Лучше планирование и рассуждение, улучшенные характеристики вождения
На эффективность автономного вождения влияют два основных фактора:
Способность языковых моделей точно интерпретировать различные сценарии режима ввода.
Умение модели преобразовывать рассуждения среднего уровня в эффективное планирование нижнего уровня.
В связи с этим команда пытается усовершенствовать модель вождения с замкнутым контуром с помощью естественного языка, возможностей рассуждения и планирования LINGO.
Модель автономного вождения с замкнутым контуром Wayve LINGO-1
Эффективное изучение новых сценариев или сценариев с длинным хвостом
Обычно картинка стоит тысячи слов.
Но при обучении модели кусок текста стоит тысячи картинок.
Теперь вместо тысяч примеров замедления автомобилей для пешеходов нам достаточно нескольких примеров вместе с кратким текстовым описанием, чтобы научить модель замедляться и понять, как она должна действовать в этой ситуации.
Знаете, одной из наиболее важных частей автономного вождения является причинно-следственная связь, которая позволяет системе понимать взаимосвязь между элементами и поведением на сцене.
Хорошо работающий VLAM позволяет системе связывать пешеходов, ожидающих на переходе «зебра», с сигналами светофора «Не переходить дорогу». Это чрезвычайно важно в сложных сценариях с ограниченными данными.
Кроме того, LLM уже обладает большим объемом знаний о человеческом поведении из наборов данных Интернета, поэтому он может понимать такие концепции, как идентификация объектов, правила дорожного движения и операции вождения, например, между деревьями, магазинами, домами, собаками, гоняющимися за мячами, и автобусы, припаркованные перед школами, разница.
Благодаря более широкому кодированию графических данных VLAM автономное вождение станет более совершенным и безопасным.
Ограничения
Конечно, LINGO-1 также имеет определенные ограничения.
Обобщение
ЛИНГО-1 обучен на основе опыта вождения в центре Лондона и текстов в масштабе Интернета.
Хотя я изучил культуру вождения со всего мира, в настоящее время у меня лучше всего получается интерпретировать британские законы дорожного движения.
Это также требует изучения опыта вождения в других странах.
Галлюцинация
Галлюцинации — хорошо известная проблема в больших языковых моделях, и ЛИНГО-1 — не исключение.
Однако по сравнению с обычным LLM, ЛИНГО-1 имеет преимущество: поскольку он основан на видении, языке и действии, у него больше источников контроля, что позволяет ему лучше понимать мир.
Контекст
Глубокое обучение видео является сложной задачей, поскольку видеоданные обычно на несколько порядков больше, чем наборы изображений или текстовых данных.
Мультимодальные языковые модели на основе видео особенно требуют большой длины контекста, чтобы иметь возможность встраивать множество видеокадров для анализа сложных сценариев динамического вождения.
Замкнутое рассуждение
В настоящее время Wayve работает над интерпретируемостью модели, но в конечном итоге возможности рассуждения их LLM смогут по-настоящему повлиять на вождение человека.
Исследователи разрабатывают архитектуру с замкнутым контуром, которая в будущем сможет запускать LINGO-1 на автономных транспортных средствах.
Обсуждение пользователей сети
Пользователи сети также нашли это очень интересным.
«Интересно, что языковая модель интерпретирует предсказания модели управления движением по рулевому управлению, торможению и дроссельной заслонке в словах, а не влияет на само вождение, потому что естественный язык потеряет требуемую точность».
«Благодаря такому подходу мы очень близко приближаемся к AGI».
«Вы можете думать об этом как о добавлении языка к модели мира. Я никогда не понимаю, почему это никогда не пробовалось раньше, потому что идея обучения агента общению кажется чем-то, о чем может подумать каждый».
"Этот переход от чистого перцептивного действия к добавлению текстовых рассуждений меняет правила игры! По моему мнению, это недостающая часть автономного вождения, поскольку он делает интерпретацию возможной нетехническим способом".
В настоящее время интеграция обучения роботов и естественного языка все еще находится на ранней стадии.
ЛИНГО-1 официально сделал важный шаг в использовании естественного языка для улучшения обучения и интерпретируемости основных моделей вождения.
Только представьте, в будущем нам нужно будет использовать только простые текстовые подсказки, чтобы ИИ сообщал о дорожных условиях впереди или позволял ИИ изучать правила дорожного движения в разных регионах. Эта сцена настолько захватывающая!
Таким образом, естественный язык имеет большой потенциал в разработке более безопасных и надежных беспилотных автомобилей.
Использованная литература:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Большая модель на самом деле оснащена системой автономного вождения, и ИИ объяснит, как она ездит!
Источник: Синьчжиюань
С момента изобретения самое тревожное в автономном вождении то, что люди не могут знать, что происходит у него в голове.
Начиная с сегодняшнего дня, он действительно сможет «высказать» свои мысли?
Недавно Wayve запустила LINGO-1, большую модель взаимодействия с автономным вождением, основанную на больших моделях визуального языкового действия (VLAM), которая глубоко интегрирует большие языковые модели и автономное вождение.
Он ясно объяснит вам все ваши сомнения по поводу интеллектуальной системы вождения.
После обучения работе с различными визуальными и языковыми данными LINGO-1 может не только выполнять задачи визуального ответа на вопросы (VQA), такие как восприятие, контрфактические действия, планирование, рассуждение и внимание, но также описывать поведение и рассуждения при вождении.
Другими словами, мы можем понять факторы, влияющие на решения вождения, задавая вопросы LINGO-1.
Вполне возможно, что по мере того, как мы расширяем границы воплощенного искусственного интеллекта, модель «зрение-речь-действие» будет иметь огромное влияние, поскольку язык предоставляет новую парадигму для улучшения того, как мы интерпретируем и обучаем модели самостоятельного вождения.
**Комплимент приходит в беспилотной машине? **
Уникальной особенностью LINGO-1 является использование эксперта-человека для обучения устным комментариям к сценам вождения, что позволяет модели связать восприятие окружающей среды, принятие решений о действиях и интерпретацию сцены, подобную человеческой.
Джим Фан, старший научный сотрудник NVIDIA в области искусственного интеллекта, взволнованно прокомментировал: «Это самая интересная работа в области автономного вождения, которую я читал за последнее время!»
Каковы преимущества этого нового шага явного рассуждения? Джим Фан объясняет следующее:
Мало того, LINGO-1 также тесно связан с некоторыми исследованиями в области игрового искусственного интеллекта, такими как MineDojo и Thought Cloning, которые оба являются агентами ИИ.
Первый может изучить модель вознаграждения, которая связывает текст обзора с видеопикселями Minecraft. Последний может реализовать полный набор связей «цикл пиксель->язык->действие».
LINGO-1 — Рассказчик управления разомкнутым контуром
Мое собственное объяснение
На что обращает внимание модель? что делаешь? Теперь это уже не загадка.
ЛИНГО-1 четко объяснит вам, что он делает на каждом этапе пути.
Помимо объяснений, ЛИНГО-1 также может отвечать на ваши вопросы, что позволяет нам оценить его способности к пониманию сцены и рассуждению.
Там написано: «Я должен обращать внимание на свет впереди меня, на велосипедиста передо мной и на пешехода, переходящего дорогу».
Он скажет: «Сейчас дождливый день, и мне нужно быть предельно осторожным при вождении, потому что дорожное покрытие скользкое, и в дождливые дни видимость ухудшается».
Там будет написано: «Я должен держаться на расстоянии от велосипедистов и останавливаться, когда это необходимо. Это потенциальная опасность. Кроме того, я должен обращать внимание на машины, припаркованные на обочине».
Ключом к разработке LINGO-1 было создание масштабируемого и разнообразного набора данных. Этот набор данных содержит комментарии профессиональных водителей во время движения по Великобритании, включая изображения, языковые данные и данные о действиях.
Это напоминает нам сцену, когда мы учились водить машину у инструкторов в автошколе - время от времени они делали комментарии и объяснения вроде следующих, чтобы объяснить, почему они так себя ведут во время вождения, чтобы ученики могли сделать выводы. .
Когда приведенные выше предложения, сенсорные образы и основные двигательные действия будут синхронизированы во времени, исследователи получат богатый набор данных о визуально-языковых действиях, который можно будет использовать для обучения моделей различным задачам.
Модель визуально-языкового действия (VLAM)
После появления LLM многие модели визуального языка (VLM) сочетают в себе возможности рассуждения LLM с изображениями и видео.
Далее Wayve запустила модель «Видение-Язык-Действие» (VLAM), которая содержит три типа информационных изображений, движущих данных и языка.
Раньше естественный язык редко использовался при обучении роботов (особенно в области автономного вождения).
Если будет добавлен естественный язык, это позволит нам более эффективно интерпретировать и обучать базовым моделям вождения.
Используя язык для объяснения различных причинных факторов в сценариях вождения, можно ускорить скорость обучения модели и распространить ее на новые сценарии.
А поскольку мы можем задавать модели вопросы, мы можем знать, что модель понимает и насколько хорошо она может рассуждать и принимать решения.
Система автономного вождения больше не является загадочным черным ящиком. Во время вождения мы можем время от времени спрашивать ее: «О чем вы думаете?»
Это, несомненно, повысит доверие общества к автономному вождению.
Кроме того, несмотря на небольшое количество обучающих выборок, способность к быстрому изучению естественного языка позволяет модели быстро и эффективно осваивать новые задачи и адаптироваться к новым сценариям.
Например, пока мы используем естественный язык, чтобы сказать модели: «Это поведение неправильное», мы можем исправить неправильное поведение системы автономного вождения.
Отныне, возможно, для создания базовой модели комплексного автономного вождения потребуется только естественный язык!
Точность 60%
За это время команда улучшала архитектуру модели и набор обучающих данных.
Из рисунка нетрудно увидеть, что производительность ЛИНГО-1 увеличилась вдвое по сравнению с началом.
В настоящее время точность ЛИНГО-1 достигла 60% человеческого уровня.
Улучшение интерпретируемости сквозных моделей
Отсутствие интерпретируемости моделей машинного обучения всегда было в центре внимания исследований.
Создавая интерактивный интерфейс, основанный на естественном языке, пользователи могут напрямую задавать вопросы, а ИИ отвечает на них, тем самым получая более глубокое понимание понимания моделью сцены и того, как она принимает решения.
Этот уникальный диалог между пассажирами и беспилотными автомобилями может повысить прозрачность и облегчить понимание этих систем и доверие к ним.
В то же время естественный язык также улучшает способность модели адаптироваться и учиться на обратной связи с человеком.
Подобно инструктору, который ведет студента за рулем, корректирующие инструкции и отзывы пользователей со временем улучшают понимание модели и процесс принятия решений.
Лучше планирование и рассуждение, улучшенные характеристики вождения
На эффективность автономного вождения влияют два основных фактора:
Способность языковых моделей точно интерпретировать различные сценарии режима ввода.
Умение модели преобразовывать рассуждения среднего уровня в эффективное планирование нижнего уровня.
В связи с этим команда пытается усовершенствовать модель вождения с замкнутым контуром с помощью естественного языка, возможностей рассуждения и планирования LINGO.
Эффективное изучение новых сценариев или сценариев с длинным хвостом
Обычно картинка стоит тысячи слов.
Но при обучении модели кусок текста стоит тысячи картинок.
Теперь вместо тысяч примеров замедления автомобилей для пешеходов нам достаточно нескольких примеров вместе с кратким текстовым описанием, чтобы научить модель замедляться и понять, как она должна действовать в этой ситуации.
Знаете, одной из наиболее важных частей автономного вождения является причинно-следственная связь, которая позволяет системе понимать взаимосвязь между элементами и поведением на сцене.
Хорошо работающий VLAM позволяет системе связывать пешеходов, ожидающих на переходе «зебра», с сигналами светофора «Не переходить дорогу». Это чрезвычайно важно в сложных сценариях с ограниченными данными.
Кроме того, LLM уже обладает большим объемом знаний о человеческом поведении из наборов данных Интернета, поэтому он может понимать такие концепции, как идентификация объектов, правила дорожного движения и операции вождения, например, между деревьями, магазинами, домами, собаками, гоняющимися за мячами, и автобусы, припаркованные перед школами, разница.
Благодаря более широкому кодированию графических данных VLAM автономное вождение станет более совершенным и безопасным.
Ограничения
Конечно, LINGO-1 также имеет определенные ограничения.
Обобщение
ЛИНГО-1 обучен на основе опыта вождения в центре Лондона и текстов в масштабе Интернета.
Хотя я изучил культуру вождения со всего мира, в настоящее время у меня лучше всего получается интерпретировать британские законы дорожного движения.
Это также требует изучения опыта вождения в других странах.
Галлюцинация
Галлюцинации — хорошо известная проблема в больших языковых моделях, и ЛИНГО-1 — не исключение.
Однако по сравнению с обычным LLM, ЛИНГО-1 имеет преимущество: поскольку он основан на видении, языке и действии, у него больше источников контроля, что позволяет ему лучше понимать мир.
Контекст
Глубокое обучение видео является сложной задачей, поскольку видеоданные обычно на несколько порядков больше, чем наборы изображений или текстовых данных.
Мультимодальные языковые модели на основе видео особенно требуют большой длины контекста, чтобы иметь возможность встраивать множество видеокадров для анализа сложных сценариев динамического вождения.
Замкнутое рассуждение
В настоящее время Wayve работает над интерпретируемостью модели, но в конечном итоге возможности рассуждения их LLM смогут по-настоящему повлиять на вождение человека.
Исследователи разрабатывают архитектуру с замкнутым контуром, которая в будущем сможет запускать LINGO-1 на автономных транспортных средствах.
Обсуждение пользователей сети
Пользователи сети также нашли это очень интересным.
«Интересно, что языковая модель интерпретирует предсказания модели управления движением по рулевому управлению, торможению и дроссельной заслонке в словах, а не влияет на само вождение, потому что естественный язык потеряет требуемую точность».
«Вы можете думать об этом как о добавлении языка к модели мира. Я никогда не понимаю, почему это никогда не пробовалось раньше, потому что идея обучения агента общению кажется чем-то, о чем может подумать каждый».
ЛИНГО-1 официально сделал важный шаг в использовании естественного языка для улучшения обучения и интерпретируемости основных моделей вождения.
Только представьте, в будущем нам нужно будет использовать только простые текстовые подсказки, чтобы ИИ сообщал о дорожных условиях впереди или позволял ИИ изучать правила дорожного движения в разных регионах. Эта сцена настолько захватывающая!
Таким образом, естественный язык имеет большой потенциал в разработке более безопасных и надежных беспилотных автомобилей.
Использованная литература: