Переломный момент! Новые достижения NVIDIA в области синтетических данных: создание «вечного двигателя обучающих данных» для роботов

Первоисточник: Ежедневный совет по научно-техническим инновациям

Источник изображения: Generated by Unbounded AI

При огромном спросе на данные от ИИ информационные ресурсы практически исчерпаны, поэтому компании начали находить «новый способ» получения данных — «создавать» данные самостоятельно. Однако большая часть предыдущих синтетических данных использовалась для обучения больших моделей ИИ, и на этот раз Nvidia создала «хранилище данных» для обучения роботов.

В новом исследовании, проведенном NVIDIA и Техасским университетом в Остине, описывается система под названием «MimicGen», которая может автоматически генерировать крупномасштабные наборы данных для обучения роботов с небольшим количеством демонстраций на людях. Джим Фан (Jim Fan), старший научный сотрудник Nvidia, сказал, что компания откроет исходный код для всего, включая сгенерированные наборы данных.

Каков масштаб генерируемых данных? ** Используя 10 демонстраций на людях, MimicGen может сгенерировать 1000 примеров синтеза; С помощью 200 демонстраций на людях MimicGen смог напрямую сгенерировать 50 000 обучающих данных для 18 задач и нескольких смоделированных сред**.

Как насчет сгенерированного набора данных?

MimicGen может «эволюционировать» одну и ту же сцену на разных этапах на основе исходных данных:

Он также может генерировать различные наборы данных для широкого спектра распределений сброса задач, включая сборку предметов, наливание кофе, чистку кружек и многое другое.

Возможность создания различных демонстраций новых роботизированных манипуляторов:

Также есть обучающие данные для долгосрочных задач:

Также доступны данные реальных сценариев:

Примечательно, что исследователи сравнили данные, сгенерированные разными исходными наборами данных. Тем не менее, они обнаружили, что эти два набора результатов были сопоставимы, что говорит о том, что «качество данных может быть не так важно в крупномасштабных механизмах данных».

Кроме того, исследователи сравнили данные, сгенерированные 10 человеческими демо-версиями, с 200 человеческими демо-версиями, и результаты также не сильно отличались. Таким образом, в документе также признается, что необходимы дальнейшие исследования для того, чтобы выяснить, приведет ли большее количество данных о представлении данных к избыточности и ненужным затратам на маркировку данных.

Почему вы так одержимы синтетическими данными? В дополнение к ограниченным ресурсам исходных данных, упомянутым в начале статьи, сбор данных является чрезвычайно дорогим и трудоемким процессом, а с помощью такой системы, как MimicGen, можно автоматически генерировать крупномасштабные, богатые наборы данных с небольшим объемом данных, охватывающие несколько сценариев, возможностей объектов, роботизированных рук и долгосрочных или высокоточных задач, что делает его эффективным способом «масштабирования мощности и экономики обучения роботов».

«Синтетические данные предоставят следующий триллион данных для наших «голодных» моделей. «Одна из ключевых причин, по которой робототехника сильно отстает от других областей ИИ, — это недостаток данных — вы не можете получить управляющие сигналы из интернета. "

«Мы быстро истощаем высококачественные данные реального мира из Интернета, и искусственный интеллект, рожденный из синтетических данных, станет шагом вперед».

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить