Первоисточник: Ежедневный совет по научно-техническим инновациям
Источник изображения: Generated by Unbounded AI
При огромном спросе на данные от ИИ информационные ресурсы практически исчерпаны, поэтому компании начали находить «новый способ» получения данных — «создавать» данные самостоятельно. Однако большая часть предыдущих синтетических данных использовалась для обучения больших моделей ИИ, и на этот раз Nvidia создала «хранилище данных» для обучения роботов.
В новом исследовании, проведенном NVIDIA и Техасским университетом в Остине, описывается система под названием «MimicGen», которая может автоматически генерировать крупномасштабные наборы данных для обучения роботов с небольшим количеством демонстраций на людях. Джим Фан (Jim Fan), старший научный сотрудник Nvidia, сказал, что компания откроет исходный код для всего, включая сгенерированные наборы данных.
Каков масштаб генерируемых данных? ** Используя 10 демонстраций на людях, MimicGen может сгенерировать 1000 примеров синтеза; С помощью 200 демонстраций на людях MimicGen смог напрямую сгенерировать 50 000 обучающих данных для 18 задач и нескольких смоделированных сред**.
Как насчет сгенерированного набора данных?
MimicGen может «эволюционировать» одну и ту же сцену на разных этапах на основе исходных данных:
Он также может генерировать различные наборы данных для широкого спектра распределений сброса задач, включая сборку предметов, наливание кофе, чистку кружек и многое другое.
Возможность создания различных демонстраций новых роботизированных манипуляторов:
Также есть обучающие данные для долгосрочных задач:
Также доступны данные реальных сценариев:
Примечательно, что исследователи сравнили данные, сгенерированные разными исходными наборами данных. Тем не менее, они обнаружили, что эти два набора результатов были сопоставимы, что говорит о том, что «качество данных может быть не так важно в крупномасштабных механизмах данных».
Кроме того, исследователи сравнили данные, сгенерированные 10 человеческими демо-версиями, с 200 человеческими демо-версиями, и результаты также не сильно отличались. Таким образом, в документе также признается, что необходимы дальнейшие исследования для того, чтобы выяснить, приведет ли большее количество данных о представлении данных к избыточности и ненужным затратам на маркировку данных.
Почему вы так одержимы синтетическими данными? В дополнение к ограниченным ресурсам исходных данных, упомянутым в начале статьи, сбор данных является чрезвычайно дорогим и трудоемким процессом, а с помощью такой системы, как MimicGen, можно автоматически генерировать крупномасштабные, богатые наборы данных с небольшим объемом данных, охватывающие несколько сценариев, возможностей объектов, роботизированных рук и долгосрочных или высокоточных задач, что делает его эффективным способом «масштабирования мощности и экономики обучения роботов».
«Синтетические данные предоставят следующий триллион данных для наших «голодных» моделей. «Одна из ключевых причин, по которой робототехника сильно отстает от других областей ИИ, — это недостаток данных — вы не можете получить управляющие сигналы из интернета. "
«Мы быстро истощаем высококачественные данные реального мира из Интернета, и искусственный интеллект, рожденный из синтетических данных, станет шагом вперед».
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Переломный момент! Новые достижения NVIDIA в области синтетических данных: создание «вечного двигателя обучающих данных» для роботов
Первоисточник: Ежедневный совет по научно-техническим инновациям
При огромном спросе на данные от ИИ информационные ресурсы практически исчерпаны, поэтому компании начали находить «новый способ» получения данных — «создавать» данные самостоятельно. Однако большая часть предыдущих синтетических данных использовалась для обучения больших моделей ИИ, и на этот раз Nvidia создала «хранилище данных» для обучения роботов.
В новом исследовании, проведенном NVIDIA и Техасским университетом в Остине, описывается система под названием «MimicGen», которая может автоматически генерировать крупномасштабные наборы данных для обучения роботов с небольшим количеством демонстраций на людях. Джим Фан (Jim Fan), старший научный сотрудник Nvidia, сказал, что компания откроет исходный код для всего, включая сгенерированные наборы данных.
Как насчет сгенерированного набора данных?
MimicGen может «эволюционировать» одну и ту же сцену на разных этапах на основе исходных данных:
Кроме того, исследователи сравнили данные, сгенерированные 10 человеческими демо-версиями, с 200 человеческими демо-версиями, и результаты также не сильно отличались. Таким образом, в документе также признается, что необходимы дальнейшие исследования для того, чтобы выяснить, приведет ли большее количество данных о представлении данных к избыточности и ненужным затратам на маркировку данных.
Почему вы так одержимы синтетическими данными? В дополнение к ограниченным ресурсам исходных данных, упомянутым в начале статьи, сбор данных является чрезвычайно дорогим и трудоемким процессом, а с помощью такой системы, как MimicGen, можно автоматически генерировать крупномасштабные, богатые наборы данных с небольшим объемом данных, охватывающие несколько сценариев, возможностей объектов, роботизированных рук и долгосрочных или высокоточных задач, что делает его эффективным способом «масштабирования мощности и экономики обучения роботов».
«Синтетические данные предоставят следующий триллион данных для наших «голодных» моделей. «Одна из ключевых причин, по которой робототехника сильно отстает от других областей ИИ, — это недостаток данных — вы не можете получить управляющие сигналы из интернета. "
«Мы быстро истощаем высококачественные данные реального мира из Интернета, и искусственный интеллект, рожденный из синтетических данных, станет шагом вперед».