Выпущена мультимодальная королевская модель GPT-4V, 166 страниц "инструкции"! И это производится командой Microsoft.
Какую статью можно написать на 166 страницах?
Он не только подробно оценивает производительность GPT-4V на десяти основных задачах, но и демонстрирует все — от базового распознавания изображений до сложных логических рассуждений;
Он также обучает полному набору мультимодальных больших моделей навыкам использования подсказок——
Он шаг за шагом учит вас писать слова-подсказки от 0 до 1, а профессиональный уровень ответа легко понять с первого взгляда. Это действительно делает порог для использования GPT-4V несуществующим.
Стоит отметить, что автор этой статьи также представляет собой «полностью китайский класс»: все семь авторов — китайцы, а лидер — женщина-главный научный руководитель, проработавшая в Microsoft 17 лет.
Перед выпуском 166-страничного отчета они также участвовали в исследовании последней версии DALL·E 3 от OpenAI и имеют глубокое понимание этой области.
По сравнению с 18-страничным документом OpenAI GPT-4V, это 166-страничное «Руководство по питанию» сразу же было признано обязательным к прочтению пользователями GPT-4V:
Некоторые пользователи сети посетовали: «Это не статья, это почти 166-страничная книга».
Некоторые пользователи сети уже запаниковали, прочитав:
Не смотрите на детали ответа GPT-4V. Я действительно боюсь потенциальных возможностей ИИ.
Итак, о чем именно говорится в «документе» Microsoft и какой «потенциал» он показывает в отношении GPT-4V?
**Что говорится в 166-страничном отчете Microsoft? **
В данной статье рассматривается метод ГПТ-4В, суть которого опирается на одно слово - "попробуй".
Исследователи Microsoft разработали серию входных данных, охватывающих несколько доменов, передали их в GPT-4V, а затем наблюдали и записывали выходные данные GPT-4V.
Впоследствии они оценили способность GPT-4V выполнять различные задачи, а также предложили новые методы использования GPT-4V, включая четыре основных аспекта:
**1. Использование GPT-4V: **
5 способов использования: входные изображения (изображения), субизображения (sub-images), тексты (texts), тексты сцен (scene texts) и визуальные указатели (визуальные указатели).
3 поддерживаемые возможности: следование инструкциям, цепочка мыслей и контекстное обучение за несколько шагов.
Например, это способность следовать инструкциям, продемонстрированная GPT-4V после изменения метода допроса на основе цепочки мышления:
**2. Производительность ГПТ-4В по 10 основным задачам: **
Визуальное понимание открытого мира, визуальное описание, мультимодальные знания, здравый смысл, понимание текста сцены, рассуждение о документе, письменное кодирование, временное рассуждение, абстрактное рассуждение, понимание эмоций
Среди них есть такого рода «вопросы для рассуждения об изображениях», для решения которых требуется определенный IQ:
**3. Навыки слов для больших мультимодальных моделей, подобных GPT-4V: **
Предлагается новая мультимодальная техника ключевого слова «визуальная референция» (визуальная референция), которая позволяет указать на интересующую задачу путем непосредственного редактирования входного изображения и используется в сочетании с другими методами ключевого слова.
**4. Потенциал исследования и внедрения мультимодальных больших моделей: **
Прогнозируются два типа областей, на которых должны сосредоточиться исследователи мультимодального обучения, включая реализацию (потенциальные сценарии применения) и направления исследований.
Например, это один из найденных исследователями возможных сценариев для GPT-4V — обнаружение неисправности:
Но будь то новая технология быстрого ввода слов или сценарии применения GPT-4V, всех больше всего беспокоит истинная сила GPT-4V.
Таким образом, в этом «руководстве по эксплуатации» впоследствии было использовано более 150 страниц для показа различных демонстраций, подробно описывающих возможности GPT-4V несмотря на разные ответы.
Давайте посмотрим, насколько далеко развились мультимодальные возможности GPT-4V сегодня.
Опыт работы с изображениями в профессиональных областях, а также возможность получения новых знаний прямо сейчас
Идентификация изображения
Самая простая идентификация, конечно, проще простого, например, знаменитости из всех слоев общества в сфере технологий, спорта и развлечений:
И вы можете не только увидеть, кто эти люди, но и понять, что они делают.Например, на рисунке ниже Хуан представляет новые видеокарты Nvidia.
Помимо людей, для GPT-4V без труда можно найти и ориентиры: он может не только определить имя и местоположение, но и дать подробную информацию.
△Слева: Таймс-сквер, Нью-Йорк, справа: храм Кинкакудзи, Киото.
Однако чем более известные люди и места, тем легче судить, поэтому нужны более сложные снимки, чтобы показать возможности GPT-4V.
Например, при медицинской визуализации для следующей КТ легких GPT-4V дал такое заключение:
Во многих областях обоих легких наблюдаются уплотнения и помутнения по типу «матового стекла», а также возможна инфекция или воспаление легких. В верхней доле правого легкого также может быть образование или узел.
Даже не сообщая GPT-4V тип и расположение изображения, он может судить о нем самостоятельно.
На этом изображении GPT-4V успешно идентифицировал его как изображение мозга, полученное магнитно-резонансной томографией (МРТ).
В то же время GPT-4V также обнаружил большое скопление жидкости, что расценивалось как глиома высокой степени злокачественности.
После профессионального суждения вывод, сделанный GPT-4V, полностью верен.
Помимо этого «серьезного» содержания, GPT-4V также уловил смайлики «нематериального культурного наследия» современного человеческого общества.
△Машинный перевод, только для справки.
GPT-4 может не только интерпретировать мемы в смайликах, но и эмоции, выраженные человеческими выражениями в реальном мире.
Помимо этих реальных изображений, важной задачей машинного зрения также является распознавание текста.
В связи с этим GPT-4V может не только распознавать языки, написанные латинскими буквами, но и распознавать другие языки, такие как китайский, японский и греческий.
Даже рукописные математические формулы:
### Обоснование изображения
Показанная выше ДЕМО, какой бы профессиональной или сложной для понимания она ни была, все еще находится в зоне распознавания, но это лишь верхушка айсберга навыков GPT-4V.
Помимо понимания содержания изображения, GPT-4V также обладает определенными способностями к рассуждению.
Проще говоря, GPT-4V может найти различия между двумя изображениями (хотя некоторые ошибки все же есть).
На следующем наборе фотографий различия между заводной головкой и дужкой были обнаружены с помощью GPT-4V.
Если вы увеличите сложность, GPT-4V также сможет решить графические задачи в тесте IQ.
Характеристики или логические связи в трех приведенных выше вопросах относительно просты, но трудность возникает в следующем:
Конечно, сложность заключается не в самой графике.Обратите внимание на четвертое текстовое описание на картинке.Расположение графики в исходном вопросе не такое, как показано на картинке.
### Аннотация к изображению
Помимо ответа на различные вопросы текстом, GPT-4V также может выполнять ряд операций над изображениями.
Например, у нас есть групповая фотография четырех гигантов искусственного интеллекта, и нам нужен GPT-4V, чтобы создать кадры для персонажей, надписать их имена и краткие представления.
GPT-4V сначала ответил на эти вопросы текстом, а затем выдал обработанные картинки:
### Динамический анализ контента
В дополнение к этому статическому содержимому GPT-4V также может выполнять динамический анализ, но он не передает видео модели напрямую.
Пять изображений ниже взяты из обучающего видео по приготовлению суши. Задача GPT-4V — угадать порядок появления этих изображений (на основе понимания содержания).
Для одной и той же серии изображений могут быть разные способы их понимания, поэтому GPT-4V будет выносить суждения на основе текстовых подсказок.
Например, в следующем наборе изображений действие человека, открывающее или закрывающую дверь, приведет к совершенно противоположным результатам сортировки.
Конечно, по изменениям статуса персонажей на нескольких изображениях мы также можем сделать вывод о том, что они делают.
Или даже предсказать, что будет дальше:
### "Обучение на месте"
GPT-4V не только обладает сильными визуальными способностями, но, главное, его можно выучить и сразу же продать.
Например, если GPT-4V попросить прочитать приборную панель автомобиля, первоначально полученный ответ будет неверным:
Затем я дал метод GPT-4V в тексте, но этот ответ все равно неверен:
Потом я показал пример GPT-4V, и ответ был аналогичный, но, к сожалению, числа были составлены случайным образом.
Только один пример действительно немного мал, но по мере увеличения количества образцов (на самом деле их становится только один больше) тяжелая работа наконец окупается, и GPT-4V дает правильный ответ.
GPT-4V показывает ограниченное количество эффектов. Конечно, он также поддерживает больше полей и задач. Здесь невозможно показать их по одному. Если вам интересно, вы можете прочитать исходный отчет.
Итак, какая же команда стоит за эффектами таких артефактов, как GPT-4V?
Руководство выпускников Цинхуа
Всего у этой статьи 7 авторов, все из Китая, 6 из которых являются основными авторами.
Ведущий автор проекта Лицзюань Ван — главный менеджер по исследованиям в области облачных вычислений и искусственного интеллекта в Microsoft.
Она окончила Хуачжунский университет науки и технологий и получила докторскую степень в Университете Цинхуа в Китае. В 2006 году она присоединилась к Microsoft Research Asia и Microsoft Research в Редмонде.
Область ее исследований — глубокое обучение и машинное обучение, основанное на мультимодальном перцептивном интеллекте, который, в частности, включает предварительное обучение модели визуального языка, генерацию субтитров изображений, обнаружение целей и другие технологии искусственного интеллекта.
Исходный адрес:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Microsoft написала руководство по GPT-4V: 166 страниц полных и подробных объяснений, включая примеры подсказок.
Источник: Кубиты
Выпущена мультимодальная королевская модель GPT-4V, 166 страниц "инструкции"! И это производится командой Microsoft.
Какую статью можно написать на 166 страницах?
Он не только подробно оценивает производительность GPT-4V на десяти основных задачах, но и демонстрирует все — от базового распознавания изображений до сложных логических рассуждений;
Он также обучает полному набору мультимодальных больших моделей навыкам использования подсказок——
Он шаг за шагом учит вас писать слова-подсказки от 0 до 1, а профессиональный уровень ответа легко понять с первого взгляда. Это действительно делает порог для использования GPT-4V несуществующим.
Перед выпуском 166-страничного отчета они также участвовали в исследовании последней версии DALL·E 3 от OpenAI и имеют глубокое понимание этой области.
По сравнению с 18-страничным документом OpenAI GPT-4V, это 166-страничное «Руководство по питанию» сразу же было признано обязательным к прочтению пользователями GPT-4V:
**Что говорится в 166-страничном отчете Microsoft? **
В данной статье рассматривается метод ГПТ-4В, суть которого опирается на одно слово - "попробуй".
Исследователи Microsoft разработали серию входных данных, охватывающих несколько доменов, передали их в GPT-4V, а затем наблюдали и записывали выходные данные GPT-4V.
Впоследствии они оценили способность GPT-4V выполнять различные задачи, а также предложили новые методы использования GPT-4V, включая четыре основных аспекта:
**1. Использование GPT-4V: **
5 способов использования: входные изображения (изображения), субизображения (sub-images), тексты (texts), тексты сцен (scene texts) и визуальные указатели (визуальные указатели).
3 поддерживаемые возможности: следование инструкциям, цепочка мыслей и контекстное обучение за несколько шагов.
Например, это способность следовать инструкциям, продемонстрированная GPT-4V после изменения метода допроса на основе цепочки мышления:
Визуальное понимание открытого мира, визуальное описание, мультимодальные знания, здравый смысл, понимание текста сцены, рассуждение о документе, письменное кодирование, временное рассуждение, абстрактное рассуждение, понимание эмоций
Среди них есть такого рода «вопросы для рассуждения об изображениях», для решения которых требуется определенный IQ:
Предлагается новая мультимодальная техника ключевого слова «визуальная референция» (визуальная референция), которая позволяет указать на интересующую задачу путем непосредственного редактирования входного изображения и используется в сочетании с другими методами ключевого слова.
Прогнозируются два типа областей, на которых должны сосредоточиться исследователи мультимодального обучения, включая реализацию (потенциальные сценарии применения) и направления исследований.
Например, это один из найденных исследователями возможных сценариев для GPT-4V — обнаружение неисправности:
Давайте посмотрим, насколько далеко развились мультимодальные возможности GPT-4V сегодня.
Опыт работы с изображениями в профессиональных областях, а также возможность получения новых знаний прямо сейчас
Идентификация изображения
Самая простая идентификация, конечно, проще простого, например, знаменитости из всех слоев общества в сфере технологий, спорта и развлечений:
Однако чем более известные люди и места, тем легче судить, поэтому нужны более сложные снимки, чтобы показать возможности GPT-4V.
Например, при медицинской визуализации для следующей КТ легких GPT-4V дал такое заключение:
На этом изображении GPT-4V успешно идентифицировал его как изображение мозга, полученное магнитно-резонансной томографией (МРТ).
В то же время GPT-4V также обнаружил большое скопление жидкости, что расценивалось как глиома высокой степени злокачественности.
После профессионального суждения вывод, сделанный GPT-4V, полностью верен.
GPT-4 может не только интерпретировать мемы в смайликах, но и эмоции, выраженные человеческими выражениями в реальном мире.
В связи с этим GPT-4V может не только распознавать языки, написанные латинскими буквами, но и распознавать другие языки, такие как китайский, японский и греческий.
Показанная выше ДЕМО, какой бы профессиональной или сложной для понимания она ни была, все еще находится в зоне распознавания, но это лишь верхушка айсберга навыков GPT-4V.
Помимо понимания содержания изображения, GPT-4V также обладает определенными способностями к рассуждению.
Проще говоря, GPT-4V может найти различия между двумя изображениями (хотя некоторые ошибки все же есть).
На следующем наборе фотографий различия между заводной головкой и дужкой были обнаружены с помощью GPT-4V.
Конечно, сложность заключается не в самой графике.Обратите внимание на четвертое текстовое описание на картинке.Расположение графики в исходном вопросе не такое, как показано на картинке.
Помимо ответа на различные вопросы текстом, GPT-4V также может выполнять ряд операций над изображениями.
Например, у нас есть групповая фотография четырех гигантов искусственного интеллекта, и нам нужен GPT-4V, чтобы создать кадры для персонажей, надписать их имена и краткие представления.
В дополнение к этому статическому содержимому GPT-4V также может выполнять динамический анализ, но он не передает видео модели напрямую.
Пять изображений ниже взяты из обучающего видео по приготовлению суши. Задача GPT-4V — угадать порядок появления этих изображений (на основе понимания содержания).
Например, в следующем наборе изображений действие человека, открывающее или закрывающую дверь, приведет к совершенно противоположным результатам сортировки.
GPT-4V не только обладает сильными визуальными способностями, но, главное, его можно выучить и сразу же продать.
Например, если GPT-4V попросить прочитать приборную панель автомобиля, первоначально полученный ответ будет неверным:
Итак, какая же команда стоит за эффектами таких артефактов, как GPT-4V?
Руководство выпускников Цинхуа
Всего у этой статьи 7 авторов, все из Китая, 6 из которых являются основными авторами.
Область ее исследований — глубокое обучение и машинное обучение, основанное на мультимодальном перцептивном интеллекте, который, в частности, включает предварительное обучение модели визуального языка, генерацию субтитров изображений, обнаружение целей и другие технологии искусственного интеллекта.
Исходный адрес: