Microsoft написала руководство по GPT-4V: 166 страниц полных и подробных объяснений, включая примеры подсказок.

2023-10-05 04:34:17

Источник: Кубиты

Выпущена мультимодальная королевская модель GPT-4V, 166 страниц "инструкции"! И это производится командой Microsoft.

Какую статью можно написать на 166 страницах?

Он не только подробно оценивает производительность GPT-4V на десяти основных задачах, но и демонстрирует все — от базового распознавания изображений до сложных логических рассуждений;

Он также обучает полному набору мультимодальных больших моделей навыкам использования подсказок——

Он шаг за шагом учит вас писать слова-подсказки от 0 до 1, а профессиональный уровень ответа легко понять с первого взгляда. Это действительно делает порог для использования GPT-4V несуществующим.

Стоит отметить, что автор этой статьи также представляет собой «полностью китайский класс»: все семь авторов — китайцы, а лидер — женщина-главный научный руководитель, проработавшая в Microsoft 17 лет.

Перед выпуском 166-страничного отчета они также участвовали в исследовании последней версии DALL·E 3 от OpenAI и имеют глубокое понимание этой области.

По сравнению с 18-страничным документом OpenAI GPT-4V, это 166-страничное «Руководство по питанию» сразу же было признано обязательным к прочтению пользователями GPT-4V:

Некоторые пользователи сети посетовали: «Это не статья, это почти 166-страничная книга».

Некоторые пользователи сети уже запаниковали, прочитав:

Не смотрите на детали ответа GPT-4V. Я действительно боюсь потенциальных возможностей ИИ.

Итак, о чем именно говорится в «документе» Microsoft и какой «потенциал» он показывает в отношении GPT-4V?

Что говорится в 166-страничном отчете Microsoft?

В данной статье рассматривается метод ГПТ-4В, суть которого опирается на одно слово - "попробуй".

Исследователи Microsoft разработали серию входных данных, охватывающих несколько доменов, передали их в GPT-4V, а затем наблюдали и записывали выходные данные GPT-4V.

Впоследствии они оценили способность GPT-4V выполнять различные задачи, а также предложили новые методы использования GPT-4V, включая четыре основных аспекта:

**1. Использование GPT-4V: **

5 способов использования: входные изображения (изображения), субизображения (sub-images), тексты (texts), тексты сцен (scene texts) и визуальные указатели (визуальные указатели).

3 поддерживаемые возможности: следование инструкциям, цепочка мыслей и контекстное обучение за несколько шагов.

Например, это способность следовать инструкциям, продемонстрированная GPT-4V после изменения метода допроса на основе цепочки мышления:

**2. Производительность ГПТ-4В по 10 основным задачам: **

Визуальное понимание открытого мира, визуальное описание, мультимодальные знания, здравый смысл, понимание текста сцены, рассуждение о документе, письменное кодирование, временное рассуждение, абстрактное рассуждение, понимание эмоций

Среди них есть такого рода «вопросы для рассуждения об изображениях», для решения которых требуется определенный IQ:

**3. Навыки слов для больших мультимодальных моделей, подобных GPT-4V: **

Предлагается новая мультимодальная техника ключевого слова «визуальная референция» (визуальная референция), которая позволяет указать на интересующую задачу путем непосредственного редактирования входного изображения и используется в сочетании с другими методами ключевого слова.

**4. Потенциал исследования и внедрения мультимодальных больших моделей: **

Прогнозируются два типа областей, на которых должны сосредоточиться исследователи мультимодального обучения, включая реализацию (потенциальные сценарии применения) и направления исследований.

Например, это один из найденных исследователями возможных сценариев для GPT-4V — обнаружение неисправности:

Но будь то новая технология быстрого ввода слов или сценарии применения GPT-4V, всех больше всего беспокоит истинная сила GPT-4V.

Таким образом, в этом «руководстве по эксплуатации» впоследствии было использовано более 150 страниц для показа различных демонстраций, подробно описывающих возможности GPT-4V несмотря на разные ответы.

Давайте посмотрим, насколько далеко развились мультимодальные возможности GPT-4V сегодня.

Опыт работы с изображениями в профессиональных областях, а также возможность получения новых знаний прямо сейчас

Идентификация изображения

Самая простая идентификация, конечно, проще простого, например, знаменитости из всех слоев общества в сфере технологий, спорта и развлечений:

И вы можете не только увидеть, кто эти люди, но и понять, что они делают.Например, на рисунке ниже Хуан представляет новые видеокарты Nvidia.

Помимо людей, для GPT-4V без труда можно найти и ориентиры: он может не только определить имя и местоположение, но и дать подробную информацию.

△Слева: Таймс-сквер, Нью-Йорк, справа: храм Кинкакудзи, Киото.

Однако чем более известные люди и места, тем легче судить, поэтому нужны более сложные снимки, чтобы показать возможности GPT-4V.

Например, при медицинской визуализации для следующей КТ легких GPT-4V дал такое заключение:

Во многих областях обоих легких наблюдаются уплотнения и помутнения по типу «матового стекла», а также возможна инфекция или воспаление легких. В верхней доле правого легкого также может быть образование или узел.

Даже не сообщая GPT-4V тип и расположение изображения, он может судить о нем самостоятельно.

На этом изображении GPT-4V успешно идентифицировал его как изображение мозга, полученное магнитно-резонансной томографией (МРТ).

В то же время GPT-4V также обнаружил большое скопление жидкости, что расценивалось как глиома высокой степени злокачественности.

После профессионального суждения вывод, сделанный GPT-4V, полностью верен.

Помимо этого «серьезного» содержания, GPT-4V также уловил смайлики «нематериального культурного наследия» современного человеческого общества.

△Машинный перевод, только для справки.

GPT-4 может не только интерпретировать мемы в смайликах, но и эмоции, выраженные человеческими выражениями в реальном мире.

Помимо этих реальных изображений, важной задачей машинного зрения также является распознавание текста.

В связи с этим GPT-4V может не только распознавать языки, написанные латинскими буквами, но и распознавать другие языки, такие как китайский, японский и греческий.

Даже рукописные математические формулы:

### Обоснование изображения

Показанная выше ДЕМО, какой бы профессиональной или сложной для понимания она ни была, все еще находится в зоне распознавания, но это лишь верхушка айсберга навыков GPT-4V.

Помимо понимания содержания изображения, GPT-4V также обладает определенными способностями к рассуждению.

Проще говоря, GPT-4V может найти различия между двумя изображениями (хотя некоторые ошибки все же есть).

На следующем наборе фотографий различия между заводной головкой и дужкой были обнаружены с помощью GPT-4V.

Если вы увеличите сложность, GPT-4V также сможет решить графические задачи в тесте IQ.

Характеристики или логические связи в трех приведенных выше вопросах относительно просты, но трудность возникает в следующем:

Конечно, сложность заключается не в самой графике.Обратите внимание на четвертое текстовое описание на картинке.Расположение графики в исходном вопросе не такое, как показано на картинке.

### Аннотация к изображению

Помимо ответа на различные вопросы текстом, GPT-4V также может выполнять ряд операций над изображениями.

Например, у нас есть групповая фотография четырех гигантов искусственного интеллекта, и нам нужен GPT-4V, чтобы создать кадры для персонажей, надписать их имена и краткие представления.

GPT-4V сначала ответил на эти вопросы текстом, а затем выдал обработанные картинки:

### Динамический анализ контента

В дополнение к этому статическому содержимому GPT-4V также может выполнять динамический анализ, но он не передает видео модели напрямую.

Пять изображений ниже взяты из обучающего видео по приготовлению суши. Задача GPT-4V — угадать порядок появления этих изображений (на основе понимания содержания).

Для одной и той же серии изображений могут быть разные способы их понимания, поэтому GPT-4V будет выносить суждения на основе текстовых подсказок.

Например, в следующем наборе изображений действие человека, открывающее или закрывающую дверь, приведет к совершенно противоположным результатам сортировки.

Конечно, по изменениям статуса персонажей на нескольких изображениях мы также можем сделать вывод о том, что они делают.

Или даже предсказать, что будет дальше:

### "Обучение на месте"

GPT-4V не только обладает сильными визуальными способностями, но, главное, его можно выучить и сразу же продать.

Например, если GPT-4V попросить прочитать приборную панель автомобиля, первоначально полученный ответ будет неверным:

Затем я дал метод GPT-4V в тексте, но этот ответ все равно неверен:

Потом я показал пример GPT-4V, и ответ был аналогичный, но, к сожалению, числа были составлены случайным образом.

Только один пример действительно немного мал, но по мере увеличения количества образцов (на самом деле их становится только один больше) тяжелая работа наконец окупается, и GPT-4V дает правильный ответ.

GPT-4V показывает ограниченное количество эффектов. Конечно, он также поддерживает больше полей и задач. Здесь невозможно показать их по одному. Если вам интересно, вы можете прочитать исходный отчет.

Итак, какая же команда стоит за эффектами таких артефактов, как GPT-4V?

Руководство выпускников Цинхуа

Всего у этой статьи 7 авторов, все из Китая, 6 из которых являются основными авторами.

Ведущий автор проекта Лицзюань Ван — главный менеджер по исследованиям в области облачных вычислений и искусственного интеллекта в Microsoft.

Она окончила Хуачжунский университет науки и технологий и получила докторскую степень в Университете Цинхуа в Китае. В 2006 году она присоединилась к Microsoft Research Asia и Microsoft Research в Редмонде.

Область ее исследований — глубокое обучение и машинное обучение, основанное на мультимодальном перцептивном интеллекте, который, в частности, включает предварительное обучение модели визуального языка, генерацию субтитров изображений, обнаружение целей и другие технологии искусственного интеллекта.

Исходный адрес:

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
1/3
1Gate Launchpad List IKA
55k Популярность
2ETH Back to $3,800
14k Популярность
3Simple Earn Annual Rate 24.4%
45k Популярность
4Tariff Deal New Update
9k Популярность
5Stablecoin Regulation
987 Популярность

Закрепить

Карта сайта

Microsoft написала руководство по GPT-4V: 166 страниц полных и подробных объяснений, включая примеры подсказок.

**Что говорится в 166-страничном отчете Microsoft? **

Опыт работы с изображениями в профессиональных областях, а также возможность получения новых знаний прямо сейчас

Идентификация изображения

Руководство выпускников Цинхуа

Что говорится в 166-страничном отчете Microsoft?