Мультимодальный запрет ChatGPT снят, пользователи сети сходят с ума!

**Источник:**Синьчжиюань

В среду OpenAI только что объявила о снятии запрета на мультимодальные возможности ChatGPT.

Теперь, как только это попадает в сеть, пользователи сети моментально сходят с ума.

Далее давайте посмотрим, насколько сильны возможности ChatGPT по распознаванию изображений.

Сделайте фотографию и загрузите ее, и код будет сгенерирован мгновенно.

Пользователь сети записал видео и загрузил изображение на доске во время встречи, а затем попросил ChatGPT написать код.

Кроме того, вы можете загрузить нарисованный от руки эскиз и попросить ChatGPT создать веб-страницу в формате HTML.

Ух-тьфу, код выходил каждую минуту.

Это просто мультимодальные возможности, продемонстрированные Грегом Брокманом, когда в этом году был выпущен GPT-4.

Другой пример: сфотографируйте свой блокнот со списком дел.

Затем пусть GPT-4 создаст графический интерфейс Python Tkinter, и тогда он будет реализован...

Древние рукописи свитков, краткий перевод

Вот еще один рисунок из рукописи алхимика 17 века Роберта Бойля. Может ли GPT-4 прочитать его?

Для этого это проще простого.

Например, «Каталонское медицинское руководство по лекарственным мумиям».

ChatGPT также может расшифровывать и переводить.

Бенджамин Брин, доцент кафедры истории Калифорнийского университета в Калифорнии, сказал:

Это окажет значительное влияние на историков. Представьте себе специальный мультимодальный GPT-4, обученный на определенном наборе рукописей. Он может не только расшифровывать, но также переводить и классифицировать. (Именно это, на мой взгляд, писать без магистратуры — это очень важно).

Сводка диаграммы также очень 6

Вы также можете дать команду GPT-4 извлечь данные на основе диаграммы.

Затем можно создать код Python, чтобы воспроизвести диаграмму и сделать ее более похожей на диаграмму.

Затем киньте ему диаграмму тренда акций, и он также сможет проанализировать и обобщить характеристики.

Распознавание картинок «Превосходный IQ»

Дайте GPT-4 абстрактную картину.

На самом деле он может точно определить метафору «важности общения», которую хотят выразить эти четыре изображения.

GPT-4V может читать даже почерк врачей.

Некоторые японские пользователи сети напрямую использовали Сунь Укуна из «Жемчуга дракона», чтобы пройти тест ChatGPT.

Существуют также различные коды проверки «вы человек?»

Загрузите часть своей собственной работы, и GPT-4 также может дать вам рекомендации по улучшению.

Некоторые пользователи сети обнаружили, что GPT-4V дал правильный ответ на этот вопрос в статье «Космос-1», но в процессе рассуждения была допущена ошибка.

Благодаря этой функции детям больше не придется делать домашнее задание.

Резюме от пользователей сети

В дополнение к вышеизложенному опыту некоторые пользователи сети написали длинную статью, в которой представили свой собственный тест GPT-4V.

Тест 1. Наглядные вопросы и ответы

Дайте мне смайлик и посмотрите, насколько хорошо его понимает GPT-4V?

GPT-4V удачно объясняет, чем это интересно, и упоминает отдельные составляющие картинки и то, как они между собой связаны.

Стоит отметить, что GPT-4V может читать предоставленные комментарии в квадратных скобках и отвечать на них.

Несмотря на это, GPT-4V все же допустил ошибку, пометив жареную курицу как «NVIDIA BURGER» вместо «GPU».

Затем еще раз проверьте это с помощью монеты, фотографии американского пенни. GPT-4V способен успешно определить происхождение и номинал монеты.

Но если это изображение нескольких монет и вопрос GPT-4V, сколько у меня денег?

На данный момент он может определить только количество монет, но не тип валюты.

Тест 2: Распознавание OCR

Снимайте текстовые изображения с веб-страниц и загружайте их. GPT-4V очень хорошо читает контент.

Тест 3. Математическое распознавание текста

Математическое распознавание символов — это особая форма оптического распознавания символов, предназначенная для математических уравнений.

Пользователь сети задал GPT-4V математическую задачу и представил ее в виде скриншота документа.

Эта задача включает в себя вычисление длины линии молнии по двум углам с подсказкой «решить это» на изображении.

Модель определяет проблемы, которые можно решить с помощью тригонометрии, определяет используемые функции и предоставляет пошаговое руководство по решению проблемы. Затем GPT-4V дает правильный ответ на вопрос.

При этом на системной карте GPT-4V указано, что в модели могут отсутствовать математические символы.

Различные тесты, в том числе тесты с уравнениями или выражениями, написанными от руки на бумаге, могут указывать на недостаточную способность модели отвечать на математические вопросы.

Тест 4: Обнаружение объектов

При запросе GPT-4V обнаружить собаку на изображении и предоставить значения x_min, y_min, x_max и y_max, связанные с положением собаки, координаты ограничительной рамки, возвращаемые GPT-4V, не совпадают. положение собаки.

Хотя GPT-4V очень эффективен при ответе на вопросы об изображениях, эта модель не может заменить модели точной настройки обнаружения объектов, когда вы хотите узнать, где находится объект на изображении.

Тест 5. Код подтверждения

Было обнаружено, что GPT-4V способен распознавать изображения, содержащие коды проверки, но часто не проходит тест.

В примере выбора сеток светофоров GPT-4V выбрал меньше сеток, содержащих светофоры.

Тест 6: Кроссворды и судоку

В тесте судоку GPT-4V распознал игру, но неправильно понял структуру доски и поэтому выдал неточные результаты.

Кстати, сетевая функция ChatGPT вернулась.

Использованная литература:

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить