*Источник изображения: создан инструментом Unbounded AI
Когда OpenAI впервые выпустила свою флагманскую модель искусственного интеллекта для генерации текста, GPT-4, компания рекламировала мультимодальность модели — другими словами, ее способность понимать не только текст, но и изображения. OpenAI утверждает, что GPT-4 может подписывать и даже объяснять относительно сложные изображения, например, идентифицировать адаптер кабеля Lightning по изображению подключенного к нему iPhone.
Но с тех пор, как в конце марта был выпущен GPT-4, OpenAI сохранила возможности визуализации модели, как сообщается, из-за опасений по поводу неправильного использования и проблем с конфиденциальностью. До недавнего времени точная природа этих опасений оставалась загадкой. Ранее на этой неделе OpenAI опубликовала технический документ с подробным описанием своей работы по уменьшению проблемных аспектов инструмента анализа изображений GPT-4.
На сегодняшний день GPT-4 с поддержкой зрения (называемый внутри OpenAI «GPT-4V») регулярно используется только тысячами пользователей Be My Eyes, приложения, которое помогает слабовидящим и слепым людям ориентироваться в окружающей среде. Однако, согласно статье, за последние несколько месяцев OpenAI также начала работать с «красными командами» над изучением модели на предмет признаков неожиданного поведения.
В документе OpenAI утверждает, что у него есть меры защиты, предотвращающие злонамеренное использование GPT-4V, например взлом CAPTCHA, идентификация человека или оценка его возраста или расы, а также составление выводов на основе информации, которой нет на фотографии. . OpenAI также заявила, что работает над подавлением наиболее вредных предубеждений в GPT-4V, особенно тех, которые связаны с внешностью, полом или расой человека.
Но, как и в случае со всеми моделями ИИ, меры защиты могут зайти слишком далеко.
В документе показано, что GPT-4V иногда с трудом делал правильные выводы, например, неправильно объединяя две строки текста в изображении для создания вымышленного термина. Как и базовый GPT-4, GPT-4V склонен к галлюцинациям или фабрикации фактов в авторитетном тоне. Кроме того, он пропускает слова или символы, игнорирует математические символы и не может распознать достаточно очевидные объекты и места расположения.
Поэтому неудивительно, что OpenAI прямо заявляет, что GPT-4V нельзя использовать для обнаружения опасных веществ или химикатов на изображениях. (Этот репортер даже не думал о таком варианте использования, но, видимо, OpenAI настолько заинтересована в этой перспективе, что компания сочла необходимым указать на нее). Красные команды обнаружили, что хотя модель иногда правильно идентифицировала ядовитые продукты, такие как ядовитые грибы, она также неправильно идентифицировала такие вещества, как фентанил, карфентанил и кокаин, на изображениях химических структур.
GPT-4V также плохо работал при применении к медицинской визуализации, иногда давая неправильные ответы на тот же вопрос, хотя в предыдущих ситуациях он отвечал правильно. Кроме того, GPT-4V не знает некоторых стандартных методов, таких как просмотр сканов изображений, когда пациент смотрит на вас (это означает, что правая сторона изображения соответствует левой стороне пациента), что также может привести к неправильному диагнозу.
В других местах, предупреждает OpenAI, GPT-4V также не понимает нюансов некоторых символов ненависти — например, он не знает современного значения Храмового креста (обозначающего превосходство белых) в Соединенных Штатах. Еще более странно и, возможно, является симптомом его галлюцинаторных тенденций: было замечено, что GPT-4V сочиняет песни или стихи, восхваляющие определенные ненавистные фигуры или группы, когда им дают их изображения, даже если эти фигуры или группы не представлены.
GPT-4V также дискриминирует определенные полы и типы телосложения — хотя только тогда, когда защита урожайности OpenAI отключена. В одном из тестов, когда его попросили дать совет женщине, носящей купальник, GPT-4V дал ответы, которые почти полностью были связаны с понятиями о весе и физическом состоянии женщины, пишет OpenAI. Мы подозреваем, что этого не было бы, если бы человек на фотографии был мужчиной.
Судя по предостережениям в статье, GPT-4V все еще находится в стадии разработки - все еще в нескольких шагах от первоначального видения OpenAI. Во многих случаях компании приходилось внедрять слишком строгие меры безопасности, чтобы модели не распространяли токсичную или дезинформацию или не ставили под угрозу личную конфиденциальность.
OpenAI утверждает, что создает «средства смягчения последствий» и «процессы» для расширения возможностей модели «безопасным» способом, например, позволяя GPT-4V описывать лица и людей, не называя их. Но эта статья показывает, что GPT-4V не всесилен, и OpenAI еще предстоит много работы.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Мультимодальные возможности ChatGPT вызвали ажиотаж, но в собственной статье выяснилось, что у GPT-4V все еще есть недостатки.
Автор Кайл Виггерс
Источник: TechCrunch
Когда OpenAI впервые выпустила свою флагманскую модель искусственного интеллекта для генерации текста, GPT-4, компания рекламировала мультимодальность модели — другими словами, ее способность понимать не только текст, но и изображения. OpenAI утверждает, что GPT-4 может подписывать и даже объяснять относительно сложные изображения, например, идентифицировать адаптер кабеля Lightning по изображению подключенного к нему iPhone.
Но с тех пор, как в конце марта был выпущен GPT-4, OpenAI сохранила возможности визуализации модели, как сообщается, из-за опасений по поводу неправильного использования и проблем с конфиденциальностью. До недавнего времени точная природа этих опасений оставалась загадкой. Ранее на этой неделе OpenAI опубликовала технический документ с подробным описанием своей работы по уменьшению проблемных аспектов инструмента анализа изображений GPT-4.
На сегодняшний день GPT-4 с поддержкой зрения (называемый внутри OpenAI «GPT-4V») регулярно используется только тысячами пользователей Be My Eyes, приложения, которое помогает слабовидящим и слепым людям ориентироваться в окружающей среде. Однако, согласно статье, за последние несколько месяцев OpenAI также начала работать с «красными командами» над изучением модели на предмет признаков неожиданного поведения.
В документе OpenAI утверждает, что у него есть меры защиты, предотвращающие злонамеренное использование GPT-4V, например взлом CAPTCHA, идентификация человека или оценка его возраста или расы, а также составление выводов на основе информации, которой нет на фотографии. . OpenAI также заявила, что работает над подавлением наиболее вредных предубеждений в GPT-4V, особенно тех, которые связаны с внешностью, полом или расой человека.
Но, как и в случае со всеми моделями ИИ, меры защиты могут зайти слишком далеко.
В документе показано, что GPT-4V иногда с трудом делал правильные выводы, например, неправильно объединяя две строки текста в изображении для создания вымышленного термина. Как и базовый GPT-4, GPT-4V склонен к галлюцинациям или фабрикации фактов в авторитетном тоне. Кроме того, он пропускает слова или символы, игнорирует математические символы и не может распознать достаточно очевидные объекты и места расположения.
GPT-4V также плохо работал при применении к медицинской визуализации, иногда давая неправильные ответы на тот же вопрос, хотя в предыдущих ситуациях он отвечал правильно. Кроме того, GPT-4V не знает некоторых стандартных методов, таких как просмотр сканов изображений, когда пациент смотрит на вас (это означает, что правая сторона изображения соответствует левой стороне пациента), что также может привести к неправильному диагнозу.
GPT-4V также дискриминирует определенные полы и типы телосложения — хотя только тогда, когда защита урожайности OpenAI отключена. В одном из тестов, когда его попросили дать совет женщине, носящей купальник, GPT-4V дал ответы, которые почти полностью были связаны с понятиями о весе и физическом состоянии женщины, пишет OpenAI. Мы подозреваем, что этого не было бы, если бы человек на фотографии был мужчиной.
OpenAI утверждает, что создает «средства смягчения последствий» и «процессы» для расширения возможностей модели «безопасным» способом, например, позволяя GPT-4V описывать лица и людей, не называя их. Но эта статья показывает, что GPT-4V не всесилен, и OpenAI еще предстоит много работы.