ChatGPT4 уже силен, и теперь, с очередным обновлением, они доказывают, что могут быть еще сильнее.
25 сентября OpenAI объявила, что ChatGPT добавит мультимодальные функции — теперь ChatGPT может не только писать диалоги, но и видеть, слушать и говорить. Говорят, что эта функция будет доступна пользователям Plus и корпоративным пользователям в течение двух недель, а в будущем будет доступна всем пользователям бесплатно (хотя у меня черное лицо и я не ждал обновления).
ChatGPT, который можно увидеть и произнести, равносилен оснащению и без того мощного мозга глазами и ушами, и, согласно демонстрации OpenAI, мультимодальная функция может расширить использование ChatGPT до беспрецедентной широты.
01 Зрение ChatGPT
После обновления ChatGPT может читать картинки.
Просто сделайте снимок и дайте ему фотографию, и это поможет вам починить микроволновую печь, починить велосипед, просмотреть рецепты и даже проанализировать сложные бизнес-заявления. OpenAI говорит, что если у вас есть сенсорный экран, вы также можете обвести кругом те части изображения, на которых вы хотите, чтобы он фокусировался.
В демонстрационном видео пользователь дал ChatGPT фотографию велосипеда и спросил, как отрегулировать высоту седла.
GPT сказал, что необходимо найти рычаг регулировки высоты под сиденьем, но в этом автомобиле рычага регулировки не было, только регулировочный болт, и после того, как пользователь обвел болт на фото, GPT сразу же обновил использование болта.
После этого пользователь также загрузил ящик с инструментами и руководство по велосипеду, а GPT дал подробное название инструмента, его местоположение и способ его использования.
Не могу починить велосипеды, нет проблем, просто спросите ChatGPT
По сравнению с общим поиском по распознаванию изображений, ChatGPT может обрабатывать изображения и тексты одновременно, а также может распознавать несколько изображений, эффект похож на руководство по видеоподключению мастера по ремонту автомобилей.
Другой пользователь отправил фотографию пиццы в ChatGPT и спросил, выпечена ли пицца, и ChatGPT рассудил, что пицца должна быть съедобной через золотистые хрустящие края пиццы и расплавленный коричневый сыр на картинке, а затем дал надежное руководство по осмотру - достаньте пиццу и посмотрите, если основа пиццы уже хрустящая, а поверхность горячая, то пицца действительно съедобна.
Эффект почти как у итальянского шеф-повара
Конечно, вы также можете использовать эту функцию, чтобы жульничать в игре.
Где Вилли? Вероятно, самая известная игра с картинками в англоязычном мире, Вилли одет в красно-белую полосатую одежду, шляпу с помпоном и очки в черной оправе, спрятан в море людей, и поиск Вилли из всевозможных беспорядочных сред является хорошим детским воспоминанием для многих людей.
Когда вы были ребенком, вы, возможно, видели этого маленького тощего человечка, который спешил умереть
Но ChatGPT может испортить игру за секунду. Он не только мгновенно идентифицирует Вилли, но и сообщает вам, что Вилли находится на правой стороне пляжа посреди пляжа, смешиваясь с группой людей с синими зонтиками.
Мало того, он также претендует на то, чтобы сказать вам, что найти Вилли на такой картине — интересная задача.
Спасибо, ChatGPT, за то, что испортили эту игру
Тем не менее, некоторые пользователи сети, которые использовали новую версию, сказали, что функция распознавания карт ChatGPT не так мощна, как представляется** - по крайней мере, она не может понимать гомофонические сталки. Картинка «К Элизе» Бетховена, но на ней написано For Lease, ChatGPT не распознал партитуру, не понял шутку и придумал объяснение.
Достаточно тяжело, но нет
Такое мощное распознавание изображений вызывает опасения по поводу конфиденциальности — оно легко может стать соучастником при поиске личной информации. OpenAI обещает, что компания ограничит способность ChatGPT идентифицировать и находить личную информацию, чтобы максимально защитить личную конфиденциальность каждого.
02 GPT, который умеет хорошо говорить
В расширенной версии ChatGPT также есть функция чата.
Модель распознавания речи OpenAI называется моделью Whisper, и пользователи могут задавать свои вопросы, а модель будет преобразовывать речь в текст, а затем преобразовывать ответ в речевой вывод через систему синтеза речи.
Модель синтеза речи на этот раз выпустила пять типов голосовых образцов, в том числе женские голоса с эмоциональной сдержанностью и плоскими голосами, а также восторженные женские голоса тети с подавленными и разочарованными голосами. Эти пять голосов сильно различаются, эмоции естественны, а слова четкие, что немного лучше, чем при синтезе предыдущей речи.
Пять ролей на выбор
Несмотря на то, что в этот раз было выпущено всего пять звуковых сэмплов, потенциал этой модели на этом не заканчивается — OpenAI заключила партнерское соглашение со Spotify для перевода подкастов на другие языки, сохранив при этом качество звука вещателя в максимальной степени. При желании эта система синтеза речи может имитировать голос практически любого человека на планете.
На данный момент голосовая версия ChatGPT по-прежнему доступна только в приложении.
03 Обязательно ли хорошо уметь видеть и слышать?
ChatGPT мощный, но какой ценой?
Когда-то самым эффективным способом различения людей и машин в больших масштабах была капча, и способность ChatGPT читать изображения когда-то заставила людей беспокоиться о том, что капчи больше не смогут поймать ИИ в ловушку.
Кто-то отправил ChatGPT следующий классический тестовый вопрос: Найди чихуахуа и черничный торт на 16 картинках, и ChatGPT решил задачу на отлично.
Но самую распространенную капчу, новый ChatGPT до сих пор не может распознать.
Этот вопрос требует, чтобы ChatGPT выбрал все сигналы на диаграмме, и он дает частоту ошибок до 50.
Однако, столкнувшись с кодом проверки, который они не распознают, у ChatGPT4 все еще есть способ решить эту проблему. В этом вопросе у него есть судимость.
27 марта этого года OpenAI выпустила технический отчет GPT-4, в котором указывалось, что перед лицом неузнаваемых кодов проверки GPT-4 нашла другой способ обратиться к TaskRabbit (зарубежная гиг-платформа) для выпуска заданий, обманув людей на другой стороне, что у них есть нарушения зрения и им нужны другие, чтобы помочь идентифицировать коды проверки.
В некоторых случаях ChatGPT может активно обманывать людей, что является очень опасным направлением. К счастью, в публичной версии GPT-4 эта функция была удалена.
30 ноября 2022 года был впервые запущен ChatGPT, и менее чем за год его возможности продвинулись семимильными шагами, и кажется, что он уже бросает вызов морально-этическим границам человечества. Запуск этой новой функции заставил нас беспокоиться о том, что ChatGPT, который становится все более и более мощным, станет зверем в клетке, и однажды он вырвется из своей клетки и навредит всем. И готовы ли мы к этому дню?
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
ChatGPT может помочь людям ремонтировать велосипеды, глядя на фотографии
Источник: Фруктовая скорлупа
ChatGPT4 уже силен, и теперь, с очередным обновлением, они доказывают, что могут быть еще сильнее.
25 сентября OpenAI объявила, что ChatGPT добавит мультимодальные функции — теперь ChatGPT может не только писать диалоги, но и видеть, слушать и говорить. Говорят, что эта функция будет доступна пользователям Plus и корпоративным пользователям в течение двух недель, а в будущем будет доступна всем пользователям бесплатно (хотя у меня черное лицо и я не ждал обновления).
ChatGPT, который можно увидеть и произнести, равносилен оснащению и без того мощного мозга глазами и ушами, и, согласно демонстрации OpenAI, мультимодальная функция может расширить использование ChatGPT до беспрецедентной широты.
01 Зрение ChatGPT
После обновления ChatGPT может читать картинки.
Просто сделайте снимок и дайте ему фотографию, и это поможет вам починить микроволновую печь, починить велосипед, просмотреть рецепты и даже проанализировать сложные бизнес-заявления. OpenAI говорит, что если у вас есть сенсорный экран, вы также можете обвести кругом те части изображения, на которых вы хотите, чтобы он фокусировался.
В демонстрационном видео пользователь дал ChatGPT фотографию велосипеда и спросил, как отрегулировать высоту седла.
GPT сказал, что необходимо найти рычаг регулировки высоты под сиденьем, но в этом автомобиле рычага регулировки не было, только регулировочный болт, и после того, как пользователь обвел болт на фото, GPT сразу же обновил использование болта.
После этого пользователь также загрузил ящик с инструментами и руководство по велосипеду, а GPT дал подробное название инструмента, его местоположение и способ его использования.
Не могу починить велосипеды, нет проблем, просто спросите ChatGPT
По сравнению с общим поиском по распознаванию изображений, ChatGPT может обрабатывать изображения и тексты одновременно, а также может распознавать несколько изображений, эффект похож на руководство по видеоподключению мастера по ремонту автомобилей.
Другой пользователь отправил фотографию пиццы в ChatGPT и спросил, выпечена ли пицца, и ChatGPT рассудил, что пицца должна быть съедобной через золотистые хрустящие края пиццы и расплавленный коричневый сыр на картинке, а затем дал надежное руководство по осмотру - достаньте пиццу и посмотрите, если основа пиццы уже хрустящая, а поверхность горячая, то пицца действительно съедобна.
Эффект почти как у итальянского шеф-повара
Конечно, вы также можете использовать эту функцию, чтобы жульничать в игре.
Где Вилли? Вероятно, самая известная игра с картинками в англоязычном мире, Вилли одет в красно-белую полосатую одежду, шляпу с помпоном и очки в черной оправе, спрятан в море людей, и поиск Вилли из всевозможных беспорядочных сред является хорошим детским воспоминанием для многих людей.
Когда вы были ребенком, вы, возможно, видели этого маленького тощего человечка, который спешил умереть
Но ChatGPT может испортить игру за секунду. Он не только мгновенно идентифицирует Вилли, но и сообщает вам, что Вилли находится на правой стороне пляжа посреди пляжа, смешиваясь с группой людей с синими зонтиками.
Мало того, он также претендует на то, чтобы сказать вам, что найти Вилли на такой картине — интересная задача.
Спасибо, ChatGPT, за то, что испортили эту игру
Тем не менее, некоторые пользователи сети, которые использовали новую версию, сказали, что функция распознавания карт ChatGPT не так мощна, как представляется** - по крайней мере, она не может понимать гомофонические сталки. Картинка «К Элизе» Бетховена, но на ней написано For Lease, ChatGPT не распознал партитуру, не понял шутку и придумал объяснение.
Достаточно тяжело, но нет
Такое мощное распознавание изображений вызывает опасения по поводу конфиденциальности — оно легко может стать соучастником при поиске личной информации. OpenAI обещает, что компания ограничит способность ChatGPT идентифицировать и находить личную информацию, чтобы максимально защитить личную конфиденциальность каждого.
02 GPT, который умеет хорошо говорить
В расширенной версии ChatGPT также есть функция чата.
Модель распознавания речи OpenAI называется моделью Whisper, и пользователи могут задавать свои вопросы, а модель будет преобразовывать речь в текст, а затем преобразовывать ответ в речевой вывод через систему синтеза речи.
Модель синтеза речи на этот раз выпустила пять типов голосовых образцов, в том числе женские голоса с эмоциональной сдержанностью и плоскими голосами, а также восторженные женские голоса тети с подавленными и разочарованными голосами. Эти пять голосов сильно различаются, эмоции естественны, а слова четкие, что немного лучше, чем при синтезе предыдущей речи.
Пять ролей на выбор
Несмотря на то, что в этот раз было выпущено всего пять звуковых сэмплов, потенциал этой модели на этом не заканчивается — OpenAI заключила партнерское соглашение со Spotify для перевода подкастов на другие языки, сохранив при этом качество звука вещателя в максимальной степени. При желании эта система синтеза речи может имитировать голос практически любого человека на планете.
На данный момент голосовая версия ChatGPT по-прежнему доступна только в приложении.
03 Обязательно ли хорошо уметь видеть и слышать?
ChatGPT мощный, но какой ценой?
Когда-то самым эффективным способом различения людей и машин в больших масштабах была капча, и способность ChatGPT читать изображения когда-то заставила людей беспокоиться о том, что капчи больше не смогут поймать ИИ в ловушку.
Кто-то отправил ChatGPT следующий классический тестовый вопрос: Найди чихуахуа и черничный торт на 16 картинках, и ChatGPT решил задачу на отлично.
Но самую распространенную капчу, новый ChatGPT до сих пор не может распознать.
Этот вопрос требует, чтобы ChatGPT выбрал все сигналы на диаграмме, и он дает частоту ошибок до 50.
Однако, столкнувшись с кодом проверки, который они не распознают, у ChatGPT4 все еще есть способ решить эту проблему. В этом вопросе у него есть судимость.
27 марта этого года OpenAI выпустила технический отчет GPT-4, в котором указывалось, что перед лицом неузнаваемых кодов проверки GPT-4 нашла другой способ обратиться к TaskRabbit (зарубежная гиг-платформа) для выпуска заданий, обманув людей на другой стороне, что у них есть нарушения зрения и им нужны другие, чтобы помочь идентифицировать коды проверки.
В некоторых случаях ChatGPT может активно обманывать людей, что является очень опасным направлением. К счастью, в публичной версии GPT-4 эта функция была удалена.
30 ноября 2022 года был впервые запущен ChatGPT, и менее чем за год его возможности продвинулись семимильными шагами, и кажется, что он уже бросает вызов морально-этическим границам человечества. Запуск этой новой функции заставил нас беспокоиться о том, что ChatGPT, который становится все более и более мощным, станет зверем в клетке, и однажды он вырвется из своей клетки и навредит всем. И готовы ли мы к этому дню?