Судя по картинке, GPT-4 от OpenAI занял последнее место среди 11 крупных моделей (первая имеет номер 0). Некоторые пользователи сети добавили слова «GPT4: Как я могу пожаловаться на свои обиды?»
Это вызывает у людей любопытство.В начале этого года, после того как ChatGPT стал популярным, другие компании начали упоминать концепцию больших моделей.
Прошло всего больше полугода, а GPT уже «достиг дна»?
Поэтому автор хочет посмотреть, как обстоят дела в рейтинге GPT.
Время испытаний другое, команда испытателей другая, ГПТ-4 занимает одиннадцатое место
Судя по информации, представленной на картинке в предыдущей статье, этот рейтинг из C-списка.
C-List, полное название C-Global Large Model Comprehensive Examination List, представляет собой комплект для комплексной оценки экзамена по китайскому языку, разработанный совместно Университетом Цинхуа, Шанхайским университетом Цзяотун и Эдинбургским университетом.
Сообщается, что пакет охватывает четыре основных направления гуманитарных наук, социальных наук, науки и техники, а также другие специальности, включая 52 дисциплины, охватывающие множество областей знаний, таких как исчисление и линейная алгебра. Всего имеется 13 948 вопросов на знание китайского языка и рассуждения, которые по сложности разделены на четыре уровня тестирования: средняя школа, бакалавриат, магистратура и профессиональное обучение.
Итак, автор проверил последний C-список.
Последний рейтинг C-списка соответствует рейтингу, показанному на картинке в предыдущей статье.Среди одиннадцати крупнейших моделей GPT-4 занимает последнее место.
Согласно C-списку, эти результаты представляют собой тесты с нулевым выстрелом (обучение с нулевым выстрелом) или с небольшим количеством выстрелов (обучение с несколькими выстрелами), но малое количество выстрелов не обязательно лучше, чем нулевой.
C- сообщил, что в ходе своих испытаний он обнаружил, что многие модели после точной настройки инструкций работают лучше при нулевом выстреле. Многие из протестированных моделей имеют результаты как с нулевым, так и с малым количеством выстрелов, а в таблице лидеров показаны настройки с лучшим общим средним баллом.
В списке C также указано, что имена крупных моделей с «*» указывают на то, что результаты модели были протестированы командой C, тогда как другие результаты были получены через материалы, предоставленные пользователями.
Кроме того, автор также заметил, что время представления результатов испытаний этими большими моделями сильно различается.
Результаты испытаний GPT-4 были представлены 15 мая, Yuntianshu, занявший первое место, был представлен 31 августа, Galaxy, занявший второе место, был представлен 23 августа, а YaYi, занявший третье место, был представлен 31 августа и 4 сентября. .
И из 16 лучших больших моделей только GPT-4 с добавлением «*» к названию была протестирована командой C.
Поэтому автор еще раз проверил полный C-список.
Последний C-список включает в себя рейтинги 66 крупных моделей.
Среди них имя с "*", то есть протестированных С-командой, всего 11, а время сдачи теста - 15 мая.
Среди этих больших моделей, протестированных командой C, GPT-4 от OpenAI занял 11-е место, ChatGPT — 36-е, ChatGLM-6B от Tsinghua Zhipu AI — 60-е, а MOSS от Fudan — 6-е.
Хотя эти рейтинги показывают стремительную динамику развития отечественных масштабных моделей, автор считает, что все-таки испытания проводились не одной и той же командой одновременно, чего недостаточно, чтобы в полной мере доказать, кто сильнее, а кто слабее. среди этих крупномасштабных моделей.
Это похоже на класс студентов, у каждого из которых разное время тестов и ответы на разные задания. Как мы можем полагаться на баллы каждого ученика для сравнения?
Что говорит разработчик большой модели? Многие говорили, что он превосходит ChatGPT по китайскому языку и другим возможностям
В последнее время большой модельный круг довольно оживлен.
Кроме того, крупные модельные продукты восьми компаний, включая Baidu и Byte, прошли регистрацию «Временных мер по управлению услугами генеративного искусственного интеллекта» и могут быть официально запущены в Интернете для предоставления услуг населению. Другие компании успешно выпустили свои собственные крупные модели.
Так как же разработчики этих больших моделей представляют свои продукты?
7 июля на форуме Всемирной конференции по искусственному интеллекту 2023 года «Возможности и риски для развития общей индустрии искусственного интеллекта в эпоху больших моделей» Цю Сипэн, профессор Школы компьютерных наук и технологий Фуданьского университета и руководитель Система MOSS сообщила, что крупномасштабная разговорная языковая модель Фудана MOSS. После того, как она была выпущена в феврале этого года, она все еще постоянно повторяет: «Последняя версия MOSS смогла превзойти ChatGPT по китайским возможностям».
В конце июля Netease Youdao запустила большую модель перевода. Генеральный директор Netease Youdao Чжоу Фэн публично заявил, что ** во внутреннем тесте в направлении китайского-английского перевода она превзошла возможности перевода ChatGPT и Google Translate. уровень. **
В конце августа на летнем саммите Yabuli Forum 2023 года Лю Цинфэн, основатель и председатель iFLYTEK, заявил в своем выступлении: «**Возможности Xunfei Xunhuo по генерации и завершению кода больших моделей превзошли ChatGPT и другие. **Логика, алгоритм, система методов и подготовка данных текущего кода готовы, все, что нужно, — это время и вычислительная мощность».
В недавнем пресс-релизе SenseTime заявили, что в августе этого года новая модель internlm-123b завершила обучение и количество параметров увеличилось до 123 миллиардов. **В 51 известном в мире наборе оценок, содержащем в общей сложности 300 000 вопросов, общий результат теста занимает второе место в мире, превосходя gpt-3.5-turbo и недавно выпущенные Meta llama2-70b и другие модели. **
По данным Shangtang, **internlm-123 занял первое место в 12 основных рейтингах. Среди них показатель agi в комплексном тесте оценочного набора составляет 57,8, что превосходит gpt-4 и занимает первое место; оценка **knowledge commonsenseqa составляет 88,5, занимая первое место; баллы internlm-123b в пяти оценках понимания прочитанного Все возглавлять список.
Кроме того, он занял первое место в пяти оценках рассуждения.
Ранее в этом месяце компания Zuoyebang официально выпустила модель Galaxy собственной разработки.
Цзоёбанг сказал, что модель Galaxy достигла результатов по двум авторитетным тестам оценки модели больших языков — C- и CMMLU. Данные показывают, что большая модель галактики Zuoyebang занимает первое место в рейтинге C- со средним баллом 73,7 балла; в то же время она входит в список CMMLU с оценками Five-shot и Zero-shot со средними баллами 74,03 балла и 73,85 балла соответственно. Во-первых, она стала первой крупной моделью образования, занявшей первое место по среднему баллу в двух авторитетных списках, упомянутых выше.
Вчера компания Baichuan Intelligent анонсировала официальные доработанные версии Baichuan 2-7B, Baichuan 2-13B, Baichuan 2-13B-Chat с открытым исходным кодом и их 4-битную квантованную версию.
Ван Сяочуань, основатель и генеральный директор Baichuan Intelligent, сказал, что отточенная модель чата в китайской сфере, в среде вопросов и ответов или в среде сводных данных, ее фактическая производительность превзошла модель с закрытым исходным кодом, такую как ChatGPT. 3.5. **
Сегодня на конференции Tencent Global Digital Ecology 2023 года компания Tencent официально представила большую модель Hunyuan. Цзян Цзе, вице-президент Tencent Group, сказал, что возможности китайского языка **большой модели Tencent Hunyuan превысили GPT-3.5. **
Помимо самопрезентаций этих разработчиков, некоторые СМИ и команды также оценили большую модель.
В начале августа команда Шэнь Янга, профессора и научного руководителя Школы журналистики и коммуникации Университета Цинхуа, опубликовала «Комплексный отчет об оценке эффективности больших языковых моделей». В отчете показано, что **объемный балл Baidu Wenxinyyan по 20 показателям в трех основных измерениях лидирует в стране и лучше, чем ChatGPT. Среди них высокое семантическое понимание китайского языка, а некоторые китайские способности лучше, чем GPT-4. **
В середине августа некоторые СМИ сообщили, что 11 августа крупная модель Xiaomi MiLM-6B появилась в списках оценки крупных моделей C- и CMMLU. На данный момент MiLM-6B занимает 10-е место в списке C-total, 1-е место по тому же уровню параметров и 1-е место в китайской большой модели CMMLU.
12 августа Тяньцзиньский университет опубликовал «Отчет об оценке большой модели». В отчете показано, что комплексная производительность **GPT-4 и Baidu Wenxinyyan значительно опережает другие модели, а их оценки не сильно отличаются и находятся на одном уровне. Вэнь Синьиян превзошел ChatGPT в большинстве китайских задач и постепенно сократил разрыв с GPT-4. **
В конце августа некоторые СМИ сообщили, что KwaiYii, большая языковая модель, разработанная Kuaishou, начала внутреннее тестирование. В последнем китайском рейтинге CMMLU версия 13B KwaiYii-13B от Ruyi заняла первое место как по пятизарядной, так и по нулевой стрельбе. Она сильна в гуманитарных науках и темах, специфичных для Китая, со средним баллом более 61 балла.
Из вышеизложенного видно, что, хотя эти крупные модели утверждают, что находятся на вершине определенного рейтинга или превосходят ChatGPT в определенных аспектах, большинство из них хорошо работают в некоторых конкретных областях.
Кто может гарантировать, что GPT не улучшился за последние три месяца?
Ситуация OpenAI
Согласно февральскому отчету UBS Group, всего через два месяца после запуска ChatGPT, число активных пользователей в месяц превысило 100 миллионов в конце января 2023 года, что сделало его самым быстрорастущим потребительским приложением в истории.
Но развитие ChatGPT идет не так гладко.
В июле этого года многие пользователи GPT-4 жаловались, что по сравнению с предыдущими возможностями рассуждения производительность GPT-4 снизилась.
Некоторые пользователи указывали на проблемы в Твиттере и на онлайн-форуме разработчиков OpenAI, акцентируя внимание на более слабой логике, большем количестве неправильных ответов, невозможности отслеживать предоставляемую информацию, трудностях с выполнением инструкций, забывчивости добавлять круглые скобки в базовый программный код и запоминании только самые последние советы и т. д.
В августе в другом отчете говорилось, что OpenAi может оказаться в потенциальном финансовом затруднении и обанкротиться к концу 2024 года.
В отчете говорится, что OpenAI обходится примерно в 700 000 долларов США в день только на запуск службы искусственного интеллекта ChatGPT. В настоящее время компания пытается получить прибыль с помощью GPT-3.5 и GPT-4, но ей еще предстоит получить достаточный доход, чтобы выйти на уровень безубыточности.
Однако у OpenAI могут появиться и новые возможности.
Недавно OpenAI объявила, что проведет свою первую конференцию разработчиков в ноябре.
Хотя OpenAI заявила, что не будет выпускать GPT-5, OpenAI заявила, что сотни разработчиков со всего мира будут работать с командой OpenAI для предварительного просмотра «новых инструментов» и обмена идеями.
Это может означать, что ChatGPT добился нового прогресса.
По данным The Paper, 30 августа человек, знакомый с этим вопросом, сообщил, что OpenAI, как ожидается, получит более $1 млрд дохода в течение следующих 12 месяцев за счет продажи программного обеспечения для искусственного интеллекта и вычислительных мощностей, необходимых для его работы.
Сегодня в другом сообщении СМИ говорится, что Morgan Stanley запустит чат-бота с генеративным искусственным интеллектом, разработанного совместно с OpenAI, позднее в этом месяце.
Люди, которые имеют дело с банкирами Morgan Stanley, либо богаты, либо состоятельны. Если этот предстоящий чат-бот с генеративным искусственным интеллектом сможет изменить ситуацию к лучшему для клиентов Morgan Stan, это может стать огромным благом для OpenAI.
Наступление эры искусственного интеллекта уже невозможно остановить. Что касается того, кто лучше, вы не можете просто сказать себе, вы должны позволить пользователям оценить это. Мы также считаем, что крупные отечественные модели обязательно догонят ChatGPT по конкретным возможностям и комплексным возможностям.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Прошло больше полугода, а рейтинг ChatGPT находится почти внизу.
Источник: ТМТпост Медиа
Автор: Саньян Технология
Вчера случайно наткнулся на картинку.
Это вызывает у людей любопытство.В начале этого года, после того как ChatGPT стал популярным, другие компании начали упоминать концепцию больших моделей.
Прошло всего больше полугода, а GPT уже «достиг дна»?
Поэтому автор хочет посмотреть, как обстоят дела в рейтинге GPT.
Время испытаний другое, команда испытателей другая, ГПТ-4 занимает одиннадцатое место
Судя по информации, представленной на картинке в предыдущей статье, этот рейтинг из C-списка.
C-List, полное название C-Global Large Model Comprehensive Examination List, представляет собой комплект для комплексной оценки экзамена по китайскому языку, разработанный совместно Университетом Цинхуа, Шанхайским университетом Цзяотун и Эдинбургским университетом.
Сообщается, что пакет охватывает четыре основных направления гуманитарных наук, социальных наук, науки и техники, а также другие специальности, включая 52 дисциплины, охватывающие множество областей знаний, таких как исчисление и линейная алгебра. Всего имеется 13 948 вопросов на знание китайского языка и рассуждения, которые по сложности разделены на четыре уровня тестирования: средняя школа, бакалавриат, магистратура и профессиональное обучение.
Итак, автор проверил последний C-список.
Последний рейтинг C-списка соответствует рейтингу, показанному на картинке в предыдущей статье.Среди одиннадцати крупнейших моделей GPT-4 занимает последнее место.
C- сообщил, что в ходе своих испытаний он обнаружил, что многие модели после точной настройки инструкций работают лучше при нулевом выстреле. Многие из протестированных моделей имеют результаты как с нулевым, так и с малым количеством выстрелов, а в таблице лидеров показаны настройки с лучшим общим средним баллом.
В списке C также указано, что имена крупных моделей с «*» указывают на то, что результаты модели были протестированы командой C, тогда как другие результаты были получены через материалы, предоставленные пользователями.
Кроме того, автор также заметил, что время представления результатов испытаний этими большими моделями сильно различается.
Результаты испытаний GPT-4 были представлены 15 мая, Yuntianshu, занявший первое место, был представлен 31 августа, Galaxy, занявший второе место, был представлен 23 августа, а YaYi, занявший третье место, был представлен 31 августа и 4 сентября. .
И из 16 лучших больших моделей только GPT-4 с добавлением «*» к названию была протестирована командой C.
Поэтому автор еще раз проверил полный C-список.
Последний C-список включает в себя рейтинги 66 крупных моделей.
Среди этих больших моделей, протестированных командой C, GPT-4 от OpenAI занял 11-е место, ChatGPT — 36-е, ChatGLM-6B от Tsinghua Zhipu AI — 60-е, а MOSS от Fudan — 6-е.
Хотя эти рейтинги показывают стремительную динамику развития отечественных масштабных моделей, автор считает, что все-таки испытания проводились не одной и той же командой одновременно, чего недостаточно, чтобы в полной мере доказать, кто сильнее, а кто слабее. среди этих крупномасштабных моделей.
Это похоже на класс студентов, у каждого из которых разное время тестов и ответы на разные задания. Как мы можем полагаться на баллы каждого ученика для сравнения?
Что говорит разработчик большой модели? Многие говорили, что он превосходит ChatGPT по китайскому языку и другим возможностям
В последнее время большой модельный круг довольно оживлен.
Кроме того, крупные модельные продукты восьми компаний, включая Baidu и Byte, прошли регистрацию «Временных мер по управлению услугами генеративного искусственного интеллекта» и могут быть официально запущены в Интернете для предоставления услуг населению. Другие компании успешно выпустили свои собственные крупные модели.
Так как же разработчики этих больших моделей представляют свои продукты?
7 июля на форуме Всемирной конференции по искусственному интеллекту 2023 года «Возможности и риски для развития общей индустрии искусственного интеллекта в эпоху больших моделей» Цю Сипэн, профессор Школы компьютерных наук и технологий Фуданьского университета и руководитель Система MOSS сообщила, что крупномасштабная разговорная языковая модель Фудана MOSS. После того, как она была выпущена в феврале этого года, она все еще постоянно повторяет: «Последняя версия MOSS смогла превзойти ChatGPT по китайским возможностям».
В конце июля Netease Youdao запустила большую модель перевода. Генеральный директор Netease Youdao Чжоу Фэн публично заявил, что ** во внутреннем тесте в направлении китайского-английского перевода она превзошла возможности перевода ChatGPT и Google Translate. уровень. **
В конце августа на летнем саммите Yabuli Forum 2023 года Лю Цинфэн, основатель и председатель iFLYTEK, заявил в своем выступлении: «**Возможности Xunfei Xunhuo по генерации и завершению кода больших моделей превзошли ChatGPT и другие. **Логика, алгоритм, система методов и подготовка данных текущего кода готовы, все, что нужно, — это время и вычислительная мощность».
В недавнем пресс-релизе SenseTime заявили, что в августе этого года новая модель internlm-123b завершила обучение и количество параметров увеличилось до 123 миллиардов. **В 51 известном в мире наборе оценок, содержащем в общей сложности 300 000 вопросов, общий результат теста занимает второе место в мире, превосходя gpt-3.5-turbo и недавно выпущенные Meta llama2-70b и другие модели. **
По данным Shangtang, **internlm-123 занял первое место в 12 основных рейтингах. Среди них показатель agi в комплексном тесте оценочного набора составляет 57,8, что превосходит gpt-4 и занимает первое место; оценка **knowledge commonsenseqa составляет 88,5, занимая первое место; баллы internlm-123b в пяти оценках понимания прочитанного Все возглавлять список.
Кроме того, он занял первое место в пяти оценках рассуждения.
Ранее в этом месяце компания Zuoyebang официально выпустила модель Galaxy собственной разработки.
Цзоёбанг сказал, что модель Galaxy достигла результатов по двум авторитетным тестам оценки модели больших языков — C- и CMMLU. Данные показывают, что большая модель галактики Zuoyebang занимает первое место в рейтинге C- со средним баллом 73,7 балла; в то же время она входит в список CMMLU с оценками Five-shot и Zero-shot со средними баллами 74,03 балла и 73,85 балла соответственно. Во-первых, она стала первой крупной моделью образования, занявшей первое место по среднему баллу в двух авторитетных списках, упомянутых выше.
Вчера компания Baichuan Intelligent анонсировала официальные доработанные версии Baichuan 2-7B, Baichuan 2-13B, Baichuan 2-13B-Chat с открытым исходным кодом и их 4-битную квантованную версию.
Ван Сяочуань, основатель и генеральный директор Baichuan Intelligent, сказал, что отточенная модель чата в китайской сфере, в среде вопросов и ответов или в среде сводных данных, ее фактическая производительность превзошла модель с закрытым исходным кодом, такую как ChatGPT. 3.5. **
Сегодня на конференции Tencent Global Digital Ecology 2023 года компания Tencent официально представила большую модель Hunyuan. Цзян Цзе, вице-президент Tencent Group, сказал, что возможности китайского языка **большой модели Tencent Hunyuan превысили GPT-3.5. **
Помимо самопрезентаций этих разработчиков, некоторые СМИ и команды также оценили большую модель.
В начале августа команда Шэнь Янга, профессора и научного руководителя Школы журналистики и коммуникации Университета Цинхуа, опубликовала «Комплексный отчет об оценке эффективности больших языковых моделей». В отчете показано, что **объемный балл Baidu Wenxinyyan по 20 показателям в трех основных измерениях лидирует в стране и лучше, чем ChatGPT. Среди них высокое семантическое понимание китайского языка, а некоторые китайские способности лучше, чем GPT-4. **
В середине августа некоторые СМИ сообщили, что 11 августа крупная модель Xiaomi MiLM-6B появилась в списках оценки крупных моделей C- и CMMLU. На данный момент MiLM-6B занимает 10-е место в списке C-total, 1-е место по тому же уровню параметров и 1-е место в китайской большой модели CMMLU.
12 августа Тяньцзиньский университет опубликовал «Отчет об оценке большой модели». В отчете показано, что комплексная производительность **GPT-4 и Baidu Wenxinyyan значительно опережает другие модели, а их оценки не сильно отличаются и находятся на одном уровне. Вэнь Синьиян превзошел ChatGPT в большинстве китайских задач и постепенно сократил разрыв с GPT-4. **
В конце августа некоторые СМИ сообщили, что KwaiYii, большая языковая модель, разработанная Kuaishou, начала внутреннее тестирование. В последнем китайском рейтинге CMMLU версия 13B KwaiYii-13B от Ruyi заняла первое место как по пятизарядной, так и по нулевой стрельбе. Она сильна в гуманитарных науках и темах, специфичных для Китая, со средним баллом более 61 балла.
Из вышеизложенного видно, что, хотя эти крупные модели утверждают, что находятся на вершине определенного рейтинга или превосходят ChatGPT в определенных аспектах, большинство из них хорошо работают в некоторых конкретных областях.
Кто может гарантировать, что GPT не улучшился за последние три месяца?
Ситуация OpenAI
Согласно февральскому отчету UBS Group, всего через два месяца после запуска ChatGPT, число активных пользователей в месяц превысило 100 миллионов в конце января 2023 года, что сделало его самым быстрорастущим потребительским приложением в истории.
Но развитие ChatGPT идет не так гладко.
В июле этого года многие пользователи GPT-4 жаловались, что по сравнению с предыдущими возможностями рассуждения производительность GPT-4 снизилась.
Некоторые пользователи указывали на проблемы в Твиттере и на онлайн-форуме разработчиков OpenAI, акцентируя внимание на более слабой логике, большем количестве неправильных ответов, невозможности отслеживать предоставляемую информацию, трудностях с выполнением инструкций, забывчивости добавлять круглые скобки в базовый программный код и запоминании только самые последние советы и т. д.
В августе в другом отчете говорилось, что OpenAi может оказаться в потенциальном финансовом затруднении и обанкротиться к концу 2024 года.
В отчете говорится, что OpenAI обходится примерно в 700 000 долларов США в день только на запуск службы искусственного интеллекта ChatGPT. В настоящее время компания пытается получить прибыль с помощью GPT-3.5 и GPT-4, но ей еще предстоит получить достаточный доход, чтобы выйти на уровень безубыточности.
Однако у OpenAI могут появиться и новые возможности.
Недавно OpenAI объявила, что проведет свою первую конференцию разработчиков в ноябре.
Хотя OpenAI заявила, что не будет выпускать GPT-5, OpenAI заявила, что сотни разработчиков со всего мира будут работать с командой OpenAI для предварительного просмотра «новых инструментов» и обмена идеями.
Это может означать, что ChatGPT добился нового прогресса.
По данным The Paper, 30 августа человек, знакомый с этим вопросом, сообщил, что OpenAI, как ожидается, получит более $1 млрд дохода в течение следующих 12 месяцев за счет продажи программного обеспечения для искусственного интеллекта и вычислительных мощностей, необходимых для его работы.
Сегодня в другом сообщении СМИ говорится, что Morgan Stanley запустит чат-бота с генеративным искусственным интеллектом, разработанного совместно с OpenAI, позднее в этом месяце.
Люди, которые имеют дело с банкирами Morgan Stanley, либо богаты, либо состоятельны. Если этот предстоящий чат-бот с генеративным искусственным интеллектом сможет изменить ситуацию к лучшему для клиентов Morgan Stan, это может стать огромным благом для OpenAI.
Наступление эры искусственного интеллекта уже невозможно остановить. Что касается того, кто лучше, вы не можете просто сказать себе, вы должны позволить пользователям оценить это. Мы также считаем, что крупные отечественные модели обязательно догонят ChatGPT по конкретным возможностям и комплексным возможностям.