Неожиданно тест MIT по математике был нарушен GPT-4? !
Внезапно кто-то сделал громкое заявление в последних газетах:
GPT-4 На экзаменах бакалавриата по математике и EECS (факультет электротехники и информатики) Массачусетского технологического института продемонстрировал способность полностью соответствовать выпускным требованиям.
И правильно получить максимальные оценки!
Вы знаете, не кто иной, как исследовательская группа из Массачусетского технологического института, Бостонского университета и Корнельского университета, измерила этот результат.
И он сильнее, чем король предыдущего поколения GPT-3.5.В том же тесте он преуспел только на одну треть.
△Результаты теста GPT-3.5
Как только газета вышла, бесчисленное количество глаз тут же привлекло к себе внимание.
Хакерское поведение GPT-4, естественно, вызвало эмоции у многих пользователей сети.
Гораздо лучше ГПТ-3,5, да!
Скажем так, можно ли в будущем решать академические задачи без более сильной модели, чем GPT-4?
Некоторые пользователи сети продемонстрировали свой «новейший» серфинг в Интернете, разыграв стелк, на который Янн ЛеКун жаловался, что «IQ GPT-4 не так хорош, как у собаки» в последние два дня:
GPT-4 открытый экзамен MIT
Конкретно в таком испытании на этот раз участвовала ГПТ-4:
Исследовательская группа курировала набор данных, содержащий 4550 проблем и решений.
Эти 4550 задач и решений взяты из наборов задач курса, промежуточных и выпускных экзаменов, которые студенты** факультета математики Массачусетского технологического института и EECS должны изучить, чтобы получить степень бакалавра. **
включать:
6-1: Электротехника и инженерия;
6-2: Электротехника и информатика;
6-3: Информатика и инженерия;
6-4: Искусственный интеллект и принятие решений;
18-1: Общая математика;
18-2: Прикладная математика;
18-3: Чистая математика;
18-C: Математика и информатика.
Подробная классификационная сводка по каждому основному
Все вопросы взяты из набора данных Массачусетского технологического института, из которого случайным образом генерируются 228 вопросов, проблемы, не связанные с изображениями и существующими решениями.
Уровень сложности тем в порядке от простого к сложному: упражнения, упражнения, промежуточные экзамены, выпускные экзамены, эксперименты и специальные проекты.
Отсортированные по типу ответа, сложность вопросов от простого к сложному: программирование, открытый, с множественным выбором, числовой, выражение и изображение.
На этот раз в тесте участвуют не только GPT-4 и GPT-3.5, но и StableVicuna-13B, LLaMA-30B и LLaMA-60B**.
Эти 4 большие модели были выбраны в качестве участников тестирования, потому что они представляют собой «современные большие языковые модели».
Итоговая оценка за экзамен
Как видно из данных в таблице, настроенный GPT-4 имеет самый высокий балл, с коэффициентом оценки 100%; наиболее общие характеристики у LLaMA-30B, который набрал только 30% баллов.
Стоит отметить, что оригинальная версия GPT-4 использовалась «из коробки» без какой-либо настройки, и на этом экзамене MIT она также набрала 90% баллов.
Процесс настройки, в том числе Few-Shot+CoT+Самокритика+Эксперты.
Из табличных данных окончательных результатов тестирования мы видим, что каждый раз, когда ссылка добавляется слева направо, настроенный балл GPT-4 будет улучшаться до более высокого уровня.
Кроме того, исследовательская группа провела инженерную оптимизацию окна подсказок, конкретные «заклинания»:
Подождите, рейтер сам GPT-4?
Увидев такой результат, многие пользователи сети посчитали, что прогресс LLM в тесте по математике был немного быстрым.
2 года назад ИИ боролся с задачами по математике в начальной школе.
Подобно "Сяо Мин посадил 5 лимонных деревьев и каждый год собирал по 6 лимонов с каждого дерева, сколько всего лимонов он получил за 10 лет" такого рода.
В начале прошлого года совместное исследование Массачусетского технологического института + Гарварда + Колумбийского университета + Университета Ватерлоо показало, что путем преобразования математических задач в эквивалентные задачи программирования, брат GPT-3, Кодекс OpenAI, может справиться с большими числами и достичь ** уровня бакалавриата MIT. **.
Я выучил 6 случайно выбранных примеров вопросов из курсов базовой математики для студентов Массачусетского технологического института.Каждый из 6 курсов случайным образом дал 25 вопросов, а также 60 вопросов из набора данных уровня ACT (американский вступительный экзамен в колледж).
** Всего 210 вопросов, на все ИИ ответил правильно. **
Однако некоторые люди предположили, что «уровень бакалавриата Массачусетского технологического института», достигнутый ИИ, на самом деле является тем, что Кодекс решает языковые, а не математические задачи——
Потому что в оценке того времени Кодекс отвечал за чтение и письмо, а не за решение.
Итак, в этот раз GPT-4 показал себя очень хорошо, какое замечательное слово~
Что ж, я знаю, что вам не терпится похвалить его, но не спешите его хвалить, потому что кто-то вскоре обнаружил что-то «странное».
В основном есть 2 основных слота.
Первое, что стоит усомниться, это то, что набор обучающих данных OpenAI не был полностью выпущен.
Это также означает, что не может доказать, что 4550 задач и решений в наборе данных не существуют в обучающем наборе GPT-4.
Другими словами, если GPT-4 подвергся тестовым вопросам на этапе подготовки к обучению, то в итоге он наберет высший балл, и сюрпризов не будет.
Неудивительно, что некоторые пользователи сети бесцеремонно yygq, и считают, что GPT-4 получил такой результат, должно быть, набор данных был включен в данные обучения.
Второй слот — это финальная 100% оценка GPT 4. Что кажется неправильным? ? ?
Присмотритесь, в разделе 2.6 документа есть ключевой момент:
Команда точно настраивает большую модель с открытым исходным кодом на наборе данных: «Учитывая вопрос Q, истинное решение S и ответ A LLM, мы используем GPT-4 для автоматической оценки ответов модели».
На практике каждая большая модель генерирует ответы на этот тест, а затем отправляет GPT-4 для оценки с оценкой от 0 до 5.
** Таким образом, тот, кто дал GPT-4 полную оценку, на самом деле сам GPT-4. **
Ах, это... Трудно сказать, что нет никаких подозрений, что Ван Бо продает дыни и хвастается.
Кроме того, многие люди жаловались на необходимость давать GPT-4 «хорошие подсказки», чтобы он мог получить полные оценки.
Что такое «хороший совет»? Кажется, это невозможно определить.
Некоторые люди даже кричали, что эти вопросы нужно задавать студентам математики MIT и EECS, и продолжать давать им «хорошие подсказки», чтобы студенты-люди тоже могли получить 100% вопросов...
Еще кое-что
Маленькая пасхалка:
На протяжении всего теста StableVicuna-13B, который в основном можно развернуть и запустить на ноутбуке, также набрал 48%.
Этот показатель не только почти на 10 процентных пунктов выше, чем у LLaMA-65B с более крупной моделью, но даже у LLaMA-30B после тонкой настройки в Массачусетском технологическом институте он даже выше.
Люди должны задуматься о взаимосвязи между размером модели и ее возможностями.
Ссылка на ссылку:
[1]
[2]
[3]
[4]
Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Сдал экзамен по математике бакалавриата Массачусетского технологического института с полным баллом GPT-4! Этот набор подсказок в огне
Источник: Кубит
Неожиданно тест MIT по математике был нарушен GPT-4? !
Внезапно кто-то сделал громкое заявление в последних газетах:
GPT-4 На экзаменах бакалавриата по математике и EECS (факультет электротехники и информатики) Массачусетского технологического института продемонстрировал способность полностью соответствовать выпускным требованиям.
И правильно получить максимальные оценки!
Вы знаете, не кто иной, как исследовательская группа из Массачусетского технологического института, Бостонского университета и Корнельского университета, измерила этот результат.
И он сильнее, чем король предыдущего поколения GPT-3.5.В том же тесте он преуспел только на одну треть.
Как только газета вышла, бесчисленное количество глаз тут же привлекло к себе внимание.
GPT-4 открытый экзамен MIT
Конкретно в таком испытании на этот раз участвовала ГПТ-4:
Исследовательская группа курировала набор данных, содержащий 4550 проблем и решений.
Эти 4550 задач и решений взяты из наборов задач курса, промежуточных и выпускных экзаменов, которые студенты** факультета математики Массачусетского технологического института и EECS должны изучить, чтобы получить степень бакалавра. **
включать:
6-1: Электротехника и инженерия; 6-2: Электротехника и информатика; 6-3: Информатика и инженерия; 6-4: Искусственный интеллект и принятие решений; 18-1: Общая математика; 18-2: Прикладная математика; 18-3: Чистая математика; 18-C: Математика и информатика.
Подробная классификационная сводка по каждому основному
Все вопросы взяты из набора данных Массачусетского технологического института, из которого случайным образом генерируются 228 вопросов, проблемы, не связанные с изображениями и существующими решениями.
Уровень сложности тем в порядке от простого к сложному: упражнения, упражнения, промежуточные экзамены, выпускные экзамены, эксперименты и специальные проекты.
Отсортированные по типу ответа, сложность вопросов от простого к сложному: программирование, открытый, с множественным выбором, числовой, выражение и изображение.
На этот раз в тесте участвуют не только GPT-4 и GPT-3.5, но и StableVicuna-13B, LLaMA-30B и LLaMA-60B**.
Эти 4 большие модели были выбраны в качестве участников тестирования, потому что они представляют собой «современные большие языковые модели».
Итоговая оценка за экзамен
Как видно из данных в таблице, настроенный GPT-4 имеет самый высокий балл, с коэффициентом оценки 100%; наиболее общие характеристики у LLaMA-30B, который набрал только 30% баллов.
Стоит отметить, что оригинальная версия GPT-4 использовалась «из коробки» без какой-либо настройки, и на этом экзамене MIT она также набрала 90% баллов.
Процесс настройки, в том числе Few-Shot+CoT+Самокритика+Эксперты.
Кроме того, исследовательская группа провела инженерную оптимизацию окна подсказок, конкретные «заклинания»:
Подождите, рейтер сам GPT-4?
Увидев такой результат, многие пользователи сети посчитали, что прогресс LLM в тесте по математике был немного быстрым.
Подобно "Сяо Мин посадил 5 лимонных деревьев и каждый год собирал по 6 лимонов с каждого дерева, сколько всего лимонов он получил за 10 лет" такого рода.
Я выучил 6 случайно выбранных примеров вопросов из курсов базовой математики для студентов Массачусетского технологического института.Каждый из 6 курсов случайным образом дал 25 вопросов, а также 60 вопросов из набора данных уровня ACT (американский вступительный экзамен в колледж).
** Всего 210 вопросов, на все ИИ ответил правильно. **
Потому что в оценке того времени Кодекс отвечал за чтение и письмо, а не за решение.
Итак, в этот раз GPT-4 показал себя очень хорошо, какое замечательное слово~
В основном есть 2 основных слота.
Первое, что стоит усомниться, это то, что набор обучающих данных OpenAI не был полностью выпущен.
Это также означает, что не может доказать, что 4550 задач и решений в наборе данных не существуют в обучающем наборе GPT-4.
Другими словами, если GPT-4 подвергся тестовым вопросам на этапе подготовки к обучению, то в итоге он наберет высший балл, и сюрпризов не будет.
Неудивительно, что некоторые пользователи сети бесцеремонно yygq, и считают, что GPT-4 получил такой результат, должно быть, набор данных был включен в данные обучения.
Присмотритесь, в разделе 2.6 документа есть ключевой момент:
Команда точно настраивает большую модель с открытым исходным кодом на наборе данных: «Учитывая вопрос Q, истинное решение S и ответ A LLM, мы используем GPT-4 для автоматической оценки ответов модели».
На практике каждая большая модель генерирует ответы на этот тест, а затем отправляет GPT-4 для оценки с оценкой от 0 до 5.
** Таким образом, тот, кто дал GPT-4 полную оценку, на самом деле сам GPT-4. **
Ах, это... Трудно сказать, что нет никаких подозрений, что Ван Бо продает дыни и хвастается.
Что такое «хороший совет»? Кажется, это невозможно определить.
Еще кое-что
Маленькая пасхалка:
На протяжении всего теста StableVicuna-13B, который в основном можно развернуть и запустить на ноутбуке, также набрал 48%.
Люди должны задуматься о взаимосвязи между размером модели и ее возможностями.
Ссылка на ссылку: [1] [2] [3] [4]