Сдал экзамен по математике бакалавриата Массачусетского технологического института с полным баллом GPT-4! Этот набор подсказок в огне

Источник: Кубит

Неожиданно тест MIT по математике был нарушен GPT-4? !

Внезапно кто-то сделал громкое заявление в последних газетах:

GPT-4 На экзаменах бакалавриата по математике и EECS (факультет электротехники и информатики) Массачусетского технологического института продемонстрировал способность полностью соответствовать выпускным требованиям.

И правильно получить максимальные оценки!

Вы знаете, не кто иной, как исследовательская группа из Массачусетского технологического института, Бостонского университета и Корнельского университета, измерила этот результат.

И он сильнее, чем король предыдущего поколения GPT-3.5.В том же тесте он преуспел только на одну треть.

△Результаты теста GPT-3.5

Как только газета вышла, бесчисленное количество глаз тут же привлекло к себе внимание.

Хакерское поведение GPT-4, естественно, вызвало эмоции у многих пользователей сети.

Гораздо лучше ГПТ-3,5, да!

Скажем так, можно ли в будущем решать академические задачи без более сильной модели, чем GPT-4?

Некоторые пользователи сети продемонстрировали свой «новейший» серфинг в Интернете, разыграв стелк, на который Янн ЛеКун жаловался, что «IQ GPT-4 не так хорош, как у собаки» в последние два дня:

GPT-4 открытый экзамен MIT

Конкретно в таком испытании на этот раз участвовала ГПТ-4:

Исследовательская группа курировала набор данных, содержащий 4550 проблем и решений.

Эти 4550 задач и решений взяты из наборов задач курса, промежуточных и выпускных экзаменов, которые студенты** факультета математики Массачусетского технологического института и EECS должны изучить, чтобы получить степень бакалавра. **

включать:

6-1: Электротехника и инженерия; 6-2: Электротехника и информатика; 6-3: Информатика и инженерия; 6-4: Искусственный интеллект и принятие решений; 18-1: Общая математика; 18-2: Прикладная математика; 18-3: Чистая математика; 18-C: Математика и информатика.

Подробная классификационная сводка по каждому основному

Все вопросы взяты из набора данных Массачусетского технологического института, из которого случайным образом генерируются 228 вопросов, проблемы, не связанные с изображениями и существующими решениями.

Уровень сложности тем в порядке от простого к сложному: упражнения, упражнения, промежуточные экзамены, выпускные экзамены, эксперименты и специальные проекты.

Отсортированные по типу ответа, сложность вопросов от простого к сложному: программирование, открытый, с множественным выбором, числовой, выражение и изображение.

На этот раз в тесте участвуют не только GPT-4 и GPT-3.5, но и StableVicuna-13B, LLaMA-30B и LLaMA-60B**.

Эти 4 большие модели были выбраны в качестве участников тестирования, потому что они представляют собой «современные большие языковые модели».

Итоговая оценка за экзамен

Как видно из данных в таблице, настроенный GPT-4 имеет самый высокий балл, с коэффициентом оценки 100%; наиболее общие характеристики у LLaMA-30B, который набрал только 30% баллов.

Стоит отметить, что оригинальная версия GPT-4 использовалась «из коробки» без какой-либо настройки, и на этом экзамене MIT она также набрала 90% баллов.

Процесс настройки, в том числе Few-Shot+CoT+Самокритика+Эксперты.

Из табличных данных окончательных результатов тестирования мы видим, что каждый раз, когда ссылка добавляется слева направо, настроенный балл GPT-4 будет улучшаться до более высокого уровня.

Кроме того, исследовательская группа провела инженерную оптимизацию окна подсказок, конкретные «заклинания»:

Подождите, рейтер сам GPT-4?

Увидев такой результат, многие пользователи сети посчитали, что прогресс LLM в тесте по математике был немного быстрым.

2 года назад ИИ боролся с задачами по математике в начальной школе.

Подобно "Сяо Мин посадил 5 лимонных деревьев и каждый год собирал по 6 лимонов с каждого дерева, сколько всего лимонов он получил за 10 лет" такого рода.

В начале прошлого года совместное исследование Массачусетского технологического института + Гарварда + Колумбийского университета + Университета Ватерлоо показало, что путем преобразования математических задач в эквивалентные задачи программирования, брат GPT-3, Кодекс OpenAI, может справиться с большими числами и достичь ** уровня бакалавриата MIT. **.

Я выучил 6 случайно выбранных примеров вопросов из курсов базовой математики для студентов Массачусетского технологического института.Каждый из 6 курсов случайным образом дал 25 вопросов, а также 60 вопросов из набора данных уровня ACT (американский вступительный экзамен в колледж).

** Всего 210 вопросов, на все ИИ ответил правильно. **

Однако некоторые люди предположили, что «уровень бакалавриата Массачусетского технологического института», достигнутый ИИ, на самом деле является тем, что Кодекс решает языковые, а не математические задачи——

Потому что в оценке того времени Кодекс отвечал за чтение и письмо, а не за решение.

Итак, в этот раз GPT-4 показал себя очень хорошо, какое замечательное слово~

Что ж, я знаю, что вам не терпится похвалить его, но не спешите его хвалить, потому что кто-то вскоре обнаружил что-то «странное».

В основном есть 2 основных слота.

Первое, что стоит усомниться, это то, что набор обучающих данных OpenAI не был полностью выпущен.

Это также означает, что не может доказать, что 4550 задач и решений в наборе данных не существуют в обучающем наборе GPT-4.

Другими словами, если GPT-4 подвергся тестовым вопросам на этапе подготовки к обучению, то в итоге он наберет высший балл, и сюрпризов не будет.

Неудивительно, что некоторые пользователи сети бесцеремонно yygq, и считают, что GPT-4 получил такой результат, должно быть, набор данных был включен в данные обучения.

Второй слот — это финальная 100% оценка GPT 4. Что кажется неправильным? ? ?

Присмотритесь, в разделе 2.6 документа есть ключевой момент:

Команда точно настраивает большую модель с открытым исходным кодом на наборе данных: «Учитывая вопрос Q, истинное решение S и ответ A LLM, мы используем GPT-4 для автоматической оценки ответов модели».

На практике каждая большая модель генерирует ответы на этот тест, а затем отправляет GPT-4 для оценки с оценкой от 0 до 5.

** Таким образом, тот, кто дал GPT-4 полную оценку, на самом деле сам GPT-4. **

Ах, это... Трудно сказать, что нет никаких подозрений, что Ван Бо продает дыни и хвастается.

Кроме того, многие люди жаловались на необходимость давать GPT-4 «хорошие подсказки», чтобы он мог получить полные оценки.

Что такое «хороший совет»? Кажется, это невозможно определить.

Некоторые люди даже кричали, что эти вопросы нужно задавать студентам математики MIT и EECS, и продолжать давать им «хорошие подсказки», чтобы студенты-люди тоже могли получить 100% вопросов...

Еще кое-что

Маленькая пасхалка:

На протяжении всего теста StableVicuna-13B, который в основном можно развернуть и запустить на ноутбуке, также набрал 48%.

Этот показатель не только почти на 10 процентных пунктов выше, чем у LLaMA-65B с более крупной моделью, но даже у LLaMA-30B после тонкой настройки в Массачусетском технологическом институте он даже выше.

Люди должны задуматься о взаимосвязи между размером модели и ее возможностями.

Ссылка на ссылку: [1] [2] [3] [4]

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить