Несподівано тест з математики MIT зламався GPT-4? !
Раптом хтось зробив гучну заяву в останній документації:
GPT-4 На бакалаврських іспитах з математики та EECS (факультет електротехніки та комп’ютерних наук) продемонстрована здатність повністю відповідати вимогам до випуску.
І правильно отримайте повні бали!
Знаєте, цей результат виміряла не хто інший, як дослідницька група з Массачусетського технологічного інституту, Бостонського та Корнельського університетів.
І він сильніший за king GPT-3.5 попереднього покоління.У цьому ж тесті він пройшов лише на одну третину.
△ Результати тесту GPT-3.5
Як тільки папір вийшов, незліченна кількість поглядів швидко привернула увагу.
Хакерська поведінка GPT-4, природно, викликала емоції у багатьох користувачів мережі.
Набагато краще, ніж GPT-3.5, так!
Давайте просто скажемо, чи можна в майбутньому вирішувати академічні проблеми без більш сильної моделі, ніж GPT-4?
Деякі користувачі мережі продемонстрували свій «сучасний» серфінг в Інтернеті, відтворюючи стебло, на яке Янн ЛеКун скаржився, що «IQ GPT-4 не такий хороший, як собака» за останні два дні:
Відкритий іспит MIT GPT-4
Зокрема, цього разу в такому тесті брав участь GPT-4:
Дослідницька група підготувала набір даних, що містить 4550 проблем і рішень.
Ці 4550 завдань і розв’язків походять із наборів завдань курсу, проміжних семестрів та випускних іспитів, які студенти** факультету математики та EECS Массачусетського технологічного інституту мають вивчити, щоб отримати ступінь бакалавра. **
включати:
6-1: Електротехніка та інженерія;
6-2: Електротехніка та інформатика;
6-3: Комп'ютерні науки та інженерія;
6-4: Штучний інтелект і прийняття рішень;
18-1: Загальна математика;
18-2: Прикладна математика;
18-3: Чиста математика;
18-С: Математика та інформатика.
Детальна класифікація кожного спеціальності
Усі запитання взято з набору даних Массачусетського технологічного інституту, з якого випадковим чином згенеровано 228 питань, проблеми, які не включають зображення та існуючі рішення.
Рівень складності тем у порядку від легкого до складного: вправи, вправи, проміжні іспити, випускні іспити, експерименти та спецпроекти.
Відсортовані за типом відповіді, складність запитань від легкого до складного: програмування, відкрите, вибір із множинним вибором, числове, вираз і зображення.
Цього разу в тесті беруть участь не тільки GPT-4 і GPT-3.5, а й StableVicuna-13B, LLaMA-30B і LLaMA-60B**.
Ці 4 великі моделі були обрані як учасники тестування, оскільки вони є «сучасними великими мовними моделями».
Оцінка підсумкового іспиту
Як видно з даних у таблиці, налаштований GPT-4 має найвищу оцінку з рейтингом 100%, а найбільш загальну продуктивність має LLaMA-30B, який набрав лише 30% оцінки.
Варто зазначити, що оригінальна версія GPT-4 використовувалася з коробки взагалі без налаштування, і вона також набрала 90% на цьому іспиті MIT.
Процес налаштування, включно з Few-Shot+CoT+Self-critique+Experts.
З табличних даних остаточних результатів тестування ми бачимо, що щоразу, коли додається посилання зліва направо, налаштований бал GPT-4 покращуватиметься до вищого рівня.
Крім того, дослідницька група також провела інженерну оптимізацію у вікні підказок, конкретні «заклинання» такі:
Зачекайте, оцінювач сам GPT-4?
Побачивши такий результат, багато користувачів мережі відчули, що прогрес LLM в тесті з математики був трохи швидким.
2 роки тому ШІ мав проблеми з математикою в початковій школі.
Подібно до "Сяо Мін посадив 5 лимонних дерев і щороку отримував 6 лимонів з кожного дерева, скільки лимонів він отримав загалом за 10 років" такого роду.
На початку минулого року спільне дослідження Массачусетського технологічного інституту+Гарвардського університету+Колумбійського університету+Університету Ватерлоо показало, що шляхом перетворення математичних задач на еквівалентні задачі програмування брат GPT-3, Codex OpenAI, може опанувати високі числа та досягти **рівня бакалавра MIT. **.
Я вивчив 6 випадково вибраних зразків запитань із студентських базових курсів математики Массачусетського технологічного інституту. 25 питань було випадково відібрано для кожного з 6 курсів, а також 60 запитань із набору даних рівня ACT (вступний іспит до американського коледжу).
**Всього 210 запитань, на всі з яких ШІ відповів правильно. **
Однак деякі люди припускають, що «бакалаврський рівень Массачусетського технологічного інституту», досягнутий за допомогою штучного інтелекту, насправді полягає в тому, що Codex виконує мовні завдання, а не математичні завдання——
Тому що в оцінці того часу Codex відповідав за читання та письмо і не включав вирішення.
Отже, цього разу GPT-4 показав себе надзвичайно добре, яке чудове слово~
Ну, я знаю, що ви прагнете його похвалити, але не поспішайте хвалити, тому що незабаром хтось виявив щось «дивне».
В основному є 2 основні слоти.
Перше, що варто сумніватися, це те, що набір навчальних даних OpenAI не був повністю опублікований.
Це також означає, що не можна довести, що 4550 проблем і рішень у наборі даних не існують у навчальному наборі GPT-4.
Іншими словами, якщо GPT-4 був підданий тестовим питанням на етапі попереднього навчання, то він остаточно набере ідеальний бал, і не буде ніяких сюрпризів.
Не дивно, що деякі користувачі мережі yygq безцеремонно вважають, що GPT-4 отримав такий результат, мабуть, набір даних був включений у навчальні дані.
Другий слот — це остаточний 100% показник GPT-4. Що здається не так? ? ?
Подивіться уважніше, у розділі 2.6 статті є ключовий момент:
Команда налаштовує велику модель із відкритим вихідним кодом на наборі даних: «Враховуючи запитання Q, базове рішення S і відповідь LLM, ми використовуємо GPT-4 для автоматичного підрахунку відповідей моделі».
На практиці кожна велика модель генерує відповіді на цей тест, а потім надсилає GPT-4 для оцінки з оцінкою від 0 до 5.
**Тож той, хто поставив GPT-4 повну оцінку, насправді сам GPT-4. **
Ах, це... Важко сказати, що немає жодної підозри, що Ван По торгує динями і вихваляється.
Крім того, багато людей скаржилися на необхідність надавати «хороші підказки» GPT-4, щоб отримати повну оцінку.
Що саме таке «добра підказка»? Здається, це неможливо визначити.
Деякі люди навіть кричали, що ці запитання слід кинути студентам математики та EECS Массачусетського технологічного інституту та продовжувати давати їм «добрі підказки», щоб студенти-люди також могли отримати 100% запитань...
І ще одна річ
Маленьке пасхальне яйце:
Під час тестування StableVicuna-13B, який практично можна розгорнути та запускати на ноутбуці, також отримав 48%.
Цей показник не лише майже на 10 процентних пунктів вищий, ніж у LLaMA-65B із більшою моделлю, але навіть у LLaMA-30B після доопрацювання MIT ще вищий.
Люди повинні трохи подумати про співвідношення між розміром моделі та можливостями.
Посилання на посилання:
[1]
[2]
[3]
[4]
Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Склав студентський іспит з математики MIT на повний бал GPT-4! Цей набір підказок горить
Джерело: Qubit
Несподівано тест з математики MIT зламався GPT-4? !
Раптом хтось зробив гучну заяву в останній документації:
GPT-4 На бакалаврських іспитах з математики та EECS (факультет електротехніки та комп’ютерних наук) продемонстрована здатність повністю відповідати вимогам до випуску.
І правильно отримайте повні бали!
Знаєте, цей результат виміряла не хто інший, як дослідницька група з Массачусетського технологічного інституту, Бостонського та Корнельського університетів.
І він сильніший за king GPT-3.5 попереднього покоління.У цьому ж тесті він пройшов лише на одну третину.
Як тільки папір вийшов, незліченна кількість поглядів швидко привернула увагу.
Відкритий іспит MIT GPT-4
Зокрема, цього разу в такому тесті брав участь GPT-4:
Дослідницька група підготувала набір даних, що містить 4550 проблем і рішень.
Ці 4550 завдань і розв’язків походять із наборів завдань курсу, проміжних семестрів та випускних іспитів, які студенти** факультету математики та EECS Массачусетського технологічного інституту мають вивчити, щоб отримати ступінь бакалавра. **
включати:
6-1: Електротехніка та інженерія; 6-2: Електротехніка та інформатика; 6-3: Комп'ютерні науки та інженерія; 6-4: Штучний інтелект і прийняття рішень; 18-1: Загальна математика; 18-2: Прикладна математика; 18-3: Чиста математика; 18-С: Математика та інформатика.
Детальна класифікація кожного спеціальності
Усі запитання взято з набору даних Массачусетського технологічного інституту, з якого випадковим чином згенеровано 228 питань, проблеми, які не включають зображення та існуючі рішення.
Рівень складності тем у порядку від легкого до складного: вправи, вправи, проміжні іспити, випускні іспити, експерименти та спецпроекти.
Відсортовані за типом відповіді, складність запитань від легкого до складного: програмування, відкрите, вибір із множинним вибором, числове, вираз і зображення.
Цього разу в тесті беруть участь не тільки GPT-4 і GPT-3.5, а й StableVicuna-13B, LLaMA-30B і LLaMA-60B**.
Ці 4 великі моделі були обрані як учасники тестування, оскільки вони є «сучасними великими мовними моделями».
Оцінка підсумкового іспиту
Як видно з даних у таблиці, налаштований GPT-4 має найвищу оцінку з рейтингом 100%, а найбільш загальну продуктивність має LLaMA-30B, який набрав лише 30% оцінки.
Варто зазначити, що оригінальна версія GPT-4 використовувалася з коробки взагалі без налаштування, і вона також набрала 90% на цьому іспиті MIT.
Процес налаштування, включно з Few-Shot+CoT+Self-critique+Experts.
Крім того, дослідницька група також провела інженерну оптимізацію у вікні підказок, конкретні «заклинання» такі:
Зачекайте, оцінювач сам GPT-4?
Побачивши такий результат, багато користувачів мережі відчули, що прогрес LLM в тесті з математики був трохи швидким.
Подібно до "Сяо Мін посадив 5 лимонних дерев і щороку отримував 6 лимонів з кожного дерева, скільки лимонів він отримав загалом за 10 років" такого роду.
Я вивчив 6 випадково вибраних зразків запитань із студентських базових курсів математики Массачусетського технологічного інституту. 25 питань було випадково відібрано для кожного з 6 курсів, а також 60 запитань із набору даних рівня ACT (вступний іспит до американського коледжу).
**Всього 210 запитань, на всі з яких ШІ відповів правильно. **
Тому що в оцінці того часу Codex відповідав за читання та письмо і не включав вирішення.
Отже, цього разу GPT-4 показав себе надзвичайно добре, яке чудове слово~
В основному є 2 основні слоти.
Перше, що варто сумніватися, це те, що набір навчальних даних OpenAI не був повністю опублікований.
Це також означає, що не можна довести, що 4550 проблем і рішень у наборі даних не існують у навчальному наборі GPT-4.
Іншими словами, якщо GPT-4 був підданий тестовим питанням на етапі попереднього навчання, то він остаточно набере ідеальний бал, і не буде ніяких сюрпризів.
Не дивно, що деякі користувачі мережі yygq безцеремонно вважають, що GPT-4 отримав такий результат, мабуть, набір даних був включений у навчальні дані.
Подивіться уважніше, у розділі 2.6 статті є ключовий момент:
Команда налаштовує велику модель із відкритим вихідним кодом на наборі даних: «Враховуючи запитання Q, базове рішення S і відповідь LLM, ми використовуємо GPT-4 для автоматичного підрахунку відповідей моделі».
На практиці кожна велика модель генерує відповіді на цей тест, а потім надсилає GPT-4 для оцінки з оцінкою від 0 до 5.
**Тож той, хто поставив GPT-4 повну оцінку, насправді сам GPT-4. **
Ах, це... Важко сказати, що немає жодної підозри, що Ван По торгує динями і вихваляється.
Що саме таке «добра підказка»? Здається, це неможливо визначити.
І ще одна річ
Маленьке пасхальне яйце:
Під час тестування StableVicuna-13B, який практично можна розгорнути та запускати на ноутбуці, також отримав 48%.
Люди повинні трохи подумати про співвідношення між розміром моделі та можливостями.
Посилання на посилання: [1] [2] [3] [4]