GPT-4 став рецензентом Nature? Випускники Стенфорду та Цінхуа перевірили майже 5000 робіт, і понад 50% результатів узгоджувалися з рецензентами.

**Джерело:**Xinzhiyuan

Вступ: Вчені Стенфордського університету виявили, що рецензент GPT-4 на документи Nature та ICLR більш ніж на 50% подібний до рецензентів-людей. Здається, дозволити великим моделям допомагати нам переглядати статті – це не фантазія.

GPT-4 успішно підвищено до рецензента!

Нещодавно дослідники зі Стенфордського університету та інших установ надіслали тисячі найкращих статей із конференцій із журналів Nature, ICLR тощо до GPT-4, що дозволило йому генерувати оглядові коментарі та пропозиції щодо перегляду, а потім порівнювати їх із думками, наданими рецензентами. Порівняйте.

Адреса паперу:

У результаті GPT-4 не тільки чудово впорався із завданням, але й навіть краще, ніж люди!

Понад 50% думок, які він надає, узгоджуються з принаймні одним рецензентом.

І більше 82,4% авторів сказали, що думки GPT-4 були досить корисними.

Джеймс Зу, автор статті, зробив висновок: «Нам все ще потрібен високоякісний відгук людини, але магістр права може допомогти авторам удосконалити свій перший проект статті перед формальним рецензуванням».

## Думки GPT-4 можуть бути кращими за людей

Отже, як змусити LLM переглянути ваш рукопис?

Це дуже просто, просто витягніть текст із паперового PDF-файлу, передайте його в GPT-4, і він негайно створить відгук.

Зокрема, нам потрібно витягнути та проаналізувати заголовок, анотацію, малюнки, заголовки таблиць і основний текст статті з PDF-файлу.

Потім скажіть GPT-4, що вам потрібно дотримуватися форми відгуків про рецензування на конференціях провідних журналів галузі, яка включає чотири частини: чи є результати важливими та новими, причини прийняття статті, причини відхилення статті, та пропозиції щодо покращення.

Як ви можете бачити на зображенні нижче, GPT-4 надав дуже конструктивні думки, а відгуки включали чотири частини.

Які недоліки є в цьому документі?

GPT-4 чітко зазначив: хоча в документі згадується феномен модального розриву, він не пропонує методу зменшення розриву, а також не доводить переваги цього.

Дослідники порівняли відгуки людини та відгуки LLM щодо 3096 статей серії Nature та 1709 статей ICLR.

Двоступеневий конвеєр зіставлення коментарів витягує точки коментарів у відгуках LLM і відгуках людини відповідно, а потім виконує семантичне зіставлення тексту для відповідності загальним точкам коментарів між LLM і відгуками людини.

На малюнку нижче наведено конкретний двоступеневий конвеєр перевірки.

Для кожного парного огляду надається оцінка схожості з обґрунтуванням.

Дослідники встановили поріг схожості на 7, а коментарі, що не відповідають, будуть відфільтровані.

У двох наборах даних Nature та ICLR середня довжина токенів документів і людських коментарів така.

У цьому дослідженні взяли участь 308 дослідників із 110 установ ШІ та установ обчислювальної біології в Сполучених Штатах.

Кожен дослідник завантажив написану ним статтю, прочитав відгук LLM, а потім заповнив власну оцінку та думки щодо відгуку LLM.

Результати показують, що дослідники загалом вважають, що відгуки LLM значно збігаються з результатами рецензентів і зазвичай дуже корисні.

Якщо і є якийсь недолік, то він менш конкретний.

如下图所示,对于提交给Nature的论文,大约三分之一(30.85%) коментарів GPT-4 збігаються з коментарями рецензента.

У документах ICLR більше однієї третини (39,23%) коментарів GPT-4 збігаються з коментарями рецензента.

## Рецензенти LLM і спеціалісти мають дещо різні пріоритети

Нижче наведено коментарі LLM і людські коментарі до тієї самої статті ICLR. Можна побачити, що LLM має дуже порочне бачення, і коментарі дуже доречні.

Наприклад, порівнюючи з попередніми дослідженнями, рецензенти заявили:

Порівняння помилкове. Зокрема, не враховуються втрати узгодженості міток і узгодженості центру методу GNN. Чесніше порівняння було б використовувати метод GNN, який враховує обидві втрати.

Оцінка GPT-4 така:

У статті бракує ретельного порівняння з існуючими методами. Хоча автори порівнювали базові лінії для деяких методів, потрібне більш повне порівняння.

З точки зору теоретичної надійності, рецензенти висловили таку думку——

ІМХО, доказ теорії занадто тривіальний. Остаточний висновок полягає в тому, що якщо подібність доречна, прогнозована дія є точною. Оскільки модель вивчає правильну подібність, це еквівалентно тому, що якщо модель h добре навчена, результат буде правильним. Це очевидно.

Думка GPT-4 така:

Автор повинен надати більше теоретичного аналізу для порівняння зв’язку між передачею інформації та обмеженнями узгодженості, щоб читачам було легше зрозуміти це.

З точки зору відтворюваності дослідження, рецензенти сподіваються, що стаття може надати код, щоб інші читачі могли відтворити експеримент.

GPT-4 також висловив таку ж думку з цього приводу: «Автори повинні надати більш детальну інформацію про експериментальні налаштування, щоб забезпечити відтворюваність дослідження».

Користувачі, які брали участь в опитуванні, загалом вважають, що відгуки LLM можуть допомогти підвищити точність відгуків і зменшити навантаження на рецензентів. І більшість користувачів мають намір знову використовувати систему зворотного зв’язку LLM.

Цікаво, що рецензенти LLM мають свої унікальні характеристики порівняно з рецензентами.

Наприклад, він згадує фактори впливу в 7,27 разів частіше, ніж рецензенти.

Рецензенти з більшою ймовірністю вимагатимуть проведення додаткових експериментів з абляції, тоді як LLM зосереджуватиметься на запитах експериментів на більшій кількості наборів даних.

Усі користувачі мережі сказали: ця робота чудова!

Деякі люди також кажуть, що насправді я роблю це протягом тривалого часу.Я використовую різні LLM, щоб допомогти мені узагальнити та покращити свої роботи.

Хтось запитав, чи будуть рецензенти GPT упередженими, щоб відповідати сучасним стандартам рецензування?

Деякі люди також підняли питання про кількісну оцінку збігу між GPT і думками експертів. Чи корисний цей показник?

Зрозумійте, що в ідеалі рецензенти не повинні мати занадто багато думок, що збігаються, і їх вибирають з наміром представити різні точки зору.

Але принаймні це дослідження дає нам зрозуміти, що LLM справді можна використовувати як інструмент для перегляду документів.

Три кроки, дозвольте LLM переглянути рукопис для вас

  1. Створіть сервер аналізу PDF і запустіть його у фоновому режимі:

conda env create -f conda_environment.ymlconda activate ScienceBeampython -m sciencebeam_parser.service.server --port=8080 # Переконайтеся, що це працює у фоновому режимі 2. Створіть і запустіть сервер зворотного зв’язку LLM:

conda create -n llm python=3.10conda activate llmpip install -r requirements.txtcat YOUR_OPENAI_API_KEY > key.txt # Замініть YOUR_OPENAI_API_KEY своїм ключем API OpenAI, який починається з "sk-"python main.py

  1. Відкрийте веб-браузер і завантажте документ:

Відкрийте та завантажте свою статтю, і приблизно за 120 секунд ви отримаєте відгук, створений LLM.

## Про автора

Вейсінь Лян

Вейсінь Лян є аспірантом факультету комп’ютерних наук Стенфордського університету та членом Стенфордської лабораторії штучного інтелекту (SAIL) під керівництвом професора Джеймса Зоу.

До цього він отримав ступінь магістра електротехніки в Стенфордському університеті під керівництвом професора Джеймса Цзоу та професора Чжоу Юй та ступінь бакалавра комп’ютерних наук в Університеті Чжецзян під керівництвом професора Кай Бу та професора Мінглі Соня .

Він стажувався в Amazon Alexa AI, Apple і Tencent, а також працював з професорами Деніелом Джурафскі, Деніелом А. МакФарландом і Сереною Юнг.

Юхуей Чжан

Юхуі Чжан є аспірантом факультету комп’ютерних наук Стенфордського університету під керівництвом професора Серени Єнг.

Його дослідження зосереджені на створенні мультимодальних систем штучного інтелекту та розробці творчих програм, які отримують користь від мультимодальної інформації.

До цього він закінчив бакалаврат і магістратуру в Університеті Цінхуа та Стенфордському університеті, а також працював з видатними дослідниками, такими як професор Джеймс Цзоу, професор Кріс Меннінг і професор Юре Лесковець.

Ханьчен Цао

Ханчен Цао є студентом шостого курсу докторантури факультету комп’ютерних наук Стенфордського університету (додаткова спеціальність «Менеджмент та інженерія»). Він також є членом групи НЛП і групи взаємодії людини з комп’ютером у Стенфордському університеті під керівництвом професора Дана МакФарланд і Майкл Бернштейн.

У 2018 році він отримав ступінь бакалавра електронної інженерії в Університеті Цінхуа з відзнакою.

З 2015 року він працював науковим співробітником в Університеті Цінхуа під керівництвом професора Лі Йонга та професора Василіса Костакоса (Університет Мельбурна). Восени 2016 року він працював під керівництвом професора Ханана Самета, почесного професора Університету Меріленда. Влітку 2017 року він працював студентом за обміном і асистентом-дослідником у групі Human Dynamics Media Lab Массачусетського технологічного інституту під наставництвом професора Алекса «Сенді» Пентленда Сяовень Донга.

Його наукові інтереси включають обчислювальну соціальну науку, соціальні обчислення та науку про дані.

Література:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити