GPT-4 стал обозревателем Nature? Выпускники Стэнфорда и Цинхуа протестировали около 5000 статей, и более 50% результатов совпали с мнением рецензентов-людей.
Введение. Ученые из Стэнфорда обнаружили, что мнения рецензентов, выдаваемые GPT-4 на статьи Nature и ICLR, более чем на 50 % совпадают с мнениями рецензентов-людей. Кажется, позволить крупным моделям помогать нам в рецензировании статей — это не фантастика.
GPT-4 успешно повышен до уровня рецензента!
Недавно исследователи из Стэнфордского университета и других учреждений отправили тысячи лучших статей с конференций из Nature, ICLR и т. д. в GPT-4, что позволило ему генерировать комментарии к обзору и предложения по исправлению, а затем сравнивать их с мнениями, высказанными рецензентами. Сравнивать.
Бумажный адрес:
В результате GPT-4 не только отлично справился со своей задачей, но даже сделал ее лучше, чем люди!
Более 50% высказанных им мнений совпадают как минимум с одним рецензентом.
И более 82,4% авторов заявили, что мнения, высказанные GPT-4, были весьма полезны.
Джеймс Цзоу, автор статьи, заключил: «Нам по-прежнему нужна качественная человеческая обратная связь, но LLM может помочь авторам улучшить первый вариант статьи перед официальным рецензированием.
## Мнения, которые дает вам GPT-4, могут быть лучше, чем у людей
Итак, как заставить LLM просмотреть вашу рукопись?
Это очень просто: просто извлеките текст из бумажного PDF-файла, отправьте его в GPT-4, и он немедленно сгенерирует обратную связь.
В частности, нам нужно извлечь и проанализировать заголовок, аннотацию, рисунки, заголовки таблиц и основной текст статьи из PDF-файла.
Затем сообщите GPT-4, что вам необходимо заполнить форму обратной связи ведущих журнальных конференций отрасли, которая состоит из четырех частей: являются ли результаты важными и новыми, причины принятия статьи, причины отклонения статьи и т. д. и предложения по улучшению.
Как видно на картинке ниже, GPT-4 дал очень конструктивные мнения, а отзыв состоял из четырех частей.
Какие недостатки в этой статье?
GPT-4 многозначительно отметил: Хотя в документе упоминается феномен модального разрыва, он не предлагает метод сокращения разрыва и не доказывает преимущества этого.
Исследователи сравнили отзывы людей и отзывы LLM о 3096 статьях серии Nature и 1709 статьях ICLR.
Двухэтапный конвейер сопоставления комментариев извлекает точки комментариев из LLM и отзывов пользователей соответственно, а затем выполняет семантическое сопоставление текста для сопоставления общих точек комментариев между LLM и отзывами людей.
На рисунке ниже показан конкретный двухэтапный конвейер сопоставления отзывов.
Для каждого парного отзыва дается рейтинг сходства с обоснованием.
Исследователи установили порог сходства на уровне 7, и слабо совпадающие комментарии будут отфильтровываться.
В двух наборах данных Nature и ICLR средняя длина токенов статей и комментариев людей следующая.
В этом исследовании приняли участие 308 исследователей из 110 институтов искусственного интеллекта и институтов вычислительной биологии в США.
Каждый исследователь загрузил написанную им статью, прочитал отзывы LLM, а затем оставил свою оценку и чувства по поводу отзывов LLM.
Результаты показывают, что исследователи обычно считают, что обратная связь, генерируемая LLM, во многом совпадает с результатами рецензентов-людей и обычно очень полезна.
Если и есть какой-то недостаток, так это то, что он немного менее конкретен.
如下图所示,对于提交给Nature的论文,大约三分之一(30.85%) комментариев GPT-4 совпадают с комментариями рецензентов.
В статьях ICLR более трети (39,23%) комментариев GPT-4 совпадают с комментариями рецензентов.
## У LLM и рецензентов несколько разные приоритеты
Ниже приведены комментарии LLM и комментарии людей к одному и тому же документу ICLR. Видно, что у LLM очень порочное видение, и комментарии очень точны.
Например, по сравнению с предыдущими исследованиями рецензенты заявили:
Сравнение некорректное. В частности, не учитываются потери согласованности меток и согласованности центра метода GNN. Более справедливым сравнением было бы использование метода GNN, учитывающего обе потери.
Оценка GPT-4 такова:
В статье отсутствует детальное сравнение с существующими методами. Хотя авторы сравнили исходные данные для некоторых методов, необходимо более полное сравнение.
С точки зрения теоретической достоверности, рецензенты дали такое мнение:
ИМХО, доказательство теории слишком тривиально. Окончательный вывод заключается в том, что если сходство уместно, то предсказанное действие является точным. Поскольку модель изучает правильное сходство, это эквивалентно утверждению, что если модель h хорошо обучена, выходные данные будут правильными. Это очевидно.
Мнение GPT-4 таково:
Автору следует предоставить больше теоретического анализа для сравнения связи между передачей информации и ограничениями согласованности, чтобы читателям было легче понять.
Что касается воспроизводимости исследований, рецензенты надеются, что статья сможет предоставить код, позволяющий другим читателям воспроизвести эксперимент.
Такое же мнение по этому поводу высказала и GPT-4: «Авторам следует предоставить более подробную информацию об условиях эксперимента, чтобы обеспечить воспроизводимость исследования».
Пользователи, принявшие участие в опросе, в целом считают, что отзывы LLM могут помочь повысить точность рецензий и снизить нагрузку на рецензентов. И большинство пользователей намерены снова использовать систему обратной связи LLM.
Интересно, что рецензенты LLM имеют свои уникальные характеристики по сравнению с рецензентами-людьми.
Например, он упоминает импакт-факторы в 7,27 раз чаще, чем рецензенты-люди.
Рецензенты-люди с большей вероятностью будут запрашивать дополнительные эксперименты по абляции, в то время как LLM сосредоточится на запросе экспериментов на большем количестве наборов данных.
Пользователи сети сказали: «Эта работа потрясающая!»
Некоторые также говорят, что на самом деле я занимаюсь этим уже давно и использую различные программы LLM, которые помогают мне обобщать и улучшать мои статьи.
Кто-то спросил, будут ли рецензенты GPT предвзятыми, чтобы соответствовать сегодняшним стандартам рецензирования?
Некоторые люди также поднимали вопрос о количественной оценке совпадения между мнениями GPT и человеческими отзывами.Полезен ли этот показатель?
Поймите, что в идеале у рецензентов не должно быть слишком много пересекающихся мнений, и они выбираются с целью представить разные точки зрения.
Но, по крайней мере, это исследование позволяет нам понять, что LLM действительно может использоваться как инструмент для редактирования статей.
Три шага: позвольте LLM просмотреть рукопись за вас
Создайте сервер анализа PDF и запустите его в фоновом режиме:
conda env create -f conda_environment.ymlconda active ScienceBeampython -m sciencebeam_parser.service.server --port=8080 # Убедитесь, что это работает в фоновом режиме
2. Создайте и запустите сервер обратной связи LLM:
conda create -n llm python=3.10conda active llmpip install -r require.txtcat YOUR_OPENAI_API_KEY > key.txt # Замените YOUR_OPENAI_API_KEY на ваш ключ API OpenAI, начинающийся с "sk-"python main.py
Откройте веб-браузер и загрузите свою статью:
Откройте и загрузите свою статью, и вы получите отзыв от LLM примерно через 120 секунд.
## об авторе
Вэйсинь Лян
Вэйсинь Лян — аспирант кафедры компьютерных наук Стэнфордского университета и сотрудник Стэнфордской лаборатории искусственного интеллекта (SAIL) под руководством профессора Джеймса Цзоу.
До этого он получил степень магистра электротехники в Стэнфордском университете под руководством профессора Джеймса Цзоу и профессора Чжоу Юя, а также степень бакалавра компьютерных наук в Чжэцзянском университете под руководством профессора Кая Бу и профессора Минли Сун. .
Он проходил стажировку в Amazon Alexa AI, Apple и Tencent, а также работал с профессорами Дэниелом Джурафски, Дэниелом А. Макфарландом и Сереной Юнг.
Юхуэй Чжан
Юхуэй Чжан — аспирант кафедры компьютерных наук Стэнфордского университета под руководством профессора Серены Юнг.
Его исследования сосредоточены на создании мультимодальных систем искусственного интеллекта и разработке творческих приложений, которые извлекают выгоду из мультимодальной информации.
До этого он закончил бакалавриат и магистратуру в Университете Цинхуа и Стэнфордском университете и работал с выдающимися исследователями, такими как профессор Джеймс Цзоу, профессор Крис Мэннинг и профессор Юре Лесковец.
Ханьчэн Цао
Ханьчэн Цао — аспирант шестого курса факультета компьютерных наук Стэнфордского университета (специализация в области управленческих наук и инженерии), а также член группы НЛП и группы взаимодействия человека и компьютера в Стэнфордском университете под руководством профессора Дэна. МакФарланд и Майкл Бернштейн.
В 2018 году он получил степень бакалавра в области электронной инженерии в Университете Цинхуа с отличием.
С 2015 года работал научным сотрудником в Университете Цинхуа под руководством профессора Ли Юна и профессора Василиса Костакоса (Университет Мельбурна). Осенью 2016 года он работал под руководством профессора Ханана Самета, заслуженного профессора Университета Мэриленда. Летом 2017 года он работал студентом по обмену и научным сотрудником в группе динамики человека в медиалаборатории Массачусетского технологического института под руководством Алекса «Сэнди» Пентланда, профессора Сяовэнь Донг.
Его исследовательские интересы включают вычислительную социальную науку, социальные вычисления и науку о данных.
Использованная литература:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
GPT-4 стал обозревателем Nature? Выпускники Стэнфорда и Цинхуа протестировали около 5000 статей, и более 50% результатов совпали с мнением рецензентов-людей.
**Источник:**Синьчжиюань
Введение. Ученые из Стэнфорда обнаружили, что мнения рецензентов, выдаваемые GPT-4 на статьи Nature и ICLR, более чем на 50 % совпадают с мнениями рецензентов-людей. Кажется, позволить крупным моделям помогать нам в рецензировании статей — это не фантастика.
GPT-4 успешно повышен до уровня рецензента!
Недавно исследователи из Стэнфордского университета и других учреждений отправили тысячи лучших статей с конференций из Nature, ICLR и т. д. в GPT-4, что позволило ему генерировать комментарии к обзору и предложения по исправлению, а затем сравнивать их с мнениями, высказанными рецензентами. Сравнивать.
В результате GPT-4 не только отлично справился со своей задачей, но даже сделал ее лучше, чем люди!
И более 82,4% авторов заявили, что мнения, высказанные GPT-4, были весьма полезны.
Итак, как заставить LLM просмотреть вашу рукопись?
Это очень просто: просто извлеките текст из бумажного PDF-файла, отправьте его в GPT-4, и он немедленно сгенерирует обратную связь.
В частности, нам нужно извлечь и проанализировать заголовок, аннотацию, рисунки, заголовки таблиц и основной текст статьи из PDF-файла.
Затем сообщите GPT-4, что вам необходимо заполнить форму обратной связи ведущих журнальных конференций отрасли, которая состоит из четырех частей: являются ли результаты важными и новыми, причины принятия статьи, причины отклонения статьи и т. д. и предложения по улучшению.
Какие недостатки в этой статье?
GPT-4 многозначительно отметил: Хотя в документе упоминается феномен модального разрыва, он не предлагает метод сокращения разрыва и не доказывает преимущества этого.
Двухэтапный конвейер сопоставления комментариев извлекает точки комментариев из LLM и отзывов пользователей соответственно, а затем выполняет семантическое сопоставление текста для сопоставления общих точек комментариев между LLM и отзывами людей.
Для каждого парного отзыва дается рейтинг сходства с обоснованием.
Исследователи установили порог сходства на уровне 7, и слабо совпадающие комментарии будут отфильтровываться.
Каждый исследователь загрузил написанную им статью, прочитал отзывы LLM, а затем оставил свою оценку и чувства по поводу отзывов LLM.
Если и есть какой-то недостаток, так это то, что он немного менее конкретен.
В статьях ICLR более трети (39,23%) комментариев GPT-4 совпадают с комментариями рецензентов.
Ниже приведены комментарии LLM и комментарии людей к одному и тому же документу ICLR. Видно, что у LLM очень порочное видение, и комментарии очень точны.
Оценка GPT-4 такова:
Мнение GPT-4 таково:
Такое же мнение по этому поводу высказала и GPT-4: «Авторам следует предоставить более подробную информацию об условиях эксперимента, чтобы обеспечить воспроизводимость исследования».
Например, он упоминает импакт-факторы в 7,27 раз чаще, чем рецензенты-люди.
Рецензенты-люди с большей вероятностью будут запрашивать дополнительные эксперименты по абляции, в то время как LLM сосредоточится на запросе экспериментов на большем количестве наборов данных.
Некоторые также говорят, что на самом деле я занимаюсь этим уже давно и использую различные программы LLM, которые помогают мне обобщать и улучшать мои статьи.
Поймите, что в идеале у рецензентов не должно быть слишком много пересекающихся мнений, и они выбираются с целью представить разные точки зрения.
Три шага: позвольте LLM просмотреть рукопись за вас
conda env create -f conda_environment.ymlconda active ScienceBeampython -m sciencebeam_parser.service.server --port=8080 # Убедитесь, что это работает в фоновом режиме 2. Создайте и запустите сервер обратной связи LLM:
conda create -n llm python=3.10conda active llmpip install -r require.txtcat YOUR_OPENAI_API_KEY > key.txt # Замените YOUR_OPENAI_API_KEY на ваш ключ API OpenAI, начинающийся с "sk-"python main.py
Откройте и загрузите свою статью, и вы получите отзыв от LLM примерно через 120 секунд.
Вэйсинь Лян
До этого он получил степень магистра электротехники в Стэнфордском университете под руководством профессора Джеймса Цзоу и профессора Чжоу Юя, а также степень бакалавра компьютерных наук в Чжэцзянском университете под руководством профессора Кая Бу и профессора Минли Сун. .
Он проходил стажировку в Amazon Alexa AI, Apple и Tencent, а также работал с профессорами Дэниелом Джурафски, Дэниелом А. Макфарландом и Сереной Юнг.
Юхуэй Чжан
Его исследования сосредоточены на создании мультимодальных систем искусственного интеллекта и разработке творческих приложений, которые извлекают выгоду из мультимодальной информации.
До этого он закончил бакалавриат и магистратуру в Университете Цинхуа и Стэнфордском университете и работал с выдающимися исследователями, такими как профессор Джеймс Цзоу, профессор Крис Мэннинг и профессор Юре Лесковец.
Ханьчэн Цао
В 2018 году он получил степень бакалавра в области электронной инженерии в Университете Цинхуа с отличием.
С 2015 года работал научным сотрудником в Университете Цинхуа под руководством профессора Ли Юна и профессора Василиса Костакоса (Университет Мельбурна). Осенью 2016 года он работал под руководством профессора Ханана Самета, заслуженного профессора Университета Мэриленда. Летом 2017 года он работал студентом по обмену и научным сотрудником в группе динамики человека в медиалаборатории Массачусетского технологического института под руководством Алекса «Сэнди» Пентланда, профессора Сяовэнь Донг.
Его исследовательские интересы включают вычислительную социальную науку, социальные вычисления и науку о данных.
Использованная литература: