Точность длинной текстовой информации превосходит ChatGPT, и Meta предлагает новый метод уменьшения иллюзии больших моделей.

Источник: Кубиты

Появилось новое решение проблемы галлюцинаций крупных моделей!

Meta AI Labs предлагает решение «разделяй и властвуй».

Благодаря этому решению точность выдачи информации Llama-65B выросла вдвое, даже превзойдя ChatGPT.

Так называемая иллюзия большой модели заключается в том, чтобы вывести некоторый контент, который кажется разумным, но совершенно неверным.

«Цепочка проверки» (CoVe), предложенная Метой на этот раз, представляет собой метод цепочки, аналогичный «Цепочке мыслей» (CoT).

Разница в том, что «пошаговая» цепочка мышления больше фокусируется на логических рассуждениях, а цепочка проверки больше фокусируется на фактической информации**.

Прочитав его, некоторые пользователи сети обнаружили, что эта цепочка проверок очень похожа на научный метод при написании кода с использованием ChatGPT:

Так что же такое метод «цепочки проверки» и что такое «проверка»?

Разбери ответ, разделяй и властвуй

Основная идея цепочки проверки состоит в том, чтобы разбить большую часть контента, подлежащего проверке, на небольшие проблемы. Конкретный процесс выглядит следующим образом:

Сначала модель как обычно генерирует ответы на основе вопроса, заданного пользователем.

Затем на основе сгенерированного содержимого ответа генерируется ряд проверочных вопросов для каждой части информации.

Затем модели разрешается самостоятельно ответить на эти вопросы, а первоначальные ответы корректируются на основе результатов для получения окончательного результата.

В качестве простого примера предположим, что вы хотите спросить модель, каковы были основные причины американо-мексиканской войны в XIX веке.

Модель отвечает, когда произошло событие и что произошло до него.

Затем, для этой серии событий, спросите их одно за другим, когда они произошли.

В результате модель обнаружила, что время одного из упомянутых элементов слишком сильно различается, и скорректировала его, чтобы дать окончательный ответ.

Среди них наиболее важной частью является генерация и проверка вопросов.В связи с этим исследователи предложили четыре конкретных метода:

*Совместное, то есть написание инструкций по формированию вопросов и ответов в одно и то же слово-подсказку.

  • 2-этапный, то есть сначала позвольте модели сформулировать вопросы, а затем откройте новый разговор (одноразовый), чтобы ответить на поднятые вопросы.
  • Факторинг, основанный на 2-Step, открывает новый диалог для каждого заданного вопроса.
  • Factor+Revise, добавляет тестирование согласованности на основе Factored, позволяя модели сосредоточиться на противоречивом контенте.

Эти четыре режима становятся все более совершенными, а их точность становится все выше и выше.

###### Начиная с красного, четыре цвета обозначают отсутствие CoVe, Joint, Factored и Factor+Revise по порядку.

Так почему же разделение вопросов может повысить точность модели?

Прежде всего, поскольку вопросы в разобранном виде легче, чем общая задача, вопросы эссе становятся вопросами и ответами или даже вопросами с множественным выбором и оценкой. Вопросы становятся проще, а точность повышается.

Кроме того, детализация проблемы позволяет модели по-настоящему переосмыслить проблему, а не повторять неправильный ответ снова и снова.

Итак, в чем же эффект метода цепочки проверок?

Точность информации превышает ChatGPT

Чтобы изучить эту проблему, исследователи использовали Llama для проведения теста, включающего в общей сложности три тестовых задания.

Первый — это перечисление информации, например, список знаменитостей, которые родились в определенном месте и работали в определенной отрасли.

В этой задаче исследователи протестировали в общей сложности два набора данных — более простой Викиданные и более сложный список Вики-категорий (извлеченный из Википедии).

Результаты показали, что при поддержке цепочки двухэтапного режима проверки Llama с 65B параметрами точность простых вопросов выросла с 0,17 до 0,36, более чем в два раза**, а точность сложных вопросов также выросла почти вдвое.

Далее следует вопрос «Закрытый домен вопросов и ответов». Исследователи извлекли множество разрозненных данных из набора данных MultiSpanQA и задали вопросы.

Например, «Кто в каком году основал первое в мире издательство» (ответ — Иоганн Гутенберг, 1450 г.).

В результате Коув также улучшил точность Llama на 20%.

Третье задание — «Создание длинной текстовой биографии». Вопрос «Назовите мне биографию (имя человека)», который оценивается с использованием набора данных FactScore.

В результате в режиме Factor+Revise точность не только значительно выше, чем в режиме цепочки без проверки, но и превосходит ChatGPT.

Друзья, которые заинтересованы в этом исследовании, могут узнать более подробную информацию в статье.

Бумажный адрес:

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить