DeepMind позволяет большим моделям обучаться индукции и дедукции, а точность GPT-4 повышается на 13,7%

Источник изображения: Generated by Unbounded AI

В настоящее время большие языковые модели (LLM) демонстрируют впечатляющие возможности в задачах вывода, особенно при наличии примеров и промежуточных шагов. Тем не менее, методы часто полагаются на неявное знание в LLM, и LLM дает неверные ответы, когда неявное знание неверно или не соответствует задаче.

Теперь исследователи из Google, Института Милы и других исследовательских институтов совместно изучили новый способ, позволяющий LLM изучать правила логического вывода, и предложили новую структуру под названием Hypotheses-to-Theories (HtT). Этот новый подход не только улучшает многоступенчатые рассуждения, но и обладает такими преимуществами, как интерпретируемость, переносимость и так далее.

Адрес доклада:

Эксперименты над числовыми и реляционными задачами показывают, что HtT улучшает существующие методы с точностью на 11-27%. Изученные правила также могут быть перенесены в разные модели или разные формы одной и той же задачи.

Введение в метод

Таким образом, фреймворк HtT состоит из двух фаз — индуктивной и дедуктивной, аналогично обучению и тестированию в традиционном машинном обучении.

На этапе вводного инструктажа LLM сначала просят сгенерировать и проверить правила для набора обучающих примеров. В исследовании CoT используется для объявления правил и получения ответов, оценки частоты и точности правил, а также сбора правил, которые часто появляются и приводят к правильным ответам, для формирования базы правил.

При наличии хорошей базы правил следующим шагом является изучение того, как применять эти правила для решения проблемы. С этой целью, на дедуктивной фазе, исследование добавляет базу правил и просит LLM извлечь правила из базы правил для дедукции, преобразуя неявный вывод в явный вывод.

Тем не менее, исследование показало, что даже очень мощные LLM, такие как GPT-4, изо всех сил пытаются получить правильные правила на каждом шагу. С этой целью в исследовании был разработан трюк с тегированием XML для расширения возможностей LLM по поиску контекста.

Экспериментальные результаты

Чтобы оценить HtT, исследование было сопоставлено с двумя задачами многоступенчатого вывода. Результаты экспериментов показывают, что HtT улучшает метод меньшего количества образцов. Авторы также провели обширные исследования абляции, чтобы обеспечить более полное понимание HtT.

Они оценивают новые подходы к числовым и реляционным задачам рассуждения. В числовых рассуждениях они наблюдали улучшение точности на 21,0% с GPT-4. В реляционном выводе GPT-4 повысил точность на 13,7%, в то время как GPT-3.5 выиграл еще больше, удвоив производительность. Прирост производительности происходит в основном за счет уменьшения иллюзии регулярности.

В частности, в таблице 1 ниже показаны результаты для арифметических наборов данных с основанием 16, основанием 11 и основанием 9. Из всех базовых систем 0-shot CoT показывает худшие результаты в обеих LLM.

В ТАБЛИЦЕ 2 ПРЕДСТАВЛЕНЫ РЕЗУЛЬТАТЫ СРАВНЕНИЯ РАЗЛИЧНЫХ МЕТОДОВ НА КЛУТР. Можно заметить, что 0-shot CoT имеет худшую производительность в GPT3.5 и GPT4. Для метода подсказок с несколькими выстрелами производительность CoT и LtM аналогична. С точки зрения средней точности HtT стабильно превосходит метод cue обеих моделей на 11,1-27,2%. Стоит отметить, что GPT3.5 неплохо справляется с получением правил CLUTRR и выигрывает больше от HtT, чем от GPT4, вероятно, потому, что в CLUTRR меньше правил, чем в арифметике.

Стоит отметить, что при использовании правил GPT4 производительность CoT на GPT3.5 улучшается на 27,2%, что более чем в два раза превышает производительность CoT и близко к производительности CoT на GPT4. Таким образом, авторы считают, что HtT может служить новой формой дистилляции знаний от сильного LLM к слабому LLM.

Из таблицы 3 видно, что HtT значительно улучшает производительность GPT-4 (текстовая версия). Для GPT3.5 это улучшение не является существенным, так как оно часто приводит к ошибкам, отличным от иллюзии правил при обработке текстового ввода.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить