В настоящее время большие языковые модели (LLM) демонстрируют впечатляющие возможности в задачах вывода, особенно при наличии примеров и промежуточных шагов. Тем не менее, методы часто полагаются на неявное знание в LLM, и LLM дает неверные ответы, когда неявное знание неверно или не соответствует задаче.
Теперь исследователи из Google, Института Милы и других исследовательских институтов совместно изучили новый способ, позволяющий LLM изучать правила логического вывода, и предложили новую структуру под названием Hypotheses-to-Theories (HtT). Этот новый подход не только улучшает многоступенчатые рассуждения, но и обладает такими преимуществами, как интерпретируемость, переносимость и так далее.
Адрес доклада:
Эксперименты над числовыми и реляционными задачами показывают, что HtT улучшает существующие методы с точностью на 11-27%. Изученные правила также могут быть перенесены в разные модели или разные формы одной и той же задачи.
Введение в метод
Таким образом, фреймворк HtT состоит из двух фаз — индуктивной и дедуктивной, аналогично обучению и тестированию в традиционном машинном обучении.
На этапе вводного инструктажа LLM сначала просят сгенерировать и проверить правила для набора обучающих примеров. В исследовании CoT используется для объявления правил и получения ответов, оценки частоты и точности правил, а также сбора правил, которые часто появляются и приводят к правильным ответам, для формирования базы правил.
При наличии хорошей базы правил следующим шагом является изучение того, как применять эти правила для решения проблемы. С этой целью, на дедуктивной фазе, исследование добавляет базу правил и просит LLM извлечь правила из базы правил для дедукции, преобразуя неявный вывод в явный вывод.
Тем не менее, исследование показало, что даже очень мощные LLM, такие как GPT-4, изо всех сил пытаются получить правильные правила на каждом шагу. С этой целью в исследовании был разработан трюк с тегированием XML для расширения возможностей LLM по поиску контекста.
Экспериментальные результаты
Чтобы оценить HtT, исследование было сопоставлено с двумя задачами многоступенчатого вывода. Результаты экспериментов показывают, что HtT улучшает метод меньшего количества образцов. Авторы также провели обширные исследования абляции, чтобы обеспечить более полное понимание HtT.
Они оценивают новые подходы к числовым и реляционным задачам рассуждения. В числовых рассуждениях они наблюдали улучшение точности на 21,0% с GPT-4. В реляционном выводе GPT-4 повысил точность на 13,7%, в то время как GPT-3.5 выиграл еще больше, удвоив производительность. Прирост производительности происходит в основном за счет уменьшения иллюзии регулярности.
В частности, в таблице 1 ниже показаны результаты для арифметических наборов данных с основанием 16, основанием 11 и основанием 9. Из всех базовых систем 0-shot CoT показывает худшие результаты в обеих LLM.
В ТАБЛИЦЕ 2 ПРЕДСТАВЛЕНЫ РЕЗУЛЬТАТЫ СРАВНЕНИЯ РАЗЛИЧНЫХ МЕТОДОВ НА КЛУТР. Можно заметить, что 0-shot CoT имеет худшую производительность в GPT3.5 и GPT4. Для метода подсказок с несколькими выстрелами производительность CoT и LtM аналогична. С точки зрения средней точности HtT стабильно превосходит метод cue обеих моделей на 11,1-27,2%. Стоит отметить, что GPT3.5 неплохо справляется с получением правил CLUTRR и выигрывает больше от HtT, чем от GPT4, вероятно, потому, что в CLUTRR меньше правил, чем в арифметике.
Стоит отметить, что при использовании правил GPT4 производительность CoT на GPT3.5 улучшается на 27,2%, что более чем в два раза превышает производительность CoT и близко к производительности CoT на GPT4. Таким образом, авторы считают, что HtT может служить новой формой дистилляции знаний от сильного LLM к слабому LLM.
Из таблицы 3 видно, что HtT значительно улучшает производительность GPT-4 (текстовая версия). Для GPT3.5 это улучшение не является существенным, так как оно часто приводит к ошибкам, отличным от иллюзии правил при обработке текстового ввода.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
DeepMind позволяет большим моделям обучаться индукции и дедукции, а точность GPT-4 повышается на 13,7%
В настоящее время большие языковые модели (LLM) демонстрируют впечатляющие возможности в задачах вывода, особенно при наличии примеров и промежуточных шагов. Тем не менее, методы часто полагаются на неявное знание в LLM, и LLM дает неверные ответы, когда неявное знание неверно или не соответствует задаче.
Теперь исследователи из Google, Института Милы и других исследовательских институтов совместно изучили новый способ, позволяющий LLM изучать правила логического вывода, и предложили новую структуру под названием Hypotheses-to-Theories (HtT). Этот новый подход не только улучшает многоступенчатые рассуждения, но и обладает такими преимуществами, как интерпретируемость, переносимость и так далее.
Эксперименты над числовыми и реляционными задачами показывают, что HtT улучшает существующие методы с точностью на 11-27%. Изученные правила также могут быть перенесены в разные модели или разные формы одной и той же задачи.
Введение в метод
Таким образом, фреймворк HtT состоит из двух фаз — индуктивной и дедуктивной, аналогично обучению и тестированию в традиционном машинном обучении.
При наличии хорошей базы правил следующим шагом является изучение того, как применять эти правила для решения проблемы. С этой целью, на дедуктивной фазе, исследование добавляет базу правил и просит LLM извлечь правила из базы правил для дедукции, преобразуя неявный вывод в явный вывод.
Тем не менее, исследование показало, что даже очень мощные LLM, такие как GPT-4, изо всех сил пытаются получить правильные правила на каждом шагу. С этой целью в исследовании был разработан трюк с тегированием XML для расширения возможностей LLM по поиску контекста.
Чтобы оценить HtT, исследование было сопоставлено с двумя задачами многоступенчатого вывода. Результаты экспериментов показывают, что HtT улучшает метод меньшего количества образцов. Авторы также провели обширные исследования абляции, чтобы обеспечить более полное понимание HtT.
Они оценивают новые подходы к числовым и реляционным задачам рассуждения. В числовых рассуждениях они наблюдали улучшение точности на 21,0% с GPT-4. В реляционном выводе GPT-4 повысил точность на 13,7%, в то время как GPT-3.5 выиграл еще больше, удвоив производительность. Прирост производительности происходит в основном за счет уменьшения иллюзии регулярности.
Стоит отметить, что при использовании правил GPT4 производительность CoT на GPT3.5 улучшается на 27,2%, что более чем в два раза превышает производительность CoT и близко к производительности CoT на GPT4. Таким образом, авторы считают, что HtT может служить новой формой дистилляции знаний от сильного LLM к слабому LLM.