DeepMind позволяет большим моделям обучаться индукции и дедукции, а точность GPT-4 повышается на 13,7%

巴比特_ · 2023-10-14T06:07:02+00:00

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ffd367b189-dd1a6f-69ad2a) Источник изображения: Generated by Unbounded AIВ настоящее время большие языковые модели (LLM) демонстрируют впечатляющие возможности в задачах вывода, особенно при наличии примеров и промежуточных шагов. Тем не менее, методы часто полагаются на неявное знание в LLM, и LLM дает неверные ответы, когда неявное знание неверно или не соответствует задаче.Теперь исследователи из Google, Института Милы и других исследовательских институтов совместно изучили новый способ, позволяющий LLM изучать правила логического вывода, и предложили новую структуру под названием Hypotheses-to-Theories (HtT). Этот новый подход не только улучшает многоступенчатые рассуждения, но и обладает такими преимуществами, как интерпретируемость, переносимость и так далее.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9d63fa595d-dd1a6f-69ad2a) Адрес доклада:Эксперименты над числовыми и реляционными задачами показывают, что HtT улучшает существующие методы с точностью на 11-27%. Изученные правила также могут быть перенесены в разные модели или разные формы одной и той же задачи. ## **Введение в метод** Таким образом, фреймворк HtT состоит из двух фаз — индуктивной и дедуктивной, аналогично обучению и тестированию в традиционном машинном обучении.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3607e1160d-dd1a6f-69ad2a) На этапе вводного инструктажа LLM сначала просят сгенерировать и проверить правила для набора обучающих примеров. В исследовании CoT используется для объявления правил и получения ответов, оценки частоты и точности правил, а также сбора правил, которые часто появляются и приводят к правильным ответам, для формирования базы правил.При наличии хорошей базы правил следующим шагом является изучение того, как применять эти правила для решения проблемы. С этой целью, на дедуктивной фазе, исследование добавляет базу правил и просит LLM извлечь правила из базы правил для дедукции, преобразуя неявный вывод в явный вывод.Тем не менее, исследование показало, что даже очень мощные LLM, такие как GPT-4, изо всех сил пытаются получить правильные правила на каждом шагу. С этой целью в исследовании был разработан трюк с тегированием XML для расширения возможностей LLM по поиску контекста.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4a898320f9-dd1a6f-69ad2a) **Экспериментальные результаты**Чтобы оценить HtT, исследование было сопоставлено с двумя задачами многоступенчатого вывода. Результаты экспериментов показывают, что HtT улучшает метод меньшего количества образцов. Авторы также провели обширные исследования абляции, чтобы обеспечить более полное понимание HtT.Они оценивают новые подходы к числовым и реляционным задачам рассуждения. В числовых рассуждениях они наблюдали улучшение точности на 21,0% с GPT-4. В реляционном выводе GPT-4 повысил точность на 13,7%, в то время как GPT-3.5 выиграл еще больше, удвоив производительность. Прирост производительности происходит в основном за счет уменьшения иллюзии регулярности.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-71e15afe44-dd1a6f-69ad2a) В частности, в таблице 1 ниже показаны результаты для арифметических наборов данных с основанием 16, основанием 11 и основанием 9. Из всех базовых систем 0-shot CoT показывает худшие результаты в обеих LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-19e04741d8-dd1a6f-69ad2a) В ТАБЛИЦЕ 2 ПРЕДСТАВЛЕНЫ РЕЗУЛЬТАТЫ СРАВНЕНИЯ РАЗЛИЧНЫХ МЕТОДОВ НА КЛУТР. Можно заметить, что 0-shot CoT имеет худшую производительность в GPT3.5 и GPT4. Для метода подсказок с несколькими выстрелами производительность CoT и LtM аналогична. С точки зрения средней точности HtT стабильно превосходит метод cue обеих моделей на 11,1-27,2%. Стоит отметить, что GPT3.5 неплохо справляется с получением правил CLUTRR и выигрывает больше от HtT, чем от GPT4, вероятно, потому, что в CLUTRR меньше правил, чем в арифметике.Стоит отметить, что при использовании правил GPT4 производительность CoT на GPT3.5 улучшается на 27,2%, что более чем в два раза превышает производительность CoT и близко к производительности CoT на GPT4. Таким образом, авторы считают, что HtT может служить новой формой дистилляции знаний от сильного LLM к слабому LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1b148a426b-dd1a6f-69ad2a) Из таблицы 3 видно, что HtT значительно улучшает производительность GPT-4 (текстовая версия). Для GPT3.5 это улучшение не является существенным, так как оно часто приводит к ошибкам, отличным от иллюзии правил при обработке текстового ввода.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-34c583517d-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7cb28b6cd4-dd1a6f-69ad2a)

巴比特_

2023-10-14 06:07:02

Источник изображения: Generated by Unbounded AI

В настоящее время большие языковые модели (LLM) демонстрируют впечатляющие возможности в задачах вывода, особенно при наличии примеров и промежуточных шагов. Тем не менее, методы часто полагаются на неявное знание в LLM, и LLM дает неверные ответы, когда неявное знание неверно или не соответствует задаче.

Теперь исследователи из Google, Института Милы и других исследовательских институтов совместно изучили новый способ, позволяющий LLM изучать правила логического вывода, и предложили новую структуру под названием Hypotheses-to-Theories (HtT). Этот новый подход не только улучшает многоступенчатые рассуждения, но и обладает такими преимуществами, как интерпретируемость, переносимость и так далее.

Адрес доклада:

Эксперименты над числовыми и реляционными задачами показывают, что HtT улучшает существующие методы с точностью на 11-27%. Изученные правила также могут быть перенесены в разные модели или разные формы одной и той же задачи.

Введение в метод

Таким образом, фреймворк HtT состоит из двух фаз — индуктивной и дедуктивной, аналогично обучению и тестированию в традиционном машинном обучении.

На этапе вводного инструктажа LLM сначала просят сгенерировать и проверить правила для набора обучающих примеров. В исследовании CoT используется для объявления правил и получения ответов, оценки частоты и точности правил, а также сбора правил, которые часто появляются и приводят к правильным ответам, для формирования базы правил.

При наличии хорошей базы правил следующим шагом является изучение того, как применять эти правила для решения проблемы. С этой целью, на дедуктивной фазе, исследование добавляет базу правил и просит LLM извлечь правила из базы правил для дедукции, преобразуя неявный вывод в явный вывод.

Тем не менее, исследование показало, что даже очень мощные LLM, такие как GPT-4, изо всех сил пытаются получить правильные правила на каждом шагу. С этой целью в исследовании был разработан трюк с тегированием XML для расширения возможностей LLM по поиску контекста.

Экспериментальные результаты

Чтобы оценить HtT, исследование было сопоставлено с двумя задачами многоступенчатого вывода. Результаты экспериментов показывают, что HtT улучшает метод меньшего количества образцов. Авторы также провели обширные исследования абляции, чтобы обеспечить более полное понимание HtT.

Они оценивают новые подходы к числовым и реляционным задачам рассуждения. В числовых рассуждениях они наблюдали улучшение точности на 21,0% с GPT-4. В реляционном выводе GPT-4 повысил точность на 13,7%, в то время как GPT-3.5 выиграл еще больше, удвоив производительность. Прирост производительности происходит в основном за счет уменьшения иллюзии регулярности.

В частности, в таблице 1 ниже показаны результаты для арифметических наборов данных с основанием 16, основанием 11 и основанием 9. Из всех базовых систем 0-shot CoT показывает худшие результаты в обеих LLM.

В ТАБЛИЦЕ 2 ПРЕДСТАВЛЕНЫ РЕЗУЛЬТАТЫ СРАВНЕНИЯ РАЗЛИЧНЫХ МЕТОДОВ НА КЛУТР. Можно заметить, что 0-shot CoT имеет худшую производительность в GPT3.5 и GPT4. Для метода подсказок с несколькими выстрелами производительность CoT и LtM аналогична. С точки зрения средней точности HtT стабильно превосходит метод cue обеих моделей на 11,1-27,2%. Стоит отметить, что GPT3.5 неплохо справляется с получением правил CLUTRR и выигрывает больше от HtT, чем от GPT4, вероятно, потому, что в CLUTRR меньше правил, чем в арифметике.

Стоит отметить, что при использовании правил GPT4 производительность CoT на GPT3.5 улучшается на 27,2%, что более чем в два раза превышает производительность CoT и близко к производительности CoT на GPT4. Таким образом, авторы считают, что HtT может служить новой формой дистилляции знаний от сильного LLM к слабому LLM.

Из таблицы 3 видно, что HtT значительно улучшает производительность GPT-4 (текстовая версия). Для GPT3.5 это улучшение не является существенным, так как оно часто приводит к ошибкам, отличным от иллюзии правил при обработке текстового ввода.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков

Награда
1
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
1/3
1CandyDrop Airdrop Event 6.0
17k Популярность
2White House Crypto Report
34k Популярность
3Join Alpha RION Airdrop to Earn $40
9k Популярность
4Fed Holds Rates Decision
8k Популярность
5July Spark Program TOP 10 Creators Announced
2k Популярность

Закрепить

Карта сайта