Лучшие специалисты по языковым моделям заботятся только об этих 10 задачах

Источник: Silicon Rabbit Racing.

Автор: Линь Цзюй Редактор: Ман Маньчжоу

Источник изображения: Создано Unbounded AI

**Примечание редактора: в этой статье рассматриваются десять основных проблем в исследованиях моделей больших языков (LLM). Автор — Чип Хьюен, окончившая Стэнфордский университет и в настоящее время являющаяся основателем Claypot AI, платформы машинного обучения в реальном времени. Она Ранее работал в NVIDIA, Snorkel AI, Netflix и Primer, занимающихся разработкой инструментов машинного обучения. **

Я являюсь свидетелем беспрецедентной ситуации: многие выдающиеся умы мира сейчас преданы единой цели — «сделать языковые модели (LLM) лучше».

Поговорив со многими коллегами в промышленности и научных кругах, я попытался обобщить десять основных направлений исследований, которые сейчас процветают:

1. Уменьшите и измерьте галлюцинации (примечание редактора: галлюцинации, галлюцинации ИИ, то есть неправильные или бессмысленные части вывода ИИ, хотя такой вывод синтаксически разумен)

2. Оптимизация длины контекста и его конструкции

3. Интегрируйте другие режимы передачи данных

4. Увеличьте скорость и сократите затраты на LLM

5. Разработайте новую архитектуру модели

6. Разработка альтернативных графических процессоров

7. Повышение доступности агентов

8. Улучшенная способность учиться на человеческих предпочтениях

9. Повышение эффективности интерфейса чата

10. Создание программ LLM для неанглийских языков

Среди них первые два направления, а именно уменьшение «иллюзий» и «контекстное обучение», могут оказаться наиболее популярными на данный момент. Лично меня больше всего интересуют пункты 3 (мультимодальность), 5 (новая архитектура) и 6 (альтернативы графических процессоров).

01 Уменьшите и измерьте иллюзии

Это относится к явлению, которое возникает, когда модель ИИ создает ложный контент.

Иллюзия — неизбежное качество во многих ситуациях, требующих творчества. Однако для большинства других сценариев применения это является недостатком.

Недавно я участвовал в дискуссионной группе по LLM и разговаривал с людьми из таких компаний, как Dropbox, Langchain, Elastics и Anthropic, и они считают, что крупномасштабное предприятие принятие Самым большим препятствием на пути коммерческого производства LLM является проблема иллюзий.

Смягчение явления галлюцинаций и разработка показателей для его измерения — быстро развивающаяся тема исследований, и многие стартапы сосредоточены на решении этой проблемы.

В настоящее время существуют некоторые временные методы уменьшения галлюцинаций, такие как добавление большего количества контекста, мыслительных цепочек, самосогласованности к подсказкам или требование, чтобы выходные данные модели оставались краткими.

Ниже приведены соответствующие речи, к которым вы можете обратиться.

· Исследование галлюцинаций при генерации естественного языка (Ji et al., 2022) · Как галлюцинации языковой модели могут превращаться в снежный ком (Zhang et al., 2023) · Многозадачное, многоязычное, мультимодальное исследование ChatGPT на рассуждение, галлюцинации и интерактивность (Bang) и др., 2023) · Контрастное обучение уменьшает галлюцинации в разговорах (Sun et al., 2022) · Самосогласованность улучшает цепочку мыслей в языковых моделях (Wang et al., 2022) · SelfCheckGPT: Черный ящик с нулевым ресурсом Обнаружение галлюцинаций для генеративных моделей большого языка (Manakul et al., 2023)

02 Оптимизация длины контекста и его конструкции

Подавляющее большинство проблем, с которыми сталкивается ИИ, требуют контекста.

Например, если мы спросим ChatGPT: «Какой вьетнамский ресторан лучший?», требуемым контекстом может быть «где», поскольку лучший ресторан во Вьетнаме может отличаться от лучшего вьетнамского ресторана в США.

Согласно интересной статье «SituatedQA» (Zhang & Choi, 2021), значительная часть вопросов, связанных с поиском информации, имеет контекстно-зависимые ответы. Например, около 16,5% вопросов в наборе данных NQ-Open относятся к этому типу. .

Лично я считаю, что для сценариев корпоративных приложений это соотношение может быть еще выше. Предположим, компания создает чат-бота для клиентов. Если робот должен иметь возможность ответить на любой вопрос клиента о любом продукте, требуемым контекстом может быть история клиента или информация о продукте.

Поскольку модель «обучается» на основе предоставленного ей контекста, этот процесс также известен как контекстное обучение.

Для расширенной генерации извлечения (RAG, которая также является основным методом применения в отрасли LLM) длина контекста особенно важна.

РАГ можно условно разделить на два этапа:

Этап 1. Разбивка на части (также называемая индексацией)

Соберите все документы, которые будут использоваться LLM, разбейте эти документы на фрагменты, которые можно будет передать в LLM для создания вложений, и сохраните эти вложения в базе данных векторов.

Второй этап: запрос

Когда пользователь отправляет запрос, например «Покрывает ли мой страховой полис этот препарат?»

Рисунок: Скриншот выступления Джерри Лью на LlamaIndex (2023 г.)

Чем больше длина контекста, тем больше блоков мы можем вставить в контекст. Но будет ли чем больше информации, к которой имеет доступ модель, тем лучше будут ее ответы?

Это не всегда так. Сколько контекста может использовать модель и насколько эффективно она будет использоваться — это два разных вопроса. Не менее важно, чем увеличение длины контекста модели, более эффективное изучение контекста, которое также называется «инжинирингом подсказок».

Недавняя широко распространенная статья показывает, что модели гораздо лучше понимают информацию с начала и конца индекса, чем с середины: «Затерянные в середине: как языковые модели используют длинные контексты» (Liu et al., 2023).

03Интеграция других режимов данных

На мой взгляд, мультимодальность очень сильна, но ее часто недооценивают.

Прежде всего, многие сценарии реальных приложений требуют обработки больших объемов мультимодальных данных, таких как здравоохранение, робототехника, электронная коммерция, розничная торговля, игры, развлечения и т. д. Медицинские прогнозы требуют использования как текста (например, записи врача, анкеты пациентов), так и изображений (например, КТ, рентген, МРТ); данные о продуктах часто включают изображения, видео, описания и даже табличные данные (например, производственные данные). дата, вес, цвет).

Во-вторых, мультимодальность обещает принести огромные улучшения в производительности модели. Разве модель, которая может понимать и текст, и изображения, не будет работать лучше, чем модель, которая может понимать только текст? Текстовые модели требуют больших объемов текстовых данных, и теперь мы действительно обеспокоены тем, что интернет-данные для обучения текстовых моделей закончатся. Как только текст исчерпан, нам нужно использовать другие модальности данных.

Одно из направлений применения, которое в последнее время меня особенно волнует, заключается в том, что мультимодальные технологии могут помочь людям с нарушениями зрения просматривать Интернет и ориентироваться в реальном мире.

Ниже приведены несколько выдающихся мультимодальных исследовательских разработок: · [CLIP] Изучение переносимых визуальных моделей с помощью наблюдения за естественным языком (OpenAI, 2021 г.) · Flamingo: модель визуального языка для кратковременного обучения (DeepMind, 2022 г.) · BLIP-2: предварительное обучение языку-изображению с помощью кодировщиков замороженных изображений и больших языковых моделей (Salesforce, 2023 г.) · КОСМОС-1: Язык — это еще не все, что вам нужно: согласование восприятия с языковыми моделями (Microsoft, 2023 г.) · PaLM-E: воплощенная мультимодальная языковая модель (Google, 2023 г.) · LLaVA: настройка визуальных инструкций (Лю) и др., 2023 г.) · NeVA: NeMo Vision and Language Assistant (NVIDIA, 2023 г.)

04Повышение скорости и снижение затрат на LLM

Когда GPT-3.5 был впервые запущен в конце ноября 2022 года, многие выразили обеспокоенность по поводу задержек и затрат на использование модели в производстве.

Теперь анализ задержек и затрат, вызванный использованием GPT-3.5, принял новый поворот. В течение полугода все модельное сообщество нашло новый способ создания модели, по производительности почти близкой к GPT-3.5, но занимающей менее 2% памяти.

Одна из моих тезисов: если вы создадите что-то достаточно хорошее, кто-то другой найдет способ сделать это быстро и экономически эффективно.

Нижеследующее основано на данных, опубликованных в документе Guanaco, в котором сравнивается производительность Guanaco 7B с ChatGPT GPT-3.5 и GPT-4.

Важно отметить, что в целом производительность этих моделей далека от совершенства. Для LLM по-прежнему очень сложно существенно улучшить показатели.

Помню, четыре года назад, когда я начал писать заметки для раздела «Сжатие моделей» книги «Проектирование систем машинного обучения», в отрасли существовало четыре основных метода оптимизации/сжатия моделей:

  1. Количественная оценка: безусловно, наиболее распространенный метод оптимизации модели. Квантование уменьшает размер модели за счет использования меньшего количества битов для представления параметров модели.Например, вместо использования 32 битов для представления чисел с плавающей запятой используются только 16 бит или даже 4 бита.

  2. Дистилляция знаний: то есть обучение небольшой модели (модель ученика), которая может имитировать более крупную модель или набор моделей (модель учителя).

  3. Разложение низкого ранга. Его ключевая идея заключается в использовании тензоров низкой размерности для замены тензоров высокой размерности для уменьшения количества параметров. Например, тензор 3x3 можно разложить на произведение тензора 3x1 и тензора 1x3, так что вместо 9 параметров останется только 6 параметров.

  4. Сокращение: относится к уменьшению размера модели путем удаления из нее весов или связей, которые в меньшей степени влияют на общую производительность.

Эти четыре метода до сих пор популярны. Альпака обучается посредством дистилляции знаний, в то время как QLoRA использует комбинацию низкоранговой разложения и квантования.

05Разработка новой архитектуры модели

Со времени появления AlexNet в 2012 году мы видели, как приходит и уходит множество архитектур, включая LSTM, seq2seq и т. д.

По сравнению с этими архитектурами, Transformer, запущенный в 2017 году, чрезвычайно стабилен, хотя неясно, как долго эта архитектура будет популярна.

Нелегко разработать новую архитектуру, которая сможет превзойти Transformer. За последние 6 лет Transformer претерпел множество оптимизаций.На подходящем оборудовании масштаб и эффект этой модели позволяют добиться потрясающих результатов (PS: Transformer изначально был разработан Google для быстрой работы на TPU, а позже был оптимизирован на ГПУ).

В 2021 году исследование лаборатории Криса Ре «Эффективное моделирование длинных последовательностей с помощью структурированных пространств состояний» (Gu et al., 2021) вызвало множество дискуссий в отрасли. Я не уверен, что произошло дальше. Но компания Chris Ré Labs по-прежнему активно разрабатывает новые архитектуры, и недавно они запустили архитектуру под названием Monarch Mixer в партнерстве со стартапом Together.

Их основная идея состоит в том, что для существующей архитектуры Transformer сложность внимания пропорциональна квадрату длины последовательности, а сложность MLP пропорциональна квадрату размерности модели. Архитектуры субквадратичной сложности будут более эффективными.

Я уверен, что многие другие лаборатории изучают эту идею, хотя мне не известны какие-либо исследования, в которых бы она публично опробовалась. Если вы знаете прогресс, пожалуйста, свяжитесь со мной!

06Разработка альтернатив графическим процессорам

С момента появления AlexNet в 2012 году графический процессор стал основным оборудованием для глубокого обучения.

Фактически, одна из общепризнанных причин популярности AlexNet заключается в том, что это была первая статья, успешно использующая графические процессоры для обучения нейронных сетей. До появления графических процессоров, если вы хотите обучить модель размером с AlexNet, вам потребуются тысячи процессоров, точно так же, как сервер, который Google выпустил за несколько месяцев до AlexNet.

По сравнению с тысячами процессоров, несколько графических процессоров более доступны аспирантам и исследователям, что вызывает бум исследований в области глубокого обучения.

За последнее десятилетие многие компании, как крупные, так и стартапы, попытались создать новое оборудование для искусственного интеллекта. Наиболее примечательные попытки включают TPU от Google, IPU от Graphcore и Cerebras. SambaNova также привлекла более 1 миллиарда долларов на разработку новых чипов искусственного интеллекта, но, похоже, решила стать генеративной платформой искусственного интеллекта.

В этот период квантовые вычисления также вызвали много ожиданий, среди которых основными игроками являются:

·Квантовый процессор IBM

·Квантовый компьютер Google. В начале этого года журнал Nature сообщил о важной вехе в уменьшении квантовых ошибок. Его квантовая виртуальная машина общедоступна через Google Colab.

·Исследовательские лаборатории в университетах, таких как Центр квантовой инженерии Массачусетского технологического института, Институт квантовой оптики Макса Планка, Чикагский центр квантового обмена и т. д.

Еще одно не менее интересное направление — фотонные чипы. Это направление, о котором я знаю меньше всего, если есть ошибки, поправьте меня.

Существующие чипы используют электричество для передачи данных, что потребляет много энергии и создает задержки. Фотонные чипы используют фотоны для передачи данных, используя скорость света для более быстрых и эффективных вычислений. Различные стартапы в этой сфере собрали сотни миллионов долларов, включая Lightmatter (270 миллионов долларов), Ayar Labs (220 миллионов долларов), Lightelligence (более 200 миллионов долларов) и Luminous Computing (115 миллионов долларов).

Ниже приводится временная шкала прогресса трех основных методов расчета фотонной матрицы, взятая из книги «Умножение фотонной матрицы», освещающей фотонный ускоритель и не только (Zhou et al., Nature 2022). Три различных метода: плоское преобразование света (PLC), интерферометр Маха-Цендера (MZI) и мультиплексирование с разделением по длине волны (WDM).

07Улучшение доступности агента

Агентов можно рассматривать как LLM, которые могут выполнять такие действия, как просмотр страниц в Интернете, отправка электронных писем и т. д. По сравнению с другими направлениями исследований в данной статье, это, пожалуй, самое молодое направление.

К агентам имеется большой интерес ввиду их новизны и большого потенциала. Auto-GPT сейчас является 25-й по популярности библиотекой по количеству звезд на GitHub. GPT-Engineering — еще одна популярная библиотека.

Несмотря на это, до сих пор остаются сомнения в том, что LLM достаточно надежны, достаточно хорошо работают и обладают определенными эксплуатационными возможностями.

Сейчас есть интересное направление применения — использование агентов для социальных исследований. Стэнфордский эксперимент показал, что небольшая группа генеративных агентов вызвала эмерджентное социальное поведение: начиная с одной заданной пользователем идеи, что один агент хочет устроить вечеринку в честь Дня святого Валентина, ряд других агентов автономно распространяли ее в течение следующих двух дней. Приглашения на вечеринки, поиск новых друзей, приглашение друг друга на вечеринки... (Генераторные агенты: интерактивные симулякры человеческого поведения, Парк и др., 2023).

Пожалуй, самым примечательным стартапом в этой сфере является Adept, основанный двумя соавторами Transformer (хотя оба с тех пор ушли) и бывшим вице-президентом OpenAI, и который на сегодняшний день собрал почти 500 миллионов долларов США. В прошлом году они показали, как их агент может просматривать Интернет и добавлять новые учетные записи в Salesforce. С нетерпением жду их новой демо 🙂 .

08 Улучшение способности учиться на человеческих предпочтениях

RLHF (Reinforcement Learning from Human Preferences) — это круто, но немного утомительно.

Я не удивлен, что люди найдут лучшие способы обучения LLM. Есть много открытых вопросов относительно RLHF, таких как:

·Как математически представить человеческие предпочтения?

В настоящее время человеческие предпочтения определяются путем сравнения: человек-комментатор определяет, лучше ли ответ А, чем ответ Б. Однако он не принимает во внимание конкретную степень, в которой ответ А лучше или хуже, чем ответ Б.

·Каковы человеческие предпочтения?

Anthropic измеряет качество ответов модели по трем измерениям: полезность, честность и безвредность. Справочный документ: Конституционный ИИ: безвредность от обратной связи ИИ (Бай и др., 2022).

DeepMind пытается генерировать ответы, которые максимально понравятся большинству людей. Справочный документ: Точная настройка языковых моделей для поиска согласия между людьми с различными предпочтениями (Баккер и др., 2022).

Кроме того, хотим ли мы ИИ, который может занять определенную позицию, или универсальный ИИ, который избегает разговоров на любые потенциально спорные темы?

·Чьи предпочтения являются «человеческими» предпочтениями, учитывая различия в культуре, религии, политических взглядах и т.д.?

Существует множество проблем в получении обучающих данных, которые достаточно репрезентативны для всех потенциальных пользователей.

Например, в данных InstructGPT OpenAI нет аннотаторов старше 65 лет. Тегерами являются в основном филиппинцы и бангладешцы. Справочный документ: InstructGPT: Обучение языковых моделей следованию инструкциям с обратной связью от человека (Ouyang et al., 2022).

Хотя первоначальные намерения усилий сообщества ИИ в последние годы достойны восхищения, предвзятость данных все еще существует. Например, в наборе данных OpenAssistant 201 из 222 респондентов (90,5%) указали, что они мужчины. Джереми Ховард опубликовал в Твиттере серию твитов по этому поводу.

09Улучшить эффективность интерфейса чата

С момента появления ChatGPT постоянно ведутся дискуссии о том, подходит ли чат для широкого круга задач. например:

·Естественный язык — это ленивый пользовательский интерфейс (Остин З. Хенли, 2023 г.)

·Почему чат-боты — это не будущее (Амелия Ваттенбергер, 2023 г.)

·Какие типы вопросов требуют разговора, чтобы ответить? Пример использования вопросов AskReddit (Хуанг и др., 2023 г.)

·Интерфейсы чата с искусственным интеллектом могут стать основным пользовательским интерфейсом для чтения документации (Том Джонсон, 2023 г.).

·Взаимодействие с LLM с помощью минимального чата (Евгений Ян, 2023 г.)

Однако это не новая дискуссия. Во многих странах, особенно в Азии, чат уже около десяти лет используется в качестве интерфейса для суперприложений. Дэн Гровер обсуждал это явление в 2014 году.

Дискуссии такого типа снова стали горячими в 2016 году, когда многие люди пришли к выводу, что существующие типы приложений устарели и что будущее — за чат-ботами. Например, следующие исследования:

·Чат как интерфейс (Алистер Кролл, 2016)

· Является ли тренд чат-ботов одним большим недоразумением? (Уилл Найт, 2016)

·Боты не заменят приложения. Лучшие приложения заменят приложения (Дэн Гровер, 2016 г.)

Лично мне интерфейс чата нравится по следующим причинам:

Интерфейс чата — это интерфейс, которым каждый (даже человек, не имеющий опыта работы с компьютером или Интернетом) может быстро научиться пользоваться.

Когда я работал волонтером в районе с низкими доходами в Кении в начале 2010-х годов, я был удивлен, увидев, насколько комфортно все там чувствовали себя с банковскими операциями с помощью текстовых сообщений на своем телефоне. Даже если ни у кого в этом сообществе нет компьютера.

Доступ к интерфейсу чата обычно прост. Мы также можем использовать речь вместо текста, если наши руки заняты другими делами.

Интерфейс чата также является очень мощным интерфейсом: он ответит на любой запрос пользователя, даже если некоторые ответы не очень хорошие.

Однако я думаю, что есть некоторые области, где интерфейс чата можно улучшить:

·Несколько сообщений в одном раунде

В настоящее время мы в значительной степени предполагаем, что одновременно существует только одно сообщение. Но когда мы с друзьями переписываемся, для завершения чата часто требуется несколько сообщений, потому что мне нужно вставить разные данные (например, изображения, места, ссылки), я забыл что-то из предыдущего сообщения или просто не хочу вписываться. все в один большой абзац.

·Мультимодальный ввод

В области мультимодальных приложений большая часть усилий тратится на создание лучших моделей и меньше на создание лучших интерфейсов. Возьмем, к примеру, чат-бота NVIDIA NeVA. Я не эксперт по пользовательскому опыту, но думаю, что здесь есть что улучшить.

PS Извините, команда НеВА, что назвала вас. И все же ваша работа потрясающая!

Рис.: Интерфейс NVIDIA NeVA

·Интегрировать генеративный искусственный интеллект в рабочие процессы

Линус Ли очень хорошо описывает это в своем докладе «Генераторный интерфейс искусственного интеллекта за пределами чатов». Например, если вы хотите задать вопрос о столбце диаграммы, над которым вы работаете, вы можете просто указать на этот столбец и задать вопрос.

·Редактировать и удалять сообщения

Как редактирование или удаление вводимых пользователем данных меняет ход разговора с чат-ботом?

10 Создание программ LLM для неанглийских языков

Мы знаем, что нынешние LLM, основанные на английском языке, плохо работают на многих других языках, будь то с точки зрения производительности, задержки или скорости.

Вот соответствующие исследования, на которые вы можете сослаться:

·ChatGPT Помимо английского: на пути к комплексному использованию больших языковых моделей в многоязычном обучении (Lai et al., 2023)

·Все языки НЕ созданы (токенизированы) равными (Йенни Джун, 2023 г.)

Некоторые читатели сказали мне, что, по их мнению, мне не следует двигаться в этом направлении по двум причинам.

Это скорее «логистический» вопрос, чем вопрос исследования. Мы уже знаем, как это сделать. Кому-то просто нужно вложить деньги и усилия.

Это не совсем правильно. Большинство языков считаются языками с низким уровнем ресурсов, поскольку они содержат гораздо меньше качественных данных, чем, например, английский или китайский, и могут требовать различных методов для обучения больших языковых моделей.

Вот соответствующие исследования, на которые вы можете сослаться:

· Языки с низким уровнем ресурсов: обзор прошлой работы и будущих проблем (Magueresse et al., 2020)

·JW300: параллельный корпус с широким охватом малоресурсных языков (Agić et al., 2019)

Те, кто настроен более пессимистично, полагают, что в будущем многие языки вымрут и Интернет станет двумя мирами, состоящими из двух языков: английского и китайского. Этот образ мышления не нов. Кто-нибудь помнит эсперанто?

Влияние инструментов искусственного интеллекта, таких как машинный перевод и чат-боты, на изучение языков остается неясным. Помогут ли они людям быстрее выучить новые языки или вообще избавят от необходимости изучать новые языки?

в заключение

Из 10 упомянутых выше проблем некоторые действительно сложнее других.

Например, я думаю, что пункт 10 «Создание программ LLM для неанглийских языков» более прямо указывает на достаточное количество времени и ресурсов.

Пункт 1, уменьшение галлюцинаций, будет сложнее, потому что галлюцинации — это всего лишь LLM, выполняющие свою вероятностную задачу.

Пункт 4, делающий LLM более быстрым и дешевым, никогда не достигнет полностью решенного состояния. В этой области достигнут большой прогресс, и это еще не все, но мы никогда не перестанем совершенствоваться.

Пункты 5 и 6 — новая архитектура и новое оборудование — очень сложны и неизбежны. Из-за симбиотической связи между архитектурой и оборудованием новые архитектуры необходимо оптимизировать для общего оборудования, а оборудование должно поддерживать общие архитектуры. Они могут быть урегулированы одной и той же компанией.

Некоторые из этих проблем можно решить, используя не только технические знания. Например, пункт 8 «Улучшение обучения на основе человеческих предпочтений» может быть скорее стратегическим, чем техническим вопросом.

Пункт 9, повышение эффективности интерфейса чата, скорее касается пользовательского опыта. Нам нужно больше людей с нетехническим образованием, работающих вместе для решения этих проблем.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить