Цель сделать большие языковые модели более полными — это первый раз в моей жизни, когда я видел так много умных людей, одновременно работающих над достижением общей цели. Пообщавшись со многими людьми в индустрии и научных кругах, я заметил, что появилось десять направлений исследований. Два направления, которым в настоящее время уделяется наибольшее внимание, — это галлюцинации (иллюзия вывода) и контекстное обучение.
Лично меня больше всего интересует третье направление, перечисленное ниже (Мультимодальный режим мультимодальных данных), пятое направление (Новая архитектура, новая архитектура) и шестое направление (Разработка альтернатив графических процессоров, альтернативное решение для графических процессоров).
10 главных открытых задач в исследованиях LLM
Сократить и оценить выпуск (вымышленная информация)
Оптимизировать длину контекста и его построение.
Интегрируйте другие формы данных
Повышенная скорость и экономическая эффективность языковых моделей
Разработать архитектуру новой модели
Разработка альтернативных решений для графических процессоров
Улучшить удобство использования агентов (искусственный интеллект)
Улучшенная способность учиться на человеческих предпочтениях
Повысьте эффективность интерфейса чата
Создайте языковые модели для неанглийских языков.
1. Уменьшите и оцените галлюцинации
Среда вывода — это тема, которая много обсуждалась, поэтому я буду краток. Галлюцинации возникают, когда модели ИИ что-то выдумывают. Во многих случаях творческого использования иллюзия является своего рода особенностью. Однако в большинстве случаев галлюцинация является ошибкой. Недавно я участвовал в симпозиуме по LLM с экспертами из Dropbox, Langchain, Elastics и Anthropic. По их мнению, первое препятствие, которое предприятиям необходимо преодолеть при применении LLM в реальном производстве, — это фантомный выпуск.
Снижение иллюзорного результата моделей и разработка показателей для оценки иллюзорного результата — это быстро развивающаяся тема исследований, и многие стартапы в настоящее время сосредоточены на этом вопросе. Существуют также методы, позволяющие уменьшить вероятность иллюзорных результатов, такие как добавление дополнительного контекста к ключевым словам, ЦТ, самосогласованность или специальное требование, чтобы ответы модели были краткими и ясными.
Ниже приводится серия статей и справочных материалов по выходу галлюцинаций:
Исследование галлюцинаций при формировании естественного языка (Ji et al., 2022)
Как галлюцинации языковой модели могут превращаться в снежный ком (Чжан и др., 2023)
Многозадачность, многоязычность и мультимодальность ChatGPT на рассуждение, галлюцинации и интерактивность (Bang et al., 2023)
Контрастное обучение уменьшает галлюцинации в разговорах (Sun et al., 2022)
Самосогласованность улучшает цепочку мыслей в языковых моделях (Ванг и др., 2022)
SelfCheckGPT: обнаружение галлюцинаций черного ящика с нулевым ресурсом для генеративных моделей большого языка (Manakul et al., 2023)
Простой пример проверки фактов и галлюцинаций с помощью NeMo-Guardrails от NVIDIA.
2. Оптимизация длины контекста и его конструкции
Большинство вопросов требуют контекста. Например, если мы спросим ChatGPT: «Какой вьетнамский ресторан лучший?», требуемым контекстом будет «Куда именно находится этот ресторан?», потому что лучший вьетнамский ресторан во Вьетнаме такой же, как лучший вьетнамский ресторан в Соединенных Штатах. Ресторан, рамки этого вопроса разные.
Согласно следующей интересной статье «SITUATEDQA: Включение экстралингвистических контекстов в QA» (Zhang & Choi, 2021), значительная часть ответов на вопросы поиска информации зависит от контекста, например, в наборе данных Natural Questions NQ-Open около 16,5 %.
(NQ-Открытие:
Лично я думаю, что процент будет выше в тех случаях, с которыми предприятия действительно сталкиваются. Например, предположим, что компания создает чат-бота для поддержки клиентов. Чтобы этот чат-бот мог ответить на любой вопрос клиента о любом продукте, требуемым контекстом, скорее всего, будет история клиента или информация о продукте. Поскольку языковая модель «обучается» на основе предоставленного ей контекста, этот процесс также известен как контекстное обучение.
Представьте себе контекст, необходимый для запросов в службу поддержки клиентов.
Длина контекста очень важна для RAG (генерации поискового расширения), и RAG стал основным режимом для сценариев приложений в индустрии больших языковых моделей. В частности, генерация улучшений поиска в основном делится на два этапа:
**Этап 1. Разбиение на части (также известное как индексирование)**Разбиение на части (также известное как индексирование)
Соберите все документы, используемые LLM, разделите эти документы на фрагменты, которые можно будет передать в более крупную модель для создания внедрений, и сохраните эти внедрения в векторной базе данных.
Этап 2. Запрос
Когда пользователь отправляет запрос, например «Покрывает ли мой страховой полис определенный препарат X», большая языковая модель преобразует этот запрос во встраивание, которое мы называем QUERY_EMBEDDING. База данных векторов получит наиболее похожий блок между встраиванием и QUERY_EMBEDDING.
Чем больше длина контекста, тем больше фрагментов мы можем втиснуть в контекст. Чем больше информации получает модель, тем выше качество ее результатов и ответов, верно?
Не всегда. Сколько контекста может использовать модель, и насколько эффективно модель использует контекст — это две разные проблемы. Работая над увеличением длины контекста модели, мы также работаем над повышением эффективности контекста. Некоторые называют это «инжинирингом» или «строительством». Например, в недавней статье говорится о том, как модели могут лучше понимать начало и конец индексов, а не только информацию в середине — «Затерянные в середине: как языковые модели используют длинные контексты» (Лю и др., 2023).
3. Интеграция других режимов данных (мультимодальный)
На мой взгляд, мультимодальность очень эффективна, но ее недооценивают. Вот объяснение причин применения мультимодальности:
Во-первых, многие конкретные сценарии приложений требуют мультимодальных данных, особенно в отраслях со смешанными модальностями данных, таких как здравоохранение, робототехника, электронная коммерция, розничная торговля, игры и развлечения. например:
Для медицинского тестирования часто требуется текст (например, записи врача, анкеты пациентов) и изображения (например, КТ, рентгеновские снимки, МРТ).
Метаданные продукта обычно включают изображения, видео, описания и даже табличные данные (например, дату производства, вес, цвет), поскольку с точки зрения спроса вам может потребоваться автоматически заполнить недостающую информацию о продукте на основе отзывов пользователей или фотографий продукта, или хотите разрешить пользователям осуществлять поиск продуктов, используя визуальную информацию, такую как форма или цвет.
Во-вторых, мультимодальность обещает существенно повысить эффективность модели. Разве модель, которая понимает и текст, и изображения, не должна работать лучше, чем одна модель, которая понимает текст? Текстовые модели требуют так много текста, что мы опасаемся, что скоро у нас закончатся данные Интернета для обучения текстовых моделей. Как только текст исчерпан, нам нужно использовать другие схемы данных.
Один из вариантов использования, который меня особенно волнует, — это мультимодальная технология, которая позволяет людям с нарушениями зрения пользоваться Интернетом, а также просматривать информацию в реальном мире.
Вот серия статей и ссылок, связанных с мультимодальностью:
[CLIP] Изучение переносимых визуальных моделей с помощью наблюдения за естественным языком (OpenAI, 2021)
Фламинго: модель визуального языка для кратковременного обучения (DeepMind, 2022 г.)
BLIP-2: Предварительное обучение языку-изображению с помощью кодировщиков замороженных изображений и больших языковых моделей (Salesforce, 2023 г.)
КОСМОС-1: Язык — это еще не все, что вам нужно: согласование восприятия с языковыми моделями (Microsoft, 2023 г.)
PaLM-E: воплощенная мультимодальная языковая модель (Google, 2023 г.)
LLaVA: настройка визуальных инструкций (Лю и др., 2023 г.)
NeVA: NeMo Vision и Language Assistant (NVIDIA, 2023 г.)
4. Сделайте LLM быстрее и дешевле
Когда GPT-3.5 был впервые выпущен в конце ноября 2022 года, многие выразили обеспокоенность по поводу задержки и стоимости его использования в производстве. Однако с тех пор анализ задержек и затрат быстро изменился. Менее чем за полгода сообщество нашло способ создать модель, которая по производительности очень близка к GPT-3.5, но требует всего около 2% объема памяти GPT-3.5.
Урок здесь таков: если вы создадите что-то достаточно хорошее, люди найдут способ сделать это быстро и экономически эффективно.
Ниже приведены данные о производительности Guanaco 7B по сравнению с производительностью ChatGPT GPT-3.5 и GPT-4, как сообщается в документе Guanco. Обратите внимание: в целом приведенные ниже сравнения производительности далеки от совершенства, и оценить LLM очень и очень сложно.
Сравнение производительности Guanaco 7B с ChatGPT GPT-3.5 и GPT-4:
Четыре года назад, когда я начал писать заметки для раздела «Сжатие моделей» книги «Проектирование систем машинного обучения», я написал о четырех основных методах оптимизации/сжатия моделей:
Квантование: Самый универсальный на сегодняшний день метод оптимизации модели. Квантование уменьшает размер модели за счет использования меньшего количества битов для представления параметров модели, например, для представления чисел с плавающей запятой можно использовать 16 бит или даже 4 бита вместо 32 битов.
Дистилляция знаний: метод имитации большой модели или ансамбля моделей путем обучения небольших моделей.
Факторизация низкого ранга. Ключевая идея здесь — заменить тензоры большой размерности тензорами низкой размерности, чтобы уменьшить количество параметров. Например, вы можете разложить тензор 3х3 на произведение тензоров 3х1 и 1х3, так что вместо 9 параметров вам понадобится всего 6 параметров.
Обрезка
Все четыре вышеперечисленных метода актуальны и популярны и сегодня. Альпака использует дистилляцию Знаний для обучения. QLoRA использует комбинацию факторизации низкого ранга и квантования.
5. Разработайте новую архитектуру модели
Со времен AlexNet в 2012 году мы наблюдали взлет и падение многих архитектур, включая LSTM, seq2seq и т. д. По сравнению с этим, влияние Трансформера невероятно. Трансформеры существуют с 2017 года, и как долго эта архитектура будет оставаться популярной — вопрос открытый.
Разработать новую архитектуру, которая превзойдет Transformer, непросто. За последние 6 лет Transformer претерпел множество оптимизаций, и эта новая архитектура должна работать на том оборудовании, которое сейчас волнует людей, и в том масштабе, который им сейчас интересен.
Примечание. Изначально компания Google разработала Transformer для быстрой работы на TPU, а затем оптимизировала его для GPU.
В 2021 году S4 из лаборатории Криса Ре привлек всеобщее внимание, подробности см. в разделе «Эффективное моделирование длинных последовательностей с помощью структурированных пространств состояний» (Gu et al., 2021). Лаборатория Криса Ре по-прежнему активно разрабатывает новые архитектуры, одна из них — Monarch Mixer (Fu, 2023), разработанный в сотрудничестве со стартапом Together.
Их основная идея заключается в том, что для существующей архитектуры Transformer сложность внимания квадратична длине последовательности, а сложность MLP — квадратична размерности модели. Архитектуры субквадратичной сложности будут более эффективными.
Монарх Миксер
6. Разработка альтернативных графических процессоров
Со времен AlexNet в 2012 году графические процессоры стали доминирующим оборудованием для глубокого обучения. Фактически, одна из общепризнанных причин популярности AlexNet заключается в том, что это была первая статья, успешно использующая графические процессоры для обучения нейронных сетей. До появления графических процессоров, если вы хотели обучить модель в масштабе AlexNet, вам нужно было использовать тысячи процессоров, например тот, который Google выпустил за несколько месяцев до AlexNet. По сравнению с тысячами процессоров, несколько графических процессоров более доступны аспирантам и исследователям, что вызывает бум исследований в области глубокого обучения.
За последнее десятилетие многие компании, как крупные, так и стартапы, попытались создать новое оборудование для искусственного интеллекта. Наиболее заметные попытки включают TPU от Google, IPU от Graphcore (как обстоят дела с IPU?) и Cerebras. SambaNova собрала более миллиарда долларов на разработку новых чипов искусственного интеллекта, но, похоже, решила стать генеративной платформой искусственного интеллекта.
Какое-то время на квантовые вычисления возлагались большие надежды, среди ключевых игроков были:
QPU IBM
*Квантовый компьютер Google достиг важной вехи в уменьшении квантовых ошибок, о чем сообщалось в журнале Nature ранее в этом году. Его квантовая виртуальная машина общедоступна через Google Colab. *
*Исследовательские лаборатории, такие как Центр квантовой инженерии Массачусетского технологического института, Институт квантовой оптики Макса Планка, Чикагская квантовая биржа, Национальная лаборатория Окриджа и т. д. *
Еще одно не менее интересное направление — фотонные чипы. У меня очень мало знаний в этой области, поэтому, пожалуйста, поправьте меня, если я ошибаюсь. Существующие чипы используют электричество для передачи данных, что потребляет большое количество энергии и создает задержки. Фотонные чипы, с другой стороны, используют фотоны для передачи данных, используя скорость света для более быстрых и эффективных вычислений. Различные стартапы в этой сфере собрали сотни миллионов долларов, в том числе Lightmatter (270 миллионов долларов), Ayar Labs (220 миллионов долларов), Lightelligence (более 200 миллионов долларов) и Luminous Computing (115 миллионов долларов).
Ниже приводится график развития трех основных методов расчета фотонной матрицы, взятый из статьи «Умножение фотонной матрицы освещает фотонный ускоритель и не только» (Чжоу, Nature 2022). Три различных метода: плоское преобразование света (PLC), интерферометр Маха-Цендера (MZI) и мультиплексирование с разделением по длине волны (WDM).
7. Улучшение доступности агентов
Агент относится к большой языковой модели, которая может выполнять действия (под ней можно понимать агентов, которые могут выполнять различные задачи от вашего имени, поэтому она называется «Агент»), таких как просмотр страниц в Интернете, отправка электронных писем, бронирование и т. д. По сравнению с другими направлениями исследований в данной статье это, возможно, одно из новейших направлений. Из-за новизны и большого потенциала самого Агента люди полны энтузиазма по поводу Агента. А Auto-GPT сейчас является 25-м по популярности репозиторием на GitHub по количеству звезд. GPT-Engineering — еще один популярный репозиторий.
Несмотря на ажиотаж в этом направлении, остаются сомнения относительно того, являются ли большие языковые модели надежными и достаточно производительными, чтобы иметь возможность действовать. Однако появился сценарий применения, в котором агенты используются в социальных исследованиях, например, знаменитый Стэнфордский эксперимент, который показал возникновение социального поведения из небольшого кластера генеративных агентов: например, начиная с идеи, заданной пользователем, агент хочет удерживать Вечеринка в честь Дня святого Валентина, Агент автоматически рассылает приглашения на вечеринку в течение следующих двух дней, заводит новых друзей и приглашает друг друга на вечеринку... (Генеративные агенты: Интерактивные симулякры человеческого поведения, Парк и др., 2023),
Пожалуй, самым примечательным стартапом в этой сфере является Adept, основанный двумя бывшими соавторами Transformer и бывшим вице-президентом OpenAI. На сегодняшний день он собрал почти 500 миллионов долларов. В прошлом году они показали, как их агенты могут пользоваться Интернетом и как добавлять новые учетные записи в Salesforce.
8. Итерация RLHF
RLHF (Reinforcement Learning from Human Feedback) — это круто, но немного сложно. Было бы неудивительно, если бы люди нашли более эффективные способы обучения LLM. Однако в RLHF существует множество нерешенных проблем, таких как:
В настоящее время предпочтения человека определяются путем сравнения: человек-комментатор определяет, лучше ли ответ А, чем ответ Б. Однако при этом не учитывается, насколько ответ А лучше ответа Б.
②Какие человеческие предпочтения?
Anthropic измеряла качество своих моделей по трем критериям: полезность, честность и безвредность, в зависимости от результатов. См. «Конституционный ИИ: безвредность от обратной связи ИИ» (Bai et al., 2022).
DeepMind пытается генерировать ответы, которые понравятся большинству людей. См. «Точная настройка языковых моделей для поиска согласия между людьми с разными предпочтениями» (Bakker et al., 2022).
Кроме того, хотим ли мы ИИ, который может занять определенную позицию, или традиционный ИИ, который уклоняется от любой потенциально спорной темы?
③ Чье предпочтение является «человеческим» предпочтением? Следует ли учитывать различия в культуре, религии, политической ориентации и т. д.? Существует множество проблем в получении обучающих данных, достаточно репрезентативных для всех потенциальных пользователей.
Например, для данных OpenAI InstructGPT нет аннотаторов старше 65 лет. Этикетировщиками являются в основном филиппинцы и бангладешцы. См. InstructGPT: Обучение языковых моделей следованию инструкциям с обратной связью от человека (Ouyang et al., 2022).
Хотя усилия сообщества похвальны по своим намерениям, они могут привести к получению предвзятых данных. Например, в наборе данных OpenAssistant 201 из 222 (90,5%) респондентов идентифицировали себя как мужчины. У Джереми Ховарда есть интересная тема в Твиттере:
9. Повышение эффективности интерфейса чата
Начиная с ChatGPT, люди обсуждают, является ли чат интерфейсом, подходящим для различных задач.
Подробности см.:
Естественный язык — это ленивый пользовательский интерфейс (Остин З. Хенли, 2023 г.)
Почему чат-боты — это не будущее (Амелия Ваттенбергер, 2023 г.)
Какие типы вопросов требуют разговора, чтобы ответить? Пример использования вопросов AskReddit (Хуанг и др., 2023 г.)
Интерфейсы чата с искусственным интеллектом могут стать основным пользовательским интерфейсом для чтения документации (Том Джонсон, 2023 г.).
Взаимодействие с LLM с помощью минимального чата (Евгений Ян, 2023 г.)
Однако это не новая тема. Во многих странах, особенно в Азии, чат уже около десяти лет используется в качестве интерфейса суперприложений, о чем писал Дэн Гровер в 2014 году.
В 2016 году, когда многие приложения считались мертвыми, а будущее — за чат-ботами, дискуссия снова разгорелась:
Чат как интерфейс (Алистер Кролл, 2016)
Является ли тенденция чат-ботов одним большим недоразумением? (Уилл Найт, 2016)
Боты не заменят приложения. Лучшие приложения заменят приложения (Дэн Гровер, 2016 г.)
Лично мне нравится интерфейс чата по следующим причинам:
①Интерфейс чата — это интерфейс, которым может быстро научиться пользоваться каждый, даже тот, кто ранее не имел контакта с компьютером или Интернетом (универсальность). В начале 2010-х годов, когда я работал волонтером в районе с низкими доходами в Кении, я был поражен тем, насколько хорошо все там были знакомы с банковскими операциями по телефону с помощью текстовых сообщений. Ни у кого в этом сообществе не было компьютера.
② Доступ к интерфейсу чата прост. Используйте голос вместо текста, если ваши руки заняты другими делами.
③ Чат также представляет собой очень мощный интерфейс: вы можете отправить ему любой запрос, и он ответит, даже если ответ не обязательно будет идеальным.
Однако автор считает, что интерфейс чата в некоторых аспектах можно и дальше улучшать:
①Можно обмениваться несколькими сообщениями одновременно
В настоящее время мы в основном предполагаем, что в каждом сообщении имеется только один раунд сообщений. Но я и мои друзья переписываемся не так. Обычно мне нужно несколько сообщений, чтобы завершить размышление, потому что мне нужно вставлять разные данные (например, изображения, места, ссылки), возможно, я что-то пропустил в предыдущем сообщении или просто не хочу помещать все в одно. большой абзац.
②Мультимодальный ввод
В области мультимодальных приложений большая часть усилий тратится на создание лучших моделей и мало тратится на создание лучших интерфейсов. Возьмем, к примеру, чат-бота NeVA от Nvidia. Я не эксперт по UX, но думаю, что здесь есть что улучшить.
PS: Извините, что упомянул здесь команду NeVA, даже несмотря на это, ваша работа все равно очень крутая!
③Интегрируйте генеративный искусственный интеллект в рабочий процесс.
Линус Ли очень хорошо описывает это в своей статье «Генераторный интерфейс искусственного интеллекта за пределами чатов». Например, если вы хотите задать вопрос о столбце диаграммы, над которой вы работаете, у вас должна быть возможность просто указать на этот столбец и задать вопрос.
④ Редактирование и удаление сообщений.
Как редактирование или удаление введенных пользователем данных меняет ход разговора с чат-ботом?
10. Создайте LLM для неанглийских языков
Мы знаем, что нынешние LLM на английском языке плохо масштабируются со многими другими языками с точки зрения производительности, задержки и скорости. Видеть:
ChatGPT Beyond English: к комплексному использованию больших языковых моделей в многоязычном обучении (Lai et al., 2023)
Все языки НЕ созданы (токенизированы) равными (Йенни Джун, 2023 г.)
Мне известны только попытки обучать вьетнамский язык (например, попытка сообщества Symato), однако несколько первых читателей этой статьи сказали мне, что, по их мнению, мне не следует включать это направление по следующим причинам:
Это не столько исследовательский вопрос, сколько вопрос логистики. Мы уже знаем, как это сделать, просто нужно, чтобы кто-то вложил деньги и усилия. Однако это не совсем правильно. Большинство языков считаются языками с низким уровнем ресурсов, и для многих языков имеется гораздо меньше качественных данных по сравнению, например, с английским или китайским, поэтому для обучения больших языковых моделей могут потребоваться разные методы. Смотрите также:
Языки с низкими ресурсами: обзор прошлой работы и будущих проблем (Magueresse et al., 2020)
JW300: параллельный корпус с широким охватом малоресурсных языков (Agić et al., 2019)
Те, кто настроен более пессимистично, полагают, что в будущем многие языки исчезнут и Интернет будет состоять из двух вселенных двух языков: английского и китайского. Эта тенденция не нова – кто-нибудь помнит эсперанто?
Влияние инструментов искусственного интеллекта, таких как машинный перевод и чат-боты, на изучение языков остается неясным. Помогут ли они людям быстрее выучить новый язык или полностью избавят от необходимости изучать новый язык?
в заключение
Пожалуйста, дайте мне знать, если я что-то пропущу в этой статье, а для получения дополнительной информации ознакомьтесь с подробной статьей «Проблемы и приложения больших языковых моделей» (Kaddour et al., 2023).
Вышеупомянутые вопросы сложнее других. Например, я думаю, что вопрос 10 выше о создании LLM на языке, отличном от английского, будет относительно простым, если будет достаточно времени и ресурсов.
Первая проблема, описанная выше, — уменьшить выход галлюцинаций, что будет намного сложнее, потому что галлюцинация — это всего лишь LLM, выполняющий вероятностные действия.
В-четвертых, сделать LLM более быстрым и дешевым никогда не удастся полностью решить. В этой области достигнут большой прогресс, и в будущем прогресс будет еще больше, но улучшения в этом направлении будут продолжаться.
Пункты 5 и 6 — новая архитектура и новое оборудование — очень сложны, но со временем они неизбежны. Из-за симбиотической связи между архитектурой и оборудованием (новые архитектуры должны быть оптимизированы для оборудования общего назначения, а оборудование должно поддерживать архитектуры общего назначения), скорее всего, они будут создаваться одной и той же компанией.
Некоторые проблемы невозможно решить только с помощью технических знаний. Например, вопрос 8 о совершенствовании методов обучения на основе человеческих предпочтений может быть скорее политическим, чем техническим вопросом. Проблема № 9 — повышение эффективности интерфейса чата, что больше касается пользовательского опыта. Нам нужно больше людей с нетехническим образованием, которые могли бы работать с нами над этими вопросами.
Какое направление исследований вас больше всего интересует? Что, по вашему мнению, является наиболее многообещающим решением этих проблем? Хотелось бы услышать ваше мнение.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Интерпретация 6000 слов: 10 задач текущего исследования LLM большой языковой модели
Автор: Чип Хьюен
**Перевод:**Альфа-Кролик
Ссылка на источник:
Цель сделать большие языковые модели более полными — это первый раз в моей жизни, когда я видел так много умных людей, одновременно работающих над достижением общей цели. Пообщавшись со многими людьми в индустрии и научных кругах, я заметил, что появилось десять направлений исследований. Два направления, которым в настоящее время уделяется наибольшее внимание, — это галлюцинации (иллюзия вывода) и контекстное обучение.
Лично меня больше всего интересует третье направление, перечисленное ниже (Мультимодальный режим мультимодальных данных), пятое направление (Новая архитектура, новая архитектура) и шестое направление (Разработка альтернатив графических процессоров, альтернативное решение для графических процессоров).
1. Уменьшите и оцените галлюцинации
Среда вывода — это тема, которая много обсуждалась, поэтому я буду краток. Галлюцинации возникают, когда модели ИИ что-то выдумывают. Во многих случаях творческого использования иллюзия является своего рода особенностью. Однако в большинстве случаев галлюцинация является ошибкой. Недавно я участвовал в симпозиуме по LLM с экспертами из Dropbox, Langchain, Elastics и Anthropic. По их мнению, первое препятствие, которое предприятиям необходимо преодолеть при применении LLM в реальном производстве, — это фантомный выпуск.
Снижение иллюзорного результата моделей и разработка показателей для оценки иллюзорного результата — это быстро развивающаяся тема исследований, и многие стартапы в настоящее время сосредоточены на этом вопросе. Существуют также методы, позволяющие уменьшить вероятность иллюзорных результатов, такие как добавление дополнительного контекста к ключевым словам, ЦТ, самосогласованность или специальное требование, чтобы ответы модели были краткими и ясными.
Ниже приводится серия статей и справочных материалов по выходу галлюцинаций:
Исследование галлюцинаций при формировании естественного языка (Ji et al., 2022)
Как галлюцинации языковой модели могут превращаться в снежный ком (Чжан и др., 2023)
Многозадачность, многоязычность и мультимодальность ChatGPT на рассуждение, галлюцинации и интерактивность (Bang et al., 2023)
Контрастное обучение уменьшает галлюцинации в разговорах (Sun et al., 2022)
Самосогласованность улучшает цепочку мыслей в языковых моделях (Ванг и др., 2022)
SelfCheckGPT: обнаружение галлюцинаций черного ящика с нулевым ресурсом для генеративных моделей большого языка (Manakul et al., 2023)
Простой пример проверки фактов и галлюцинаций с помощью NeMo-Guardrails от NVIDIA.
2. Оптимизация длины контекста и его конструкции
Большинство вопросов требуют контекста. Например, если мы спросим ChatGPT: «Какой вьетнамский ресторан лучший?», требуемым контекстом будет «Куда именно находится этот ресторан?», потому что лучший вьетнамский ресторан во Вьетнаме такой же, как лучший вьетнамский ресторан в Соединенных Штатах. Ресторан, рамки этого вопроса разные.
Согласно следующей интересной статье «SITUATEDQA: Включение экстралингвистических контекстов в QA» (Zhang & Choi, 2021), значительная часть ответов на вопросы поиска информации зависит от контекста, например, в наборе данных Natural Questions NQ-Open около 16,5 %.
(NQ-Открытие:
Лично я думаю, что процент будет выше в тех случаях, с которыми предприятия действительно сталкиваются. Например, предположим, что компания создает чат-бота для поддержки клиентов. Чтобы этот чат-бот мог ответить на любой вопрос клиента о любом продукте, требуемым контекстом, скорее всего, будет история клиента или информация о продукте. Поскольку языковая модель «обучается» на основе предоставленного ей контекста, этот процесс также известен как контекстное обучение.
Представьте себе контекст, необходимый для запросов в службу поддержки клиентов.
Длина контекста очень важна для RAG (генерации поискового расширения), и RAG стал основным режимом для сценариев приложений в индустрии больших языковых моделей. В частности, генерация улучшений поиска в основном делится на два этапа:
**Этап 1. Разбиение на части (также известное как индексирование)**Разбиение на части (также известное как индексирование)
Соберите все документы, используемые LLM, разделите эти документы на фрагменты, которые можно будет передать в более крупную модель для создания внедрений, и сохраните эти внедрения в векторной базе данных.
Этап 2. Запрос
Когда пользователь отправляет запрос, например «Покрывает ли мой страховой полис определенный препарат X», большая языковая модель преобразует этот запрос во встраивание, которое мы называем QUERY_EMBEDDING. База данных векторов получит наиболее похожий блок между встраиванием и QUERY_EMBEDDING.
Не всегда. Сколько контекста может использовать модель, и насколько эффективно модель использует контекст — это две разные проблемы. Работая над увеличением длины контекста модели, мы также работаем над повышением эффективности контекста. Некоторые называют это «инжинирингом» или «строительством». Например, в недавней статье говорится о том, как модели могут лучше понимать начало и конец индексов, а не только информацию в середине — «Затерянные в середине: как языковые модели используют длинные контексты» (Лю и др., 2023).
3. Интеграция других режимов данных (мультимодальный)
На мой взгляд, мультимодальность очень эффективна, но ее недооценивают. Вот объяснение причин применения мультимодальности:
Во-первых, многие конкретные сценарии приложений требуют мультимодальных данных, особенно в отраслях со смешанными модальностями данных, таких как здравоохранение, робототехника, электронная коммерция, розничная торговля, игры и развлечения. например:
Для медицинского тестирования часто требуется текст (например, записи врача, анкеты пациентов) и изображения (например, КТ, рентгеновские снимки, МРТ).
Метаданные продукта обычно включают изображения, видео, описания и даже табличные данные (например, дату производства, вес, цвет), поскольку с точки зрения спроса вам может потребоваться автоматически заполнить недостающую информацию о продукте на основе отзывов пользователей или фотографий продукта, или хотите разрешить пользователям осуществлять поиск продуктов, используя визуальную информацию, такую как форма или цвет.
Во-вторых, мультимодальность обещает существенно повысить эффективность модели. Разве модель, которая понимает и текст, и изображения, не должна работать лучше, чем одна модель, которая понимает текст? Текстовые модели требуют так много текста, что мы опасаемся, что скоро у нас закончатся данные Интернета для обучения текстовых моделей. Как только текст исчерпан, нам нужно использовать другие схемы данных.
Вот серия статей и ссылок, связанных с мультимодальностью:
[CLIP] Изучение переносимых визуальных моделей с помощью наблюдения за естественным языком (OpenAI, 2021)
Фламинго: модель визуального языка для кратковременного обучения (DeepMind, 2022 г.)
BLIP-2: Предварительное обучение языку-изображению с помощью кодировщиков замороженных изображений и больших языковых моделей (Salesforce, 2023 г.)
КОСМОС-1: Язык — это еще не все, что вам нужно: согласование восприятия с языковыми моделями (Microsoft, 2023 г.)
PaLM-E: воплощенная мультимодальная языковая модель (Google, 2023 г.)
LLaVA: настройка визуальных инструкций (Лю и др., 2023 г.)
NeVA: NeMo Vision и Language Assistant (NVIDIA, 2023 г.)
4. Сделайте LLM быстрее и дешевле
Когда GPT-3.5 был впервые выпущен в конце ноября 2022 года, многие выразили обеспокоенность по поводу задержки и стоимости его использования в производстве. Однако с тех пор анализ задержек и затрат быстро изменился. Менее чем за полгода сообщество нашло способ создать модель, которая по производительности очень близка к GPT-3.5, но требует всего около 2% объема памяти GPT-3.5.
Урок здесь таков: если вы создадите что-то достаточно хорошее, люди найдут способ сделать это быстро и экономически эффективно.
Сравнение производительности Guanaco 7B с ChatGPT GPT-3.5 и GPT-4:
5. Разработайте новую архитектуру модели
Со времен AlexNet в 2012 году мы наблюдали взлет и падение многих архитектур, включая LSTM, seq2seq и т. д. По сравнению с этим, влияние Трансформера невероятно. Трансформеры существуют с 2017 года, и как долго эта архитектура будет оставаться популярной — вопрос открытый.
Разработать новую архитектуру, которая превзойдет Transformer, непросто. За последние 6 лет Transformer претерпел множество оптимизаций, и эта новая архитектура должна работать на том оборудовании, которое сейчас волнует людей, и в том масштабе, который им сейчас интересен.
Примечание. Изначально компания Google разработала Transformer для быстрой работы на TPU, а затем оптимизировала его для GPU.
В 2021 году S4 из лаборатории Криса Ре привлек всеобщее внимание, подробности см. в разделе «Эффективное моделирование длинных последовательностей с помощью структурированных пространств состояний» (Gu et al., 2021). Лаборатория Криса Ре по-прежнему активно разрабатывает новые архитектуры, одна из них — Monarch Mixer (Fu, 2023), разработанный в сотрудничестве со стартапом Together.
Их основная идея заключается в том, что для существующей архитектуры Transformer сложность внимания квадратична длине последовательности, а сложность MLP — квадратична размерности модели. Архитектуры субквадратичной сложности будут более эффективными.
6. Разработка альтернативных графических процессоров
Со времен AlexNet в 2012 году графические процессоры стали доминирующим оборудованием для глубокого обучения. Фактически, одна из общепризнанных причин популярности AlexNet заключается в том, что это была первая статья, успешно использующая графические процессоры для обучения нейронных сетей. До появления графических процессоров, если вы хотели обучить модель в масштабе AlexNet, вам нужно было использовать тысячи процессоров, например тот, который Google выпустил за несколько месяцев до AlexNet. По сравнению с тысячами процессоров, несколько графических процессоров более доступны аспирантам и исследователям, что вызывает бум исследований в области глубокого обучения.
За последнее десятилетие многие компании, как крупные, так и стартапы, попытались создать новое оборудование для искусственного интеллекта. Наиболее заметные попытки включают TPU от Google, IPU от Graphcore (как обстоят дела с IPU?) и Cerebras. SambaNova собрала более миллиарда долларов на разработку новых чипов искусственного интеллекта, но, похоже, решила стать генеративной платформой искусственного интеллекта.
Какое-то время на квантовые вычисления возлагались большие надежды, среди ключевых игроков были:
Еще одно не менее интересное направление — фотонные чипы. У меня очень мало знаний в этой области, поэтому, пожалуйста, поправьте меня, если я ошибаюсь. Существующие чипы используют электричество для передачи данных, что потребляет большое количество энергии и создает задержки. Фотонные чипы, с другой стороны, используют фотоны для передачи данных, используя скорость света для более быстрых и эффективных вычислений. Различные стартапы в этой сфере собрали сотни миллионов долларов, в том числе Lightmatter (270 миллионов долларов), Ayar Labs (220 миллионов долларов), Lightelligence (более 200 миллионов долларов) и Luminous Computing (115 миллионов долларов).
Ниже приводится график развития трех основных методов расчета фотонной матрицы, взятый из статьи «Умножение фотонной матрицы освещает фотонный ускоритель и не только» (Чжоу, Nature 2022). Три различных метода: плоское преобразование света (PLC), интерферометр Маха-Цендера (MZI) и мультиплексирование с разделением по длине волны (WDM).
7. Улучшение доступности агентов
Агент относится к большой языковой модели, которая может выполнять действия (под ней можно понимать агентов, которые могут выполнять различные задачи от вашего имени, поэтому она называется «Агент»), таких как просмотр страниц в Интернете, отправка электронных писем, бронирование и т. д. По сравнению с другими направлениями исследований в данной статье это, возможно, одно из новейших направлений. Из-за новизны и большого потенциала самого Агента люди полны энтузиазма по поводу Агента. А Auto-GPT сейчас является 25-м по популярности репозиторием на GitHub по количеству звезд. GPT-Engineering — еще один популярный репозиторий.
Несмотря на ажиотаж в этом направлении, остаются сомнения относительно того, являются ли большие языковые модели надежными и достаточно производительными, чтобы иметь возможность действовать. Однако появился сценарий применения, в котором агенты используются в социальных исследованиях, например, знаменитый Стэнфордский эксперимент, который показал возникновение социального поведения из небольшого кластера генеративных агентов: например, начиная с идеи, заданной пользователем, агент хочет удерживать Вечеринка в честь Дня святого Валентина, Агент автоматически рассылает приглашения на вечеринку в течение следующих двух дней, заводит новых друзей и приглашает друг друга на вечеринку... (Генеративные агенты: Интерактивные симулякры человеческого поведения, Парк и др., 2023),
Пожалуй, самым примечательным стартапом в этой сфере является Adept, основанный двумя бывшими соавторами Transformer и бывшим вице-президентом OpenAI. На сегодняшний день он собрал почти 500 миллионов долларов. В прошлом году они показали, как их агенты могут пользоваться Интернетом и как добавлять новые учетные записи в Salesforce.
8. Итерация RLHF
RLHF (Reinforcement Learning from Human Feedback) — это круто, но немного сложно. Было бы неудивительно, если бы люди нашли более эффективные способы обучения LLM. Однако в RLHF существует множество нерешенных проблем, таких как:
①Как математически выразить предпочтения человека?
В настоящее время предпочтения человека определяются путем сравнения: человек-комментатор определяет, лучше ли ответ А, чем ответ Б. Однако при этом не учитывается, насколько ответ А лучше ответа Б.
②Какие человеческие предпочтения?
Anthropic измеряла качество своих моделей по трем критериям: полезность, честность и безвредность, в зависимости от результатов. См. «Конституционный ИИ: безвредность от обратной связи ИИ» (Bai et al., 2022).
DeepMind пытается генерировать ответы, которые понравятся большинству людей. См. «Точная настройка языковых моделей для поиска согласия между людьми с разными предпочтениями» (Bakker et al., 2022).
Кроме того, хотим ли мы ИИ, который может занять определенную позицию, или традиционный ИИ, который уклоняется от любой потенциально спорной темы?
③ Чье предпочтение является «человеческим» предпочтением? Следует ли учитывать различия в культуре, религии, политической ориентации и т. д.? Существует множество проблем в получении обучающих данных, достаточно репрезентативных для всех потенциальных пользователей.
Например, для данных OpenAI InstructGPT нет аннотаторов старше 65 лет. Этикетировщиками являются в основном филиппинцы и бангладешцы. См. InstructGPT: Обучение языковых моделей следованию инструкциям с обратной связью от человека (Ouyang et al., 2022).
Хотя усилия сообщества похвальны по своим намерениям, они могут привести к получению предвзятых данных. Например, в наборе данных OpenAssistant 201 из 222 (90,5%) респондентов идентифицировали себя как мужчины. У Джереми Ховарда есть интересная тема в Твиттере:
9. Повышение эффективности интерфейса чата
Начиная с ChatGPT, люди обсуждают, является ли чат интерфейсом, подходящим для различных задач.
Подробности см.:
Естественный язык — это ленивый пользовательский интерфейс (Остин З. Хенли, 2023 г.)
Почему чат-боты — это не будущее (Амелия Ваттенбергер, 2023 г.)
Какие типы вопросов требуют разговора, чтобы ответить? Пример использования вопросов AskReddit (Хуанг и др., 2023 г.)
Интерфейсы чата с искусственным интеллектом могут стать основным пользовательским интерфейсом для чтения документации (Том Джонсон, 2023 г.).
Взаимодействие с LLM с помощью минимального чата (Евгений Ян, 2023 г.)
Однако это не новая тема. Во многих странах, особенно в Азии, чат уже около десяти лет используется в качестве интерфейса суперприложений, о чем писал Дэн Гровер в 2014 году.
Чат как интерфейс (Алистер Кролл, 2016)
Является ли тенденция чат-ботов одним большим недоразумением? (Уилл Найт, 2016)
Боты не заменят приложения. Лучшие приложения заменят приложения (Дэн Гровер, 2016 г.)
Лично мне нравится интерфейс чата по следующим причинам:
①Интерфейс чата — это интерфейс, которым может быстро научиться пользоваться каждый, даже тот, кто ранее не имел контакта с компьютером или Интернетом (универсальность). В начале 2010-х годов, когда я работал волонтером в районе с низкими доходами в Кении, я был поражен тем, насколько хорошо все там были знакомы с банковскими операциями по телефону с помощью текстовых сообщений. Ни у кого в этом сообществе не было компьютера.
② Доступ к интерфейсу чата прост. Используйте голос вместо текста, если ваши руки заняты другими делами.
③ Чат также представляет собой очень мощный интерфейс: вы можете отправить ему любой запрос, и он ответит, даже если ответ не обязательно будет идеальным.
Однако автор считает, что интерфейс чата в некоторых аспектах можно и дальше улучшать:
①Можно обмениваться несколькими сообщениями одновременно
В настоящее время мы в основном предполагаем, что в каждом сообщении имеется только один раунд сообщений. Но я и мои друзья переписываемся не так. Обычно мне нужно несколько сообщений, чтобы завершить размышление, потому что мне нужно вставлять разные данные (например, изображения, места, ссылки), возможно, я что-то пропустил в предыдущем сообщении или просто не хочу помещать все в одно. большой абзац.
②Мультимодальный ввод
В области мультимодальных приложений большая часть усилий тратится на создание лучших моделей и мало тратится на создание лучших интерфейсов. Возьмем, к примеру, чат-бота NeVA от Nvidia. Я не эксперт по UX, но думаю, что здесь есть что улучшить.
PS: Извините, что упомянул здесь команду NeVA, даже несмотря на это, ваша работа все равно очень крутая!
Линус Ли очень хорошо описывает это в своей статье «Генераторный интерфейс искусственного интеллекта за пределами чатов». Например, если вы хотите задать вопрос о столбце диаграммы, над которой вы работаете, у вас должна быть возможность просто указать на этот столбец и задать вопрос.
④ Редактирование и удаление сообщений.
Как редактирование или удаление введенных пользователем данных меняет ход разговора с чат-ботом?
10. Создайте LLM для неанглийских языков
Мы знаем, что нынешние LLM на английском языке плохо масштабируются со многими другими языками с точки зрения производительности, задержки и скорости. Видеть:
ChatGPT Beyond English: к комплексному использованию больших языковых моделей в многоязычном обучении (Lai et al., 2023)
Все языки НЕ созданы (токенизированы) равными (Йенни Джун, 2023 г.)
Это не столько исследовательский вопрос, сколько вопрос логистики. Мы уже знаем, как это сделать, просто нужно, чтобы кто-то вложил деньги и усилия. Однако это не совсем правильно. Большинство языков считаются языками с низким уровнем ресурсов, и для многих языков имеется гораздо меньше качественных данных по сравнению, например, с английским или китайским, поэтому для обучения больших языковых моделей могут потребоваться разные методы. Смотрите также:
Языки с низкими ресурсами: обзор прошлой работы и будущих проблем (Magueresse et al., 2020)
JW300: параллельный корпус с широким охватом малоресурсных языков (Agić et al., 2019)
Те, кто настроен более пессимистично, полагают, что в будущем многие языки исчезнут и Интернет будет состоять из двух вселенных двух языков: английского и китайского. Эта тенденция не нова – кто-нибудь помнит эсперанто?
Влияние инструментов искусственного интеллекта, таких как машинный перевод и чат-боты, на изучение языков остается неясным. Помогут ли они людям быстрее выучить новый язык или полностью избавят от необходимости изучать новый язык?
в заключение
Пожалуйста, дайте мне знать, если я что-то пропущу в этой статье, а для получения дополнительной информации ознакомьтесь с подробной статьей «Проблемы и приложения больших языковых моделей» (Kaddour et al., 2023).
Вышеупомянутые вопросы сложнее других. Например, я думаю, что вопрос 10 выше о создании LLM на языке, отличном от английского, будет относительно простым, если будет достаточно времени и ресурсов.
Первая проблема, описанная выше, — уменьшить выход галлюцинаций, что будет намного сложнее, потому что галлюцинация — это всего лишь LLM, выполняющий вероятностные действия.
В-четвертых, сделать LLM более быстрым и дешевым никогда не удастся полностью решить. В этой области достигнут большой прогресс, и в будущем прогресс будет еще больше, но улучшения в этом направлении будут продолжаться.
Пункты 5 и 6 — новая архитектура и новое оборудование — очень сложны, но со временем они неизбежны. Из-за симбиотической связи между архитектурой и оборудованием (новые архитектуры должны быть оптимизированы для оборудования общего назначения, а оборудование должно поддерживать архитектуры общего назначения), скорее всего, они будут создаваться одной и той же компанией.
Некоторые проблемы невозможно решить только с помощью технических знаний. Например, вопрос 8 о совершенствовании методов обучения на основе человеческих предпочтений может быть скорее политическим, чем техническим вопросом. Проблема № 9 — повышение эффективности интерфейса чата, что больше касается пользовательского опыта. Нам нужно больше людей с нетехническим образованием, которые могли бы работать с нами над этими вопросами.
Какое направление исследований вас больше всего интересует? Что, по вашему мнению, является наиболее многообещающим решением этих проблем? Хотелось бы услышать ваше мнение.