Мета зробити велику мовну модель більш досконалою — це перший раз у моєму житті, коли я бачу стільки розумних людей, які наполегливо працюють заради спільної мети одночасно. Після спілкування з багатьма людьми в промисловості та академічних колах я помітив, що з’явилося десять основних напрямків досліджень. Наразі найбільше уваги приділяється двом напрямкам: галюцинації (вихідні галюцинації) і контекстне навчання.
Для мене найцікавішими є 3-й напрямок (мультимодальний мультимодальний режим даних), 5-й напрямок (нова архітектура) і 6-й напрямок (розробка альтернатив GPU альтернатив GPU), перерахованих нижче. s рішення)
Десять відкритих викликів для дослідження LLM
Зменшити та оцінити результат (вигадана інформація)
Оптимізуйте довжину контексту та побудову контексту
Інтегруйте інші форми даних
Підвищена швидкість і економічна ефективність мовних моделей
Розробити архітектуру нової моделі
Розробляйте альтернативні рішення GPU
Покращення доступності агентів (штучний інтелект)
Покращена здатність вчитися на людських уподобаннях
Підвищення ефективності інтерфейсу чату
Створення мовних моделей для неанглійських мов
1. Зменшіть і оцініть галюцинації
Середовище виводу — це тема, яку багато обговорювали, тому я скорочу цю історію. Галюцинації виникають, коли моделі ШІ щось вигадують. Для багатьох випадків творчого використання ілюзія є функцією. Однак галюцинації є помилкою для більшості випадків використання. Нещодавно я брав участь у симпозіумі з LLM з експертами Dropbox, Langchain, Elastics і Anthropic. На їхню думку, перша перешкода, яку підприємства повинні подолати, застосовуючи LLM у реальному виробництві, — це фантомний вихід.
Зменшення виходу галюцинацій у моделях і розробка показників для оцінки виходу галюцинацій є бурхливою темою досліджень, і багато стартапів зараз зосереджуються на цій проблемі. Існують також трюки, щоб зменшити ймовірність галюцинації результату, як-от додавання більшого контексту до ключового слова, CoT, самоузгодженості або особливих вимог щодо стислості відповіді моделі.
Ось серія статей і посилань про вихід галюцинацій:
Дослідження галюцинацій у створенні природної мови (Ji та ін., 2022)
Як галюцинації мовної моделі можуть стати сніжним комом (Zhang et al., 2023)
Багатозадачна, багатомовна, багатомодальна версія ChatGPT щодо міркувань, галюцинацій та інтерактивності (Банг та ін., 2023)
Контрастне навчання зменшує галюцинації під час розмов (Sun та ін., 2022)
Самоузгодженість покращує ланцюжок міркувань у мовних моделях (Ванг та ін., 2022)
SelfCheckGPT: виявлення галюцинацій чорної скриньки з нульовим ресурсом для генеративних моделей великої мови (Манакул та ін., 2023)
Простий приклад перевірки фактів і галюцинацій за допомогою NeMo-Guardrails від NVIDIA
2. Оптимізуйте довжину контексту та побудову контексту
Більшість питань потребують контексту. Наприклад, якщо ми запитаємо ChatGPT: «Який в’єтнамський ресторан найкращий?», необхідним контекстом буде «Де саме межує цей ресторан?», оскільки найкращий в’єтнамський ресторан у В’єтнамі – це те саме, що найкращий в’єтнамський ресторан у Сполучених Штатах. Ресторани, масштаби проблеми різні.
Згідно з наступною цікавою статтею «SITUATEDQA: включення екстралінгвістичних контекстів у QA» (Zhang & Choi, 2021), значна частина відповідей на запитання пошуку інформації залежить від контексту, наприклад, у наборі даних Natural Questions NQ-Open близько 16,5 %.
(NQ-Відкрито:
Я особисто вважаю, що в реальних випадках, з якими стикаються підприємства, ця частка буде більшою. Наприклад, скажімо, компанія створює чат-бота для підтримки клієнтів. Щоб цей чат-бот міг відповісти на будь-яке запитання клієнта щодо будь-якого продукту, необхідним контекстом, імовірно, буде історія клієнта або інформація про продукт. Оскільки мовна модель «навчається» з наданого їй контексту, цей процес також називають навчанням контексту.
Зображення вимагає контексту для запитів у службу підтримки клієнтів
Довжина контексту дуже важлива для RAG (Retrieval Enhanced Generation), і RAG став основним режимом у сценаріях застосування великої мовної моделі. Зокрема, генерація покращення пошуку в основному поділяється на два етапи:
**Фаза 1: розділення (також відоме як індексування)**розділення (також відоме як індексування)
Зберіть усі документи, які використовує LLM, розділіть ці документи на фрагменти, які можна додати до більшої моделі для створення вбудовувань, і зберігайте ці вбудовування у векторній базі даних.
Фаза 2: Запит
Коли користувач надсилає запит, наприклад «чи покриває мій страховий поліс певний препарат X», велика мовна модель перетворить цей запит на вбудовування, яке ми називаємо QUERY_EMBEDDING. Векторна база даних отримає блок, вбудовування якого найбільше схоже на QUERY_EMBEDDING.
Чим довша довжина контексту, тим більше шматків ми можемо втиснути в контекст. Чим більше інформації отримує модель, тим вища якість її результатів і відповідей, вірно?
Не завжди. Скільки контексту може використовувати модель і наскільки ефективно модель використовує контекст – дві різні проблеми. Працюючи над збільшенням довжини контексту моделі, ми також працюємо над підвищенням ефективності контексту. Деякі називають це «оперативним проектуванням» або «будівництвом». Наприклад, нещодавня стаття розповідає про те, як моделі можуть краще розуміти початок і кінець індексів, а не лише інформацію в середині - Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023).
3. Інша інтеграція моделі даних (мультимодальна)
На мою думку, мультимодальність є дуже потужною, але її також недооцінюють. Ось пояснення причин застосування мультимодальності:
По-перше, багато конкретних сценаріїв застосування вимагають мультимодальних даних, особливо в галузях із змішаними модальностями даних, таких як охорона здоров’я, робототехніка, електронна комерція, роздрібна торгівля, ігри та розваги. наприклад:
Для медичного обстеження часто потрібен текст (наприклад, записки лікаря, анкети пацієнтів) і зображення (наприклад, КТ, рентген, МРТ).
Метадані продукту зазвичай включають зображення, відео, описи та навіть табличні дані (такі як дата виробництва, вага, колір), оскільки з точки зору попиту вам може знадобитися автоматично заповнити відсутню інформацію про продукт на основі відгуків користувачів або фотографій продукту, або хочете дозволити користувачам здійснювати пошук продуктів за допомогою візуальної інформації, такої як форма чи колір.
По-друге, очікується, що мультимодальність значно покращить продуктивність моделі. Чи не повинна модель, яка розуміє і текст, і зображення, працювати краще, ніж модель, яка розуміє лише текст? Текстові моделі вимагають стільки тексту, що ми хвилюємося, що незабаром у нас закінчаться Інтернет-дані для навчання текстових моделей. Коли текст буде вичерпано, нам потрібно скористатися іншими шаблонами даних.
Один із варіантів використання, який мене особливо цікавить, полягає в тому, що мультимодальна технологія дозволяє людям із вадами зору орієнтуватися як в Інтернеті, так і в реальному світі.
Нижче наведено серію документів і довідкових матеріалів, пов’язаних із мультимодальністю:
[CLIP] Вивчення візуальних моделей, які можна перенести, за допомогою контролю природної мови (OpenAI, 2021)
Flamingo: візуальна мовна модель для швидкого навчання (DeepMind, 2022)
BLIP-2: Попереднє навчання початкової мови й зображення за допомогою кодувальників заморожених зображень і великих мовних моделей (Salesforce, 2023)
КОСМОС-1: мова — це не все, що вам потрібно: узгодження сприйняття з мовними моделями (Microsoft, 2023)
PaLM-E: втілена мультимодальна мовна модель (Google, 2023)
LLaVA: Налаштування візуальних інструкцій (Liu et al., 2023)
NeVA: NeMo Vision and Language Assistant (NVIDIA, 2023)
4. Зробіть LLM швидшим і дешевшим
Коли GPT-3.5 було вперше випущено наприкінці листопада 2022 року, багато людей висловлювали занепокоєння щодо затримок і витрат на його використання у виробництві. Однак з тих пір аналіз затримки/вартості швидко змінився. Менш ніж за півроку спільнота знайшла спосіб створити модель, яка за продуктивністю дуже близька до GPT-3.5, але вимагає лише близько 2% обсягу пам’яті GPT-3.5.
Висновок: якщо ви створюєте щось достатньо хороше, люди знайдуть спосіб зробити це швидко та економічно ефективно.
Нижче наведено дані про продуктивність «Guanaco 7B» у порівнянні з продуктивністю ChatGPT GPT-3.5 і GPT-4, згідно зі звітом у статті «Guanco». Будь ласка, зверніть увагу: загалом наведені нижче порівняння продуктивності далекі від досконалості, а оцінка LLM дуже і дуже складна.
Порівняння продуктивності Guanaco 7B із ChatGPT GPT-3.5 і GPT-4:
Чотири роки тому, коли я почав писати примітки до розділу «Стиснення моделі» книги «Проектування систем машинного навчання», я написав про чотири основні методи оптимізації/стиснення моделі:
Квантування: найзагальніший метод оптимізації моделі. Квантування зменшує розмір моделі за рахунок використання меншої кількості бітів для представлення її параметрів, наприклад, замість використання 32 бітів можна використовувати 16 бітів або навіть 4 біти для представлення чисел з плаваючою комою.
Дистиляція знань: метод імітації великої моделі або ансамблю моделей шляхом навчання маленьких моделей.
Факторизація низького рангу: ключова ідея тут полягає в заміні тензорів високої розмірності на тензори низької розмірності, щоб зменшити кількість параметрів. Наприклад, ви можете розкласти тензор 3x3 на добуток тензора 3x1 і 1x3, щоб замість 9 параметрів вам знадобилося лише 6 параметрів.
Обрізка
Усі чотири вищезазначені методи все ще застосовуються та популярні сьогодні. Альпака використовує дистиляцію знань для навчання. QLoRA використовує комбінацію факторизації низького рангу та квантування.
5. Створіть нову архітектуру моделі
Починаючи з AlexNet у 2012 році, ми спостерігали зростання та падіння багатьох архітектур, зокрема LSTM, seq2seq тощо. Порівняно з ними вплив Трансформера неймовірний. Трансформери існують з 2017 року, і як довго ця архітектура залишатиметься популярною, залишається відкритим питанням.
Непросто розробити нову архітектуру, щоб перевершити Transformer. Transformer зазнав багато оптимізації за останні 6 років, і ця нова архітектура має працювати на апаратному забезпеченні, яке цікавить людей, у тому масштабі, який їх цікавить сьогодні.
Примітка. Google спочатку розробив Transformer для швидкої роботи на TPU, а пізніше оптимізував його на GPU.
У 2021 році S4 лабораторії Кріса Ре привернув широку увагу, подробиці див. у статті «Ефективне моделювання довгих послідовностей зі структурованими просторами станів» (Gu et al., 2021). Лабораторія Кріса Ре все ще енергійно розробляє нові архітектури, однією з яких є Monarch Mixer (Fu, 2023), нещодавно розроблений у співпраці зі стартапом Together.
Їх основна ідея полягає в тому, що для існуючої архітектури Transformer складність уваги є квадратичною довжини послідовності, тоді як складність MLP є квадратичною розмірності моделі. Архітектури з субквадратичною складністю будуть більш ефективними.
Змішувач Monarch
6. Розробляйте альтернативи GPU
Починаючи з AlexNet у 2012 році, графічні процесори були домінуючим обладнанням для глибокого навчання. Фактично, однією із загальновизнаних причин популярності AlexNet є те, що це була перша стаття, яка успішно використовувала графічні процесори для навчання нейронних мереж. До появи графічних процесорів, якщо ви хотіли навчити модель у масштабі AlexNet, вам потрібно було б використовувати тисячі процесорів, як той, який Google випустив за кілька місяців до AlexNet. Порівняно з тисячами процесорів, кілька графічних процесорів є більш доступними для аспірантів і дослідників, що викликає бум досліджень глибокого навчання.
За останнє десятиліття багато компаній, як великих корпорацій, так і стартапів, намагалися створити нове апаратне забезпечення для штучного інтелекту. Найпомітніші спроби включають TPU від Google, IPU від Graphcore (як справи з IPU?) і Cerebras. SambaNova зібрала понад мільярд доларів на розробку нового чіпа штучного інтелекту, але, схоже, перетворилася на генеративну платформу штучного інтелекту.
Деякий час на квантові обчислення покладалися великі сподівання, серед ключових гравців яких були:
QPU від IBM
*Квантовий комп’ютер Google досяг важливої віхи у зменшенні квантової помилки, про що повідомлялося в Nature на початку цього року. Його квантова віртуальна машина є загальнодоступною через Google Colab. *
*Дослідницькі лабораторії, такі як Центр квантової інженерії MIT, Інститут квантової оптики Макса Планка, Чиказький центр квантового обміну, Окриджська національна лабораторія тощо. *
Ще один не менш захоплюючий напрямок — фотонні чіпи. Я мало знаю про цю сферу, тому виправте мене, якщо я помиляюся. Існуючі чіпи використовують електроенергію для передачі даних, що споживає багато енергії та створює затримки. Фотонні чіпи, з іншого боку, використовують фотони для передачі даних, використовуючи швидкість світла для швидших і ефективніших обчислень. Різні стартапи в цьому просторі залучили сотні мільйонів доларів, зокрема Lightmatter (270 мільйонів доларів), Ayar Labs (220 мільйонів доларів), Lightelligence (понад 200 мільйонів доларів) і Luminous Computing (115 мільйонів доларів).
Нижче наведено хронологію виконання трьох основних методів обчислення фотонної матриці, витягнуто зі статті «Фотонічне матричне множення освітлює фотонний прискорювач і далі» (Zhou, Nature 2022). Три різні підходи: планарна комутація світла (PLC), інтерферометр Маха-Цендера (MZI) і мультиплексування за довжиною хвилі (WDM).
7. Покращте зручність використання агентів
Агент відноситься до великої мовної моделі, яка може виконувати дії (її можна розуміти як агентів, які можуть виконувати різні завдання від вашого імені, тому її називають агентом), такі як перегляд Інтернету, надсилання електронних листів, бронювання тощо. Це, мабуть, один із найновіших напрямів у порівнянні з іншими напрямками досліджень у цій статті. Через новизну та великий потенціал самого Агента люди сповнені ентузіазму щодо Агента. А Auto-GPT тепер є 25-м найпопулярнішим репо на GitHub за кількістю зірок. GPT-Engineering — ще одне популярне репо.
Незважаючи на хвилювання в цьому напрямку, залишаються сумніви щодо того, чи великі мовні моделі є достатньо надійними та продуктивними, щоб мати можливість діяти. Однак з’явився прикладний сценарій, у якому Агенти використовуються для соціальних досліджень, як-от відомий Стенфордський експеримент, який показав, що невеликий кластер генеративних Агентів породжує нові соціальні поведінки: наприклад, починаючи з ідеї, заданої користувачем, Агент хоче щоб провести вечірку до Дня Святого Валентина, Агент автоматично розповсюджує запрошення на вечірку протягом наступних двох днів, знаходить нових друзів і запрошує один одного на вечірку... (Generate Agents: Interactive Simulacra of Human Behavior, Park et al., 2023),
Мабуть, найвизначнішим стартапом у цьому просторі є Adept, заснований двома колишніми співавторами Transformer і колишнім віце-президентом OpenAI, який на сьогодні зібрав майже 500 мільйонів доларів. Минулого року вони показали, як їхній агент може переглядати Інтернет і як додати новий обліковий запис до Salesforce.
8. Ітерація RLHF
RLHF (Reinforcement Learning from Human Feedback) — це круто, але трохи складно. Не було б дивно, якби люди знайшли кращі способи навчання LLM. Однак у RLHF все ще є багато невирішених проблем, таких як:
① Як виразити перевагу людини математичним способом?
Наразі переваги людини визначаються шляхом порівняння: людина-анотатор визначає, чи відповідь A краща за відповідь B. Однак він не враховує, наскільки відповідь A краща, ніж відповідь B.
②Що таке перевага людини?
Anthropic оцінює якість своїх моделей на основі результатів у трьох вимірах: корисний, чесний і нешкідливий. Див. Конституційний штучний інтелект: нешкідливість від зворотного зв’язку штучного інтелекту (Bai та ін., 2022).
DeepMind намагається генерувати відповіді, які сподобаються більшості людей. Див. Точне налаштування мовних моделей для досягнення згоди між людьми з різними уподобаннями (Баккер та ін., 2022).
Крім того, чи хочемо ми ШІ, який може зайняти позицію, чи традиційний ШІ, який уникає будь-яких потенційно суперечливих тем?
③Чиї уподобання є «людськими» уподобаннями? Чи слід брати до уваги відмінності в культурі, релігії, політичних уподобаннях тощо? Існує багато проблем, пов’язаних із отриманням навчальних даних, які достатньо репрезентують усіх потенційних користувачів.
Наприклад, для даних InstructGPT OpenAI немає анотаторів старше 65 років. Анотатори – переважно філіппінці та бангладешці. Див. InstructGPT: Навчання мовних моделей виконувати інструкції з відгуками людини (Ouyang et al., 2022).
Національна статистика анотаторів InstructGPT
Хоча зусилля під керівництвом громади заслуговують похвали за своїм наміром, вони можуть призвести до упереджених даних. Наприклад, для набору даних OpenAssistant 201 із 222 (90,5%) респондентів назвали себе чоловіками. У Джеремі Говарда є гарна тема у Twitter:
9. Підвищте ефективність інтерфейсу чату
Починаючи з ChatGPT, точаться дискусії про те, чи чат є придатним інтерфейсом для різноманітних завдань.
Докладніше див.
Природна мова — це ледачий інтерфейс користувача (Остін З. Хенлі, 2023)
Чому чат-боти — не майбутнє (Амелія Ваттенбергер, 2023)
Які типи запитань вимагають розмови, щоб отримати відповідь? Приклад із запитань AskReddit (Huang та ін., 2023)
Інтерфейс чату AI може стати основним інтерфейсом користувача для читання документації (Том Джонсон, 2023)
Взаємодія з магістрами права за допомогою мінімального чату (Євген Ян, 2023)
Однак це не нова тема. У багатьох країнах, особливо в Азії, чат використовується як інтерфейс супердодатків близько десяти років, про що Ден Гровер писав у 2014 році.
У 2016 році, коли багато хто вважав, що програми мертві, а майбутнє за чат-ботами, дискусія знову розгорілася:
Про чат як інтерфейс (Алістер Кролл, 2016)
Чи є тенденція чат-ботів великим непорозумінням? (Вілл Найт, 2016)
Боти не замінять програми. Кращі програми замінять програми (Ден Гровер, 2016)
Мені особисто подобається інтерфейс чату з таких причин:
①Інтерфейс чату – це інтерфейс, яким усі, навіть ті, хто раніше не мав контакту з комп’ютерами чи Інтернетом, можуть швидко навчитися користуватися (універсальний). На початку 2010-х років, коли я працював волонтером у районі з низьким рівнем доходу в Кенії, я був вражений тим, наскільки всі там були знайомі з банківськими операціями по телефону за допомогою текстових повідомлень. Ніхто в цій спільноті не мав комп’ютера.
② Доступ до інтерфейсу чату простий. Якщо ваші руки зайняті іншими справами, використовуйте голос замість тексту.
③ Чат також є дуже потужним інтерфейсом – ви можете зробити будь-який запит до нього, і він відповість, навіть якщо відповідь не обов’язково ідеальна
Однак я думаю, що інтерфейс чату може продовжувати вдосконалюватися в деяких сферах:
① Можна обмінюватися кількома повідомленнями одночасно
Наразі ми в основному припускаємо лише один цикл повідомлень на обмін. Але це не те, як я пишу повідомлення з друзями. Зазвичай мені потрібно кілька повідомлень, щоб завершити свої думки, оскільки мені потрібно вставити різні дані (наприклад, зображення, місцезнаходження, посилання), можливо, я щось пропустив у попередньому повідомленні або просто не хочу поміщати все в одне великий абзац.
②Мультимодальний вхід
У сфері мультимодальних додатків більшість зусиль витрачається на створення кращих моделей і менше на створення кращих інтерфейсів. Візьмемо, наприклад, чат-бот NeVA від Nvidia. Я не експерт із взаємодії з користувачами, але думаю, що тут є місце для покращення.
Додаткова примітка: вибачте, що згадав тут команду NeVA, навіть з цим, хлопці, ви все ще робите дуже круту роботу!
③Інтегруйте генеративний ШІ в робочий процес
Лінус Лі дуже добре описує це у своїй доповіді «Генеративний інтерфейс штучного інтелекту поза межами чатів». Наприклад, якщо ви хочете поставити запитання про певний стовпець у діаграмі, над якою ви працюєте, ви повинні мати можливість просто навести на цей стовпець і запитати.
④Редагування та видалення повідомлень
Як редагування або видалення введених користувачем даних змінить перебіг розмови з чат-ботом?
10. Створіть LLM для неанглійських мов
Ми знаємо, що поточні LLM для англійської як першої мови погано масштабуються для багатьох інших мов з точки зору продуктивності, затримки та швидкості. Побачити:
ChatGPT Beyond English: Towards a Comprehensive uation of Large Language Models in Multilingual Learning (Lai et al., 2023)
Усі мови НЕ створені (токенізовані) рівними (Єнні Джун, 2023 р.)
Мені відомі лише спроби навчання в’єтнамської мови (наприклад, спроби спільноти Symato), однак кілька перших читачів цієї статті сказали мені, що вони не вважають, що я повинен включити цей напрямок з таких причин:
Це не стільки питання дослідження, скільки питання логістики. Ми вже знаємо, як це зробити, просто треба, щоб хтось вклав гроші та енергію. Однак це не зовсім правильно. Більшість мов вважаються мовами з низьким ресурсом, і для багатьох мов є набагато менш високоякісні дані порівняно з англійською чи китайською, наприклад, тому для навчання великих мовних моделей можуть знадобитися різні методи. Дивись також:
Мови з низьким ресурсом: огляд минулої роботи та майбутні виклики (Magueresse та ін., 2020)
JW300: Паралельний корпус із широким охопленням для мов із низьким ресурсом (Agić та ін., 2019)
Більш песимістичні вважають, що в майбутньому багато мов зникнуть, а Інтернет складатиметься з двох всесвітів двох мов: англійської та китайської. Ця тенденція не нова - хтось пам'ятає есперанто?
Вплив інструментів штучного інтелекту, таких як машинний переклад і чат-боти, на вивчення мови залишається незрозумілим. Чи допоможуть вони швидше вивчати нові мови, чи повністю позбавлять їх вивчення.
на завершення
Будь ласка, дайте мені знати, якщо я щось пропустив у цій статті, а щоб отримати додаткові погляди, перегляньте вичерпну статтю Проблеми та застосування великих мовних моделей (Kaddour та ін., 2023).
Наведені вище запитання складніші за інші. Наприклад, я вважаю, що питання 10 вище, налагодити LLM не англійською мовою, було б відносно простим за наявності достатнього часу та ресурсів.
Перша вищезгадана проблема полягає в тому, щоб зменшити вихід галюцинацій, що буде набагато важче, тому що галюцинація — це просто LLM, що виконує ймовірнісні дії.
По-четверте, зробити LLM швидшим і дешевшим ніколи не можна повністю вирішити. У цій сфері досягнуто великого прогресу, і в майбутньому буде ще більше, але вдосконалення в цьому напрямку триватимуть.
Пункти 5 і 6, нова архітектура та нове апаратне забезпечення, є дуже складними, але з часом вони неминучі. Через симбіотичний зв’язок між архітектурою та апаратним забезпеченням — нову архітектуру потрібно оптимізувати для загального апаратного забезпечення, а апаратне забезпечення має підтримувати загальну архітектуру, імовірно, вони будуть зроблені однією компанією.
Деякі проблеми неможливо вирішити лише технічними знаннями. Наприклад, питання 8, покращення методів навчання на основі людських уподобань, може бути скоріше питанням політики, ніж технічним. Проблема № 9 полягає в покращенні ефективності інтерфейсу чату, що більше стосується взаємодії з користувачем. Нам потрібно більше людей із нетехнічним досвідом, щоб працювати з нами над цими питаннями.
Який напрямок досліджень вас найбільше цікавить? Що, на вашу думку, є найбільш перспективним вирішенням цих проблем? Хотілося б почути вашу думку.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Інтерпретація 6000 слів: 10 проблем поточного дослідження великої мовної моделі LLM
Автор: Чіп Гюен
**Переклад: **Alfa Rabbit
Посилання на джерело:
Мета зробити велику мовну модель більш досконалою — це перший раз у моєму житті, коли я бачу стільки розумних людей, які наполегливо працюють заради спільної мети одночасно. Після спілкування з багатьма людьми в промисловості та академічних колах я помітив, що з’явилося десять основних напрямків досліджень. Наразі найбільше уваги приділяється двом напрямкам: галюцинації (вихідні галюцинації) і контекстне навчання.
Для мене найцікавішими є 3-й напрямок (мультимодальний мультимодальний режим даних), 5-й напрямок (нова архітектура) і 6-й напрямок (розробка альтернатив GPU альтернатив GPU), перерахованих нижче. s рішення)
1. Зменшіть і оцініть галюцинації
Середовище виводу — це тема, яку багато обговорювали, тому я скорочу цю історію. Галюцинації виникають, коли моделі ШІ щось вигадують. Для багатьох випадків творчого використання ілюзія є функцією. Однак галюцинації є помилкою для більшості випадків використання. Нещодавно я брав участь у симпозіумі з LLM з експертами Dropbox, Langchain, Elastics і Anthropic. На їхню думку, перша перешкода, яку підприємства повинні подолати, застосовуючи LLM у реальному виробництві, — це фантомний вихід.
Зменшення виходу галюцинацій у моделях і розробка показників для оцінки виходу галюцинацій є бурхливою темою досліджень, і багато стартапів зараз зосереджуються на цій проблемі. Існують також трюки, щоб зменшити ймовірність галюцинації результату, як-от додавання більшого контексту до ключового слова, CoT, самоузгодженості або особливих вимог щодо стислості відповіді моделі.
Ось серія статей і посилань про вихід галюцинацій:
Дослідження галюцинацій у створенні природної мови (Ji та ін., 2022)
Як галюцинації мовної моделі можуть стати сніжним комом (Zhang et al., 2023)
Багатозадачна, багатомовна, багатомодальна версія ChatGPT щодо міркувань, галюцинацій та інтерактивності (Банг та ін., 2023)
Контрастне навчання зменшує галюцинації під час розмов (Sun та ін., 2022)
Самоузгодженість покращує ланцюжок міркувань у мовних моделях (Ванг та ін., 2022)
SelfCheckGPT: виявлення галюцинацій чорної скриньки з нульовим ресурсом для генеративних моделей великої мови (Манакул та ін., 2023)
Простий приклад перевірки фактів і галюцинацій за допомогою NeMo-Guardrails від NVIDIA
2. Оптимізуйте довжину контексту та побудову контексту
Більшість питань потребують контексту. Наприклад, якщо ми запитаємо ChatGPT: «Який в’єтнамський ресторан найкращий?», необхідним контекстом буде «Де саме межує цей ресторан?», оскільки найкращий в’єтнамський ресторан у В’єтнамі – це те саме, що найкращий в’єтнамський ресторан у Сполучених Штатах. Ресторани, масштаби проблеми різні.
Згідно з наступною цікавою статтею «SITUATEDQA: включення екстралінгвістичних контекстів у QA» (Zhang & Choi, 2021), значна частина відповідей на запитання пошуку інформації залежить від контексту, наприклад, у наборі даних Natural Questions NQ-Open близько 16,5 %.
(NQ-Відкрито:
Я особисто вважаю, що в реальних випадках, з якими стикаються підприємства, ця частка буде більшою. Наприклад, скажімо, компанія створює чат-бота для підтримки клієнтів. Щоб цей чат-бот міг відповісти на будь-яке запитання клієнта щодо будь-якого продукту, необхідним контекстом, імовірно, буде історія клієнта або інформація про продукт. Оскільки мовна модель «навчається» з наданого їй контексту, цей процес також називають навчанням контексту.
Зображення вимагає контексту для запитів у службу підтримки клієнтів
Довжина контексту дуже важлива для RAG (Retrieval Enhanced Generation), і RAG став основним режимом у сценаріях застосування великої мовної моделі. Зокрема, генерація покращення пошуку в основному поділяється на два етапи:
**Фаза 1: розділення (також відоме як індексування)**розділення (також відоме як індексування)
Зберіть усі документи, які використовує LLM, розділіть ці документи на фрагменти, які можна додати до більшої моделі для створення вбудовувань, і зберігайте ці вбудовування у векторній базі даних.
Фаза 2: Запит
Коли користувач надсилає запит, наприклад «чи покриває мій страховий поліс певний препарат X», велика мовна модель перетворить цей запит на вбудовування, яке ми називаємо QUERY_EMBEDDING. Векторна база даних отримає блок, вбудовування якого найбільше схоже на QUERY_EMBEDDING.
Не завжди. Скільки контексту може використовувати модель і наскільки ефективно модель використовує контекст – дві різні проблеми. Працюючи над збільшенням довжини контексту моделі, ми також працюємо над підвищенням ефективності контексту. Деякі називають це «оперативним проектуванням» або «будівництвом». Наприклад, нещодавня стаття розповідає про те, як моделі можуть краще розуміти початок і кінець індексів, а не лише інформацію в середині - Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023).
3. Інша інтеграція моделі даних (мультимодальна)
На мою думку, мультимодальність є дуже потужною, але її також недооцінюють. Ось пояснення причин застосування мультимодальності:
По-перше, багато конкретних сценаріїв застосування вимагають мультимодальних даних, особливо в галузях із змішаними модальностями даних, таких як охорона здоров’я, робототехніка, електронна комерція, роздрібна торгівля, ігри та розваги. наприклад:
Для медичного обстеження часто потрібен текст (наприклад, записки лікаря, анкети пацієнтів) і зображення (наприклад, КТ, рентген, МРТ).
Метадані продукту зазвичай включають зображення, відео, описи та навіть табличні дані (такі як дата виробництва, вага, колір), оскільки з точки зору попиту вам може знадобитися автоматично заповнити відсутню інформацію про продукт на основі відгуків користувачів або фотографій продукту, або хочете дозволити користувачам здійснювати пошук продуктів за допомогою візуальної інформації, такої як форма чи колір.
По-друге, очікується, що мультимодальність значно покращить продуктивність моделі. Чи не повинна модель, яка розуміє і текст, і зображення, працювати краще, ніж модель, яка розуміє лише текст? Текстові моделі вимагають стільки тексту, що ми хвилюємося, що незабаром у нас закінчаться Інтернет-дані для навчання текстових моделей. Коли текст буде вичерпано, нам потрібно скористатися іншими шаблонами даних.
Нижче наведено серію документів і довідкових матеріалів, пов’язаних із мультимодальністю:
[CLIP] Вивчення візуальних моделей, які можна перенести, за допомогою контролю природної мови (OpenAI, 2021)
Flamingo: візуальна мовна модель для швидкого навчання (DeepMind, 2022)
BLIP-2: Попереднє навчання початкової мови й зображення за допомогою кодувальників заморожених зображень і великих мовних моделей (Salesforce, 2023)
КОСМОС-1: мова — це не все, що вам потрібно: узгодження сприйняття з мовними моделями (Microsoft, 2023)
PaLM-E: втілена мультимодальна мовна модель (Google, 2023)
LLaVA: Налаштування візуальних інструкцій (Liu et al., 2023)
NeVA: NeMo Vision and Language Assistant (NVIDIA, 2023)
4. Зробіть LLM швидшим і дешевшим
Коли GPT-3.5 було вперше випущено наприкінці листопада 2022 року, багато людей висловлювали занепокоєння щодо затримок і витрат на його використання у виробництві. Однак з тих пір аналіз затримки/вартості швидко змінився. Менш ніж за півроку спільнота знайшла спосіб створити модель, яка за продуктивністю дуже близька до GPT-3.5, але вимагає лише близько 2% обсягу пам’яті GPT-3.5.
Висновок: якщо ви створюєте щось достатньо хороше, люди знайдуть спосіб зробити це швидко та економічно ефективно.
Порівняння продуктивності Guanaco 7B із ChatGPT GPT-3.5 і GPT-4:
5. Створіть нову архітектуру моделі
Починаючи з AlexNet у 2012 році, ми спостерігали зростання та падіння багатьох архітектур, зокрема LSTM, seq2seq тощо. Порівняно з ними вплив Трансформера неймовірний. Трансформери існують з 2017 року, і як довго ця архітектура залишатиметься популярною, залишається відкритим питанням.
Непросто розробити нову архітектуру, щоб перевершити Transformer. Transformer зазнав багато оптимізації за останні 6 років, і ця нова архітектура має працювати на апаратному забезпеченні, яке цікавить людей, у тому масштабі, який їх цікавить сьогодні.
Примітка. Google спочатку розробив Transformer для швидкої роботи на TPU, а пізніше оптимізував його на GPU.
У 2021 році S4 лабораторії Кріса Ре привернув широку увагу, подробиці див. у статті «Ефективне моделювання довгих послідовностей зі структурованими просторами станів» (Gu et al., 2021). Лабораторія Кріса Ре все ще енергійно розробляє нові архітектури, однією з яких є Monarch Mixer (Fu, 2023), нещодавно розроблений у співпраці зі стартапом Together.
Їх основна ідея полягає в тому, що для існуючої архітектури Transformer складність уваги є квадратичною довжини послідовності, тоді як складність MLP є квадратичною розмірності моделі. Архітектури з субквадратичною складністю будуть більш ефективними.
6. Розробляйте альтернативи GPU
Починаючи з AlexNet у 2012 році, графічні процесори були домінуючим обладнанням для глибокого навчання. Фактично, однією із загальновизнаних причин популярності AlexNet є те, що це була перша стаття, яка успішно використовувала графічні процесори для навчання нейронних мереж. До появи графічних процесорів, якщо ви хотіли навчити модель у масштабі AlexNet, вам потрібно було б використовувати тисячі процесорів, як той, який Google випустив за кілька місяців до AlexNet. Порівняно з тисячами процесорів, кілька графічних процесорів є більш доступними для аспірантів і дослідників, що викликає бум досліджень глибокого навчання.
За останнє десятиліття багато компаній, як великих корпорацій, так і стартапів, намагалися створити нове апаратне забезпечення для штучного інтелекту. Найпомітніші спроби включають TPU від Google, IPU від Graphcore (як справи з IPU?) і Cerebras. SambaNova зібрала понад мільярд доларів на розробку нового чіпа штучного інтелекту, але, схоже, перетворилася на генеративну платформу штучного інтелекту.
Деякий час на квантові обчислення покладалися великі сподівання, серед ключових гравців яких були:
Ще один не менш захоплюючий напрямок — фотонні чіпи. Я мало знаю про цю сферу, тому виправте мене, якщо я помиляюся. Існуючі чіпи використовують електроенергію для передачі даних, що споживає багато енергії та створює затримки. Фотонні чіпи, з іншого боку, використовують фотони для передачі даних, використовуючи швидкість світла для швидших і ефективніших обчислень. Різні стартапи в цьому просторі залучили сотні мільйонів доларів, зокрема Lightmatter (270 мільйонів доларів), Ayar Labs (220 мільйонів доларів), Lightelligence (понад 200 мільйонів доларів) і Luminous Computing (115 мільйонів доларів).
Нижче наведено хронологію виконання трьох основних методів обчислення фотонної матриці, витягнуто зі статті «Фотонічне матричне множення освітлює фотонний прискорювач і далі» (Zhou, Nature 2022). Три різні підходи: планарна комутація світла (PLC), інтерферометр Маха-Цендера (MZI) і мультиплексування за довжиною хвилі (WDM).
7. Покращте зручність використання агентів
Агент відноситься до великої мовної моделі, яка може виконувати дії (її можна розуміти як агентів, які можуть виконувати різні завдання від вашого імені, тому її називають агентом), такі як перегляд Інтернету, надсилання електронних листів, бронювання тощо. Це, мабуть, один із найновіших напрямів у порівнянні з іншими напрямками досліджень у цій статті. Через новизну та великий потенціал самого Агента люди сповнені ентузіазму щодо Агента. А Auto-GPT тепер є 25-м найпопулярнішим репо на GitHub за кількістю зірок. GPT-Engineering — ще одне популярне репо.
Незважаючи на хвилювання в цьому напрямку, залишаються сумніви щодо того, чи великі мовні моделі є достатньо надійними та продуктивними, щоб мати можливість діяти. Однак з’явився прикладний сценарій, у якому Агенти використовуються для соціальних досліджень, як-от відомий Стенфордський експеримент, який показав, що невеликий кластер генеративних Агентів породжує нові соціальні поведінки: наприклад, починаючи з ідеї, заданої користувачем, Агент хоче щоб провести вечірку до Дня Святого Валентина, Агент автоматично розповсюджує запрошення на вечірку протягом наступних двох днів, знаходить нових друзів і запрошує один одного на вечірку... (Generate Agents: Interactive Simulacra of Human Behavior, Park et al., 2023),
Мабуть, найвизначнішим стартапом у цьому просторі є Adept, заснований двома колишніми співавторами Transformer і колишнім віце-президентом OpenAI, який на сьогодні зібрав майже 500 мільйонів доларів. Минулого року вони показали, як їхній агент може переглядати Інтернет і як додати новий обліковий запис до Salesforce.
8. Ітерація RLHF
RLHF (Reinforcement Learning from Human Feedback) — це круто, але трохи складно. Не було б дивно, якби люди знайшли кращі способи навчання LLM. Однак у RLHF все ще є багато невирішених проблем, таких як:
① Як виразити перевагу людини математичним способом?
Наразі переваги людини визначаються шляхом порівняння: людина-анотатор визначає, чи відповідь A краща за відповідь B. Однак він не враховує, наскільки відповідь A краща, ніж відповідь B.
②Що таке перевага людини?
Anthropic оцінює якість своїх моделей на основі результатів у трьох вимірах: корисний, чесний і нешкідливий. Див. Конституційний штучний інтелект: нешкідливість від зворотного зв’язку штучного інтелекту (Bai та ін., 2022).
DeepMind намагається генерувати відповіді, які сподобаються більшості людей. Див. Точне налаштування мовних моделей для досягнення згоди між людьми з різними уподобаннями (Баккер та ін., 2022).
Крім того, чи хочемо ми ШІ, який може зайняти позицію, чи традиційний ШІ, який уникає будь-яких потенційно суперечливих тем?
③Чиї уподобання є «людськими» уподобаннями? Чи слід брати до уваги відмінності в культурі, релігії, політичних уподобаннях тощо? Існує багато проблем, пов’язаних із отриманням навчальних даних, які достатньо репрезентують усіх потенційних користувачів.
Наприклад, для даних InstructGPT OpenAI немає анотаторів старше 65 років. Анотатори – переважно філіппінці та бангладешці. Див. InstructGPT: Навчання мовних моделей виконувати інструкції з відгуками людини (Ouyang et al., 2022).
Хоча зусилля під керівництвом громади заслуговують похвали за своїм наміром, вони можуть призвести до упереджених даних. Наприклад, для набору даних OpenAssistant 201 із 222 (90,5%) респондентів назвали себе чоловіками. У Джеремі Говарда є гарна тема у Twitter:
9. Підвищте ефективність інтерфейсу чату
Починаючи з ChatGPT, точаться дискусії про те, чи чат є придатним інтерфейсом для різноманітних завдань.
Докладніше див.
Природна мова — це ледачий інтерфейс користувача (Остін З. Хенлі, 2023)
Чому чат-боти — не майбутнє (Амелія Ваттенбергер, 2023)
Які типи запитань вимагають розмови, щоб отримати відповідь? Приклад із запитань AskReddit (Huang та ін., 2023)
Інтерфейс чату AI може стати основним інтерфейсом користувача для читання документації (Том Джонсон, 2023)
Взаємодія з магістрами права за допомогою мінімального чату (Євген Ян, 2023)
Однак це не нова тема. У багатьох країнах, особливо в Азії, чат використовується як інтерфейс супердодатків близько десяти років, про що Ден Гровер писав у 2014 році.
Про чат як інтерфейс (Алістер Кролл, 2016)
Чи є тенденція чат-ботів великим непорозумінням? (Вілл Найт, 2016)
Боти не замінять програми. Кращі програми замінять програми (Ден Гровер, 2016)
Мені особисто подобається інтерфейс чату з таких причин:
①Інтерфейс чату – це інтерфейс, яким усі, навіть ті, хто раніше не мав контакту з комп’ютерами чи Інтернетом, можуть швидко навчитися користуватися (універсальний). На початку 2010-х років, коли я працював волонтером у районі з низьким рівнем доходу в Кенії, я був вражений тим, наскільки всі там були знайомі з банківськими операціями по телефону за допомогою текстових повідомлень. Ніхто в цій спільноті не мав комп’ютера.
② Доступ до інтерфейсу чату простий. Якщо ваші руки зайняті іншими справами, використовуйте голос замість тексту.
③ Чат також є дуже потужним інтерфейсом – ви можете зробити будь-який запит до нього, і він відповість, навіть якщо відповідь не обов’язково ідеальна
Однак я думаю, що інтерфейс чату може продовжувати вдосконалюватися в деяких сферах:
① Можна обмінюватися кількома повідомленнями одночасно
Наразі ми в основному припускаємо лише один цикл повідомлень на обмін. Але це не те, як я пишу повідомлення з друзями. Зазвичай мені потрібно кілька повідомлень, щоб завершити свої думки, оскільки мені потрібно вставити різні дані (наприклад, зображення, місцезнаходження, посилання), можливо, я щось пропустив у попередньому повідомленні або просто не хочу поміщати все в одне великий абзац.
②Мультимодальний вхід
У сфері мультимодальних додатків більшість зусиль витрачається на створення кращих моделей і менше на створення кращих інтерфейсів. Візьмемо, наприклад, чат-бот NeVA від Nvidia. Я не експерт із взаємодії з користувачами, але думаю, що тут є місце для покращення.
Додаткова примітка: вибачте, що згадав тут команду NeVA, навіть з цим, хлопці, ви все ще робите дуже круту роботу!
Лінус Лі дуже добре описує це у своїй доповіді «Генеративний інтерфейс штучного інтелекту поза межами чатів». Наприклад, якщо ви хочете поставити запитання про певний стовпець у діаграмі, над якою ви працюєте, ви повинні мати можливість просто навести на цей стовпець і запитати.
④Редагування та видалення повідомлень
Як редагування або видалення введених користувачем даних змінить перебіг розмови з чат-ботом?
10. Створіть LLM для неанглійських мов
Ми знаємо, що поточні LLM для англійської як першої мови погано масштабуються для багатьох інших мов з точки зору продуктивності, затримки та швидкості. Побачити:
ChatGPT Beyond English: Towards a Comprehensive uation of Large Language Models in Multilingual Learning (Lai et al., 2023)
Усі мови НЕ створені (токенізовані) рівними (Єнні Джун, 2023 р.)
Це не стільки питання дослідження, скільки питання логістики. Ми вже знаємо, як це зробити, просто треба, щоб хтось вклав гроші та енергію. Однак це не зовсім правильно. Більшість мов вважаються мовами з низьким ресурсом, і для багатьох мов є набагато менш високоякісні дані порівняно з англійською чи китайською, наприклад, тому для навчання великих мовних моделей можуть знадобитися різні методи. Дивись також:
Мови з низьким ресурсом: огляд минулої роботи та майбутні виклики (Magueresse та ін., 2020)
JW300: Паралельний корпус із широким охопленням для мов із низьким ресурсом (Agić та ін., 2019)
Більш песимістичні вважають, що в майбутньому багато мов зникнуть, а Інтернет складатиметься з двох всесвітів двох мов: англійської та китайської. Ця тенденція не нова - хтось пам'ятає есперанто?
Вплив інструментів штучного інтелекту, таких як машинний переклад і чат-боти, на вивчення мови залишається незрозумілим. Чи допоможуть вони швидше вивчати нові мови, чи повністю позбавлять їх вивчення.
на завершення
Будь ласка, дайте мені знати, якщо я щось пропустив у цій статті, а щоб отримати додаткові погляди, перегляньте вичерпну статтю Проблеми та застосування великих мовних моделей (Kaddour та ін., 2023).
Наведені вище запитання складніші за інші. Наприклад, я вважаю, що питання 10 вище, налагодити LLM не англійською мовою, було б відносно простим за наявності достатнього часу та ресурсів.
Перша вищезгадана проблема полягає в тому, щоб зменшити вихід галюцинацій, що буде набагато важче, тому що галюцинація — це просто LLM, що виконує ймовірнісні дії.
По-четверте, зробити LLM швидшим і дешевшим ніколи не можна повністю вирішити. У цій сфері досягнуто великого прогресу, і в майбутньому буде ще більше, але вдосконалення в цьому напрямку триватимуть.
Пункти 5 і 6, нова архітектура та нове апаратне забезпечення, є дуже складними, але з часом вони неминучі. Через симбіотичний зв’язок між архітектурою та апаратним забезпеченням — нову архітектуру потрібно оптимізувати для загального апаратного забезпечення, а апаратне забезпечення має підтримувати загальну архітектуру, імовірно, вони будуть зроблені однією компанією.
Деякі проблеми неможливо вирішити лише технічними знаннями. Наприклад, питання 8, покращення методів навчання на основі людських уподобань, може бути скоріше питанням політики, ніж технічним. Проблема № 9 полягає в покращенні ефективності інтерфейсу чату, що більше стосується взаємодії з користувачем. Нам потрібно більше людей із нетехнічним досвідом, щоб працювати з нами над цими питаннями.
Який напрямок досліджень вас найбільше цікавить? Що, на вашу думку, є найбільш перспективним вирішенням цих проблем? Хотілося б почути вашу думку.