**Примітка редактора: у цій статті розглядаються десять найпоширеніших проблем у дослідженні великої мовної моделі (LLM). Автор — Чіп Гайен, яка закінчила Стенфордський університет і зараз є засновником Claypot AI, платформи машинного навчання в реальному часі. Вона раніше працював у NVIDIA, Snorkel AI, Netflix і Primer, розробляючи інструменти машинного навчання. **
Я є свідком безпрецедентної ситуації: так багато провідних умів світу зараз віддані єдиній меті «зробити мовні моделі (LLM) кращими».
Після розмови з багатьма колегами з промисловості та академічних кіл я спробував узагальнити десять основних напрямків досліджень, які процвітають:
1. Зменшіть і виміряйте галюцинації (Примітка редактора: галюцинації, галюцинації штучного інтелекту, тобто неправильні або безглузді частини виведення штучного інтелекту, хоча такі результати є синтаксично розумними)
2. Оптимізуйте довжину контексту та побудову контексту
3. Інтегруйте інші режими даних
4. Збільште швидкість і зменшіть витрати LLMs
5. Створіть нову архітектуру моделі
6. Розробка альтернатив GPU
7. Покращення доступності агента
8. Покращена здатність вчитися на людських уподобаннях
9. Підвищте ефективність інтерфейсу чату
10. Створення LLM для неанглійських мов
Серед них перші два напрямки, а саме зменшення «ілюзій» і «контекстуальне навчання», можуть бути найпопулярнішими на даний момент. Особисто мене найбільше цікавлять пункти 3 (мультимодальність), 5 (нова архітектура) і 6 (альтернативи GPU).
01 Зменшити та виміряти ілюзії
Це стосується явища, яке виникає, коли модель ШІ створює неправдивий вміст.
Ілюзія є неминучою якістю в багатьох ситуаціях, які вимагають творчості. Однак для більшості інших сценаріїв застосування це є недоліком.
Нещодавно я брав участь у дискусійній групі про LLM і спілкувався з людьми з таких компаній, як Dropbox, Langchain, Elastics і Anthropic, і вони вважають, що великомасштабне підприємство прийняття Найбільшою перешкодою для комерційного виробництва LLM є проблема ілюзії.
Пом’якшення явища галюцинацій і розробка показників для їх вимірювання є бурхливою темою досліджень, і багато стартапів зосереджені на вирішенні цієї проблеми.
Наразі існують деякі тимчасові методи зменшення галюцинацій, наприклад додавання більшого контексту, ланцюжків думок, самоузгодженості підказок або вимога, щоб вихідні дані моделі залишалися лаконічними.
Нижче наведено пов’язані виступи, на які ви можете посилатися
·Опитування галюцинацій у створенні природної мови (Ji та ін., 2022)·Як галюцинації мовної моделі можуть викликати сніжний ком (Zhang та ін., 2023)·Багатозадачність, багатомовність, мультимодальне використання ChatGPT щодо міркувань, галюцинацій та інтерактивності (Bang та ін., 2023)·Контрастивне навчання зменшує галюцинації під час розмов (Sun та ін., 2022)·Самоузгодженість покращує ланцюжок міркувань у мовних моделях (Ванг та ін., 2022)·SelfCheckGPT: Чорна скринька з нульовим ресурсом Виявлення галюцинацій для генеративних моделей великої мови (Манакул та ін., 2023)
02 Оптимізуйте довжину контексту та побудову контексту
Переважна більшість проблем, з якими стикається ШІ, вимагають контексту.
Наприклад, якщо ми запитуємо ChatGPT: «Який в’єтнамський ресторан найкращий?», необхідним контекстом може бути «де», оскільки найкращий ресторан у В’єтнамі може відрізнятися від найкращого в’єтнамського ресторану в Сполучених Штатах.
Згідно з цікавою статтею «SituatedQA» (Zhang & Choi, 2021), значна частка питань пошуку інформації мають контекстно-залежні відповіді. Наприклад, приблизно 16,5% запитань у наборі даних NQ-Open є такого типу. .
Я особисто вважаю, що для сценаріїв корпоративних додатків це співвідношення може бути навіть вищим. Припустімо, що компанія створює чат-бота для клієнтів. Якщо робот хоче відповісти на будь-яке запитання клієнта щодо будь-якого продукту, необхідним контекстом може бути історія клієнта або інформація про продукт.
Оскільки модель «навчається» з наданого їй контексту, цей процес також відомий як контекстне навчання.
Для генерації покращеного пошуку (RAG, який також є основним методом у прикладному напрямку LLM), довжина контексту особливо важлива.
RAG можна просто розділити на два етапи:
Фаза 1: фрагментація (також називається індексуванням)
Зберіть усі документи, які використовуватимуться LLM, розділіть ці документи на частини, які можна буде передати в LLM для створення вбудовувань, і зберігайте ці вбудовування у векторній базі даних.
Другий етап: запит
Коли користувач надсилає запит, наприклад «Чи покриє мій страховий поліс цей препарат
Малюнок: знімок екрана з виступу Джеррі Лю на LlamaIndex (2023)
Чим більше довжина контексту, тим більше блоків ми можемо вставити в контекст. Але чи чим більше інформації матиме доступ модель, тим кращими будуть її відповіді?
Це не завжди так. Скільки контексту може використовувати модель і наскільки ефективно модель використовуватиметься – два різні питання. Настільки ж важливим, ніж збільшення довжини контексту моделі, є більш ефективне вивчення контексту, яке також називається «технікою підказок».
Недавня широко розповсюджена стаття показує, що моделі набагато краще розуміють інформацію з початку та кінця індексу, ніж із середини: «Загублені посередині: як мовні моделі використовують довгі контексти» (Liu et al., 2023).
03Інтегрувати інші режими даних
На мій погляд, мультимодальність настільки потужна, але її часто недооцінюють.
По-перше, багато сценаріїв застосування в реальному житті вимагають обробки великих обсягів мультимодальних даних, таких як охорона здоров’я, робототехніка, електронна комерція, роздрібна торгівля, ігри, розваги тощо. Медичні прогнози вимагають використання як тексту (наприклад, записки лікарів, анкети пацієнтів), так і зображень (таких як КТ, рентген, МРТ); дані про продукт часто включають зображення, відео, описи та навіть табличні дані (наприклад, дата виготовлення, вага, колір).
По-друге, мультимодальність обіцяє значно покращити продуктивність моделі. Хіба модель, яка може розуміти як текст, так і зображення, не працюватиме краще, ніж модель, яка може розуміти лише текст? Текстові моделі вимагають великої кількості текстових даних, і зараз ми справді стурбовані тим, що не вистачить Інтернет-даних для навчання текстових моделей. Коли текст буде вичерпано, нам потрібно використовувати інші модальності даних.
Одним із напрямків застосування, який мене особливо хвилює останнім часом, є те, що мультимодальна технологія може допомогти людям із вадами зору переглядати Інтернет і орієнтуватися в реальному світі.
Нижче наведено кілька видатних мультимодальних дослідницьких розробок:· [CLIP] Вивчення візуальних моделей, які можна передавати за допомогою нагляду за природною мовою (OpenAI, 2021)·Flamingo: візуальна модель мови для швидкого вивчення (DeepMind, 2022)·BLIP-2: Попереднє навчання мовному зображенню початкового рівня за допомогою кодувальників заморожених зображень і великих мовних моделей (Salesforce, 2023)·KOSMOS-1: мова — це не все, що вам потрібно: узгодження сприйняття з мовними моделями (Microsoft, 2023)·PaLM-E: втілена мультимодальна мовна модель (Google, 2023)·LLaVA: налаштування візуальних інструкцій (Liu et al., 2023)·NeVA: NeMo Vision and Language Assistant (NVIDIA, 2023)
04Підвищення швидкості та зниження витрат LLMs
Коли GPT-3.5 було вперше запущено наприкінці листопада 2022 року, багато людей висловлювали занепокоєння щодо затримок і вартості використання моделі у виробництві.
Тепер аналіз затримки/вартості, викликаний використанням GPT-3.5, отримав новий поворот. Протягом півроку вся модельна спільнота знайшла новий спосіб створити модель, яка була майже близькою до GPT-3.5 за продуктивністю, але з менш ніж 2% пам’яті.
Одна з моїх тез: якщо ви створюєте щось достатньо хороше, хтось інший знайде спосіб зробити це швидким і економічно ефективним.
Наведені нижче дані базуються на даних, наведених у документі Guanaco, у якому порівнюється продуктивність Guanaco 7B із ChatGPT GPT-3.5 і GPT-4.
Важливо відзначити, що в цілому продуктивність цих моделей далека від досконалості. Для LLM все ще дуже важко значно підвищити продуктивність.
Пам’ятаю, чотири роки тому, коли я почав писати примітки до розділу «Стиснення моделі» книги «Проектування систем машинного навчання», у галузі було чотири основні методи оптимізації/стиснення моделей:
Кількісна оцінка: на сьогоднішній день найпоширеніший метод оптимізації моделі. Квантування зменшує розмір моделі за рахунок використання меншої кількості бітів для представлення параметрів моделі.Наприклад, замість використання 32 бітів для представлення чисел з плаваючою комою використовуються лише 16 або навіть 4 біти.
Дестиляція знань: тобто навчання маленької моделі (модель учня), яка може імітувати більшу модель або набір моделей (модель вчителя).
Розкладання низького рангу: його ключова ідея полягає у використанні тензорів низької розмірності для заміни тензорів високої розмірності для зменшення кількості параметрів. Наприклад, тензор 3x3 можна розкласти на добуток тензора 3x1 і тензора 1x3, щоб замість 9 параметрів було лише 6 параметрів.
Обрізка: стосується зменшення розміру моделі шляхом видалення вантажів або з’єднань у моделі, які менше впливають на загальну продуктивність.
Ці чотири техніки популярні й сьогодні. Альпака навчається за допомогою дистиляції знань, тоді як QLoRA використовує комбінацію низькорангового розкладання та квантування.
05Розробити архітектуру нової моделі
Починаючи з AlexNet у 2012 році, ми бачили багато архітектур, які з’являлися та зникали, включаючи LSTM, seq2seq тощо.
У порівнянні з цими архітектурами Transformer, який був запущений у 2017 році, є надзвичайно стабільним, хоча незрозуміло, як довго ця архітектура буде популярною.
Непросто розробити нову архітектуру, яка може перевершити Transformer. За останні 6 років Transformer було багато оптимізовано. За допомогою відповідного апаратного забезпечення масштаб і ефект цієї моделі можуть досягти неймовірних результатів (PS: Transformer спочатку був розроблений Google для швидкої роботи на TPU, а пізніше був оптимізований на GPU).
У 2021 році дослідження «Ефективне моделювання довгих послідовностей зі структурованими просторами станів» (Gu et al., 2021), проведене лабораторією Кріса Ре, викликало багато дискусій у галузі. Я не знаю, що сталося далі. Але Chris Ré Labs все ще активно розробляє нові архітектури, і нещодавно вони запустили архітектуру під назвою Monarch Mixer у партнерстві зі стартапом Together.
Їх основна ідея полягає в тому, що для існуючої архітектури Transformer складність уваги пропорційна квадрату довжини послідовності, а складність MLP пропорційна квадрату розмірності моделі. Архітектури з субквадратичною складністю будуть більш ефективними.
Я впевнений, що багато інших лабораторій досліджують цю ідею, хоча я не знаю жодних досліджень, які публічно пробували це. Якщо ви знаєте прогрес, зв'яжіться зі мною!
06Розробка альтернатив GPU
З моменту появи AlexNet у 2012 році графічний процесор був основним обладнанням для глибокого навчання.
Фактично, одна із загальновизнаних причин популярності AlexNet полягає в тому, що це була перша стаття, яка успішно використовувала графічні процесори для навчання нейронних мереж. До графічних процесорів, якщо ви хотіли навчити модель розміром з AlexNet, вам знадобилися тисячі процесорів, як і сервер, який Google випустив за кілька місяців до AlexNet.
Порівняно з тисячами процесорів, кілька графічних процесорів є більш доступними для аспірантів і дослідників, що викликає бум досліджень глибокого навчання.
За останнє десятиліття багато компаній, як великих, так і стартапів, намагалися створити нове апаратне забезпечення для штучного інтелекту. Найбільш заслуговують на увагу спроби включають TPU від Google, IPU від Graphcore та Cerebras. SambaNova також зібрала понад 1 мільярд доларів на розробку нових чіпів штучного інтелекту, але, схоже, вона перетворилася на генеративну платформу штучного інтелекту.
У цей період квантові обчислення також викликали багато очікувань, серед яких основні гравці включають:
·Квантовий процесор IBM
· Квантовий комп’ютер Google. На початку цього року в журналі Nature було повідомлено про важливу віху у зменшенні квантової помилки. Його квантова віртуальна машина є загальнодоступною через Google Colab.
· Дослідницькі лабораторії в університетах, таких як Центр квантової інженерії MIT, Інститут квантової оптики Макса Планка, Чиказький центр квантового обміну тощо.
Ще один не менш захоплюючий напрямок — фотонні чіпи. Це напрямок, про який я найменше знаю. Якщо є якісь помилки, виправте мене.
Існуючі чіпи використовують електроенергію для передачі даних, що споживає багато енергії та створює затримку. Фотонні чіпи використовують фотони для передачі даних, використовуючи швидкість світла для швидших і ефективніших обчислень. Різні стартапи в цьому просторі залучили сотні мільйонів доларів, зокрема Lightmatter (270 мільйонів доларів), Ayar Labs (220 мільйонів доларів), Lightelligence (понад 200 мільйонів доларів) і Luminous Computing (115 мільйонів доларів).
Нижче наведено хронологію виконання трьох основних методів обчислення фотонної матриці, витягнуту з фотонного прискорювача Photonic matrix multiplication lights up і далі (Zhou et al., Nature 2022). Три різні методи: планарне перетворення світла (PLC), інтерферометр Маха-Цендера (MZI) і мультиплексування за довжиною хвилі (WDM).
07Покращення доступності агента
Агентів можна розглядати як LLM, які можуть виконувати дії, наприклад переглядати Інтернет, надсилати електронні листи тощо. Порівняно з іншими напрямками досліджень у цій статті, це може бути наймолодшим напрямком.
Інтерес до агентів великий через їх новизну та великий потенціал. Auto-GPT тепер є 25-ю найпопулярнішою бібліотекою за кількістю зірок на GitHub. GPT-Engineering також є ще однією популярною бібліотекою.
Незважаючи на це, все ще існують сумніви щодо того, чи LLM є достатньо надійними, достатньо ефективними та мають певні експлуатаційні можливості.
Зараз є цікавий прикладний напрямок, який полягає у використанні агентів для соціальних досліджень. Стенфордський експеримент показав, що невелика група генеративних агентів створила емерджентну соціальну поведінку: починаючи лише з однієї ідеї, заданої користувачем, про те, що один агент хоче влаштувати вечірку до Дня Святого Валентина, кілька інших агентів автономно поширювали її протягом наступних двох днів. Запрошення на вечірки, заведення нових друзів, запрошення один одного на вечірки... (Генеративні агенти: інтерактивні симулякри людської поведінки, Парк та ін., 2023).
Мабуть, найвизначнішим стартапом у цьому просторі є Adept, заснований двома співавторами Transformer (хоча обидва згодом пішли) і колишнім віце-президентом OpenAI, і який зібрав майже 500 мільйонів доларів на сьогоднішній день. Минулого року вони показали, як їхній агент може переглядати Інтернет і додавати нові облікові записи в Salesforce. Я з нетерпінням чекаю їхньої нової демонстрації 🙂.
08 Поліпшення здатності вчитися на людських уподобаннях
RLHF (Reinforcement Learning from Human Preference) — це круто, але трохи втомливо.
Я не здивований, що люди знайдуть кращі способи підготовки магістрів права. Є багато відкритих питань щодо RLHF, таких як:
·Як математично представити людські вподобання?
Наразі переваги людини визначаються шляхом порівняння: людина-анотатор визначає, чи відповідь A краща за відповідь B. Однак він не враховує, наскільки відповідь A краща або гірша за відповідь B.
·Які людські переваги?
Anthropic вимірює якість відповідей моделі за трьома параметрами: корисність, чесність і нешкідливість. Довідкова стаття: Конституційний штучний інтелект: нешкідливість із зворотного зв’язку штучного інтелекту (Бай та ін., 2022).
DeepMind намагається генерувати відповіді, які найкраще сподобаються більшості людей. Довідкова стаття: Тонка настройка мовних моделей для досягнення згоди між людьми з різними уподобаннями (Баккер та ін., 2022).
Крім того, чи хочемо ми штучний інтелект, який може зайняти позицію, чи загальний штучний інтелект, який уникає обговорення будь-якої потенційно суперечливої теми?
· Чиї переваги є «людськими» перевагами, беручи до уваги відмінності в культурі, релігії, політичних уподобаннях тощо?
Існує багато проблем, пов’язаних із отриманням навчальних даних, які достатньо репрезентують усіх потенційних користувачів.
Наприклад, дані InstructGPT OpenAI не мають анотаторів старше 65 років. Тегери в основному філіппінці та бангладешці. Довідкова стаття: InstructGPT: Навчання мовних моделей виконувати інструкції з відгуками людини (Ouyang та ін., 2022).
Незважаючи на те, що початкові наміри зусиль спільноти штучного інтелекту в останні роки викликають захоплення, упередженість даних все ще існує. Наприклад, у наборі даних OpenAssistant 201 із 222 респондентів (90,5%) назвали себе чоловіками. Джеремі Ховард опублікував у Twitter серію твітів про цю проблему.
09Підвищення ефективності інтерфейсу чату
З моменту появи ChatGPT триває дискусія про те, чи підходить чат для широкого кола завдань. наприклад:
· Природна мова — це ледачий інтерфейс користувача (Остін З. Хенлі, 2023)
·Чому чат-боти — це не майбутнє (Амелія Ваттенбергер, 2023)
· Які типи запитань вимагають розмови, щоб отримати відповідь? Приклад із запитань AskReddit (Huang та ін., 2023)
·Інтерфейс чату AI може стати основним інтерфейсом користувача для читання документації (Том Джонсон, 2023)
· Взаємодія з магістрами права за допомогою мінімального чату (Юджин Ян, 2023)
Однак це не нова дискусія. У багатьох країнах, особливо в Азії, чат використовувався як інтерфейс для суперпрограм уже близько десяти років. Ден Гровер обговорював це явище в 2014 році.
У 2016 році ця дискусія знову стала гарячою, і багато людей вважали, що існуючі типи додатків застаріли, а за чат-ботами майбутнє. Наприклад, такі дослідження:
·Про чат як інтерфейс (Алістер Кролл, 2016)
· Чи є тенденція чат-ботів одним великим непорозумінням? (Вілл Найт, 2016)
· Боти не замінять програми. Кращі програми замінять програми (Ден Гровер, 2016)
Особисто мені подобається інтерфейс чату з таких причин:
Кожен (навіть люди, які не мають досвіду роботи з комп’ютером чи Інтернетом) може швидко навчитися користуватися інтерфейсом чату.
Коли я був волонтером у районі з низьким рівнем доходу в Кенії на початку 2010-х років, я був здивований, побачивши, наскільки комфортно всі там користуються банківськими повідомленнями на телефоні. Навіть якщо ніхто в цій спільноті не має комп’ютера.
Інтерфейс чату зазвичай простий. Ми також можемо використовувати мову замість тексту, якщо наші руки зайняті іншими справами.
Інтерфейс чату також є дуже потужним інтерфейсом.Він відповість на будь-який запит користувача, навіть якщо деякі з відповідей не дуже хороші.
Однак я думаю, що є деякі області, де інтерфейс чату можна було б покращити:
·Кілька повідомлень за один раунд
Наразі ми майже припускаємо, що є лише одне повідомлення за раз. Але коли ми з друзями пишемо текстові повідомлення, для завершення чату часто потрібно кілька повідомлень, оскільки мені потрібно вставити різні дані (наприклад, зображення, місцезнаходження, посилання), я забув щось із попереднього повідомлення або просто не хочу вписувати все в один великий абзац.
· Мультимодальний вхід
У сфері мультимодальних додатків більшість зусиль витрачається на створення кращих моделей і менше на створення кращих інтерфейсів. Візьмемо як приклад чат-бот NeVA від NVIDIA. Я не експерт із взаємодії з користувачами, але думаю, що тут є місце для вдосконалення.
PS Вибачте, команда NeVA, що назвали вас. Все-таки ваша робота чудова!
Малюнок: інтерфейс NeVA від NVIDIA
· Інтегруйте генеративний ШІ в робочі процеси
Лінус Лі дуже добре описує це у своїй доповіді «Генеративний інтерфейс AI поза межами чатів». Наприклад, якщо ви хочете поставити запитання про стовпець діаграми, над яким ви працюєте, ви повинні мати можливість просто вказати на цей стовпець і запитати.
·Редагувати та видаляти повідомлення
Як редагування або видалення даних користувача змінює хід розмови з чат-ботом?
10 Створення LLM для неанглійських мов
Ми знаємо, що поточні LLM під керівництвом англійської мови погано працюють на багатьох інших мовах, чи то з точки зору продуктивності, затримки чи швидкості.
Ось відповідні дослідження, на які ви можете посилатися:
·ChatGPT Beyond English: Towards a Comprehensive uation of Large Language Models in Multilingual Learning (Lai et al., 2023)
· Усі мови НЕ створені (токенізовані) рівними (Єнні Джун, 2023 р.)
Деякі читачі сказали мені, що вони не думають, що я повинен йти в цьому напрямку з двох причин.
Це більше «логістичне» питання, ніж питання дослідження. Ми вже знаємо, як це зробити. Просто комусь потрібно докласти грошей і зусиль.
Це не зовсім правильно. Більшість мов вважаються мовами з низьким ресурсом, оскільки вони мають набагато менш якісні дані, ніж, наприклад, англійська чи китайська, і можуть вимагати інших методів для навчання великих мовних моделей.
Ось відповідні дослідження, на які ви можете посилатися:
·Мови з низьким ресурсом: огляд минулої роботи та майбутні виклики (Magueresse та ін., 2020)
·JW300: Паралельний корпус із широким охопленням для мов із низьким ресурсом (Agić та ін., 2019)
Ті, хто більш песимістично налаштований, вважають, що в майбутньому багато мов вимруть, а Інтернет буде двома світами, які складатимуться з двох мов: англійської та китайської. Такий спосіб мислення не новий. Хтось пам'ятає есперанто?
Вплив інструментів ШІ, таких як машинний переклад і чат-боти, на вивчення мови залишається незрозумілим. Чи допоможуть вони швидше вивчати нові мови, чи взагалі позбавлять від необхідності вивчати нові мови?
на завершення
З 10 проблем, згаданих вище, деякі справді складніші за інші.
Наприклад, я думаю, що пункт 10 «Створення LLM для неанглійських мов» більш прямо вказує на достатній час і ресурси.
Пункт 1, зменшення галюцинацій, буде складнішим, оскільки галюцинації — це лише LLM, які виконують своє ймовірнісне завдання.
Пункт 4, який робить LLM швидшими та дешевшими, ніколи не досягне повністю розв’язаного стану. У цій сфері було досягнуто значного прогресу, і ще попереду, але ми ніколи не зупинимося на вдосконаленні.
Пункти 5 і 6, нова архітектура та нове апаратне забезпечення, є дуже складними та неминучими. Через симбіотичні відносини між архітектурою та обладнанням нові архітектури потрібно оптимізувати для загального обладнання, а обладнання має підтримувати загальні архітектури. Вони можуть розраховуватися однією компанією.
Деякі з цих проблем можна вирішити за допомогою не лише технічних знань. Наприклад, пункт 8 «Поліпшення навчання на основі людських уподобань» може бути більше стратегічним питанням, ніж технічним.
Пункт 9, покращення ефективності інтерфейсу чату, більше стосується взаємодії з користувачем. Нам потрібно більше людей із нетехнічним досвідом, які працюватимуть разом, щоб вирішити ці проблеми.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Найкращих талантів у моделюванні мови цікавлять лише ці 10 викликів
Джерело: Silicon Rabbit Racing
Автор: Лін Джу Редактор: Ман Манчжоу
**Примітка редактора: у цій статті розглядаються десять найпоширеніших проблем у дослідженні великої мовної моделі (LLM). Автор — Чіп Гайен, яка закінчила Стенфордський університет і зараз є засновником Claypot AI, платформи машинного навчання в реальному часі. Вона раніше працював у NVIDIA, Snorkel AI, Netflix і Primer, розробляючи інструменти машинного навчання. **
Я є свідком безпрецедентної ситуації: так багато провідних умів світу зараз віддані єдиній меті «зробити мовні моделі (LLM) кращими».
Після розмови з багатьма колегами з промисловості та академічних кіл я спробував узагальнити десять основних напрямків досліджень, які процвітають:
1. Зменшіть і виміряйте галюцинації (Примітка редактора: галюцинації, галюцинації штучного інтелекту, тобто неправильні або безглузді частини виведення штучного інтелекту, хоча такі результати є синтаксично розумними)
2. Оптимізуйте довжину контексту та побудову контексту
3. Інтегруйте інші режими даних
4. Збільште швидкість і зменшіть витрати LLMs
5. Створіть нову архітектуру моделі
6. Розробка альтернатив GPU
7. Покращення доступності агента
8. Покращена здатність вчитися на людських уподобаннях
9. Підвищте ефективність інтерфейсу чату
10. Створення LLM для неанглійських мов
Серед них перші два напрямки, а саме зменшення «ілюзій» і «контекстуальне навчання», можуть бути найпопулярнішими на даний момент. Особисто мене найбільше цікавлять пункти 3 (мультимодальність), 5 (нова архітектура) і 6 (альтернативи GPU).
01 Зменшити та виміряти ілюзії
Це стосується явища, яке виникає, коли модель ШІ створює неправдивий вміст.
Ілюзія є неминучою якістю в багатьох ситуаціях, які вимагають творчості. Однак для більшості інших сценаріїв застосування це є недоліком.
Нещодавно я брав участь у дискусійній групі про LLM і спілкувався з людьми з таких компаній, як Dropbox, Langchain, Elastics і Anthropic, і вони вважають, що великомасштабне підприємство прийняття Найбільшою перешкодою для комерційного виробництва LLM є проблема ілюзії.
Пом’якшення явища галюцинацій і розробка показників для їх вимірювання є бурхливою темою досліджень, і багато стартапів зосереджені на вирішенні цієї проблеми.
Наразі існують деякі тимчасові методи зменшення галюцинацій, наприклад додавання більшого контексту, ланцюжків думок, самоузгодженості підказок або вимога, щоб вихідні дані моделі залишалися лаконічними.
Нижче наведено пов’язані виступи, на які ви можете посилатися
·Опитування галюцинацій у створенні природної мови (Ji та ін., 2022)·Як галюцинації мовної моделі можуть викликати сніжний ком (Zhang та ін., 2023)·Багатозадачність, багатомовність, мультимодальне використання ChatGPT щодо міркувань, галюцинацій та інтерактивності (Bang та ін., 2023)·Контрастивне навчання зменшує галюцинації під час розмов (Sun та ін., 2022)·Самоузгодженість покращує ланцюжок міркувань у мовних моделях (Ванг та ін., 2022)·SelfCheckGPT: Чорна скринька з нульовим ресурсом Виявлення галюцинацій для генеративних моделей великої мови (Манакул та ін., 2023)
02 Оптимізуйте довжину контексту та побудову контексту
Переважна більшість проблем, з якими стикається ШІ, вимагають контексту.
Наприклад, якщо ми запитуємо ChatGPT: «Який в’єтнамський ресторан найкращий?», необхідним контекстом може бути «де», оскільки найкращий ресторан у В’єтнамі може відрізнятися від найкращого в’єтнамського ресторану в Сполучених Штатах.
Згідно з цікавою статтею «SituatedQA» (Zhang & Choi, 2021), значна частка питань пошуку інформації мають контекстно-залежні відповіді. Наприклад, приблизно 16,5% запитань у наборі даних NQ-Open є такого типу. .
Я особисто вважаю, що для сценаріїв корпоративних додатків це співвідношення може бути навіть вищим. Припустімо, що компанія створює чат-бота для клієнтів. Якщо робот хоче відповісти на будь-яке запитання клієнта щодо будь-якого продукту, необхідним контекстом може бути історія клієнта або інформація про продукт.
Оскільки модель «навчається» з наданого їй контексту, цей процес також відомий як контекстне навчання.
RAG можна просто розділити на два етапи:
Фаза 1: фрагментація (також називається індексуванням)
Зберіть усі документи, які використовуватимуться LLM, розділіть ці документи на частини, які можна буде передати в LLM для створення вбудовувань, і зберігайте ці вбудовування у векторній базі даних.
Другий етап: запит
Коли користувач надсилає запит, наприклад «Чи покриє мій страховий поліс цей препарат
Чим більше довжина контексту, тим більше блоків ми можемо вставити в контекст. Але чи чим більше інформації матиме доступ модель, тим кращими будуть її відповіді?
Це не завжди так. Скільки контексту може використовувати модель і наскільки ефективно модель використовуватиметься – два різні питання. Настільки ж важливим, ніж збільшення довжини контексту моделі, є більш ефективне вивчення контексту, яке також називається «технікою підказок».
Недавня широко розповсюджена стаття показує, що моделі набагато краще розуміють інформацію з початку та кінця індексу, ніж із середини: «Загублені посередині: як мовні моделі використовують довгі контексти» (Liu et al., 2023).
03Інтегрувати інші режими даних
На мій погляд, мультимодальність настільки потужна, але її часто недооцінюють.
По-перше, багато сценаріїв застосування в реальному житті вимагають обробки великих обсягів мультимодальних даних, таких як охорона здоров’я, робототехніка, електронна комерція, роздрібна торгівля, ігри, розваги тощо. Медичні прогнози вимагають використання як тексту (наприклад, записки лікарів, анкети пацієнтів), так і зображень (таких як КТ, рентген, МРТ); дані про продукт часто включають зображення, відео, описи та навіть табличні дані (наприклад, дата виготовлення, вага, колір).
По-друге, мультимодальність обіцяє значно покращити продуктивність моделі. Хіба модель, яка може розуміти як текст, так і зображення, не працюватиме краще, ніж модель, яка може розуміти лише текст? Текстові моделі вимагають великої кількості текстових даних, і зараз ми справді стурбовані тим, що не вистачить Інтернет-даних для навчання текстових моделей. Коли текст буде вичерпано, нам потрібно використовувати інші модальності даних.
Нижче наведено кілька видатних мультимодальних дослідницьких розробок:· [CLIP] Вивчення візуальних моделей, які можна передавати за допомогою нагляду за природною мовою (OpenAI, 2021)·Flamingo: візуальна модель мови для швидкого вивчення (DeepMind, 2022)·BLIP-2: Попереднє навчання мовному зображенню початкового рівня за допомогою кодувальників заморожених зображень і великих мовних моделей (Salesforce, 2023)·KOSMOS-1: мова — це не все, що вам потрібно: узгодження сприйняття з мовними моделями (Microsoft, 2023)·PaLM-E: втілена мультимодальна мовна модель (Google, 2023)·LLaVA: налаштування візуальних інструкцій (Liu et al., 2023)·NeVA: NeMo Vision and Language Assistant (NVIDIA, 2023)
04Підвищення швидкості та зниження витрат LLMs
Коли GPT-3.5 було вперше запущено наприкінці листопада 2022 року, багато людей висловлювали занепокоєння щодо затримок і вартості використання моделі у виробництві.
Тепер аналіз затримки/вартості, викликаний використанням GPT-3.5, отримав новий поворот. Протягом півроку вся модельна спільнота знайшла новий спосіб створити модель, яка була майже близькою до GPT-3.5 за продуктивністю, але з менш ніж 2% пам’яті.
Одна з моїх тез: якщо ви створюєте щось достатньо хороше, хтось інший знайде спосіб зробити це швидким і економічно ефективним.
Важливо відзначити, що в цілому продуктивність цих моделей далека від досконалості. Для LLM все ще дуже важко значно підвищити продуктивність.
Пам’ятаю, чотири роки тому, коли я почав писати примітки до розділу «Стиснення моделі» книги «Проектування систем машинного навчання», у галузі було чотири основні методи оптимізації/стиснення моделей:
Кількісна оцінка: на сьогоднішній день найпоширеніший метод оптимізації моделі. Квантування зменшує розмір моделі за рахунок використання меншої кількості бітів для представлення параметрів моделі.Наприклад, замість використання 32 бітів для представлення чисел з плаваючою комою використовуються лише 16 або навіть 4 біти.
Дестиляція знань: тобто навчання маленької моделі (модель учня), яка може імітувати більшу модель або набір моделей (модель вчителя).
Розкладання низького рангу: його ключова ідея полягає у використанні тензорів низької розмірності для заміни тензорів високої розмірності для зменшення кількості параметрів. Наприклад, тензор 3x3 можна розкласти на добуток тензора 3x1 і тензора 1x3, щоб замість 9 параметрів було лише 6 параметрів.
Обрізка: стосується зменшення розміру моделі шляхом видалення вантажів або з’єднань у моделі, які менше впливають на загальну продуктивність.
Ці чотири техніки популярні й сьогодні. Альпака навчається за допомогою дистиляції знань, тоді як QLoRA використовує комбінацію низькорангового розкладання та квантування.
05Розробити архітектуру нової моделі
Починаючи з AlexNet у 2012 році, ми бачили багато архітектур, які з’являлися та зникали, включаючи LSTM, seq2seq тощо.
У порівнянні з цими архітектурами Transformer, який був запущений у 2017 році, є надзвичайно стабільним, хоча незрозуміло, як довго ця архітектура буде популярною.
Непросто розробити нову архітектуру, яка може перевершити Transformer. За останні 6 років Transformer було багато оптимізовано. За допомогою відповідного апаратного забезпечення масштаб і ефект цієї моделі можуть досягти неймовірних результатів (PS: Transformer спочатку був розроблений Google для швидкої роботи на TPU, а пізніше був оптимізований на GPU).
У 2021 році дослідження «Ефективне моделювання довгих послідовностей зі структурованими просторами станів» (Gu et al., 2021), проведене лабораторією Кріса Ре, викликало багато дискусій у галузі. Я не знаю, що сталося далі. Але Chris Ré Labs все ще активно розробляє нові архітектури, і нещодавно вони запустили архітектуру під назвою Monarch Mixer у партнерстві зі стартапом Together.
Їх основна ідея полягає в тому, що для існуючої архітектури Transformer складність уваги пропорційна квадрату довжини послідовності, а складність MLP пропорційна квадрату розмірності моделі. Архітектури з субквадратичною складністю будуть більш ефективними.
06Розробка альтернатив GPU
З моменту появи AlexNet у 2012 році графічний процесор був основним обладнанням для глибокого навчання.
Фактично, одна із загальновизнаних причин популярності AlexNet полягає в тому, що це була перша стаття, яка успішно використовувала графічні процесори для навчання нейронних мереж. До графічних процесорів, якщо ви хотіли навчити модель розміром з AlexNet, вам знадобилися тисячі процесорів, як і сервер, який Google випустив за кілька місяців до AlexNet.
Порівняно з тисячами процесорів, кілька графічних процесорів є більш доступними для аспірантів і дослідників, що викликає бум досліджень глибокого навчання.
За останнє десятиліття багато компаній, як великих, так і стартапів, намагалися створити нове апаратне забезпечення для штучного інтелекту. Найбільш заслуговують на увагу спроби включають TPU від Google, IPU від Graphcore та Cerebras. SambaNova також зібрала понад 1 мільярд доларів на розробку нових чіпів штучного інтелекту, але, схоже, вона перетворилася на генеративну платформу штучного інтелекту.
У цей період квантові обчислення також викликали багато очікувань, серед яких основні гравці включають:
·Квантовий процесор IBM
· Квантовий комп’ютер Google. На початку цього року в журналі Nature було повідомлено про важливу віху у зменшенні квантової помилки. Його квантова віртуальна машина є загальнодоступною через Google Colab.
· Дослідницькі лабораторії в університетах, таких як Центр квантової інженерії MIT, Інститут квантової оптики Макса Планка, Чиказький центр квантового обміну тощо.
Ще один не менш захоплюючий напрямок — фотонні чіпи. Це напрямок, про який я найменше знаю. Якщо є якісь помилки, виправте мене.
Існуючі чіпи використовують електроенергію для передачі даних, що споживає багато енергії та створює затримку. Фотонні чіпи використовують фотони для передачі даних, використовуючи швидкість світла для швидших і ефективніших обчислень. Різні стартапи в цьому просторі залучили сотні мільйонів доларів, зокрема Lightmatter (270 мільйонів доларів), Ayar Labs (220 мільйонів доларів), Lightelligence (понад 200 мільйонів доларів) і Luminous Computing (115 мільйонів доларів).
Нижче наведено хронологію виконання трьох основних методів обчислення фотонної матриці, витягнуту з фотонного прискорювача Photonic matrix multiplication lights up і далі (Zhou et al., Nature 2022). Три різні методи: планарне перетворення світла (PLC), інтерферометр Маха-Цендера (MZI) і мультиплексування за довжиною хвилі (WDM).
07Покращення доступності агента
Агентів можна розглядати як LLM, які можуть виконувати дії, наприклад переглядати Інтернет, надсилати електронні листи тощо. Порівняно з іншими напрямками досліджень у цій статті, це може бути наймолодшим напрямком.
Інтерес до агентів великий через їх новизну та великий потенціал. Auto-GPT тепер є 25-ю найпопулярнішою бібліотекою за кількістю зірок на GitHub. GPT-Engineering також є ще однією популярною бібліотекою.
Незважаючи на це, все ще існують сумніви щодо того, чи LLM є достатньо надійними, достатньо ефективними та мають певні експлуатаційні можливості.
Зараз є цікавий прикладний напрямок, який полягає у використанні агентів для соціальних досліджень. Стенфордський експеримент показав, що невелика група генеративних агентів створила емерджентну соціальну поведінку: починаючи лише з однієї ідеї, заданої користувачем, про те, що один агент хоче влаштувати вечірку до Дня Святого Валентина, кілька інших агентів автономно поширювали її протягом наступних двох днів. Запрошення на вечірки, заведення нових друзів, запрошення один одного на вечірки... (Генеративні агенти: інтерактивні симулякри людської поведінки, Парк та ін., 2023).
Мабуть, найвизначнішим стартапом у цьому просторі є Adept, заснований двома співавторами Transformer (хоча обидва згодом пішли) і колишнім віце-президентом OpenAI, і який зібрав майже 500 мільйонів доларів на сьогоднішній день. Минулого року вони показали, як їхній агент може переглядати Інтернет і додавати нові облікові записи в Salesforce. Я з нетерпінням чекаю їхньої нової демонстрації 🙂.
08 Поліпшення здатності вчитися на людських уподобаннях
RLHF (Reinforcement Learning from Human Preference) — це круто, але трохи втомливо.
Я не здивований, що люди знайдуть кращі способи підготовки магістрів права. Є багато відкритих питань щодо RLHF, таких як:
·Як математично представити людські вподобання?
Наразі переваги людини визначаються шляхом порівняння: людина-анотатор визначає, чи відповідь A краща за відповідь B. Однак він не враховує, наскільки відповідь A краща або гірша за відповідь B.
·Які людські переваги?
Anthropic вимірює якість відповідей моделі за трьома параметрами: корисність, чесність і нешкідливість. Довідкова стаття: Конституційний штучний інтелект: нешкідливість із зворотного зв’язку штучного інтелекту (Бай та ін., 2022).
DeepMind намагається генерувати відповіді, які найкраще сподобаються більшості людей. Довідкова стаття: Тонка настройка мовних моделей для досягнення згоди між людьми з різними уподобаннями (Баккер та ін., 2022).
Крім того, чи хочемо ми штучний інтелект, який може зайняти позицію, чи загальний штучний інтелект, який уникає обговорення будь-якої потенційно суперечливої теми?
· Чиї переваги є «людськими» перевагами, беручи до уваги відмінності в культурі, релігії, політичних уподобаннях тощо?
Існує багато проблем, пов’язаних із отриманням навчальних даних, які достатньо репрезентують усіх потенційних користувачів.
Наприклад, дані InstructGPT OpenAI не мають анотаторів старше 65 років. Тегери в основному філіппінці та бангладешці. Довідкова стаття: InstructGPT: Навчання мовних моделей виконувати інструкції з відгуками людини (Ouyang та ін., 2022).
09Підвищення ефективності інтерфейсу чату
З моменту появи ChatGPT триває дискусія про те, чи підходить чат для широкого кола завдань. наприклад:
· Природна мова — це ледачий інтерфейс користувача (Остін З. Хенлі, 2023)
·Чому чат-боти — це не майбутнє (Амелія Ваттенбергер, 2023)
· Які типи запитань вимагають розмови, щоб отримати відповідь? Приклад із запитань AskReddit (Huang та ін., 2023)
·Інтерфейс чату AI може стати основним інтерфейсом користувача для читання документації (Том Джонсон, 2023)
· Взаємодія з магістрами права за допомогою мінімального чату (Юджин Ян, 2023)
Однак це не нова дискусія. У багатьох країнах, особливо в Азії, чат використовувався як інтерфейс для суперпрограм уже близько десяти років. Ден Гровер обговорював це явище в 2014 році.
·Про чат як інтерфейс (Алістер Кролл, 2016)
· Чи є тенденція чат-ботів одним великим непорозумінням? (Вілл Найт, 2016)
· Боти не замінять програми. Кращі програми замінять програми (Ден Гровер, 2016)
Особисто мені подобається інтерфейс чату з таких причин:
Кожен (навіть люди, які не мають досвіду роботи з комп’ютером чи Інтернетом) може швидко навчитися користуватися інтерфейсом чату.
Коли я був волонтером у районі з низьким рівнем доходу в Кенії на початку 2010-х років, я був здивований, побачивши, наскільки комфортно всі там користуються банківськими повідомленнями на телефоні. Навіть якщо ніхто в цій спільноті не має комп’ютера.
Інтерфейс чату зазвичай простий. Ми також можемо використовувати мову замість тексту, якщо наші руки зайняті іншими справами.
Інтерфейс чату також є дуже потужним інтерфейсом.Він відповість на будь-який запит користувача, навіть якщо деякі з відповідей не дуже хороші.
Однак я думаю, що є деякі області, де інтерфейс чату можна було б покращити:
·Кілька повідомлень за один раунд
Наразі ми майже припускаємо, що є лише одне повідомлення за раз. Але коли ми з друзями пишемо текстові повідомлення, для завершення чату часто потрібно кілька повідомлень, оскільки мені потрібно вставити різні дані (наприклад, зображення, місцезнаходження, посилання), я забув щось із попереднього повідомлення або просто не хочу вписувати все в один великий абзац.
· Мультимодальний вхід
У сфері мультимодальних додатків більшість зусиль витрачається на створення кращих моделей і менше на створення кращих інтерфейсів. Візьмемо як приклад чат-бот NeVA від NVIDIA. Я не експерт із взаємодії з користувачами, але думаю, що тут є місце для вдосконалення.
PS Вибачте, команда NeVA, що назвали вас. Все-таки ваша робота чудова!
· Інтегруйте генеративний ШІ в робочі процеси
Лінус Лі дуже добре описує це у своїй доповіді «Генеративний інтерфейс AI поза межами чатів». Наприклад, якщо ви хочете поставити запитання про стовпець діаграми, над яким ви працюєте, ви повинні мати можливість просто вказати на цей стовпець і запитати.
·Редагувати та видаляти повідомлення
Як редагування або видалення даних користувача змінює хід розмови з чат-ботом?
10 Створення LLM для неанглійських мов
Ми знаємо, що поточні LLM під керівництвом англійської мови погано працюють на багатьох інших мовах, чи то з точки зору продуктивності, затримки чи швидкості.
Ось відповідні дослідження, на які ви можете посилатися:
·ChatGPT Beyond English: Towards a Comprehensive uation of Large Language Models in Multilingual Learning (Lai et al., 2023)
· Усі мови НЕ створені (токенізовані) рівними (Єнні Джун, 2023 р.)
Це більше «логістичне» питання, ніж питання дослідження. Ми вже знаємо, як це зробити. Просто комусь потрібно докласти грошей і зусиль.
Це не зовсім правильно. Більшість мов вважаються мовами з низьким ресурсом, оскільки вони мають набагато менш якісні дані, ніж, наприклад, англійська чи китайська, і можуть вимагати інших методів для навчання великих мовних моделей.
Ось відповідні дослідження, на які ви можете посилатися:
·Мови з низьким ресурсом: огляд минулої роботи та майбутні виклики (Magueresse та ін., 2020)
·JW300: Паралельний корпус із широким охопленням для мов із низьким ресурсом (Agić та ін., 2019)
Ті, хто більш песимістично налаштований, вважають, що в майбутньому багато мов вимруть, а Інтернет буде двома світами, які складатимуться з двох мов: англійської та китайської. Такий спосіб мислення не новий. Хтось пам'ятає есперанто?
Вплив інструментів ШІ, таких як машинний переклад і чат-боти, на вивчення мови залишається незрозумілим. Чи допоможуть вони швидше вивчати нові мови, чи взагалі позбавлять від необхідності вивчати нові мови?
на завершення
З 10 проблем, згаданих вище, деякі справді складніші за інші.
Наприклад, я думаю, що пункт 10 «Створення LLM для неанглійських мов» більш прямо вказує на достатній час і ресурси.
Пункт 1, зменшення галюцинацій, буде складнішим, оскільки галюцинації — це лише LLM, які виконують своє ймовірнісне завдання.
Пункт 4, який робить LLM швидшими та дешевшими, ніколи не досягне повністю розв’язаного стану. У цій сфері було досягнуто значного прогресу, і ще попереду, але ми ніколи не зупинимося на вдосконаленні.
Пункти 5 і 6, нова архітектура та нове апаратне забезпечення, є дуже складними та неминучими. Через симбіотичні відносини між архітектурою та обладнанням нові архітектури потрібно оптимізувати для загального обладнання, а обладнання має підтримувати загальні архітектури. Вони можуть розраховуватися однією компанією.
Деякі з цих проблем можна вирішити за допомогою не лише технічних знань. Наприклад, пункт 8 «Поліпшення навчання на основі людських уподобань» може бути більше стратегічним питанням, ніж технічним.
Пункт 9, покращення ефективності інтерфейсу чату, більше стосується взаємодії з користувачем. Нам потрібно більше людей із нетехнічним досвідом, які працюватимуть разом, щоб вирішити ці проблеми.