Чому велика модель така повільна? Виявляється, я забагато думаю: новий напрямок — такий самий алгоритм мислення, як і люди

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c2cea925b5-dd1a6f-6d2ef1) Джерело зображення: створено Unbounded AIЛюдська інтуїція — це здатність, яку дослідники штучного інтелекту часто не помічають, але вона настільки тонка, що навіть ми самі не до кінця її розуміємо. Дослідницька група з Virginia Tech і Microsoft запропонувала Алгоритм мислення (AoT) у нещодавній статті, яка поєднує в собі інтуїцію та впорядкованість алгоритмічних методів, щоб значно заощадити кошти, забезпечуючи ефективність LLM.Великомасштабні мовні моделі останнім часом розвиваються швидкими темпами, демонструючи надзвичайні можливості у вирішенні загальних проблем, створенні коду та виконанні інструкцій.У той час як ранні моделі покладалися на стратегії прямої відповіді, поточні дослідження рухалися до лінійного шляху міркування, розбиваючи проблему на підзавдання, щоб знайти рішення, або змінюючи контекст, щоб використовувати зовнішні механізми для зміни генерації токенів.Подібно до людського пізнання, ранні стратегії LLM, здавалося, імітували негайну 1 (швидку реакцію), що характеризується імпульсивним прийняттям рішень. Навпаки, новіші методи, такі як ланцюжок думок (CoT) і від найменшого до найбільшого (L2M), відображають інтроспективний характер 2 (повільне мислення). Варто зазначити, що здатність LLM до арифметичних міркувань можна покращити шляхом інтеграції проміжних кроків міркування.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-569cc3c2cd-dd1a6f-6d2ef1) Однак, якщо завдання вимагає глибшого планування та ширшого розумового дослідження, обмеження цих методів стають очевидними. Незважаючи на те, що інтегрована самоузгоджена CoT (CoT-SC) може використовувати кілька результатів LLM для досягнення консенсусних результатів, відсутність детальної оцінки може призвести модель до неправильного напрямку. Дерево мислення (ToT), яке з’являється у 2023 році, є визначним рішенням. Один LLM використовується для створення ідей, а інший LLM використовується для оцінки достоїнств цих ідей, після чого йде цикл «пауза-оцінка-продовження». Цей ітеративний процес, заснований на пошуку дерева, безсумнівно ефективний, особливо для завдань із довгими продовженнями. Дослідники вважають, що ця розробка є використанням зовнішніх інструментів для покращення LLM, подібно до того, як люди використовують інструменти для обходу обмежень власної робочої пам’яті.З іншого боку, цей вдосконалений метод LLM не позбавлений недоліків. Одним з очевидних недоліків є те, що кількість запитів і вимоги до обчислень можуть різко зрости. Кожен запит до онлайн-API LLM, такого як GPT-4, несе значні грошові витрати та збільшує затримку, обмеження, яке є особливо критичним для програм реального часу. Накопичена затримка цих запитів може зашкодити загальній ефективності сценарію. З точки зору інфраструктури постійні взаємодії можуть створювати навантаження на систему, що може обмежити пропускну здатність і знизити доступність моделі. Крім того, не можна ігнорувати вплив на навколишнє середовище. Безперервні запити збільшать енергоспоживання і без того енергоємного центру обробки даних, що ще більше збільшить вуглецевий слід.Виходячи з цих міркувань, мета оптимізації дослідників полягає в тому, щоб значно зменшити кількість запитів, що використовуються поточними методами багатозапитового висновку, зберігаючи при цьому достатню продуктивність, щоб дати змогу моделі справлятися із завданнями, які вимагають кваліфікованого використання світових знань, тим самим керуючи людьми бути більш відповідальним і досвідченим Ефективно використовувати ресурси ШІ.Розмірковуючи про еволюцію LLM від 1 до 2, можна помітити, що з’являється ключовий фактор: алгоритми. Алгоритми структуровані та допомагають людям досліджувати проблемні простори, розробляти стратегії та створювати рішення. Хоча велика частина основної літератури розглядає алгоритми як зовнішні інструменти для LLM, враховуючи притаманну LLM генеративну відтворюваність, чи можемо ми керувати цією ітеративною логікою, щоб інтерналізувати алгоритм у LLM?Дослідницька група Virginia Tech і Microsoft об’єднала витонченість людських міркувань і методичну точність алгоритмічних методів у спробі покращити міркування в LLM шляхом поєднання цих двох аспектів.Існуючі дослідження підкреслюють, що люди інстинктивно спираються на минулий досвід під час вирішення складних проблем, щоб переконатися, що вони думають цілісно, а не зосереджуються на одній деталі. Діапазон генерації LLM обмежений лише межею символів, і, здається, йому судилося подолати перешкоди робочої пам’яті людини.Натхненні цим спостереженням дослідники з’ясували, чи може LLM уможливити подібне ієрархічне дослідження ідей, відфільтровуючи нездійсненні варіанти, посилаючись на попередні проміжні кроки — усе в рамках циклу генерації LLM. Хоча люди добре володіють інтуїцією та проникливістю, алгоритми добре справляються з організованим і систематичним дослідженням. Сучасні технології, такі як CoT, як правило, ухиляються від цього синергічного потенціалу та надто зосереджуються на польовій точності LLM. Використовуючи рекурсивні можливості LLM, дослідники розробили гібридний підхід, заснований на людині та алгоритмі. Це робиться за допомогою алгоритмічних прикладів, які відображають суть дослідження — від початкових кандидатів до перевірених рішень.На основі цих спостережень дослідники запропонували Алгоритм думок (AoT).![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5a6502b539-dd1a6f-6d2ef1) папір:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6c579d7634-dd1a6f-6d2ef1)  ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ff36193be5-dd1a6f-6d2ef1) У більш широкому масштабі очікується, що цей новий підхід започаткує нову парадигму контекстного навчання. Замість використання традиційної моделі навчання під наглядом [питання, відповідь] або [питання, наступні кроки для отримання відповіді], цей новий підхід використовує нову модель [питання, процес пошуку, відповідь]. Природно, коли ми наказуємо LLM використовувати алгоритм через інструкції, ми зазвичай очікуємо, що LLM буде просто імітувати ітераційне мислення алгоритму. Однак цікаво те, що LLM має здатність вводити власну «інтуїцію», навіть роблячи пошук ефективнішим, ніж сам алгоритм.**Алгоритм мислення**Дослідники кажуть, що основою їх дослідницької стратегії є визнання основних недоліків поточної парадигми контекстного навчання. Хоча CoT може покращити узгодженість розумових зв’язків, іноді він може йти не так і давати неправильні проміжні кроки.Щоб проілюструвати це явище, дослідники розробили експеримент. Під час запиту text-davinci-003 із арифметичним завданням (наприклад, 11 − 2 =), дослідник додасть кілька контекстних рівнянь попереду, які отримають той самий вихідний результат (наприклад, 15 − 5 = 10, 8 + 2 = 10 ).![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0a05333aae-dd1a6f-6d2ef1) Було виявлено, що точність стрімко впала, що свідчить про те, що просте правильне міркування в контексті може ненавмисно погіршити базові арифметичні здібності LLM.Щоб зменшити це упередження, зробити приклади більш різноманітними може бути життєздатним рішенням, але це може трохи змінити розподіл результату. Просте додавання кількох невдалих спроб (наприклад, випадковий пошук) може ненавмисно спонукати модель повторити спробу, фактично не вирішуючи проблему. Розуміючи справжню природу алгоритмічної поведінки (де важливі невдалі пошуки та подальше відновлення, а також уроки з цих спроб), дослідники використовують контекстуальні приклади, дотримуючись моделі алгоритмів пошуку, особливо пошуку в глибину (DFS) і Пошук спочатку в ширину (BFS). На малюнку 1 наведено приклад.Ця стаття присвячена великому класу завдань, подібних до задач пошуку дерева.Цей тип завдання вимагає розкладання головної проблеми, побудови можливого рішення для кожної частини та прийняття рішення про прийняття чи відмову від певних шляхів з можливістю переоцінки частин з більшим потенціалом.Замість того, щоб надавати окремі запити для кожної підмножини, дослідники скористалися перевагами ітераційних можливостей LLM, щоб розв’язати їх за допомогою уніфікованого генеративного сканування. Обмежуючись лише однією або двома взаємодіями LLM, підхід може природним чином інтегрувати ідеї попередніх контекстних кандидатів і вирішувати складні проблеми, які вимагають глибокого вивчення області вирішення. Дослідники також дали власне уявлення про те, наскільки великими мають бути ці думки та які типи контекстних прикладів слід надати для LLM, щоб підвищити ефективність токенів. Нижче наведено ключові компоненти алгоритму пошуку дерева та їх представлення в новій структурі.**1. Розкладіть його на підпроблеми. **З огляду на проблему, побудова дерева пошуку, що описує можливі шляхи міркування, вже є складним завданням, навіть якщо не розглядати фактичний аспект вирішення проблеми. Будь-яка декомпозиція повинна враховувати не тільки взаємозв’язки між підзадачами, а й легкість вирішення кожної проблеми.Візьмемо, наприклад, просте багатозначне додавання: хоча комп’ютери ефективно перетворюють числові значення в двійкові, люди часто вважають десяткові числа більш інтуїтивно зрозумілими. Крім того, навіть якщо підпроблеми однакові, методи виконання можуть бути різними. Інтуїція може знайти короткі шляхи між кроками до рішення, а без інтуїції можуть знадобитися більш детальні кроки.Для створення правильних (тобто контекстних прикладів алгоритмів) ці тонкощі важливі й визначають мінімальну кількість токенів, необхідних LLM для надійної роботи. Це не тільки задовольняє обмеження LLM щодо контексту, але також важливо для можливостей LLM, тому що ми сподіваємося, що LLM зможе використовувати подібну кількість токенів для вирішення проблем, які резонують із його контекстом.**2.Запропонуйте рішення підзадачі. **Один із поточних основних методів передбачає пряму вибірку ймовірності виходу токена LLM. Хоча цей метод ефективний для одноразових відповідей (з певними обмеженнями), він також не в змозі впоратися з деякими сценаріями, наприклад, коли послідовність зразків потрібно інтегрувати в подальше спостереження або оцінити під час подальшого спостереження. Щоб мінімізувати запити до моделі, дослідники використовували безперервний процес створення рішення. Тобто безпосередньо і безперервно генерувати рішення основних підпроблем без будь-яких пауз у генерації.Цей підхід має багато переваг. По-перше, усі згенеровані рішення знаходяться в одному спільному контексті, що усуває необхідність генерувати окремі запити моделі для оцінки кожного рішення. По-друге, хоча на перший погляд це може здатися нерозумним, ізольовані маркери або ймовірності групування маркерів не завжди можуть призвести до значущого вибору. На рисунку 4 представлена проста схема.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e87682e4df-dd1a6f-6d2ef1) **3. Виміряти перспективи підпроблем. **Як згадувалося вище, існуючі методи покладаються на додаткові підказки для визначення потенціалу вузлів дерева, щоб допомогти прийняти рішення щодо напрямків дослідження. Наші спостереження вказують на те, що LLM за своєю суттю має тенденцію віддавати пріоритет перспективним кандидатам, якщо їх можна інкапсулювати в контекстуальних прикладах. Це зменшує потребу в складній інженерії та дозволяє інтегрувати складні евристики, інтуїтивно зрозумілі чи керовані знаннями. Подібним чином у новому підході немає роз’єднань, що дає змогу негайно оцінити здійсненність кандидата в межах тих самих згенерованих результатів.**4. Зворотний шлях до кращого вузла. **Рішення про те, який вузол досліджувати наступним (включаючи повернення до попередніх вузлів), в основному залежить від вибраного алгоритму пошуку дерева. Хоча попередні дослідження використовували зовнішні методи, такі як механізми кодування для процесу пошуку, це обмежувало б його ширшу привабливість і вимагало додаткового налаштування. Новий дизайн, запропонований у цьому документі, в основному використовує метод DFS, доповнений скороченням. Мета полягає в тому, щоб підтримувати близькість між дочірніми вузлами з тим самим батьківським вузлом, тим самим заохочуючи LLM надавати пріоритет локальним функціям над віддаленими функціями. Крім того, дослідники також запропонували показники ефективності методу AoT на основі BFS. Дослідники кажуть, що потребу в додаткових механізмах налаштування можна усунути, використовуючи притаманну моделі здатність отримувати інформацію з контекстних прикладів.**експеримент**Дослідники провели експерименти з міні-кросвордами 24 точки та 5x5, і результати показали перевагу методу AoT – його ефективність була за рахунок одного методу (наприклад, стандартного методу, CoT, CoT-SC), а також можна порівняти з методами використання зовнішніх механізмів (такими як ToT).З таблиці 1 видно, що стандартний метод проектування, що включає CoT/CoT-SC, явно відстає від методу пошуку дерева, що використовується через LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2f46ee4604-dd1a6f-6d2ef1) Таблиця 3 підкреслює ефективність AoT у завданні міні-заповнення слів, причому показник успіху заповнення слів перевищує попередні методи з використанням різних технік.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c490f77b42-dd1a6f-6d2ef1) Однак це гірше, ніж ToT. Важливим зауваженням є те, що обсяг запитів, який використовує ToT, величезний і перевищує AoT більш ніж у сто разів. Іншим фактором, який робить AoT нижчим за ToT, є те, що можливості зворотного відстеження, властиві прикладам алгоритму, не повністю активовані. Якби цю здатність можна було повністю розблокувати, це призвело б до значно довшої фази генерації. На відміну від цього, ToT має перевагу використання зовнішньої пам’яті для відстеження.**обговорити**Чи може AoT перевершити DFS, який він емулює?Як показано на малюнку 5, AoT використовує менше вузлів, ніж версія DFS. DFS приймає уніфіковану стратегію під час вибору піддерев для подальшого дослідження, тоді як LLM AoT інтегрує свою притаманну евристику. Це посилення базового алгоритму відображає перевагу можливостей рекурсивного міркування LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-302cd9f9ad-dd1a6f-6d2ef1) Як вибір алгоритму впливає на продуктивність AoT?У таблиці 5 наведено експериментальні результати, і можна побачити, що всі три варіанти AoT перевершують CoT з одним запитом.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e30f8a1d4e-dd1a6f-6d2ef1) Цей результат очікуваний, оскільки яким би не був алгоритм, він шукає та переглядає потенційні помилки – або через випадкові спроби у варіанті випадкового пошуку, або через відстеження в конфігураціях DFS або BFS. Варто зазначити, що обидві версії структурованого пошуку, AoT (DFS) і AoT (BFS), є більш ефективними, ніж AoT (Random), що підкреслює переваги алгоритмічного розуміння у виявленні рішень. Однак AoT (BFS) відстає від AoT (DFS). Додатково аналізуючи помилки AoT (BFS), дослідники виявили, що порівняно з AoT (DFS), AoT (BFS) важче визначити оптимальні операції.Отже, як кількість кроків пошуку в прикладі алгоритму регулює поведінку AoT?На малюнку 6 показано вплив загальної кількості кроків пошуку. Серед них AoT (Long) і AoT (Short) — це, відповідно, довші та коротші версії згенерованих результатів порівняно з оригінальним AoT.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-31f2582910-dd1a6f-6d2ef1) Результати показують, що кількість кроків пошуку вносить неявне зміщення у швидкість пошуку LLM. Важливо відзначити, що навіть якщо ви робите неправильні кроки, важливо наголошувати на дослідженні напрямків із потенціалом.