Людські дані поспішають, Microsoft OpenAI почав годувати ШІ ШІ, Альтман сказав: усі дані в майбутньому стануть синтетичними даними

Перше джерело: Qubit

Джерело зображення: створено Unbounded AI‌

Людських даних не вистачає, і ШІ змушений почати споживати дані, створені ШІ!

Це статус-кво, з яким стикаються передові компанії ШІ, такі як Microsoft і OpenAI.

Вони переглянули величезну кількість даних із таких платформ і форумів, як Вікіпедія, електронні книги, сайти новин, блоги, Twitter і Reddit, і тепер... у них закінчуються дані.

АЛЕ, щоб навчити кращу велику модель, жодної кількості даних недостатньо.

За даними "Financial Times", багато компаній передають результати, отримані великими моделями, так звані синтетичні дані (Synthetic data), у великі моделі з меншими параметрами, і виявили, що результати непогані.

За використання синтетичних даних генеральний директор OpenAI Сем Альтман не тільки не проти, але й заявив, що «всі дані в майбутньому стануть синтетичними даними».

Cohere, стартап великої моделі, оцінений у 2 мільярди доларів, також використовує синтетичні дані. Айдан Гомес, генеральний директор компанії і один з авторів класичної великої моделі паперу Transformer, навіть вважає, що:

Синтетичні дані можуть пришвидшити шлях до «суперінтелектуальних» систем ШІ.

Отже, які великі моделі вже використовують синтетичні дані, і звідки беруться ці синтетичні дані?

Великий штучний інтелект синтезує дані, маленький штучний інтелект з’їдає

Ці так звані синтетичні дані — це, по суті, дані, створені поточною великою моделлю з кращою продуктивністю після ручного налаштування, а потім подані в дещо меншу велику модель.

Наприклад, Cohere спробував використати дві великі моделі для проведення «рольових» діалогів і перетворити отримані ними результати в синтетичні дані.

Ці дві великі моделі виконують роль «вчителя математики» та «учня» відповідно та проводять віртуальний урок з математики. Тим часом Cohere розташував людину на узбіччі, щоб наглядати за створенням діалогу.

Люди втручаються, щоб виправити текст, коли розмова йде не так.

Хоча для цього потрібна робоча сила, це набагато дешевше, ніж найняти експертів у галузі науки, медицини та бізнесу для написання тексту.

Отже, які великі моделі використовуватимуть ці синтетичні дані?

Нещодавні дослідження Microsoft Research показали, що синтетичні дані можна використовувати для навчання мовних моделей, які трохи менші за GPT-4 або PaLM-2**.

Візьмемо для прикладу набір даних «чотирирічного дитячого роману» TinyStories, згенерований GPT-4. Доведено, що цей набір даних містить лише слова, які можуть зрозуміти 4-річні діти, але після навчання велика модель, однакова Історія, яка граматично правильна і читається гладко:

Що стосується причин використання синтетичних даних, генеральний директор Cohere Ейдан Гомес вважає:

Звичайно, краще мати можливість отримувати дані з Інтернету, але мережеві дані надто безладні, щоб узагалі задовольнити потреби. Навпаки, синтетичних даних уже достатньо, навіть якщо вони не є широко поширеними.

З'явився промисловий ланцюг позаду

В даний час компанії, включаючи Scale AI і Gretel.ai, почали надавати послуги синтетичних даних для зовнішнього світу.

По-перше, Scale AI, який запустив продукт для синтезу синтетичних даних Scale Synthetic, щоб надавати підприємствам послуги з використанням синтетичних даних.

У попередніх новинах, у яких SemiAnalysis повідомила про «велике мереживо» GPT-4, також згадувалося, що в наборі даних GPT-4 є мільйони рядків із даних Scale AI і внутрішніх інструкцій тонкого налаштування.

Що стосується платформи синтетичних даних Gretel.ai, на офіційному веб-сайті вона співпрацювала з різними компаніями, такими як Google, Riot Games і HSBC, щоб створити більше синтетичних даних для використання іншими розробниками.

Алі Голшан, генеральний директор Gretel.ai, вважає, що перевага синтетичних даних полягає в тому, що вони зберігають конфіденційність усіх осіб у наборі даних, зберігаючи при цьому статистичну цілісність.

Але не всі сприймають «магічну операцію» з синтетичними даними, на даний момент думки всіх сторін в основному розділилися на дві хвилі.

Деякі схвалюють використання синтетичних даних. Включно з компаніями штучного інтелекту, такими як Cohere, багато компаній, які займаються великомасштабними моделями, все ще наполягають на цьому підході та вважають, що він може створити кращий ШІ та навіть породити «суперінтелект».

Інша частина вважає, що синтетичні дані врешті-решт дозволять штучному інтелекту «годуватися самим собою».

Наприклад, дослідження Оксфордського університету, Кембриджського університету, Імперського коледжу, Університету Торонто, Единбурзького університету та Інституту Вектор показує, що:

Навчання з синтетичними даними призведе до незворотних дефектів у моделі: Забудьте про «неможливі події», які в кінцевому підсумку отруєні власноруч створеними даними.

Деякі користувачі мережі вважають, що ці синтетичні дані згодом перетворяться на скупчення «непридатного шламу», і тоді людей доведеться змусити найняти спеціалістів із обробки даних, щоб очистити* їх.

Деякі користувачі мережі висміювали, що це звучить як «Інбридинг».

Як ви вважаєте, чи потрібно ШІ використовувати синтетичні дані?

Посилання на посилання: [1] [2] [3] [4]

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити