Якщо дані будуть вичерпані великими моделями, чи ми все одно побачимо загальний штучний інтелект?

Першоджерело: Друга половина автономного водіння

Джерело зображення: створено Unbounded AI‌

Ми напередодні загального штучного інтелекту. Незважаючи на те, що ChatGPT викликав ентузіазм у всьому світі, він також розпалив конкуренцію за великі моделі ШІ. Google запустив Bard для порівняння, Amazon також приєднався до поля бою, а Meta, яка робила значну ставку на метавсесвіт, не залишилася позаду та запустила LLaMa та SAM. По цей бік океану BAT, яка визнана найбільшою за ресурсами, знову зустрілася на генеративній моделі. Зважаючи на тенденцію великих моделей, втілений інтелект, здається, готує величезні зміни.

Все ніби повернулося на десять років назад, почався підприємницький бум. **Тільки цього разу унікальність загального штучного інтелекту відкривають великі моделі, а дані офіційно стоять у центрі сцени. **

01. Які ключові елементи при розробці великих моделей

  1. Обчислювальна потужність робить великі моделі грою багатства

Велика модель, кажучи простою мовою, це модель з величезною кількістю параметрів. У порівнянні з попередніми невеликими моделями, які можна було запускати на одному графічному процесорі, це можна було завершити, лише покладаючись на величезну кількість обчислювальних потужностей великих компаній. Наприклад, OpenAI ChatGPT зараз коштує до одного мільйона доларів США за одне навчання. Можливість невеликих лабораторій брати участь у хвилі штучного інтелекту була безпосередньо припинена великими моделями, і лише компанії з сильним накопиченням можуть завершити це.

Тому єдиними героями, які з’явилися на загальній підприємницькій хвилі великих моделей, були ті, хто мав чудові історії в Інтернет-підприємницькій хвилі, наприклад Ван Хуйвен з Meituan, Кай-фу Лі з Sinovation Ventures і Ван Сяочуань з Sogou. З’явився закон моделей Мура, і більші моделі принесли краще розуміння світу та можливості міркування. З такою тенденцією немає часу зупинятися та вагатися.

1. Модель орієнтованої моделі розробки алгоритму завершено

На даний момент модель розробки звичайних компаній зі штучного інтелекту все ще є «традиційною» моделлю розробки, зосередженою на моделі, тобто фіксації набору даних і подальшій ітерації моделі. Інженери-алгоритми зазвичай зосереджуються на кількох контрольних наборах даних, а потім розробляють різні моделі для підвищення точності передбачення.

Хоча великі моделі ростуть як гриби після дощу, насправді алгоритми, що стоять за більшістю моделей, мають тенденцію бути послідовними, і жодних серйозних змін у моделях не відбулося. Накопичування обсягу даних робить навчену модель набагато кращою, ніж модель з невеликими змінами. Наприклад, кілька місяців тому піонер штучного інтелекту Ян ЛеКун опублікував статтю, в якій стверджував, що ChatGPT технічно не є чимось новим, але він досяг чудової продуктивності. Ретельні зміни алгоритму можуть не дати кращих результатів, ніж додавання та повторення даних. Порівняно з продуктивністю моделі, навченої на одному наборі даних, продуктивність моделі, яку забезпечує величезна кількість високоякісних даних, є ударом по зменшенню розмірності. **

1. Дані стають основним елементом розробки великих моделей

Успіх великих моделей OpenAI пояснюється вірою Іллі в те, що кількісні зміни у великих даних і великих моделях спричинять якісні зміни. Наприклад, ChatGPT використовує принаймні 40 тис. великомасштабних даних для навчання, і якщо обсяг ефективних даних продовжує збільшуватися, він може досягти кращої продуктивності. Згідно з дослідженням Google щодо нових можливостей великих мовних моделей, у певній критичній точці параметрів моделі модель раптово отримала несподівані можливості.

Щоб переконатися, що стільки параметрів можна розумно навчити, високоякісні дані стали ключовими. Беручи до прикладу розробку ChatGPT, GPT-1 використовував лише 4629 МБ текстових даних, тоді як GPT-2 використовував 40 ГБ тексту, просканованого та відфільтрованого з Reddit, а GPT-3 використовував щонайменше 45 ТБ звичайного тексту. процес навчання -4 не було розкрито, але враховуючи, що швидкість виведення GPT-4 набагато повільніша, ніж у GPT-3, можна зробити висновок, що кількість параметрів моделі також зросла, а відповідне навчання даних, очевидно, потрібно більше. Ці високоякісні дані є важливою причиною того, чому ChatGPT вперше з’явився в англійському світі. Навчальні тексти англійської є більш стандартизованими та багатшими, ніж навчальні тексти китайською.

Ян Донг, декан Інституту міждисциплінарної науки Китайського університету Реньмінь, також вважає, що фундаментальною причиною успіху ChatGPT є не тільки сама технологія, але й серйозні проблеми невідкритості даних і монополії даних у Китаї. Що стосується нещодавно випущеної моделі семантичної сегментації Segment Anything Model від Meta, загальна керована модель не має очевидних інновацій, але використання масивних даних у сфері семантичної сегментації робить продуктивність моделі неймовірною. Десятки мільйонів зображень і мільярди масок сегментації ніколи не зустрічалися в області семантичної сегментації зображень.

**Модель розробки штучного інтелекту змінюється з орієнтованої на модель на орієнтовану на дані. **Звідки ви берете дані? Чи достатньо даних у світі для моделей?

02. Реальні дані будуть вичерпані великими моделями

У цьому світі людська діяльність відбувається постійно, тож чи не сліди даних, що залишаються, продовжують зростати? Чому вичерпано?

Даних високої якості мало

Не всі сліди, згенеровані діяльністю людини, можна використовувати для навчання моделі.Тільки високоякісні дані, що входять до навчання моделі, можуть дати найкращі результати.

У сфері обробки природної мови високоякісні дані - це, природно, оцифровані книги та наукові статті. Наявність хорошого логічного зв’язку також може забезпечити відносну точність. Дані низької якості, такі як записи чатів, телефонні дзвінки тощо, мають відносно обмежений вплив на навчання через погану безперервність даних. У документації щодо розробки ChatGPT 3 згадується, що після якісної фільтрації даних на 45 ТБ звичайного тексту було отримано 570 ГБ тексту, використовуючи лише 1,27% ефективних даних.

У сфері автономного водіння високоякісні дані генеруються з великої кількості різних сценаріїв. Наприклад, дорога з відносно невеликою кривизною може з’являтися дуже часто, але насправді, що більше разів вона трапляється, то менш важлива. Навпаки, для деяких нетрадиційних сценаріїв (наприклад, кутовий випадок) якість даних вища, і адаптацію сценарію потрібно виконувати окремо. Однак ці відносно невеликі зразки – це майже крапля в море, якщо зіткнутися з вимогами до параметрів великих моделей.

Обмеження безпеки даних і конфіденційності

Розробка Generative AI супроводжувалася суперечками щодо безпеки даних. Після того як Stable Diffusion став доступним, це викликало незадоволення багатьох художників.Під тиском Stability AI оголосив, що дозволить художникам цілеспрямовано видаляти їхні роботи та не допускати їх до навчального набору.

У деяких випадках загальнодоступні дані можуть містити конфіденційну інформацію, таку як ідентифікаційна інформація, фінансова інформація або медичні записи. У багатьох галузях і регіонах дуже важко отримати дані, що містять конфіденційну інформацію, що ускладнює збір даних і зменшує швидкість зростання відповідних наборів даних. Це стало обмеженням для великих промислових моделей. Наприклад, у галузі медицини через особливості та конфіденційність галузі неможливо отримати обсяг даних, який можна використовувати для навчання великої моделі за суворого захисту конфіденційності та нормативних обмежень.

Реальних даних високої якості може бути недостатньо для підтримки навчання великих моделей

Стаття «Чи закінчаться дані? Аналіз обмежень масштабування наборів даних у машинному навчанні» досліджує можливість дефіциту даних (кількості даних недостатньо для задоволення потреб навчання великої моделі). швидкість зростання моделі* Приблизно до 2026 року високоякісних даних НЛП буде недостатньо для підтримки навчання*. Запаси даних для мовних і зорових моделей зростають набагато повільніше, ніж розмір навчальних наборів даних, тому, якщо поточні тенденції збережуться, набори даних зрештою перестануть зростати через вичерпання даних.

Зі збільшенням кількості даних більшість даних, зібраних неконтрольованими методами збору даних, втрачають сенс. Наприклад, у сценаріях автономного водіння транспортні засоби постійно збирають нові дані на дорозі, але лише небагато з них можуть бути фактично використані. Тому в нещодавній розмові між генеральним директором Nvidia Дженсеном Хуангом та Іллею Суцкевером вони також обговорювали можливість вичерпання даних.

03. Синтетичні дані можуть задовольнити величезні вимоги до даних великих моделей

Модель розробки, орієнтована на дані, робить дані найважливішою частиною. Навчальні алгоритми вимагають даних, але високоякісні дані важко отримати. Як задовольнити величезні вимоги до даних великих моделей?

Чи можна дані синтезувати штучно, так само як у їжі є синтетичне м’ясо? Синтетичні дані – це дані, створені в цифровому світі. Керованість синтетичних даних краща, ніж реальних даних. Вони можуть відображати властивості реальних даних у математичному та фізичному сенсі, а також можуть спрямовано створювати дані для забезпечення балансу даних під час навчання моделі.

Синтетичні дані мають інформаційну дельту

Вивчіть розподіл даних у реальних даних і створюйте більше даних на основі цього розподілу, щоб забезпечити достатньо даних для навчання великих моделей у різноманітних сценаріях. Поєднання різних елементів створює різні сцени, а зміни в сценах також спричиняють збільшення інформації, таким чином забезпечуючи ефективність синтезованих даних.

Згідно з дослідженням OpenAI та UC Berkeley у 2017 році, на основі фактичної сцени узагальнюється положення камери, колір об’єкта, форма, освітлення тощо, а також генерується велика кількість синтетичних даних для навчання модель виявлення об'єкта. Завдяки тому, що реальні дані взагалі не використовуються, 3D-помилка моделі виявлення зберігається в межах 1,5 см, і вона має дуже хорошу стійкість.

Наприклад, у сфері автономного водіння типову реальну сцену врізання автомобіля попереду можна відтворити за допомогою узагальненої погоди та освітлення з використанням синтетичних даних. Після використання отриманих даних для навчання моделі модель матиме більш надійну роботу за різних погодних умов та умов освітлення. Згідно з дослідженням Nvidia у 2018 році, продуктивність моделі виявлення була значно покращена завдяки використанню синтетичних даних, отриманих із рандомізованих позицій транспортних засобів і текстур для навчання моделі. Це пов’язано з більш рівномірним розподілом синтетичних даних про розташування транспортних засобів і ширшим розподілом отриманих даних.

Керованість синтетичних даних краща, ніж реальних даних. Вони можуть відображати властивості реальних даних у математичному та фізичному сенсі, а також можуть спрямовано створювати дані для забезпечення балансу даних під час навчання моделі. При цілеспрямованому створенні даних існує можливість налаштувати характеристики великої моделі. Наприклад, сподіваємося, що велика мовна модель буде упередженою під час відповідей на певні запитання та матиме спеціальні стилі та елементи під час створення певних зображень . Усе це можна досягти за допомогою спеціальних синтетичних даних.

Базується на реальних даних, але відрізняється від реальних даних. Ця характеристика синтетичних даних робить їх все більш широко використовуваними. Вони використовуються не тільки для тестування, але також можуть використовуватися як навчальні дані, щоб зробити модель більш потужною.

Вигідність синтетичних даних величезна

Вартість даних залежить від збору та маркування, в обох частинах синтетичні дані мають значні переваги.

Порівняно з неефективним збором реальних даних, синтетичні дані можуть цілеспрямовано створювати сценарії, роблячи кожен байт даних цінним. Немає потреби ні у великій групі збору даних, ні у великомасштабній системі повернення даних і системі фільтрації даних. Синтетичні дані ґрунтуються на потребах навчання моделі від початку виробництва, і більшу частину результату можна використовувати безпосередньо, що зменшує вартість даних.

У той же час вартість маркування синтетичних даних має величезну перевагу порівняно з реальними даними.Згідно з оцінками платформи обслуговування даних Diffgram, для маркування зображень автономного водіння середня ціна коробки маркування становить близько 0,03 доларів США, а загальна вартість повного маркування зображення становить приблизно $0,03.5,79 доларів США, а для синтетичних даних ціна анотації в основному близька до нуля, а деякі – це лише витрати на обчислення даних, які коштують лише близько 6 центів. Коротше кажучи, синтетичні дані можна використовувати для навчання великих моделей більш керованим, ефективним і недорогим способом.

**Якщо збір реальних даних все ще триває в епоху підсічно-вогневого землеробства та тваринництва, то виробництво синтетичних даних увійшло в епоху ефективної та автоматизованої промисловості, що забезпечує великомасштабну високоякісну продукцію в низька вартість. **За даними «MIT Technology Review», синтетичні дані входять до десятки найкращих проривних технологій у світі в 2022 році. Вважається, що синтетичні дані можуть вирішити повільний розвиток штучного інтелекту в сферах з недостатніми ресурсами даних.

04. Для яких галузей знадобляться синтетичні дані

**Насправді синтетичні дані широко використовуються за кордоном. У сфері робототехніки, автономного водіння, обробки природної мови, фінансів, медичної допомоги тощо ми всі можемо бачити синтетичні дані. **

Ще в 2018 році OpenAI використовував середовище моделювання для навчання контролерів роботів. Процес навчання рандомізує динаміку навколишнього середовища, а потім застосовує контролер безпосередньо до фізичного робота. Таким чином, робот може виконувати прості завдання під час виконання простих завдань. Несподіване зміни зовнішнього середовища.

Згідно зі звітом JPMorgan Chase за 2019 рік, він використовував синтетичні дані для навчання моделей виявлення фінансового шахрайства, щоб подолати проблему дуже малого обсягу даних про фінансове шахрайство.

Стенфордський університет також нещодавно випустив власну широкомасштабну модель розмови Альпака з 7 мільярдами параметрів.Особливо цікавим є те, що набір даних, задіяний у дослідженні, був створений командою за допомогою API OpenAI.Іншими словами, весь набір навчальних даних був повністю синтезований Склад даних і кінцевий ефект можна порівняти з GPT-3.5.

Знову беручи як приклад автономне водіння, як важливе застосування комп’ютерного зору, індустрія автономного водіння пройшла довгий шлях у використанні синтетичних даних. Щоб зменшити витрати на тестування та підвищити ефективність ітерацій, механізми моделювання широко використовуються в галузі для тестування та перевірки алгоритмів автономного водіння.

Функціям автономного водіння на основі візуалізації потрібно збирати величезну кількість реальних даних сцени, щоб тренувати моделі глибокого навчання для повного сприйняття світу. Однак масово виготовлені дані з довгим хвостом часто важко або неможливо зібрати в реальному світі. У той же час, навіть зовнішній вигляд одного і того ж об'єкта може сильно відрізнятися в різні часи і погодні умови, що створює великі проблеми для зорового сприйняття.

Порівняно зі збором реальних даних вартість синтетичних даних можна контролювати, і вони не потребують анотації вручну, що значно зменшує людські помилки, спричинені неузгодженістю процесів збору та потоку даних і людських стандартів. Тому індустрія вважає синтетичні дані одним із ефективних способів вирішення проблеми довгого хвоста.

Однак для кращого навчання систем автономного водіння якість більшості симуляційних даних далеко недостатня.Вони не можуть відображати реальний світ і є лише високим ступенем абстракції реального світу. Тому багато компаній у галузі вклали значні кошти в покращення реалістичності даних.Наприклад, програмне забезпечення Nvidia для симуляції автономного водіння DriveSim використовує вдосконалену технологію фізичного рендерингу для покращення реалістичності синтетичних даних.

Cruise та Waymo використовують технології, пов’язані з NeRF, для створення цифрових світів-близнюків, а потім для створення синтетичних даних. Nvidia також запропонувала Instant NGP у 2022 році, що значно підвищило ефективність навчання NeRF.

Ще на AIDay 2021 року Telsa тренувала систему сприйняття, використовуючи сцени сім’ї, що біжить по шосе, і натовпу, який важко позначити, що було дуже вражаючим.

У той же час багато компаній із синтетичних даних почали виходити в Кремнієву долину в авангарді галузі. Parallel Domain і Applied Intuition, які обслуговують автономне водіння, Datagen, яка обслуговує загальну галузь машинного зору, і Gretel AI, яка є За цими компаніями стоять провідні гіганти галузі.

Gartner прогнозує, що в 2024 році 60% даних про навчання буде замінено даними для дорослих, а в 2030 році синтетичні дані повністю витіснять реальні дані і стануть основним джерелом даних для навчання ШІ.

Однак у Китаї насправді відносно небагато застосувань синтетичних даних.Наразі більшість компаній все ще використовують реальні дані для завершення навчання моделі.

05. Обмеження синтетичних даних

Які проблеми ще потрібно вирішити з синтетичними даними, перш ніж вони зможуть повністю замінити реальні дані? Тут ми беремо автономне водіння як приклад для обговорення.

Правдивість

З точки зору сприйняття, автентичність дійсно є першим показником оцінки. Перш ніж цей пакет даних надійде в систему навчання, чи може він пройти візуальний огляд людиною, щоб переконатися, що він виглядає справжнім?

Що стосується недоліків реалізму, реальність, яку можна побачити неозброєним оком, не відображає реальної ефективності даних. Сліпе прагнення до візуальної реалістичності зображень може не мати практичного кількісного значення. Кількісний стандарт для оцінки автентичності синтетичних даних має базуватися на покращенні наборів синтетичних даних порівняно з реальними наборами даних для алгоритмів, навчених на наборах синтетичних даних. Наразі в індустрії автономного водіння, яка має найвищі вимоги до автентичності синтетичних даних, уже є приклади від Cruise, Nvidia, Waymo, Tesla тощо, які ефективно та значно покращили роботу алгоритмів на реальних дорогах на основі синтетичні дані. Звичайно, у міру вдосконалення алгоритмів зростатимуть і вимоги до достовірності синтетичних даних. Нещодавні постійні прориви в генеративному штучному інтелекті дали нам хороший практичний напрямок для підвищення реалістичності синтетичних даних.

Різноманітність сцен

Побудова синтетичних моделей світу даних, наприклад побудова сценаріїв автономного водіння. Нам потрібно створити віртуальний світ і змоделювати роботу реального світу, щоб синтетичні дані витікали, як джерельна вода. Традиційний метод базується на моделюванні штучного алгоритму. Наприклад, метод побудови традиційних виробників синтетичних даних базується виключно на фізичних движках, які визначають швидкість побудови сцени. Весь фізичний світ має бути побудований вручну інженерами 3D-активів. Кожну будівлю та вуличний знак потрібно будувати вручну Розміщення, що обмежує швидкість побудови сцени та значно обмежує різноманітність сцен. Генеративний штучний інтелект, такий як Diffusion Model і Nerf, забезпечує можливість орієнтованого на дані автоматизованого моделювання для лінії виробництва синтетичних даних.

Штучно створені сцени значно обмежують узагальнення синтетичних даних. Зрештою, ми сподіваємося, що навчений алгоритм достатньо надійний, щоб достатньо добре працювати в реальному світі.

Очевидно, що штучна конструкція не може охопити кожну сцену в реальному світі. Щоб створити достатньо даних, щоб охопити весь реальний світ, нам потрібно вивчити неявне вираження реального світу, а потім створювати досить різноманітні сцени. Це має спиратися на генеративний ШІ.

Продуктивність

Щоб швидко надати великі пакети даних, які можна узагальнити, великомасштабне паралельне виробництво в хмарі є першочерговим.Підтримка швидкого виробництва даних із високою обчислювальною потужністю дозволяє синтезувати дані зі швидкістю, незрівнянною в реальному світі.

06. Generative AI дозволяє синтетичним даним замінювати реальні дані у великому масштабі

NVidia Huang Renxun вважає, що людські роздуми та сни є частиною синтетичних даних, що еквівалентно штучному інтелекту, який створює дані для навчання ШІ. Щоб задовольнити величезні потреби великих моделей у даних, нам потрібно повністю автоматизувати виробництво синтетичних даних, щоб ШІ міг навчати ШІ.

Завдяки нещодавньому швидкому розвитку моделі дифузії та NeRF, високоякісні синтетичні дані AI більше не є фантастикою. Складний математичний процес Diffusion Model, заснований на ланцюгах Маркова, дає змогу створювати більші та стабільніші моделі генерації зображень, а також усуває проблему надто складного навчання для мереж генерації суперників. Стабільна модель розповсюдження використовує величезну колекцію зображень, щоб дозволити людям побачити безмежні можливості моделі розповсюдження, а запровадження пов’язаних мереж ControlNet також робить адаптацію в певних областях більш зручною.

NeRF (Neural Radiance Fields) перетворює конструкцію 3D-світу на процес навчання нейронної мережі. Він ефективно поєднує нейронні поля (Neural Field) і воксельний рендеринг для дуже реалістичної реконструкції 3D-світу, і дуже перспективно замінити громіздкий процес. Процес побудови фізичного двигуна. Waymo розробила BlockNeRF на основі цієї технології, щоб ефективно реконструювати Сан-Франциско та створювати там синтетичні дані. Недавній документ CVPR Highlight UniSim зробив великий крок вперед у застосуванні NeRF.

На основі цих технологій почали з’являтися єдинороги AIGC. Після того, як StabilityAI (Diffsion Model), Midjourney (Diffusion Model) і LumaLab AI (NeRF) навчаються великими пакетами даних, автентичність зображень більше не може бути піддана сумніву, а отримані художні ефекти та нові вирази даних дозволяють нам див. Ось і настає світле майбутнє узагальнення синтетичних даних.

07, написано в кінці

ChatGPT — лише відправна точка, а великі моделі в області природної мови — лише іскри. Незважаючи на те, що ChatGPT уже має базові можливості штучного інтелекту, які отримані шляхом вивчення даних природної мови людини, насправді людське когнітивне мислення про світ безперечно не обмежується мовою та текстом, а є мультимодальним (зображення, текст, звук, світло, електрика, плівка...). Неважко зробити висновок, що справжній AGI повинен бути в змозі обробляти всю модальну інформацію у світі так само миттєво, ефективно, точно й логічно, як і люди, і виконувати різні крос-модальні або мультимодальні завдання. Нещодавнє повальне захоплення втіленим інтелектом також очікує появи нових мультимодальних методів взаємодії.

Це також вимагає мультимодальних даних, що ще більше ускладнює отримання реальних даних, а мультимодальних реальних даних ще більше бракує.

Наприклад, порівняно з текстовими даними та даними зображень, які можна знайти скрізь, існує лише кілька відповідних наборів високоякісних 3D-даних. Часто використовувані набори зображень для наукових досліджень зазвичай містять сотні мільйонів або більше зображень, тоді як багато високоякісних наборів 3D-даних, які можна використовувати для наукових досліджень, містять лише тисячі чи десятки тисяч 3D-моделей. Якщо ми хочемо, щоб штучний інтелект розумів 3D-світ, нам знадобиться велика кількість мультимодальних даних, що містять 3D-моделі. Для цього також можуть знадобитися синтетичні дані.

Автоматизація побудови світових моделей, що дозволяє штучному інтелекту керовано генерувати мультимодальні дані та навчання більш розумних великих моделей є справжнім шляхом до загального штучного інтелекту.

Деякі посилання:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити