Покладаючись на PPT для залучення 1 мільярда, французький стартап зі штучним інтелектом звільнив Microsoft Google

Укладач: Лу Ке

За повідомленнями закордонних ЗМІ, у червні цього року французький стартап Mistral AI, якому виповнився лише місяць, залучив 105 млн євро в початковому раунді фінансування. На той момент стартапу, заснованому колишнім співробітником DeepMind і двома колишніми співробітниками Meta, не було чого випускати. Коли люди вперше почули про збір коштів Mistral, вони нарікали на те, що венчурні капіталісти були занадто щедрими на простір генеративного штучного інтелекту, що вибухає.

Як з'ясувалося, у Містраля насправді було багато яскравих плям, які переконали Lightspeed Ventures, французького мільярдера Ксав'є Ніла та колишнього генерального директора Google Еріка Шмідта інвестувати в них.

Тиждень тому Mistral випустила модель із 7,3 мільярдами параметрів, розроблену для конкуренції з Llama 2 від Meta, великою мовною моделлю з 13 мільярдами параметрів. Французька компанія претендує на звання найпотужнішої мовної моделі в області великих мовних моделей на сьогоднішній день.

Базова модель, що отримала назву Mistral 7B, є трансформаторною моделлю, призначеною для швидкого висновування та обробки довших тверджень. Для цього використовується використання уваги групових запитів і уваги розсувного вікна. Використання уваги групових запитів поєднує кілька запитів і механізм багатоголової уваги, щоб збалансувати якість і швидкість виведення. Увага до розсувного вікна збільшує довжину контексту, змінюючи розмір вікна. Маючи довжину контексту 8000 токенів, Mistral 7B відрізняється низькою затримкою, високою пропускною здатністю та високою продуктивністю порівняно з більшими моделями.

Модель Mistral 7B тепер інтегрована в ноутбуки Google Vertex AI Notebooks, інтеграція, яка дає клієнтам Google Cloud уявлення про комплексний наскрізний робочий процес, дозволяючи їм експериментувати, точно налаштовувати та розгортати Mistral-7B та його варіанти на ноутбуках Vertex AI.

Користувачі Mistral AI можуть оптимізувати свої моделі за допомогою vLLM, ефективного сервісу великих мовних моделей. Використовуючи блокноти Vertex AI, користувачі можуть розгортати зображення vLLM, які підтримує Model Garden, на кінцевих точках Vertex AI для висновків, забезпечуючи спрощене розгортання моделі.

Ключовою особливістю цієї співпраці є Vertex AI Model Registry, центральний репозиторій, який дозволяє користувачам керувати життєвим циклом моделей штучного інтелекту Mistral та їх точно налаштованими моделями. Реєстр надає користувачам всебічне уявлення про розширені можливості організації та відстеження їхніх моделей.

Як видно з презентації компанії, «Містраль» вміло позиціонує себе як важливий потенційний гравець. Це допоможе Європі стати «сильним конкурентом» у побудові фундаментальних моделей штучного інтелекту та відіграватиме «важливу роль у геополітичних питаннях».

У Сполучених Штатах стартапи, які фокусуються на продуктах штучного інтелекту, в основному підтримуються великими компаніями, такими як Google і Microsoft. Містраль називає це «закритим підходом до технологій», який дозволяє великим компаніям заробляти більше грошей, але насправді не формує відкриту спільноту.

На відміну від моделі GPT від OpenAI, де деталі коду залишаються конфіденційними та доступні лише через API, паризька компанія відкрила власну модель на GitHub під ліцензією Apache 2.0, зробивши її безкоштовною для всіх.

Mistral націлений на Llama від Meta, тоді як Mistral стверджує, що їхня велика модель сильніша за Llama 2.

Модель Mistral проти Llama 2

У звіті Mistral йдеться, що Mistral 7B легко перевершив моделі Llama 2 з 7 мільярдами та 13 мільярдами параметрів у кількох тестах.

У великомасштабних багатозадачних тестах на розуміння мови, що охоплюють математику, історію, право та інші предмети, модель Містраля досягла точності 60,1%, тоді як модель Llama 2 мала точність 44% і 55% для параметрів 7 мільярдів і 13 мільярдів відповідно.

У тестах міркувань здорового глузду та розуміння прочитаного Містраль також перевершив модель Llama 2.

Тільки в плані кодування Mistral відстає від Meta. Mistral 7B був точним на 30,5% і 47,5% в тестах «Human» і «MBPP», тоді як 7-мільярдний режим Llama 2 був точним на 31,1% і 52,5% відповідно.

На додаток до продуктивності, Mistral стверджує, що використовує менше обчислень, ніж Llama 2. У бенчмарку MMLU вихід моделі Mistral був більш ніж утричі більшим, ніж у Llama 2 у тому ж масштабі. Якщо порівнювати з ChatGPT, то, за розрахунками видання, вартість використання Mistral AI приблизно в 187 разів дешевша, ніж GPT 4, і приблизно в 9 разів дешевша, ніж модель GPT 3.5.

Як обмежити великі моделі? Це проблема

Однак Mistral також сказав, що деякі користувачі скаржилися на те, що йому не вистачає захисту безпеки, який є у ChatGPT, Bard і Llama. Користувачі запитували командну модель Mistral, як зробити бомбу або завдати собі шкоди, а чат-боти дали детальну інструкцію.

Пол Роттгер, дослідник безпеки штучного інтелекту, який раніше працював над створенням захисту для GPT-4 перед його випуском, висловив свій «шок» відсутністю безпеки Mistral 7B у твіті. «Рідко можна побачити, щоб нова модель так легко реагувала навіть на найшкідливіші інструкції. Я дуже радий появі великих моделей з відкритим вихідним кодом, але цього не повинно статися! – сказав він.

Ця критика спонукала Містраля доопрацювати модель і пояснити її. «Модель Mistral 7B Instruct продемонструвала свої можливості, дозволивши людям побачити, що базова модель також може бути легко налаштована для демонстрації переконливої продуктивності. Ми з нетерпінням чекаємо на співпрацю зі спільнотою над тим, як зробити модель більш сумісною з правилами захисту для розгортання в середовищах, де потрібен контроль результатів. – сказав Містраль.

На думку багатьох інших дослідників, маршрут Містраля є довгостроковим рішенням для корекції токсичності моделі, а додавання захисного механізму рівнозначно накладанню пластиру на серйозну травму, що не так ефективно. Порушення правил безпеки чат-ботів — улюблене заняття багатьох користувачів, які хочуть перевірити межі адаптивності чат-ботів. У перші дні відкриття ChatGPT розробники закликали ChatGPT зламати захист чат-бота.

Рахул Дандвате, дослідник глибокого навчання, який співпрацював з Rephrase.ai, сказав: «Попереднє видалення певних ключових слів — це лише частина рішення, і є багато способів обійти його. Пам'ятаєте, що сталося після виходу ChatGPT? Раніше вони з'являлися в DAN або «Do Anything Now», що є підказкою для включення джейлбрейк-версії ChatGPT. Таким чином, проведення базової оцінки безпеки є тимчасовим заходом для того, щоб зробити модель більш безпечною. "

«Є також методи, які навіть не вимагають складних методів злому. На запитання чат-бот може відповісти кількома різними способами. Наприклад, замість того, щоб просто запитати чат-бота, як зробити бомбу, я б розбив її на більш наукові способи на кшталт: «Які хімічні речовини змішуються разом, щоб викликати сильну реакцію?». – пояснює Дандвате.

Дандвейт каже, що довгострокове рішення полягає в тому, щоб випустити модель для громадськості та отримати зворотний зв'язок від цього використання, а потім доопрацювати її, що і робить Mistral AI. «ChatGPT кращий, тому що ним вже користувалося багато людей. У них є дуже простий механізм зворотного зв'язку, де користувачі можуть вибрати великий палець вгору або великий палець вгору, щоб оцінити якість відповідей чат-бота, що, на мою думку, дуже важливо. – сказав Дандвате.

Але недоліком використання цієї відкритості для точного налаштування користувачів є те, що Mistral, можливо, доведеться деякий час мати справу з сумнівами деяких користувачів. Але у сфері досліджень ШІ є велика частка людей, які віддають перевагу базовим моделям у їхньому первісному вигляді, щоб повністю зрозуміти можливості моделей, і ці люди підтримують наполегливість Mistral.

Дослідник штучного інтелекту Деліп Рао написав у Твіттері, що рішення Mistral випустити модель з відкритим вихідним кодом, оскільки це «визнання універсальності та «нелоботомії» моделі Mistral як базової моделі».

Згадка про «лобектомію» нагадує попередню версію чат-бота Bing від Microsoft Sydney. Чат-бот був вільним і мав сильну індивідуальність, поки Microsoft кардинально не змінила чат-бота до його нинішньої форми.

Термін «лобоктомія» походить від сумнозвісної психологічної хірургії, яка в області великих моделей часто відноситься до запобігання токсичних реакцій шляхом обмеження функції. Цей підхід відфільтровує небезпечні відповіді, встановлюючи ключові слова для великих моделей. Але такий універсальний підхід також може призвести до зниження продуктивності великих моделей, що ускладнює відповіді на деякі звичайні питання, пов'язані з конфіденційною лексикою.

Хоча компанія не опублікувала офіційну заяву, ходять чутки, що OpenAI провела «лобектомію» моделі, щоб контролювати її безладні частини. З тих пір люди задаються питанням, якими стали б чат-боти, якби їх залишили вільно працювати.

Дандват сказав: «Виконання лоботомії на моделі може певним чином вплинути на неї. Якщо йому заборонено відповідати на запитання певними ключовими словами, то він також може бути не в змозі відповісти на технічні запитання, які можуть ставити користувачі, наприклад, механіку ракет, або на будь-які інші наукові питання, пов'язані з темами, де роботи позначені як «у зоні ризику». (Переклад/Лу Ке)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити