Patronus AI: Lightspeed America інвестує 3 мільйони доларів США, орієнтуючись на корпоративний ринок для вирішення проблем безпеки великих моделей

**Джерело: **SenseAI Deep Thought Circle

"Великим підприємствам потрібно інвестувати багато грошей у виявлення помилок штучного інтелекту, щоб запобігти їм. Водночас на даному етапі бракує стандартної основи тестування LLM. Тому оцінка LLM не масштабується, а ефект є Це також призводить до зниження продуктивності підприємств при розгортанні продуктів ШІ. З обережності. Patronus AI сподівається надати підприємствам можливість безпечно розгортати продукти штучного інтелекту, створивши платформу автоматизованої оцінки та безпеки LLM, сприяючи таким чином широкому впровадженню Gen-AI. "

Чутке мислення

Ми намагаємося висунути більше розбіжних висновків і міркувань на основі змісту статті та вітати обмін.

▪ Проблемні точки у застосуванні великих моделей на рівні підприємства: передбачення наступного за допомогою формули трансформаторної авторегресії є, по суті, імовірнісною моделлю, а оцінка невизначеності створеного вмісту є ключем до перевірки можливостей моделі. У той же час оцінка академічного індексу не може бути адаптована до польових додатків на рівні підприємства, і потрібна більш орієнтована на продукт багатомодельна платформа автоматичного оцінювання.

▪ Як збалансувати точність і невизначеність у виробничому контенті та розширити можливості LLM відповідно до сценаріїв бізнес-попиту — це мистецтво платформ оцінки моделей і додатків Gen-AI на рівні підприємства.

Ця стаття містить 2115 слів, на уважне читання потрібно близько 5 хвилин.

Користувачі впроваджують генеративний ШІ з безпрецедентною швидкістю. ChatGPT — це найшвидше зростаючий споживчий продукт за всю історію: він залучив понад 100 мільйонів користувачів протягом перших двох місяців після запуску. Цього року AI був у центрі уваги. Але в той же час підприємства демонструють обережне ставлення до швидкого розгортання продуктів ШІ. Їх хвилюють помилки, які можуть викликати великі мовні моделі. На жаль, поточні спроби оцінити та перевірити мовні моделі важко масштабувати та є неефективними. Patronus прагне змінити це, і їхня місія полягає в тому, щоб підвищити довіру підприємств до генеративного ШІ.

Заснування Patronus AI

Двоє засновників Patronus, Ребекка та Ананд, знайомі майже 10 років. Після спільного вивчення інформатики в Чиказькому університеті Ребекка приєдналася до Meta AI (FAIR), щоб очолити дослідження, пов’язані з NLP і ALGN, а Ананд розробив перші причинно-наслідкові висновки та експериментальні основи в Meta Reality Labs. У Meta двоє на власному досвіді відчули труднощі оцінювання та інтерпретації результатів машинного навчання — Ребекка з дослідницької точки зору, а Ананд — з прикладної точки зору.

Коли технічний директор OpenAI Міра Мураті оголосила про випуск ChatGPT у Twitter минулого листопада, Ананд переслав новину Ребекці протягом 5 хвилин. Вони розуміють, що це трансформаційний момент, і компанії обов’язково швидко застосують мовні моделі до різних сценаріїв. Тому Ананд був здивований, коли почув, що Пайпер Сендлер, інвестиційний банк, де працював його брат, заборонив внутрішній доступ до OpenAI. Протягом наступних кількох місяців вони неодноразово чули, що традиційні компанії дуже обережно просувають цю технологію.

Вони зрозуміли, що хоча технологія NLP досягла значного прогресу, вона все ще далека від реальних корпоративних програм. Усі погоджуються, що генеративний ШІ дуже корисний, але ніхто не знає, як його правильно використовувати. Вони визнають, що оцінка ШІ та безпека будуть головними питаннями в найближчі роки.

Ситуація з командою та фінансуванням

14 вересня 23 вересня Patronus оголосив, що отримав $3 млн початкового фінансування від Lightspeed Venture Partners. Factorial Capital, генеральний директор Replit Амджад Масад, Гокул Раджарам, Майкл Каллахан, Прасанна Гопалакрішнан, Суджа Чандрасекаран та ін. інвестиції. Ці інвестори мають значний досвід інвестування та управління еталонними компаніями у сфері корпоративної безпеки та ШІ.

Команда засновників Patronus походить із кращих спеціалістів у сфері програмного забезпечення та досліджень ML (машинного навчання), зокрема Facebook AI Research (FAIR), Airbnb, Meta Reality Labs та кількісних установ. Вони опублікували дослідницькі статті про НЛП на провідних конференціях зі штучного інтелекту (NeurIPS, EMNLP, ACL), розробили та запустили першого розмовного помічника зі штучним інтелектом Airbnb, започаткували причинно-наслідковий висновок у Meta Reality Labs і вийшли з хедж-фонду Quantitative, який підтримує Mark Cuban, виходить із 0→1 продуктів. у швидкозростаючих стартапах.

Патронуса консультує Дуве Кіла, генеральний директор Contextual AI і ад’юнкт-професор Стенфордського університету, який також є колишнім керівником досліджень HuggingFace. Douwe провів піонерські дослідження в галузі НЛП, особливо в оцінці, бенчмаркінгу та RAG.

Проблеми, які вирішує Patronus AI

Поточна оцінка великої мовної моделі не є масштабованою та працює погано з таких причин:

Ручне оцінювання є повільним і дорогим. Великі підприємства витрачають мільйони доларів, наймаючи тисячі внутрішніх тестувальників і зовнішніх консультантів для ручної перевірки помилок у ШІ. Інженери, які хочуть розгортати продукти штучного інтелекту, витрачають тижні на створення тестових наборів і перевірку результатів штучного інтелекту.

Недетермінований характер великих мовних моделей ускладнює прогнозування невдач. Великі мовні моделі є імовірнісними системами. Оскільки його вхідний діапазон не обмежений (в межах довжини контексту), він забезпечує широку поверхню атаки. Тому причина невдачі буде дуже складною.

Наразі не існує стандартної основи тестування для великих мовних моделей. Тестування програмного забезпечення було глибоко інтегроване в традиційні робочі процеси розробки, з інфраструктурою модульного тестування, великими групами перевірки якості та циклами випусків, але компанії ще не розробили подібні процеси для великих мовних моделей. Безперервне та масштабоване оцінювання, ідентифікація та документування великих помилок мовної моделі та порівняльний аналіз продуктивності є критично важливими для продуктивного використання великих мовних моделей.

Академічні тести не відображають реальних ситуацій. Підприємства зараз тестують великі мовні моделі на академічних тестах (таких як HELM, GLUE, SuperGLUE тощо), але ці тести не можуть відображати реальні сценарії використання. Академічні тести, як правило, перенасичені та страждають від проблем з витоком навчальних даних.

Довгий хвіст збою штучного інтелекту дуже серйозний, а останні 20% надзвичайно складні. Змагальні атаки показали, що проблема безпеки великих мовних моделей далека від вирішення. Навіть якщо попередньо підготовлені мовні моделі загального призначення демонструють сильні базові можливості, все ще існує велика кількість невідомих ситуацій збою. Patronus провів багато новаторських досліджень щодо оцінки конкурентної моделі та надійності, але це лише початок.

Місія Patronus AI

Місія Patronus AI — підвищити довіру підприємств до генеративного ШІ.

Patronus AI — перша в галузі автоматизована платформа оцінки та безпеки для великих мовних моделей. Клієнти використовують Patronus AI для виявлення великих помилок мовної моделі в масштабі для безпечного розгортання продуктів AI.

Платформа автоматично виконує:

Підрахунок балів: оцінка ефективності моделі та ключових показників, таких як галюцинації та безпека, у сценаріях реального світу.

Створюйте тести: автоматично створюйте широкомасштабні набори змагальних тестів.

Бенчмаркінг: порівняйте моделі, щоб допомогти клієнтам визначити найкращу модель для конкретного випадку використання.

Patronus очікує, що часті оцінки адаптуються до постійно оновлюваних моделей, даних і потреб користувачів. Кінцева мета - отримати знак довіри. Жодна компанія не хоче, щоб її користувачі були незадоволені несподіваними збоями чи навіть негативними відгуками преси та нормативними питаннями.

Крім того, Patronus шукає перевірених сторонніх оцінювачів, де користувачам потрібна неупереджена та незалежна точка зору. Patronus хоче, щоб усі вважали його Moody's ШІ.

Нинішні партнери Patronus включають провідні компанії ШІ Cohere, Nomic і Naologic. Крім того, відомі компанії традиційної галузі, такі як кілька компаній, що надають фінансові послуги, також ведуть переговори з Patronus AI щодо проведення пілотних проектів.

Не йди ніжно в цю ніч,

лють,

лють проти вмирання світла.

—— Ділан Томас (1954)

Список літератури

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити