Patronus AI: Lightspeed America возглавляет инвестиции в размере 3 миллионов долларов США, нацеленные на корпоративный рынок для решения проблем безопасности крупных моделей.

**Источник: **SenseAI Deep Thought Circle

«Крупным предприятиям необходимо вкладывать много денег в обнаружение ошибок ИИ, чтобы предотвратить их. В то же время на данном этапе отсутствует стандартная структура тестирования LLM. Поэтому оценка LLM не масштабируема, и эффект невелик. нехорошо. Это также приводит к снижению производительности предприятий при развертывании продуктов искусственного интеллекта. Из осторожности. Patronus AI надеется дать предприятиям возможность безопасно развертывать продукты искусственного интеллекта, создав автоматизированную платформу оценки и безопасности LLM, тем самым способствуя широкомасштабному внедрению Gen-AI. "

Чувственное мышление

Мы стараемся выдвигать более различные выводы и размышления, основанные на содержании статьи, и приветствуем обмен мнениями.

▪ Проблемы при применении больших моделей на уровне предприятия. Прогнозирование следующих событий с использованием формулы авторегрессии преобразователя по сути является вероятностной моделью, а оценка неопределенности сгенерированного контента является ключом к проверке возможностей модели. В то же время оценка академического индекса не может быть адаптирована к полевым приложениям на уровне предприятия, и необходима более ориентированная на продукт многомодельная автоматическая платформа оценки.

▪ Как сбалансировать точность и неопределенность в содержании производства и расширить возможности LLM для сценариев бизнес-требований — это искусство платформ оценки моделей и приложений Gen-AI корпоративного уровня.

Всего в статье 2115 слов. Внимательное чтение займет около 5 минут.

Пользователи внедряют генеративный искусственный интеллект с беспрецедентной скоростью. ChatGPT — самый быстрорастущий потребительский продукт за всю историю: за первые два месяца после запуска он привлек более 100 миллионов пользователей. В этом году искусственный интеллект был в центре внимания. Но в то же время предприятия проявляют осторожное отношение, когда сталкиваются с быстрым внедрением продуктов искусственного интеллекта. Их беспокоят ошибки, которые могут вызвать большие языковые модели. К сожалению, нынешние усилия по оценке и проверке языковых моделей трудно масштабируемы и неэффективны. Patronus стремится изменить эту ситуацию, и их миссия — повысить доверие предприятий к генеративному искусственному интеллекту.

История создания Patronus AI

Два основателя Patronus, Ребекка и Ананд, знают друг друга уже почти 10 лет. После совместного изучения информатики в Чикагском университете Ребекка присоединилась к Meta AI (FAIR), чтобы возглавить исследования, связанные с НЛП и ALGN, а Ананд разработал ранние причинно-следственные выводы и экспериментальные основы в Meta Reality Labs. В Meta они на собственном опыте столкнулись с трудностями оценки и интерпретации результатов машинного обучения — Ребекка с точки зрения исследований, а Ананд — с точки зрения приложений.

Когда технический директор OpenAI Мира Мурати объявила о выпуске ChatGPT в Твиттере в ноябре прошлого года, Ананд переслал эту новость Ребекке в течение 5 минут. Они понимают, что это трансформационный момент, и компании обязательно быстро начнут применять языковые модели к различным сценариям. Поэтому Ананд был удивлен, когда услышал, что Пайпер Сэндлер, инвестиционный банк, в котором работал его брат, запретил внутренний доступ к OpenAI. В течение следующих нескольких месяцев они неоднократно слышали, что традиционные компании очень осторожно продвигаются к использованию этой технологии.

Они поняли, что хотя технология НЛП и достигла значительного прогресса, она все еще далека от реальных корпоративных приложений. Все согласны с тем, что генеративный ИИ очень полезен, но никто не знает, как его правильно использовать. Они признают, что оценка и безопасность ИИ станут главными вопросами в ближайшие годы.

Команда и ситуация с финансированием

14 и 23 сентября компания Patronus объявила, что получила начальный раунд финансирования в размере 3 млн долларов США от Lightspeed Venture Partners. В проекте также приняли участие Factorial Capital, генеральный директор Replit Амджад Масад, Гокул Раджарам, Майкл Каллахан, Прасанна Гопалакришнан, Суджа Чандрасекаран и др. инвестиции. Эти инвесторы имеют обширный опыт инвестирования и управления эталонными компаниями в области корпоративной безопасности и искусственного интеллекта.

Команда основателей Patronus имеет опыт работы в области приложений и исследований ML (машинного обучения), включая Facebook AI Research (FAIR), Airbnb, Meta Reality Labs и количественные учреждения. Они опубликовали исследовательские работы по НЛП на ведущих конференциях по искусственному интеллекту (NeurIPS, EMNLP, ACL), разработали и запустили первого диалогового помощника по искусственному интеллекту Airbnb, стали пионерами в области причинно-следственных выводов в Meta Reality Labs и вышли из количественного хедж-фонда, поддерживаемого Марком Кубаном, который выходит из продуктов 0 → 1. в быстрорастущих стартапах.

Консультатором Patronus является Дауве Киела, генеральный директор компании Contextual AI и адъюнкт-профессор Стэнфордского университета, который также является бывшим директором по исследованиям HuggingFace. Доу провел новаторские исследования в области НЛП, особенно в области оценки, бенчмаркинга и RAG.

Проблемы, которые решает ИИ Патронуса

Текущая оценка модели большого языка не масштабируема и работает плохо по следующим причинам:

Ручная оценка — это медленный и дорогостоящий процесс. Крупные предприятия тратят миллионы долларов, нанимая тысячи внутренних тестировщиков и внешних консультантов для ручной проверки ошибок в ИИ. Инженеры, желающие внедрить продукты искусственного интеллекта, тратят недели на создание наборов тестов вручную и проверку результатов искусственного интеллекта.

Недетерминированный характер больших языковых моделей затрудняет прогнозирование сбоев. Большие языковые модели представляют собой вероятностные системы. Поскольку его диапазон ввода не ограничен (в пределах длины контекста), он обеспечивает широкую поверхность атаки. Поэтому причина неудачи будет очень сложной.

В настоящее время не существует стандартной среды тестирования для больших языковых моделей. Тестирование программного обеспечения глубоко интегрировано в традиционные рабочие процессы проектирования с использованием структур модульного тестирования, больших групп проверки качества и циклов выпуска, но компании еще не разработали подобные процессы для больших языковых моделей. Непрерывная и масштабируемая оценка, выявление и документирование крупных ошибок языковых моделей, а также тестирование производительности имеют решающее значение для производственного использования больших языковых моделей.

Академические критерии не отражают реальных ситуаций. В настоящее время предприятия тестируют большие языковые модели с помощью академических тестов (таких как HELM, GLUE, SuperGLUE и т. д.), но эти тесты не могут отражать реальные сценарии использования. Академические тесты, как правило, перенасыщены и страдают от проблем с утечкой обучающих данных.

Длинный хвост неудачи ИИ очень серьезен, а последние 20% представляют собой чрезвычайно сложную задачу. Состязательные атаки показали, что проблема безопасности больших языковых моделей далека от решения. Даже если предварительно обученные языковые модели общего назначения демонстрируют сильные базовые возможности, все равно остается большое количество неизвестных ситуаций сбоев. Патронус провел множество новаторских исследований в области оценки и надежности состязательных моделей, но это только начало.

Миссия Патронуса ИИ

Миссия Patronus AI — повысить доверие предприятий к генеративному искусственному интеллекту.

Patronus AI — первая в отрасли автоматизированная платформа оценки и безопасности для больших языковых моделей. Клиенты используют ИИ Patronus для обнаружения крупных ошибок языковой модели в любом масштабе и безопасного развертывания продуктов ИИ.

Платформа автоматически выполняет:

Оценка: оценка производительности модели и ключевых показателей, таких как галлюцинации и безопасность, в реальных сценариях.

Создание тестов. Автоматическое создание крупномасштабных состязательных наборов тестов.

Сравнительный анализ: сравнивайте модели, чтобы помочь клиентам определить лучшую модель для конкретного варианта использования.

Патронус ожидает, что частые оценки позволят адаптироваться к постоянно обновляемым моделям, данным и потребностям пользователей. Конечная цель – получить знак доверия. Ни одна компания не хочет видеть своих пользователей недовольными неожиданными сбоями или даже негативной реакцией в прессе и проблемами регулирования.

Кроме того, Patronus ищет надежных сторонних оценщиков, которым нужна непредвзятая и независимая точка зрения. Патронус хочет, чтобы все считали его Moody's ИИ.

В число нынешних партнеров Patronus входят ведущие компании в области искусственного интеллекта Cohere, Nomic и Naologic. Кроме того, известные традиционные отраслевые компании, такие как несколько компаний, предоставляющих финансовые услуги, также ведут переговоры с Patronus AI о проведении пилотных проектов.

Не уходи нежно в эту спокойную ночь,

Ярость,

ярость против угасания света.

—— Дилан Томас (1954)

Рекомендации

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить