Patronus AI: Lightspeed America lidera um investimento de US$ 3 milhões, visando o mercado corporativo para resolver problemas de segurança de grandes modelos

**Fonte: **Círculo de pensamento profundo SenseAI

"As grandes empresas precisam investir muito dinheiro na detecção de erros de IA para evitá-los. Ao mesmo tempo, há uma falta de uma estrutura de teste LLM padrão nesta fase. Portanto, a avaliação do LLM não é escalonável e o efeito é não é bom. Isso também leva ao desempenho das empresas ao implantar produtos de IA. Por cautela. A Patronus AI espera permitir que as empresas implantem produtos de IA com segurança, construindo a plataforma automatizada de avaliação e segurança do LLM, promovendo assim a ampla adoção da Gen-AI. "

Pensando sentido

Procuramos apresentar deduções e reflexões mais divergentes com base no conteúdo do artigo e acolhemos trocas.

▪ Pontos problemáticos na aplicação de grandes modelos de nível empresarial: A previsão do seguinte usando a fórmula autorregressiva do transformador é essencialmente um modelo probabilístico, e a avaliação da incerteza do conteúdo gerado é a chave para a verificação da capacidade do modelo. Ao mesmo tempo, a avaliação do índice académico não pode ser adaptada a aplicações de campo a nível empresarial, sendo necessária uma plataforma de avaliação automática multimodelo mais orientada para o produto.

▪ Como equilibrar a precisão e a incerteza no conteúdo de produção e ampliar os recursos de LLM para cenários de demanda de negócios é a arte das plataformas de avaliação de modelos e dos aplicativos Gen-AI de nível empresarial.

Este artigo tem um total de 2.115 palavras e leva cerca de 5 minutos para ser lido com atenção.

Os usuários estão adotando a IA generativa em um ritmo sem precedentes. ChatGPT é o produto de consumo de crescimento mais rápido de todos os tempos: atraindo mais de 100 milhões de usuários nos primeiros dois meses de lançamento. A IA esteve em destaque este ano. Mas, ao mesmo tempo, as empresas têm demonstrado uma atitude cautelosa quando confrontadas com a rápida implantação de produtos de IA. Eles se preocupam com os erros que grandes modelos de linguagem podem causar. Infelizmente, os esforços atuais para avaliar e inspecionar modelos linguísticos são difíceis de escalar e ineficientes. A Patronus está comprometida em mudar isso e sua missão é aumentar a confiança das empresas na IA generativa.

Antecedentes fundadores do Patronus AI

Os dois fundadores do Patronus, Rebecca e Anand, se conhecem há quase 10 anos. Depois de estudar ciência da computação juntos na Universidade de Chicago, Rebecca ingressou na Meta AI (FAIR) para liderar pesquisas relacionadas a PNL e ALGN, enquanto Anand desenvolveu inferência causal inicial e fundamentos experimentais no Meta Reality Labs. Na Meta, os dois experimentaram em primeira mão a dificuldade de avaliar e interpretar os resultados do aprendizado de máquina – Rebecca de uma perspectiva de pesquisa e Anand de uma perspectiva de aplicação.

Quando a CTO da OpenAI, Meera Murati, anunciou o lançamento do ChatGPT no Twitter em novembro passado, Anand encaminhou a notícia para Rebecca em 5 minutos. Eles percebem que este é um momento de transformação e as empresas certamente aplicarão rapidamente modelos de linguagem a vários cenários. Por isso, Anand ficou surpreso ao saber que Piper Sandler, o banco de investimento onde seu irmão trabalhava, havia proibido o acesso interno ao OpenAI. Nos meses seguintes, eles ouviram diversas vezes que as empresas tradicionais estavam avançando com essa tecnologia com muita cautela.

Eles percebem que, embora a tecnologia da PNL tenha feito progressos significativos, ainda há um longo caminho a percorrer antes de aplicações empresariais reais. Todos concordam que a IA generativa é muito útil, mas ninguém sabe como usá-la da maneira certa. Eles reconhecem que a avaliação e a segurança da IA serão questões importantes nos próximos anos.

Equipe e situação financeira

Patronus anunciou em 14 de setembro de 23 que havia recebido US$ 3 milhões em financiamento inicial da Lightspeed Venture Partners.Factorial Capital, CEO da Replit Amjad Masad, Gokul Rajaram, Michael Callahan, Prasanna Gopalakrishnan, Suja Chandrasekaran, etc. investimento. Esses investidores têm ampla experiência em investir e operar empresas de referência em segurança empresarial e IA.

A equipe fundadora da Patronus vem das principais áreas de aplicação e pesquisa de ML (aprendizado de máquina), incluindo Facebook AI Research (FAIR), Airbnb, Meta Reality Labs e instituições quantitativas. Eles publicaram artigos de pesquisa de PNL nas principais conferências de IA (NeurIPS, EMNLP, ACL), projetaram e lançaram o primeiro assistente de IA conversacional do Airbnb, foram pioneiros na inferência causal no Meta Reality Labs e saíram do fundo de hedge quantitativo apoiado por Mark Cuban. em startups de rápido crescimento.

Patronus é aconselhado por Douwe Kiela, CEO da Contextual AI e professor adjunto da Universidade de Stanford, que também é ex-diretor de pesquisa da HuggingFace. Douwe fez pesquisas pioneiras na área de PNL, especialmente em avaliação, benchmarking e RAG.

Problemas que o Patronus AI resolve

A avaliação atual do modelo de linguagem grande não é escalonável e tem um desempenho insatisfatório pelos seguintes motivos:

A avaliação manual é lenta e cara. Grandes empresas gastam milhões de dólares contratando milhares de testadores internos e consultores externos para verificar manualmente a existência de bugs na IA. Os engenheiros que desejam implantar produtos de IA passam semanas criando manualmente conjuntos de testes e verificando os resultados da IA.

A natureza não determinística dos grandes modelos de linguagem dificulta a previsão de falhas. Grandes modelos de linguagem são sistemas probabilísticos. Como seu intervalo de entrada não é limitado (dentro do limite de comprimento do contexto), ele fornece uma ampla superfície de ataque. Portanto, a causa da falha será muito complexa.

Atualmente não existe uma estrutura de teste padrão para modelos de linguagem grandes. Os testes de software foram profundamente integrados aos fluxos de trabalho de engenharia tradicionais, com estruturas de testes unitários, grandes equipes de inspeção de qualidade e ciclos de lançamento, mas as empresas ainda não desenvolveram processos semelhantes para grandes modelos de linguagem. Avaliação contínua e escalonável, identificação e documentação de grandes erros de modelos de linguagem e benchmarking de desempenho são essenciais para o uso de produção de grandes modelos de linguagem.

Os benchmarks acadêmicos não refletem situações do mundo real. Atualmente, as empresas testam grandes modelos de linguagem em benchmarks acadêmicos (como HELM, GLUE, SuperGLUE, etc.), mas esses benchmarks não podem refletir cenários reais de uso. Os benchmarks acadêmicos tendem a estar saturados e sofrem com problemas de vazamento de dados de treinamento.

A longa cauda do fracasso da IA é muito grave e os últimos 20% são extremamente desafiadores. Os ataques adversários mostraram que o problema de segurança de grandes modelos de linguagem está longe de ser resolvido. Mesmo que os modelos de linguagem pré-treinados de uso geral demonstrem fortes capacidades básicas, ainda há um grande número de situações de falha desconhecidas. Patronus fez muitas pesquisas inovadoras sobre avaliação e robustez de modelos adversários, mas isso é apenas o começo.

Missão do Patronus AI

A missão da Patronus AI é aumentar a confiança das empresas na IA generativa.

Patronus AI é a primeira plataforma automatizada de avaliação e segurança do setor para grandes modelos de linguagem. Os clientes usam Patronus AI para detectar grandes erros de modelo de linguagem em escala para implantar produtos de IA com segurança.

A plataforma executa automaticamente:

Pontuação: Avalie o desempenho do modelo e as principais métricas, como alucinação e segurança em cenários do mundo real.

Gerar testes: gere automaticamente conjuntos de testes adversários em grande escala.

Benchmarking: compare modelos para ajudar os clientes a determinar o melhor modelo para um caso de uso específico.

Patronus espera que avaliações frequentes se adaptem a modelos, dados e necessidades do usuário continuamente atualizados. O objetivo final é obter uma marca de credibilidade. Nenhuma empresa quer ver seus usuários insatisfeitos com falhas inesperadas, ou mesmo com a imprensa negativa e questões regulatórias.

Além disso, a Patronus procura avaliadores terceirizados de confiança, onde os usuários precisam de uma perspectiva imparcial e independente. Patronus quer que todos pensem nele como o Moody's da IA.

Os atuais parceiros da Patronus incluem as empresas líderes de IA Cohere, Nomic e Naologic. Além disso, empresas tradicionais bem conhecidas da indústria, como diversas empresas de serviços financeiros, também estão em negociações com a Patronus AI para conduzir projetos piloto.

Não seja gentil naquela boa noite,

Raiva,

raiva contra a morte da luz.

——Dylan Thomas (1954)

Referências

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)