Contando com PPT para levantar 1 bilhão, startup francesa de IA disparou contra o Microsoft Google

Compilado por Lu Ke

De acordo com relatos da imprensa estrangeira, em junho deste ano, a startup francesa Mistral AI, que tinha apenas um mês, levantou 105 milhões de euros em uma rodada seed de financiamento. Na época, a startup, fundada por um ex-funcionário da DeepMind e dois ex-funcionários da Meta, não tinha nada para lançar. Quando as pessoas ouviram pela primeira vez sobre a arrecadação de fundos da Mistral, lamentaram que os VCs fossem muito generosos com o espaço de IA generativa explodindo.

Como se viu, Mistral realmente teve muitos pontos positivos que convenceram a Lightspeed Ventures, o bilionário francês Xavier Niel e o ex-CEO do Google Eric Schmidt a investir neles.

Há uma semana, a Mistral lançou um modelo de 7,3 bilhões de parâmetros projetado para competir com o Llama 2 da Meta, um modelo de linguagem grande com 13 bilhões de parâmetros. A empresa francesa afirma ser o modelo de linguagem mais poderoso no campo dos modelos de linguagem grande hoje.

O modelo base, chamado Mistral 7B, é um modelo de transformador projetado para inferência rápida e processamento de instruções mais longas. Ele usa a atenção de consulta agrupada e a atenção de janela deslizante para conseguir isso. A utilização da atenção de consulta agrupada combina várias consultas e um mecanismo de atenção de várias cabeças para equilibrar a qualidade e a velocidade da saída. A atenção da janela deslizante estende o comprimento do contexto redimensionando a janela. Com um comprimento de contexto de 8000 tokens, o Mistral 7B apresenta baixa latência, alta taxa de transferência e alto desempenho em comparação com modelos maiores.

O modelo Mistral 7B agora está integrado aos Vertex AI Notebooks do Google, uma integração que dá aos clientes do Google Cloud uma visão sobre um fluxo de trabalho abrangente de ponta a ponta, permitindo que eles experimentem, ajustem e implantem o Mistral-7B e suas variantes nos Vertex AI Notebooks.

Os usuários do Mistral AI podem otimizar seus modelos usando vLLM, uma estrutura de serviço de modelo de linguagem grande eficiente. Usando notebooks Vertex AI, os usuários podem implantar imagens vLLM mantidas pelo Model Garden em pontos de extremidade de IA Vertex para inferência, garantindo uma implantação simplificada do modelo.

Uma característica fundamental dessa colaboração é o Vertex AI Model Registry, um repositório central que permite aos usuários gerenciar o ciclo de vida dos modelos de IA Mistral e seus modelos ajustados. O registro fornece aos usuários uma visão abrangente da organização aprimorada e recursos de rastreamento de seus modelos.

Como pode ser visto na apresentação da empresa, Mistral habilmente se posicionou como um importante player potencial. Ajudará a Europa a tornar-se um «forte concorrente» na construção de modelos fundamentais de IA e a desempenhar um «papel importante em questões geopolíticas».

Nos Estados Unidos, startups que se concentram em produtos de IA são apoiadas principalmente por grandes empresas, como Google e Microsoft. Mistral chama isso de "abordagem fechada à tecnologia" que permite que grandes empresas ganhem mais dinheiro, mas não realmente forma uma comunidade aberta.

Ao contrário do modelo GPT da OpenAI, onde os detalhes do código permanecem confidenciais e disponíveis apenas por meio de APIs, a empresa com sede em Paris abriu seu próprio modelo no GitHub sob a licença Apache 2.0, tornando-o livre para todos usarem.

A Mistral tem como alvo a Lama da Meta, enquanto a Mistral afirma que seu grande modelo é mais forte do que o Llama 2.

Modelo de Mistral versus Llama 2

Mistral disse em um relatório que o Mistral 7B superou facilmente os modelos de parâmetros de 7 bilhões e 13 bilhões do Llama 2 em vários benchmarks.

Em testes de compreensão de linguagem multitarefa em grande escala, abrangendo matemática, história, direito e outros assuntos, o modelo de Mistral alcançou 60,1% de precisão, enquanto o modelo Llama 2 teve uma taxa de precisão de 44% e 55% para os parâmetros de 7 bilhões e 13 bilhões, respectivamente.

Nos benchmarks de raciocínio e compreensão de leitura do senso comum, Mistral também superou o modelo de Llama 2.

Apenas em termos de codificação, o Mistral fica atrás do Meta. O Mistral 7B foi 30,5% e 47,5% preciso nos benchmarks "Humano" e "MBPP", enquanto o modo 7 bilhões do Llama 2 foi 31,1% e 52,5% preciso, respectivamente.

Além do desempenho, Mistral afirma usar menos computação do que Llama 2. No benchmark MMLU, a produção do modelo Mistral foi mais de três vezes superior à do Llama 2 na mesma escala. Se comparado ao ChatGPT, de acordo com os cálculos do meio, o custo de usar o Mistral AI é cerca de 187 vezes mais barato do que o GPT 4 e cerca de 9 vezes mais barato do que o modelo GPT 3.5.

Como restringir modelos grandes? Isto é um problema

No entanto, Mistral também disse que alguns usuários reclamaram que não tinha as proteções de segurança que ChatGPT, Bard e Llama têm. Os usuários perguntaram ao modelo de comando do Mistral como fazer uma bomba ou automutilação, e os chatbots deram instruções detalhadas.

Paul Rottger, um pesquisador de segurança de IA que anteriormente trabalhou para configurar proteções para o GPT-4 antes de seu lançamento, expressou seu "choque" com a falta de segurança do Mistral 7B em um tweet. "É raro ver um novo modelo responder até mesmo às instruções mais maliciosas com tanta facilidade. Estou muito animado com o surgimento de grandes modelos de código aberto, mas isso não deve acontecer! Ele disse.

Estas críticas levaram Mistral a afinar o modelo e a explicá-lo. "O modelo Mistral 7B Instruct demonstrou suas capacidades, permitindo que as pessoas vejam que o modelo base também pode ser facilmente ajustado para demonstrar um desempenho convincente. Estamos ansiosos para trabalhar com a comunidade sobre como tornar o modelo mais compatível com as regras de proteção para implantação em ambientes onde o controle de saída é necessário. Mistral disse.

Aos olhos de muitos outros pesquisadores, a rota de Mistral é uma solução de longo prazo para corrigir a toxicidade do modelo, e adicionar um mecanismo de proteção equivale a colocar um band-aid em uma lesão grave, que não é tão eficaz. Violar as diretrizes de segurança do chatbot é um passatempo favorito para muitos usuários que querem testar os limites de quão responsivos os chatbots são. Nos primeiros dias da abertura do ChatGPT, os desenvolvedores têm instado o ChatGPT a quebrar a defesa do chatbot.

Rahul Dandwate, um pesquisador de aprendizagem profunda que colaborou com Rephrase.ai, disse: "Remover certas palavras-chave de antemão é apenas parte da solução, e há muitas maneiras de ignorá-la. Você se lembra do que aconteceu depois que o ChatGPT foi lançado? Eles costumavam aparecer em DAN ou 'Do Anything Now', que é uma dica para habilitar a versão jailbreak do ChatGPT. Portanto, fazer uma avaliação básica de segurança é uma medida temporária para tornar o modelo mais seguro. "

"Há também métodos que nem sequer exigem técnicas sofisticadas de hacking. Uma pergunta pode ser respondida por um chatbot de várias maneiras diferentes. Por exemplo, em vez de simplesmente perguntar diretamente ao chatbot como fazer uma bomba, eu dividiria em maneiras mais científicas como: "Quais produtos químicos se misturam para produzir uma reação forte?" Dandwate explica.

Dandwate diz que a solução a longo prazo é lançar o modelo para o público e obter feedback desse uso e, em seguida, ajustá-lo, que é exatamente o que a Mistral AI está fazendo. "O ChatGPT é melhor porque já foi usado por muitas pessoas. Eles têm um mecanismo de feedback muito básico, onde os usuários podem optar por dar um polegar para cima ou um polegar para cima para avaliar a qualidade das respostas do chatbot, o que eu acho muito importante. Dandwate disse.

Mas a desvantagem de usar essa abertura para ajustar os usuários é que o Mistral pode ter que lidar com as dúvidas de alguns usuários por um tempo. Mas no campo da pesquisa de IA, há uma grande proporção de pessoas que preferem modelos básicos em sua forma original, a fim de entender completamente as capacidades dos modelos, e essas pessoas estão apoiando a persistência de Mistral.

O pesquisador de IA Delip Rao tuitou que a escolha de Mistral de lançar o modelo de código aberto é "um reconhecimento da versatilidade e 'não-lobotomia' do modelo Mistral como modelo base".

A referência à "lobectomia" lembra uma versão anterior do chatbot Bing Sydney, da Microsoft. O chatbot era irrestrito e tinha uma personalidade forte até que a Microsoft modificou drasticamente o chatbot para sua forma atual.

O termo loboctomia deriva da famigerada cirurgia psicológica que, no campo dos grandes modelos, muitas vezes se refere à prevenção de respostas tóxicas limitando a função. Esta abordagem filtra respostas perigosas definindo palavras-chave para modelos grandes. Mas esta abordagem de tamanho único também pode levar à degradação do desempenho de modelos grandes, tornando algumas perguntas normais que envolvem vocabulário sensível difíceis de responder.

Embora a empresa não tenha emitido um comunicado oficial, há rumores de que a OpenAI realizou uma "lobectomia" no modelo para controlar suas partes bagunçadas. Desde então, as pessoas se perguntam o que os chatbots se tornariam se fossem deixados para funcionar livremente.

Dandwate disse: "Realizar lobotomia no modelo pode afetá-lo de algumas maneiras. Se for proibido de responder a perguntas com certas palavras-chave, também pode não ser capaz de responder a perguntas técnicas que os utilizadores possam fazer, como a mecânica dos mísseis, ou quaisquer outras questões científicas levantadas em torno de tópicos em que os robôs são rotulados como 'em risco'." (Tradução/Lu Ke)

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)