Quatro semanas após a sua criação, arrecadou 105 milhões de euros, e o texto integral do memorando de financiamento do modelo linguístico europeu mistral.ai

Fonte: Empower Labs

Fonte da imagem: Gerada pela ferramenta Unbounded AI

Uma equipa constituída há apenas algumas semanas concluiu um financiamento de 105 milhões de euros sem produtos, sem utilizadores e sem experiência operacional. Este memorando (memorando) ajudou a convencer Light Speed, ex-CEO do Google Eric Schmidt e outros. O memorando enfatiza o mercado europeu, a segurança da IA, a conformidade e outros aspectos. Mistral acredita que o uso de uma rota de código aberto completamente diferente da OpenAI permitirá que ele estabeleça vantagens e alcance a superação. Pelo que li, este memorando foi claramente escrito com muita habilidade e também contém alguns elementos de blefe. Fez bom uso da atual mentalidade FOMO da sociedade européia no modelo de linguagem grande para concluir o financiamento.

Mistral está disposto a se referir a um vento frio noroeste seco e forte no sul da França, e também é o nome de um navio de assalto anfíbio de fabricação francesa. Este é o navio de assalto anfíbio líder mundial. O nome personifica o orgulho francês. Os seis membros da equipe fundadora são todos da França, ao invés de entendê-la como um grande modelo linguístico europeu, penso que é mais como uma grande empresa modelo lingüística francesa. Ele conta uma boa história europeia, mas não será a única na Europa.

Eu vi o Memo em um grupo de discussão. Depois de confirmar que o conteúdo do Memo não precisa mais ser mantido em segredo, usei o ChatGPT para traduzir o texto completo dele, revisei e traduzi novamente parte do conteúdo.

Mistral.ai Memorando Estratégico

Autor: mistral.ai

Tradução: ChatGPT, Wang Chao

A IA generativa é uma tecnologia transformadora

No ano passado, vimos uma aceleração fenomenal na IA generativa (sistemas capazes de gerar texto/imagens a partir de texto e imagens). Esses sistemas podem ajudar os humanos a:

● Produzir conteúdo excelente e inovador (texto, código, gráficos)

● Leia, processe e resuma fluxos não estruturados de conteúdo milhares de vezes mais rápido que humanos

● Interaja com o mundo por meio de linguagem natural ou APIs para executar fluxos de trabalho mais rápido do que nunca.

Os poderosos recursos da IA generativa foram repentinamente revelados ao público após o lançamento do ChatGPT. Esses produtos estão sendo produzidos por apenas algumas pequenas equipes ao redor do mundo, e o número limitado de pesquisadores nessas equipes tornou-se um gargalo que impede a criação de uma nova economia nesse campo.

A IA generativa está prestes a aumentar a produtividade em todos os setores e criar uma nova indústria, aumentando continuamente os recursos da máquina da mente humana (mercado de US$ 10 bilhões em 2022, projetado para atingir US$ 110 bilhões em 2030, taxa de crescimento anual projetada de 35%). É uma tecnologia transformadora para a economia mundial que mudará a natureza do trabalho e trará mudanças sociais positivas.

Oligopólio em formação

As técnicas de IA generativa são baseadas em anos de pesquisa na indústria e na academia. Ao ampliar o treinamento para dados em escala de internet e corrigir o modelo com feedback humano, os avanços que tornaram a tecnologia acessível às massas foram alcançados por um punhado de players da indústria, o maior dos quais (OpenAI) parece ter intenção hegemônica de o mercado.

Esses poucos players treinam modelos generativos e os usam como ativos; eles atendem a milhares de terceiros que criam produtos para melhorias de produtividade, bem como ao público em geral por meio de seus próprios produtos, como chatbots. Um grande número de startups de terceiros ainda está sendo formado para construir vários serviços baseados nesses modelos generativos.

**Acreditamos que a maior parte do valor no mercado emergente de IA generativa vem da tecnologia difícil de fabricar, os próprios modelos generativos. **Esses modelos precisam ser treinados em milhares de máquinas poderosas, processando trilhões de dados de fontes de alta qualidade, o que constitui a primeira barra alta. A segunda barreira importante é a dificuldade de formar uma equipe experiente, e o mistral.ai está em uma boa posição para fazer isso.

Atualmente (GLM) todos os principais players estão localizados nos EUA, ainda não há um concorrente sério na Europa. Dado o quão poderosa (e perigosa) esta nova tecnologia é, esta é uma grande questão geopolítica. mistral.ai será o líder europeu em IA que aumenta a produtividade e a criatividade e orienta a nova revolução industrial que se aproxima.

A IA generativa atual não atende às necessidades do mercado

A OpenAI e seus concorrentes atuais escolheram uma rota de tecnologia fechada, o que limitará significativamente sua cobertura de mercado. Nessa abordagem, o modelo é mantido privado e servido apenas por meio de uma API de texto para texto. Isso levanta as seguintes questões importantes para os negócios:

● As organizações que desejam usar técnicas de IA generativa são forçadas a fornecer seus valiosos dados de negócios e dados confidenciais do usuário para um modelo de caixa preta, geralmente implantado na nuvem pública. Isso representa um problema de segurança: um modelo mantido em segredo não pode ser verificado para garantir que sua saída seja segura e esse modelo não pode ser implantado em um aplicativo crítico de segurança. Essa situação também levanta questões legais, especialmente quando uma empresa transfere dados pessoais para fora de suas fronteiras legais e pode estar sujeita a leis extraterritoriais.

● Expor apenas a saída do modelo, em vez do modelo completo, dificulta a interface com outros componentes (banco de dados de recuperação, entrada estruturada, imagens e sons). Existem atualmente centenas de produtos que criam capacidades compostas (por exemplo, memória, visão, etc.) interconectando as saídas e entradas dos modelos. Esses produtos funcionarão melhor e mais rápido se o modelo puder ser fornecido como uma caixa branca (modelo transparente) (por exemplo, o Flamingo integra os modelos visual e de texto da caixa branca em um modelo de texto+visual).

Os dados usados para treinar o modelo são confidenciais, o que significa que dependemos de sistemas de origem incerta e que podem produzir resultados incontroláveis. Os esforços de filtragem para resolver esse problema fornecem apenas garantias fracas e frágeis de que o modelo não produzirá conteúdo confidencial para o qual pode ter sido treinado. Esse problema levou o ChatGPT a ser banido na Itália em abril de 2023.

Quebre o padrão de mercado da Europa

Ao fundar o mistral.ai, planejamos adotar uma postura completamente oposta aos atuais modelos fechados para treinar modelos avançados. **Nossa visão é tornar-se um player líder no campo, integrando esses modelos na Europa e na indústria em geral para desenvolver um negócio de alto valor. **

**mistral.ai será um líder de pesquisa em IA generativa e, dentro de quatro anos, o principal fornecedor de tecnologia de IA no mercado. **Para atingir esse objetivo, primeiro nos concentraremos em algumas características principais de diferenciação e, em seguida, conduziremos um esforço abrangente de P&D para selecionar as estratégias mais eficazes para avançar em direção à inteligência artificial que seja de valor prático para os humanos.

Concentrar-se primeiro no mercado europeu nos dará uma vantagem defensiva, e nossa postura aberta na rota tecnológica aumentará ainda mais nossa atratividade. Muitas das mentes mais brilhantes no campo da Large Language Modeling (LLM) são europeias; nossa vasta experiência mostra que muitos deles gostariam de se juntar ao nosso projeto.

Posicionamento técnico oposto

Nossos primeiros diferenciais, os pontos cegos nas estratégias de nossos concorrentes, foram os seguintes:

● **Adote uma abordagem mais aberta para o desenvolvimento do modelo. **Lançaremos o modelo sob uma licença permissiva de software de código aberto, que superará substancialmente a concorrência. Lançaremos ferramentas para aproveitar o poder desses modelos de caixa branca e criar uma comunidade de desenvolvedores em torno de nossa marca. Essa abordagem é ideologicamente muito diferente da OpenAI, isso atrairá melhor os principais pesquisadores e será uma poderosa aceleração para o desenvolvimento do projeto, porque fornecerá muitos desenvolvedores entusiastas downstream abrindo a porta. Isso aumentará nosso escopo de desenvolvimento de negócios. Iremos equilibrar nossa estratégia de código aberto com interesses financeiros, reservando os modelos mais poderosos e profissionais para usuários pagantes.

○ Dedicaremos 1% dos fundos a fundações sem fins lucrativos responsáveis pelo desenvolvimento da comunidade de código aberto.

● Seja de código aberto ou licenciado, os componentes internos (arquitetura e pesos treinados) de nossos modelos estão sempre abertos para nossos clientes. **Isso permitirá uma integração mais estreita com os fluxos de trabalho dos clientes, seu conteúdo pode ser alimentado em diferentes partes do modelo profundo, em vez de ter tudo serializado como texto de entrada, alimentado em uma API de caixa preta. **

● **Maior foco na proveniência e controle de dados. **Nossos modelos serão treinados em conteúdo de dados de alta qualidade (exceto conteúdo copiado) para o qual negociaremos um contrato de licença. Isso nos permitirá treinar modelos melhores do que os modelos disponíveis atualmente, como o Llama. Usando técnicas de envolvimento profundo (especialistas híbridos e modelos de recuperação aumentada), forneceremos modelos com acesso opcional à fonte de dados: para usuários premium pagos, modelos específicos podem ser dedicados a finanças/jurídico/etc (isso fornece um aumento considerável de desempenho). Usando técnicas semelhantes, nosso modelo será capaz de fornecer acesso instantâneo a dados diferenciados para funcionários com diferentes direitos corporativos de propriedade intelectual.

● **Fornece segurança incomparável e garantia de privacidade. **Nosso modelo será implantado em uma nuvem privada e, opcionalmente, diretamente no dispositivo, minimizando efetivamente as preocupações com a privacidade ao eliminar processos potencialmente problemáticos. Para isso, direcionaremos nossos esforços de P&D para o treinamento de modelos pequenos, mas supereficientes, propondo efetivamente modelos com a maior relação qualidade/custo do mercado. Nossa estratégia de código aberto também garantirá a auditabilidade de nossos modelos quando implantados em setores-chave, especialmente dual e saúde.

Desenvolvimento de negócios

Em termos de negócios, forneceremos os módulos técnicos mais valiosos para a indústria emergente de AI-as-a-service e usaremos IA generativa para mudar completamente o fluxo de trabalho dos negócios. Construiremos soluções integradas com integradores europeus e clientes industriais e obteremos feedback extremamente valioso deles para nos tornarmos a principal ferramenta para todas as empresas que buscam alavancar a IA na Europa.

A integração com verticais pode assumir diferentes formas de mercado, incluindo licenças de acesso total a modelos (incluindo pesos treinados), especialização de modelos com base na demanda, contratos comerciais com integradores/consultores para construir soluções totalmente integradas. Conforme detalhado em nosso roteiro, exploraremos e identificaremos as melhores abordagens conforme a tecnologia evolui.

Como se tornar um líder na área de IA

Melhor time

A equipe fundadora é composta pelos principais pesquisadores da área que trabalharam na DeepMind e na Meta, bem como por experientes empreendedores em série franceses e influentes líderes públicos.

● Arthur Mensch — CEO — Ex-cientista-chefe de pesquisa da DeepMind, autor principal de várias contribuições importantes para o LLM: Chinchilla, Retro, Flamingo

● Guillaume Lample — Cientista Chefe — Ex-Cientista Pesquisador Sênior da Meta. Liderou o projeto Llama, a maior contribuição da Meta para o campo de grandes modelos de linguagem

● Timothée Lacroix — CTO — Ex-engenheiro de software da Meta, líder técnico da Llama

● Jean-Charles Samuelian, Alan CEO

● Charles Gorintin,Alan CTO

● Cédric O, ex-Secretário de Estado francês para Assuntos Digitais

Os cinco primeiros funcionários já identificados serão pesquisadores experientes de grandes empresas de tecnologia. Seu entusiasmo pela Europa e pelo conceito de código aberto, e a contínua reestruturação organizacional de algumas empresas devido ao rápido desenvolvimento da IA generativa, também constituem um momento apropriado para eles deixarem essas empresas.

Infraestrutura e fontes de dados

Para treinar um modelo competitivo, um cluster de escala exa precisa ser usado por pelo menos vários meses. Pretendemos alugar esses recursos de computação por um ano inteiro, desenvolvendo assim modelos de código aberto e comerciais de diferentes capacidades.

Já estamos conduzindo negociações competitivas com os principais provedores de serviços de nuvem para alugar recursos de computação (planejamos começar no verão e formar uma reserva de computação de 1536 H100 até setembro). Como o mistral.ai tem uma forte base europeia, também cooperaremos com provedores de serviços em nuvem europeus emergentes que estão expandindo ativamente os serviços de computação de aprendizado profundo.

Já treinamos modelos em grande escala antes, o que nos forneceu a experiência para treinar 10 a 100 vezes mais rápido do que os métodos disponíveis publicamente - nossos fundadores e primeiros funcionários sabiam claramente como treinar o modelo mais forte com um determinado orçamento computacional.

Nossos primeiros investidores também são provedores de conteúdo na Europa e abrirão todas as portas necessárias para adquirirmos conjuntos de dados de alta qualidade nos quais podemos treinar e ajustar nossos modelos.

Explore cenários junto com os principais clientes

A equipe fundadora já está organizando explorações comerciais com as principais instituições comerciais francesas e europeias. Uma pequena equipe orientada para o produto (6 pessoas até o final do ano) começará a expandir os negócios enquanto a equipe técnica treina valiosos módulos técnicos.

A equipe de modelagem permanecerá 100% focada no desenvolvimento de tecnologia para evitar distrações.

O desenvolvimento do negócio começará simultaneamente com o desenvolvimento da família modelo de primeira geração, usando as seguintes estratégias:

● Exploração focada das necessidades de grandes players industriais, facilitada por integradores terceirizados que terão acesso total aos nossos melhores modelos (código não aberto)

● Co-design de produtos com alguns pequenos parceiros emergentes focados em produtos generativos de IA.

A exploração baseada em negócios será usada para conduzir o design do modelo de segunda geração.

mapa de rotas

o primeiro ano

Vamos treinar duas gerações de modelos, e o desenvolvimento do modelo e a integração comercial avançarão simultaneamente. A primeira geração será parcialmente de código aberto, contando com a tecnologia que a equipe domina. Ele validará nossa capacidade de atender às necessidades de nossos clientes, investidores e instituições. O modelo de segunda geração abordará deficiências significativas do modelo atual, permitindo que seja usado com segurança e economia pelas empresas.

Treine o melhor modelo padrão de código aberto

Até o final de 2023, vamos treinar uma série de modelos de geração de texto que podem superar significativamente o ChatGPT 3.5 e a versão de março de 2023 do Bard, bem como todas as soluções de código aberto.

Esta série será de código aberto; participaremos da comunidade para construí-la, tornando-a um padrão aberto.

Forneceremos a mesma interface de serviço que nossos concorrentes e cobraremos uma taxa para coletar dados de uso de terceiros e criaremos alguns aplicativos gratuitos para o consumidor para expandir a influência da marca e capturar dados de usuários primários.

Personalizado e diferenciado para as necessidades do negócio

Nos próximos seis meses, esses modelos serão equipados com modelos de incorporação semântica para pesquisa de conteúdo e plug-ins multimodais para manipulação de entrada visual. Também serão preparados modelos ad hoc retreinados usando fontes de dados de alta qualidade disponíveis comercialmente.

O desenvolvimento comercial começará simultaneamente com o desenvolvimento da série de modelos de primeira geração: pretendemos ter uma integração de prova de conceito até o final do primeiro trimestre de 2024.

Em termos de tecnologia, no primeiro e segundo trimestres de 2024, vamos nos concentrar em duas áreas principais que estão subvalorizadas pelas empresas incumbentes:

Treine um modelo pequeno o suficiente para rodar em um laptop de 16 GB enquanto serve como um útil assistente de IA

Treine modelos com contextos extras de troca dinâmica**, permitindo até milhões de contextos extras, mesclando efetivamente modelos de linguagem e sistemas de recuperação.

Ao mesmo tempo, conjuntos de dados de treinamento e ajuste fino continuarão a ser enriquecidos por meio de parcerias e aquisição de dados.

Até o final do segundo trimestre de 2024, pretendemos:

● Distribuir o melhor modelo generativo de texto de código aberto, com saída de texto e visual

● Possui um modelo genérico e especializado com uma das maiores relações valor/custo

● Forneça recursos de modelo para integradores terceirizados por meio de APIs escalonáveis e diversas disponíveis

● Estabelecer um relacionamento comercial licenciado com um ou dois grandes players do setor que se comprometeram a usar nossa tecnologia

Próximo estágio

Competir e superar jogadores como o OpenAI exigirá um investimento substancial em estágios posteriores (GPT-4 custou várias centenas de milhões de dólares). Nosso objetivo para o primeiro ano é demonstrar que somos uma das equipes mais fortes na competição global de IA, capaz de desenvolver e lançar modelos que possam competir com os maiores players. Nossa experiência como pesquisadores de modelos de linguagem em larga escala (LLM) nos permitirá ser mais eficientes em termos de capital em um estágio inicial do que as empresas que estão descobrindo ou entrando nesse campo.

Uma das estrelas do mistral.ai será a segurança: lançaremos modelos de maneira bem encenada, garantindo que nossos modelos sejam usados apenas para fins consistentes com nossos valores e, para isso, forneceremos ao "red team" acesso beta para detectar comportamentos inadequados e corrigi-los.

Ao fazer isso, convenceremos as principais instituições públicas e privadas de que podemos construir tecnologias seguras, controláveis e eficientes que permitam à humanidade se beneficiar desse avanço científico. E isso vai atrair instituições e países para participar do nosso financiamento Série A. Na Série A (3º trimestre de 2024), esperamos precisar arrecadar US$ 200 milhões para treinar modelos além das capacidades do GPT-4.

Um forte apoio financeiro nos permitirá treinar modelos em uma infraestrutura muito maior, fortalecendo nossa posição como líder em pesquisa de IA e fornecedor preferencial no setor industrial europeu.

(texto completo)

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)