A evolução da "Consulta 2.0", frente ao grande layout do modelo do SenseTime

Estamos experimentando uma onda massiva de novas infraestruturas de IA.

Em meio ano, o modelo em grande escala se espalhou rapidamente a partir de um consenso em pequena escala. De acordo com o relatório divulgado pelo CITIC, o número de modelos de grande escala com mais de 1 bilhão de modelos de parâmetros divulgados até agora é próximo a 80, metade dos quais provenientes de empresas e metade de instituições de pesquisa científica.

No processo de formação gradual da ecologia de modelos domésticos em grande escala, ela também começou a abandonar sua busca pela OpenAI e gradualmente encontrou seu próprio caminho. O padrão para medir o sucesso de grandes modelos também mudou da competição de parâmetros de pontes duras e cavalos duros para a resolução de problemas reais.

A SenseTime anunciou o sistema de modelo em grande escala de "SenseNova" pela primeira vez em abril deste ano e lançou uma série de modelos e aplicativos de IA em grande escala, incluindo o modelo de linguagem chinesa em grande escala autodesenvolvido "SenseChat". Recentemente, na Conferência Mundial de Inteligência Artificial, a SenseTime anunciou a primeira grande iteração do sistema "Daily New SenseNova Large Model". O grande modelo de linguagem "negociação" foi atualizado para a versão 2.0.

É mais forte. Em todo o sistema de layout de modelo em grande escala SenseTime, seu papel está se tornando cada vez mais óbvio.

"Negociação 2.0" mais forte

Como refletir intuitivamente a melhoria de capacidade da "Consulta 2.0"? Xu Li, presidente e CEO da SenseTime, demonstrou um diálogo inexistente entre Lao Tzu e Confúcio.

A resposta para "Consulta 2.0" gira em torno de "Tao". Confúcio perguntou a Lao Tzu. Embora Lao Tzu tivesse se iluminado, ele não podia falar com Confúcio, então ele simplesmente se afastou. O diálogo realizado nesta cena é suave e fluido. "Discussion 2.0" ainda adicionou uma piada ao texto:

Confúcio disse: "Eu ouvi o nome do Mestre, e é realmente uma grande sorte conhecê-lo hoje!"

Lao Tzu disse com um sorriso: "Não, estou caminhando no mesmo caminho que você, por que as 'três vidas'?"

E de acordo com a pergunta, todo o diálogo aparece em chinês clássico. E para evitar confusão, "Consulta 2.0" também afirmou a premissa de "isso é apenas uma ficção e não deve ser considerado um verdadeiro registro da história" na primeira frase da resposta.

Quando o "Consultation 1.0" foi lançado pela primeira vez, a demonstração no local demonstrou seu excelente diálogo multi-round e capacidades de co-criação homem-máquina. Três meses depois, "Consultation 2.0" fez mais melhorias na precisão das informações de conhecimento, capacidade de julgamento lógico, capacidade de compreensão do contexto e criatividade.

Por exemplo, use a "Consulta 2.0" para fazer o planejamento da viagem, e diga para ela fazer uma tabela:

Ou coloque à prova a coisa de "namoradas estão certas":

Você não apenas pode entender as namoradas, mas "Discussão 2.0" também pode ler um pouco de ironia ou tom yin e yang:

O que aconteceu com a "Consulta 2.0" nos últimos três meses, na verdade, basta ver os resultados de alguns exames. Nos resultados da avaliação de três grandes benchmarks de avaliação de modelo de linguagem (MMLU, AGI, C-) em todo o mundo, o desempenho do "Consultation 2.0" excedeu o ChatGPT.

Além disso, algumas pessoas devem ter notado nas fotos de demonstração do diálogo entre Lao Tzu e Confúcio que "Shangshang 2.0" tem uma demonstração em tela dividida das versões XL e S. Existem muitos modelos grandes com diferentes parâmetros e tamanhos para os clientes escolha, e a versão do modelo com os menores parâmetros pode até rodar em terminais móveis.

Em termos de idioma, "Consultation 2.0" adicionou novos idiomas, como árabe e cantonês. Apoie a interação entre chinês simplificado, chinês tradicional e inglês e outros idiomas. E o suporte do "Consulta 2.0" para textos superlongos também aumentou de 2k para 32k, permitindo uma melhor compreensão do contexto.

Para fabricantes de modelos de grande escala orientados para ToB, como SenseTime, a qualidade do modelo de grande escala em si é apenas o ponto de partida. Como os clientes corporativos podem definir um esboço específico para o modelo de grande escala com base em suas próprias necessidades e como o último pode alcançar um processo iterativo estável e abordá-lo passo a passo? O verdadeiro ponto problemático é onde o vencedor será decidido.

Recursos de fusão de base de conhecimento aberta

Após o SenseTime ter treinado um “Consulta 2.0” com supercompreensão, diálogo, raciocínio e outras habilidades, os clientes corporativos também podem usar seu conhecimento corporativo acumulado para transformar o grande modelo em um “talento profissional” que pode atender bem suas próprias empresas. .

Como resolver eficientemente esses problemas de engenharia é muito importante.

O "Consultation 2.0" lançado pela SenseTime adicionou uma interface de integração de base de conhecimento, permitindo que as empresas adquiram rapidamente conhecimento e capacidades profissionais sem esperar por atualizações iterativas do modelo básico grande. Depois que a base de conhecimento é integrada, a capacidade do modelo de atualizar e entender o conhecimento pode ser aprimorada, e a rápida compreensão e aquisição do conhecimento podem ser fortalecidas.Ao mesmo tempo, o custo dos modelos de treinamento do cliente será bastante reduzido.

Wang Xiaogang, co-fundador e cientista-chefe da SenseTime, disse: "Com a base de conhecimento, é relativamente simples e conveniente resumir o conhecimento correspondente neste campo sem entrar em nosso próprio modelo", e porque a informação é mais precisa, também resolveu o problema das alucinações.

Digital Human como ferramenta de produtividade

Ao mesmo tempo que a atualização abrangente do "Consultation 2.0", os recursos da plataforma AIGC no sistema "SenseNova Large Model" estão constantemente avançando e, após a integração dos recursos do modelo de linguagem grande, uma melhoria extraordinária foi alcançada.

Por exemplo, a plataforma de criação Wenshengtu "Miaohua" mencionada acima foi atualizada para a versão 3.0 desta vez, os parâmetros do modelo foram aumentados para a ordem de 7 bilhões e os detalhes das imagens geradas atingiram o nível da fotografia profissional. Quanto à dor de cabeça das palavras imediatas, "Discussão 2.0" fornece ao "Miahua 3.0" a capacidade de expandir automaticamente as palavras imediatas. Isso significa que os usuários precisam apenas de algumas palavras simples para obter um resultado de imagem detalhado.

No campo de humanos digitais, a plataforma de geração de vídeo humano digital "Ruying" da SenseTime também foi atualizada para a versão 2.0. A fluência de voz e boca de "Ruying 2.0" aumentou em mais de 30% e o vídeo 4K pode ser realizado. Efeito . Na coletiva de imprensa, apareceram as imagens humanas digitais do economista Ren Zeping, Mestre Yancan e Xu Li, e o efeito foi bastante realista.

Na cena de aterrissagem do modelo grande, o humano digital é um método de transporte muito importante. A recente transmissão ao vivo do humano digital muito popular é uma cena típica. A transmissão ao vivo, incluindo vídeos curtos, também é uma das cenas mais focadas para os clientes durante os testes internos e públicos de três meses do "Ruying 2.0".

Luan Qing, gerente geral do Departamento de Entretenimento Digital da SenseTime, disse que, dentro da estrutura do AIGC, "Discussion 2.0" pode realizar direitos autorais e criação de roteiro para transmissões ao vivo de vídeo curto. E como o "Ronin 2.0" pode acompanhar a tendência na comunicação também depende da grande capacidade do modelo de linguagem do "Consultation 2.0" para aprender o último corpus de vídeo curto.

Além de vídeos curtos e cenas de transmissão ao vivo, o "Ronin 2.0" está acelerando sua entrada em todas as esferas da vida.

Por exemplo, no setor de seguros, todo especialista em seguros tem a necessidade de promover novos produtos ou outra produção de conteúdo personalizado orientado a serviços para os clientes. "Ruying 2.0" pode substituir os especialistas em seguros nos aniversários dos clientes ou quando certos produtos de gestão de patrimônio são lançados. Conteúdo e serviços personalizados; no setor educacional, o "Roning 2.0" começou a ajudar os professores nas principais plataformas domésticas de educação vocacional a produzir materiais educacionais para atender às necessidades internas de produção de vídeo.

"Digital Human é uma ferramenta de eficiência típica dentro de uma empresa", disse Luan Qing.

Como plataforma de criação AIGC, Ronin continuará a se aprofundar no campo da geração de vídeo no futuro. Luan Qing acredita que isso ocorre porque a criação de conteúdo está passando por uma mudança dimensional de texto, imagens para vídeos.

Rumo ao Multimodal

Como as informações de fotos e vídeos representam uma proporção enorme no mundo real, superando em muito as informações de linguagem, a necessidade de entender o mundo real fará com que o futuro do modelo básico de grande escala se mova para a multimodalidade, que foi vista pela primeira vez através da Pista "Consulta 2.0".

Além do texto, o "Consultation 2.0" tem a capacidade de analisar fotos e conteúdo de vídeo.

Por exemplo, conforme mostrado na figura acima, "Consulta 2.0" pode identificar objetos específicos em uma foto de mesa bagunçada e combinar as características de cada objeto para responder "o que você faz quando sente calor?" Isso é próximo ao design de processo perguntas abertas; ou depois de ver uma foto do menu, ajude os usuários a oferecer opções à la carte dentro de uma faixa de preço limitada.

O SenseTime, que inicialmente entrou no campo da IA a partir da pesquisa de visão computacional e atravessou uma onda de IA, está mais convencido de que essa onda de grandes modelos será uma oportunidade real.

A atual pesquisa de modelo em larga escala é baseada na arquitetura de rede transformadora. "O SenseTime está envolvido na pesquisa de modelos em larga escala desde 2019. Naquela época, era o caminho para fazer a visão." De acordo com Wang Xiaogang, cofundador e cientista-chefe do SenseTime, alguns padrões visuais e padrões de linguagem natural são gradualmente convergindo hoje. , "Quando nos desenvolvemos em uma direção multimodal, a linguagem e a visão começam a ter uma integração mais profunda, o que reflete um acúmulo e habilidade relativamente fortes nessa área."

Muitos cenários de aplicação que encontramos na vida real, como em uma série de campos como direção autônoma e robótica, devem ser aplicados à multimodalidade. "No entanto, dados multimodais e algumas tarefas muitas vezes não são fáceis de obter e exigem um acúmulo profundo na indústria. Essa também é a vantagem do SenseTime", disse Wang Xiaogang.

Três meses após sua primeira aparição pública na Conferência Mundial de Inteligência Artificial deste ano, o sistema "Daily New SenseNova Large Model" da SenseTime foi totalmente atualizado e aberto para usuários corporativos. Ao mesmo tempo, muitas pessoas não notaram que Shangtang também lançou um modelo multimodal em larga escala de estudiosos junto com o Laboratório de Inteligência Artificial de Xangai. No futuro, vale a pena esperar para saber se o SenseTime pode assumir a liderança na descoberta da chave para a estrada multimodal.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)