DeepSeek anunciou novo modelo MODEL1: Passo tecnológico em um ano

robot
Geração de resumo em curso

A DeepSec anunciou recentemente uma inovação histórica, levando seus avanços técnicos a novos patamares. Após um ano do sucesso do DeepSec-R1 em janeiro, a empresa está pronta para lançar um novo modelo, o MODEL1. Esta notícia foi recebida com entusiasmo por especialistas do setor e pela comunidade tecnológica.

Revelação de mudanças técnicas no GitHub

A DeepSec atualizou seu código no GitHub, indicando mudanças significativas. Na atualização, foram encontradas menções ao “MODEL1” em 28 de 114 arquivos, indicando um esforço extenso na preparação do novo modelo. Essas mudanças no código Flash MLA são especialmente notáveis e apontam para uma nova direção técnica.

MODEL1 versus V32: nova arquitetura

A versão atual V32, conhecida como DeepSec v3.2, será diferente da nova estrutura do MODEL1. As diferenças principais destacam-se em três áreas: melhorias na estrutura do KV Cache, alterações no método de quantização e uma nova técnica de codificação FP8D. Todas essas mudanças visam tornar o sistema mais eficiente.

Economia de memória e avanços na computação

Uma grande vantagem do MODEL1 é a otimização do uso de memória durante o processamento. Estratégias inovadoras foram implementadas para economizar memória em diferentes etapas de processamento. Essas mudanças irão melhorar o desempenho do novo modelo da DeepSec, reduzindo a necessidade de recursos, representando um avanço importante na indústria.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar