Pagar com

USD

Visa, Mastercard, SEPA e mais

Negociação flexível e sem taxas

Cartão da Gate

Pague com criptomoedas no mundo todo

Básico

Negocie criptomoedas livremente

Amplie seu lucro com alavancagem

Convert & Auto-Invest

Trade any size with no fees and no slippage

Exposição para posições alavancadas de forma simples

Negociação pré-mercado

Negocie novos tokens pré-listagem

Avançado

Negocie on-chain com a Gate Wallet

Acesso inteligente a novos tokens on-chain

Estratégias smart e negociação automática

Siga estratégias de especialistas

Negociação CrossEx

Um único saldo de margem, compartilhado entre as plataformas

Acesse centenas de contratos perpétuos

Plataforma única para ativos tradicionais globais

Negocie opções vanilla no estilo europeu

Conta unificada

Maximize sua eficiência de capital

Negociação demo

Introdução à negociação de futuros

Prepare-se para sua negociação de futuros

Eventos de futuros

Participe de eventos e ganhe recompensas

Negociação demo

Use fundos virtuais para experimentar negociações sem riscos

Lançamento

Colete candies para ganhar airdrops

Staking rápido, ganhe novos tokens em potencial

Possua GT em hold e ganhe airdrops massivos de graça

Desbloqueie o acesso completo a IPO de ações globais

Negocie on-chain e receba airdrops

Pontos de futuros

Ganhe pontos de futuros e colete recompensas em airdrop

Investimento

Ganhe juros com tokens ociosos

Autoinvestimento

Invista automaticamente regularmente

Investimento duplo

Lucre com a volatilidade do mercado

Ganhe recompensas com stakings flexíveis

Empréstimo de criptomoedas

Penhore uma criptomoeda para pegar outra emprestado

Centro de empréstimos

Centro de empréstimos integrado

Centro de riqueza VIP

Planos premium de crescimento de patrimônio

Gestão privada de patrimônio

Alocação premium de ativos

Fundo Quantitativo

Estratégias quant de alto nível

Faça staking de criptomoedas para ganhar em produtos PoS

Alavancagem Inteligente

Alavancagem sem liquidação

Cunhagem de GUSD

Cunhe GUSD para retornos em RWA

Descubra o valor em criptografia

Análise de mercado de criptomoedas ao vivo

Converse com os traders de criptomoedas

Novidades sobre criptomoedas

Mais

Promoções

Centro de atividade

Participe de atividades e ganhe recompensas

Convide amigos para recompensas de ind.

Programa de afiliados

Ganhe recomp. de comissão exclusivas

Aumente a influência e ganhe airdrops

Atualizações na plataforma em tempo real

Artigos do setor de criptomoedas

Grandes Descontos nas Taxas

Gerenciamento de ativos

Solução completa de gerenciamento de ativos

Soluções de ativos digitais para empresas

Transferência Bancária OTC

Deposite e retire moedas fiat

Programa de corretoras

Mecanismos de grandes descontos via API

AI

Seu parceiro de IA conversacional para todas as horas

Use o Gate AI diretamente no seu aplicativo social

Gate Blue Lobster, pronto para usar

Gate for AI Agent

Infraestrutura de IA, Gate MCP, Skills e CLI

Gate Skills Hub

10K+ habilidades

Do escritório à negociação: um hub completo de habilidades para turbinar o uso da IA

Escolha inteligentemente entre mais de 30 modelos de IA, com 0% de taxas extras

Outros

Central de Ajuda

Encontre perguntas frequentes e guias de ajuda

Saiba mais sobre o investimento em criptomoedas

Cresça com os campeões

Comprovante de Reservas

Gate promete 100% de comprovação de reservas

Mantenha seus ativos seguros

Evolução Pós-Treinamento na V4: OPD Substitui RL Misturado, Destilando Múltiplos Modelos de Especialistas em Um

AirdropBlackHole

2026-04-26 01:47:01

De acordo com o monitoramento realizado pela Beating, a metodologia pós-treinamento do DeepSeek V4 passou por mudanças significativas: a fase de RL misto do V3.2 foi completamente substituída pelo (Destilação On-Policy )OPD(. O novo processo consiste em duas etapas. Na primeira etapa, modelos de especialistas de domínio são treinados em áreas como matemática, codificação, comportamento de agentes e seguimento de instruções, com base no pipeline V3.2. Cada especialista passa por ajuste fino seguido de aprendizado por reforço usando GRPO. Na segunda etapa, uma destilação multi-professor OPD combina as capacidades de mais de dez especialistas em um modelo unificado: o estudante realiza uma destilação de logit de divergência KL reversa em todo o vocabulário para cada professor com base em suas próprias trajetórias geradas, alinhando os logits para fundir múltiplos pesos de especialistas em um espaço de parâmetros unificado, evitando assim os conflitos de capacidade comumente observados na fusão de pesos tradicional e no RL misto. O relatório também apresenta o Modelo de Recompensa Generativa )GRM: para tarefas difíceis de validar com regras, ao invés de treinar um modelo de recompensa escalar tradicional, dados de RL guiados por rubricas são usados para treinar o GRM, permitindo que a rede de atores gere e avalie simultaneamente, possibilitando a generalização para tarefas complexas com uma pequena quantidade de anotações humanas diversificadas.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
WCTCTradingKingPK
320.81K Popularidade
#
CryptoMarketsDipSlightly
221.02K Popularidade
#
IsraelStrikesIranBTCPlunges
35.04K Popularidade
#
#DailyPolymarketHotspot
654.34K Popularidade
#
SolanaReleasesQuantumRoadmap
12.74M Popularidade

Marcar