Laboratórios de Stanford e Berkeley em parceria com a Nvidia propuseram o LLM-as-a-Verifier, que analisa a distribuição de probabilidade de pontuação e realiza múltiplas avaliações, aumentando com sucesso a precisão na escolha de soluções do agente de programação de IA. Os experimentos mostram que, em comparação com o juiz tradicional, o Verificador apresenta desempenho superior na avaliação, com uma taxa de sucesso significativamente maior, e a estrutura já foi de código aberto.

MeNews

2026-05-01 14:30:48

Geração do resumo em andamento

ME News Notícias, 14 de abril (UTC+8), de acordo com a monitorização da 1M AI News, quando um agente de programação de IA lida com uma única tarefa, executar várias vezes geralmente resulta em soluções diferentes, algumas podem estar corretas ou incorretas. Se puder selecionar automaticamente a melhor, a taxa de sucesso geral pode superar a de uma única execução. A questão é como fazer essa seleção: fazer outro modelo atuar como juiz para avaliar (ou seja, LLM-as-a-Judge) é a abordagem principal atualmente, mas a granularidade da avaliação é muito grosseira, frequentemente atribuindo a diferentes soluções a mesma pontuação, dificultando distinguir qual é melhor. O Laboratório de IA de Stanford e o Laboratório de Computação Sky de Berkeley, em parceria com a Nvidia, propuseram o LLM-as-a-Verifier, que aprimora esse processo de seleção. Em vez de apenas considerar a pontuação final dada pelo juiz, ele lê a distribuição de probabilidade de cada nível de avaliação do modelo, calculando assim um valor de recompensa contínuo. Além disso, o juiz repete a avaliação várias vezes e faz a média para eliminar desvios aleatórios, e a avaliação geral é dividida em três dimensões independentes (se atende aos requisitos da tarefa, se o formato da saída está correto, se há sinais de erro) para validação separada. No experimento, foi usado o Gemini 2.5 Flash como verificador, com uma precisão de validação de 74,7% em uma única rodada, enquanto o juiz tradicional atingiu apenas 57,0%; após 16 repetições, o Verificador atingiu 77,4%, enquanto o juiz ficou em 70,2%. O juiz tradicional tem 26,5% de empates, enquanto o Verificador apresenta uma taxa de empate de 0% em todas as configurações. Efeito prático: no Terminal-Bench 2, ao fazer o GPT-5.4 executar a mesma tarefa 5 vezes, a taxa de sucesso de uma seleção aleatória é de 81,8%, que sobe para 86,4% após a seleção com o Verificador. No SWE-Bench Verified, ao selecionar uma solução de Claude Opus 4.5, Claude Opus 4.6 e Gemini 3 Flash (total de 3 soluções), a taxa de sucesso aumentou de 76,1% para 77,8%. Até o lançamento em 9 de abril, ambas as métricas estavam no topo. A estrutura já foi de código aberto. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
WCTCTradingKingPK
465.81K Popularidade
#
USSeeksStrategicBitcoinReserve
58.71M Popularidade
#
IsraelStrikesIranBTCPlunges
37.59K Popularidade
#
BitcoinETFOptionLimitQuadruples
995.18K Popularidade
#
#FedHoldsRateButDividesDeepen
31.26K Popularidade

Marcar

sitemap

Stanford e Berkeley propõem o LLM como um Verificador, ao mesmo tempo em que conquistam os primeiros lugares no Terminal-Bench e no SWE-Bench

Tendências

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Marcar