Stanford e Berkeley propõem o LLM como um Verificador, ao mesmo tempo em que conquistam os primeiros lugares no Terminal-Bench e no SWE-Bench

robot
Geração do resumo em andamento

ME News Notícias, 14 de abril (UTC+8), de acordo com a monitorização da 1M AI News, quando um agente de programação de IA lida com uma única tarefa, executar várias vezes geralmente resulta em soluções diferentes, algumas podem estar corretas ou incorretas. Se puder selecionar automaticamente a melhor, a taxa de sucesso geral pode superar a de uma única execução. A questão é como fazer essa seleção: fazer outro modelo atuar como juiz para avaliar (ou seja, LLM-as-a-Judge) é a abordagem principal atualmente, mas a granularidade da avaliação é muito grosseira, frequentemente atribuindo a diferentes soluções a mesma pontuação, dificultando distinguir qual é melhor. O Laboratório de IA de Stanford e o Laboratório de Computação Sky de Berkeley, em parceria com a Nvidia, propuseram o LLM-as-a-Verifier, que aprimora esse processo de seleção. Em vez de apenas considerar a pontuação final dada pelo juiz, ele lê a distribuição de probabilidade de cada nível de avaliação do modelo, calculando assim um valor de recompensa contínuo. Além disso, o juiz repete a avaliação várias vezes e faz a média para eliminar desvios aleatórios, e a avaliação geral é dividida em três dimensões independentes (se atende aos requisitos da tarefa, se o formato da saída está correto, se há sinais de erro) para validação separada. No experimento, foi usado o Gemini 2.5 Flash como verificador, com uma precisão de validação de 74,7% em uma única rodada, enquanto o juiz tradicional atingiu apenas 57,0%; após 16 repetições, o Verificador atingiu 77,4%, enquanto o juiz ficou em 70,2%. O juiz tradicional tem 26,5% de empates, enquanto o Verificador apresenta uma taxa de empate de 0% em todas as configurações. Efeito prático: no Terminal-Bench 2, ao fazer o GPT-5.4 executar a mesma tarefa 5 vezes, a taxa de sucesso de uma seleção aleatória é de 81,8%, que sobe para 86,4% após a seleção com o Verificador. No SWE-Bench Verified, ao selecionar uma solução de Claude Opus 4.5, Claude Opus 4.6 e Gemini 3 Flash (total de 3 soluções), a taxa de sucesso aumentou de 76,1% para 77,8%. Até o lançamento em 9 de abril, ambas as métricas estavam no topo. A estrutura já foi de código aberto. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar