OpenAI publica artigo raro: encontramos o culpado pelas alucinações da IA

Qual é o bug mais infame da IA? Não é a falha do código, mas sim a "ilusão" - o modelo inventa fatos com confiança, tornando difícil distinguir entre o verdadeiro e o falso. Este desafio fundamental é um obstáculo chave que impede a nossa confiança total na IA.

Modelos grandes podem ter alucinações, o que já se tornou quase um conhecimento comum, levando cada pessoa que usa modelos grandes de forma séria a ser cautelosa. A OpenAI também apontou: "O ChatGPT também pode gerar alucinações. O GPT-5 tem alucinações visivelmente menores, especialmente ao executar raciocínios, mas as alucinações ainda podem ocorrer. As alucinações continuam a ser um grande desafio fundamental que todos os modelos de linguagem grandes enfrentam."

Apesar de a comunidade académica já ter proposto uma variedade de métodos para reduzir a ilusão dos modelos, ainda não surgiu uma solução que possa "curar" completamente a ilusão dos modelos.

Então, por que os grandes modelos realmente apresentam alucinações? Hoje, a OpenAI publicou um artigo raro que revela sistematicamente a origem das alucinações.

Primeiro, defina alucinação. A definição simples dada pela OpenAI é: "a situação em que o modelo gera respostas não reais com confiança."

Quanto às razões, de forma simples, é que os procedimentos de treino e avaliação padrão tendem a recompensar palpites, em vez de recompensar o modelo quando este se atreve a reconhecer incertezas.

  • Título do artigo: Por que os Modelos de Linguagem Alucinam
  • Endereço do artigo:

Vamos dar uma olhada específica no que a OpenAI realmente descobriu.

O que é ilusão?

Alucinações são declarações que parecem razoáveis, mas estão erradas, geradas por modelos de linguagem.

Mesmo questões que parecem simples podem surgir de maneiras inesperadas. A OpenAI deu um exemplo em que, ao perguntar a diferentes chatbots amplamente utilizados sobre o título da tese de doutorado de Adam Tauman Kalai (autor principal do artigo), eles deram confiantemente três respostas diferentes, mas nenhuma estava correta.

Quando perguntado sobre o seu aniversário, ele deu três datas diferentes, todas igualmente erradas.

Aprender para testar

A OpenAI afirmou que as alucinações continuam a existir, em parte porque os métodos de avaliação atuais configuram mecanismos de incentivo errados. Embora a avaliação em si não cause diretamente alucinações, a maioria das maneiras de avaliar o desempenho dos modelos incentiva os modelos a adivinharem, em vez de enfrentarem honestamente a incerteza.

Podes imaginar isso como um teste de múltipla escolha. Se não souberes a resposta, mas adivinhares aleatoriamente, poderás ter a sorte de acertar. Deixar em branco garantidamente resulta em zero pontos. Da mesma forma, quando os modelos são avaliados apenas com base na precisão (ou seja, a percentagem de perguntas respondidas corretamente), eles são incentivados a adivinhar, em vez de admitir "não sei".

Dê mais um exemplo, suponha que um modelo de linguagem seja questionado sobre o aniversário de alguém, mas não sabe. Se ele chutar "10 de setembro", então tem 1/365 de probabilidade de acertar. Dizer "não sei" resulta em zero pontos. Em milhares de perguntas de teste, o modelo que chuta acaba tendo um desempenho melhor na tabela de pontuação do que o modelo cauteloso que admite incerteza.

Para questões com apenas uma "resposta correta", podem ser consideradas três categorias de respostas: resposta correta, resposta errada e resposta de desistência, que o modelo não está disposto a arriscar palpitar.

A OpenAI afirma que as respostas de renúncia são parte do indicador de humildade, e a humildade é um dos valores centrais da OpenAI.

A maioria dos indicadores de pontuação prioriza os modelos com base na precisão, mas respostas erradas são piores do que respostas em branco. As diretrizes do modelo da OpenAI indicam que é melhor apontar incertezas ou pedir esclarecimentos do que fornecer informações potencialmente incorretas com confiança.

Como exemplo da avaliação SimpleQA no cartão do sistema GPT5.

Em termos de precisão, o modelo OpenAI o4-mini anterior teve um desempenho ligeiramente melhor. No entanto, a sua taxa de erro (ou taxa de alucinação) é significativamente mais alta. Fazer suposições estratégicas em situações de incerteza pode melhorar a precisão, mas também aumenta os erros e as alucinações.

Ao calcular a média dos resultados de dezenas de avaliações, a maioria dos testes de referência exclui os indicadores de precisão, mas isso leva a uma falsa dicotomia entre acertos e erros.

Em avaliações simples como a SimpleQA, a precisão de alguns modelos se aproxima de 100%, eliminando assim alucinações. No entanto, em avaliações mais desafiadoras e no uso real, a precisão fica fixada abaixo de 100%, pois as respostas a algumas perguntas não podem ser determinadas devido a várias razões (como informações indisponíveis, limitações na capacidade de raciocínio de modelos pequenos ou ambiguidade que necessita de esclarecimento).

Apesar disso, os indicadores de avaliação que medem apenas a precisão ainda dominam as tabelas de classificação e os cartões de modelo, o que incentiva os desenvolvedores a construir modelos que podem adivinhar em vez de recuar.

É precisamente por isso que, mesmo que os modelos se tornem mais avançados, eles ainda podem gerar alucinações. Uma das razões para isso é que eles tendem a dar respostas erradas com confiança, em vez de admitir incerteza.

Melhor método de avaliação

A este respeito, a OpenAI apontou uma solução simples: a penalização por erro confidencial é maior do que a penalização por incerteza, e comportamentos que expressam adequadamente a incerteza recebem uma pontuação adicional.

Esta ideia não é nova. Alguns testes padronizados há muito utilizam a pontuação negativa para respostas erradas ou atribuem pontos parciais a perguntas em branco como forma de evitar palpites. Algumas equipes de pesquisa também exploraram métodos de avaliação que consideram a incerteza e a calibração.

Mas a OpenAI afirmou que simplesmente adicionar alguns novos testes de percepção de incerteza não é suficiente. Os métodos de avaliação amplamente utilizados, baseados na precisão, precisam ser atualizados para que suas classificações possam impedir a adivinhação.

Se os principais indicadores de avaliação continuarem a recompensar as suposições sorteadas do modelo, o modelo continuará a aprender a adivinhar. Modificar os indicadores de avaliação pode ampliar o alcance da adoção de técnicas de ilusão, incluindo técnicas novas e aquelas previamente pesquisadas.

Como as alucinações surgem a partir da previsão da próxima palavra

Já discutimos anteriormente por que as ilusões são tão difíceis de se livrar, mas de onde vêm exatamente esses erros factuais altamente específicos?

Afinal, modelos grandes de pré-treinamento raramente apresentam outros tipos de erros, como erros de ortografia e parênteses não correspondentes.

A OpenAI afirma que a diferença está nos padrões que existem nos dados.

Os modelos de linguagem aprendem inicialmente através do pré-treinamento, que é um processo de previsão da próxima palavra em um vasto texto.

Ao contrário dos problemas tradicionais de aprendizado de máquina, cada declaração não possui um rótulo de "verdadeiro / falso". O modelo apenas vê exemplos positivos de linguagem fluente e deve se aproximar da distribuição geral.

Quando não há exemplos marcados como inválidos, distinguir entre declarações válidas e inválidas torna-se mais difícil. Mas mesmo com etiquetas, alguns erros são inevitáveis.

Para entender a razão, pode-se considerar uma analogia mais simples. Na identificação de imagens, se milhões de fotos de gatos e cães forem marcadas como "gato" ou "cão", o algoritmo pode aprender a classificá-las de forma fiável. Mas imagine se cada foto de animal de estimação fosse marcada com o aniversário do animal. Como os aniversários são essencialmente aleatórios, não importa quão avançado seja o algoritmo, essa tarefa sempre resultará em erros.

Os mesmos princípios aplicam-se ao pré-treinamento. A ortografia e os parênteses seguem um padrão consistente, portanto, esses erros tendem a desaparecer à medida que a escala aumenta. No entanto, fatos arbitrários de baixa frequência, como o aniversário de um animal de estimação, não podem ser previstos apenas com base em padrões, o que leva a alucinações.

A análise da OpenAI explicou quais tipos de alucinações podem ser geradas pela previsão da próxima palavra. Idealmente, as fases subsequentes após o pré-treinamento deveriam ser capazes de eliminar essas alucinações, mas isso não foi totalmente alcançado devido às razões descritas na seção anterior.

Resumo

OpenAI afirmou: "Esperamos que a perspectiva estatística neste artigo possa esclarecer a natureza da alucinação e refutar alguns conceitos errôneos comuns".

Alguém afirma: as alucinações podem ser eliminadas aumentando a precisão, porque um modelo 100% preciso nunca produzirá alucinações.

Descoberta: a precisão nunca alcançará 100%, pois, independentemente da escala do modelo, da capacidade de busca e de raciocínio, alguns problemas do mundo real são, por sua natureza, impossíveis de responder.

Alguém afirmou: as alucinações são inevitáveis.

Descoberta: alucinações não são inevitáveis, pois os modelos de linguagem podem abdicar de responder quando estão incertos.

Alguns afirmam que evitar ilusões requer um certo grau de inteligência, e isso só pode ser alcançado por grandes modelos.

Descoberta: modelos pequenos compreendem mais facilmente suas limitações. Por exemplo, quando solicitados a responder a perguntas em maori, um modelo pequeno que não entende maori pode simplesmente responder "não sei", enquanto um modelo que conhece um pouco de maori deve determinar sua confiança. Como discutido no artigo, a quantidade de cálculo necessária para a "calibração" é muito menor do que a necessária para manter a precisão.

Alguns afirmam: a ilusão é uma falha misteriosa dos modelos de linguagem modernos.

Descoberta: Podemos compreender os mecanismos estatísticos que geram ilusões e obtêm recompensas na avaliação.

Alguém afirma: para medir a ilusão, só precisamos de uma boa avaliação da ilusão.

Descoberta: Alguns pesquisadores já publicaram avaliações de alucinações. No entanto, uma boa avaliação de alucinações tem quase nenhum efeito em comparação com centenas de avaliações tradicionais baseadas em precisão, que penalizam a humildade e recompensam o palpite. Em vez disso, todos os principais indicadores de avaliação precisam ser redesenhados para recompensar a expressão da incerteza.

A OpenAI afirmou: "A taxa de alucinação do nosso modelo mais recente é mais baixa, e continuaremos a trabalhar para reduzir ainda mais a taxa de erro de confiança das saídas do modelo de linguagem."

A propósito, segundo o TechCrunch, a OpenAI está reestruturando a sua equipe de Comportamento de Modelos (Model Behavior), uma equipe de investigadores pequena mas influente, que decide como os modelos de IA da empresa interagem com os humanos. Agora, a equipe irá reportar ao responsável pelo treinamento posterior da OpenAI, Max Schwarzer.

A fundadora e responsável pela equipe, Joanne Jang, irá lançar um novo projeto na empresa, chamado oai Labs. Segundo seu tweet: "Esta é uma equipe orientada para a pesquisa, focada na invenção e design de novos protótipos de interface para a colaboração entre pessoas e IA."

GPT15.55%
WHY-2.62%
MAX-0.06%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)