Processamento de Texto Longo: Novo Padrão para Grandes Modelos Desafios da "Trindade Profana"

Capacidade de Texto Longo: o novo "padrão" dos grandes modelos

De 4000 a 400.000 tokens, os grandes modelos estão a melhorar a sua capacidade de processar textos longos a uma velocidade significativa.

A capacidade de processamento de longos textos parece ter se tornado mais uma "norma" para os fornecedores de grandes modelos.

A nível internacional, a OpenAI, após várias atualizações, aumentou o comprimento da entrada de contexto do GPT-3.5 de 4 mil para 16 mil tokens, enquanto o GPT-4 foi aumentado de 8 mil para 32 mil tokens. O seu concorrente Anthropic expandiu de uma só vez o comprimento do contexto para 100 mil tokens. O LongLLaMA, por sua vez, aumentou o comprimento do contexto para 256 mil tokens ou até mais.

No país, algumas startups de grandes modelos também conseguiram avanços nesta área. Por exemplo, um produto de assistente inteligente lançado por uma empresa pode suportar a entrada de 200.000 caracteres chineses, cerca de 400.000 tokens. Além disso, uma nova tecnologia desenvolvida por uma equipe de pesquisa, chamada LongLoRA, pode expandir o comprimento do texto de um modelo de 7B para 100.000 tokens e de um modelo de 70B para 32.000 tokens.

Atualmente, várias empresas de tecnologia de modelos de grande escala e instituições de pesquisa, tanto nacionais quanto internacionais, estão focando na expansão do comprimento do contexto como uma prioridade nas atualizações.

Essas empresas e instituições são em sua maioria favorecidas pelo mercado de capitais. Por exemplo, a OpenAI recebeu quase 12 bilhões de dólares em investimentos; a avaliação mais recente da Anthropic pode chegar a 30 bilhões de dólares; uma empresa nacional que foi fundada há apenas seis meses também completou rapidamente várias rodadas de financiamento, com uma avaliação de mercado já superior a 300 milhões de dólares.

Por que as empresas de grandes modelos dão tanta importância à tecnologia de textos longos? O que significa aumentar a extensão do contexto em 100 vezes?

À primeira vista, isso significa que o comprimento do texto que pode ser inserido está a aumentar, e a capacidade de leitura do modelo está a ficar mais forte. Desde que inicialmente só conseguia ler um pequeno artigo, até agora que pode processar um romance longo.

A um nível mais profundo, a tecnologia de longos textos está a impulsionar a aplicação de grandes modelos em áreas profissionais como finanças, justiça e pesquisa científica. Nestas áreas, as capacidades de resumo, compreensão e resposta a perguntas de documentos longos são requisitos básicos e também direções que necessitam de uma atualização inteligente.

No entanto, o comprimento do texto não significa que quanto mais longo, melhor. Estudos mostram que não se pode traçar uma linha direta entre o suporte a entradas de contexto mais longas e um desempenho melhor do modelo. O que realmente importa é como o modelo utiliza efetivamente o conteúdo do contexto.

Atualmente, a exploração do comprimento do texto, tanto nacional quanto internacionalmente, ainda está longe de atingir o limite. 400 mil tokens podem ser apenas o começo, e as grandes empresas continuam a ultrapassar essa barreira tecnológica.

Por que melhorar a capacidade de processamento de textos longos?

Um fundador de uma empresa de grandes modelos afirmou que é devido à limitação no comprimento de entrada que muitos aplicativos de grandes modelos enfrentam dificuldades para serem implementados. Esta também é a razão pela qual muitas empresas estão atualmente focadas em tecnologias de texto longo.

Por exemplo, em cenas de personagens virtuais, devido à falta de capacidade para lidar com textos longos, os personagens virtuais esquecem informações importantes. Ao desenvolver jogos do tipo roteiro, se o comprimento da entrada não for suficiente, só é possível reduzir regras e definições, afetando o efeito do jogo. Em áreas profissionais como direito e finanças, a análise e geração de conteúdo profundo frequentemente são limitadas.

No caminho para as aplicações futuras de IA, os textos longos ainda desempenham um papel importante. Os agentes de IA precisam confiar em informações históricas para tomar decisões, e as aplicações nativas de IA necessitam de contexto para manter uma experiência de usuário coesa e personalizada.

O fundador acredita que, quer seja texto, áudio ou vídeo, a compressão sem perdas de grandes volumes de dados pode alcançar um alto grau de inteligência. O limite dos grandes modelos é determinado pela capacidade de um único passo e pelo número de passos de execução, onde a capacidade de um único passo está relacionada à quantidade de parâmetros, e o número de passos de execução refere-se ao comprimento do contexto.

Ao mesmo tempo, mesmo modelos com um grande número de parâmetros têm dificuldade em evitar completamente o problema das alucinações. Em comparação com textos curtos, textos longos podem fornecer mais contexto e informações detalhadas, ajudando o modelo a julgar o significado de forma mais precisa, reduzindo a ambiguidade e aumentando a precisão do raciocínio.

É evidente que a tecnologia de textos longos pode resolver alguns problemas iniciais dos grandes modelos e é uma das tecnologias-chave para avançar na aplicação industrial. Isso também indica que os grandes modelos gerais estão entrando em uma nova fase, passando de LLM para a era do Long LLM.

Através de alguns produtos recém-lançados, podemos vislumbrar as funcionalidades de atualização do modelo de grande escala Long LLM:

Primeiro, é realizada a extração, resumo e análise de informações chave de textos muito longos. Por exemplo, pode-se analisar rapidamente o conteúdo de um artigo, extrair informações-chave de relatórios financeiros ou fazer perguntas sobre um livro inteiro.

Em termos de código, é possível gerar código diretamente a partir de texto, ou até mesmo reproduzir o processo de codificação com base em artigos. Isso representa um grande avanço em relação aos antigos sites de geração de código a partir de esboços.

Em cenários de diálogo longo, é possível realizar interpretações de personagens mais vívidas. Ao inserir o corpus de personagens específicos, configurar o tom e a personalidade, é possível ter diálogos um a um com personagens virtuais.

Esses exemplos mostram que os chatbots estão a evoluir para direcções de especialização, personalização e profundidade, o que pode ser mais uma alavanca para a aplicação industrial.

Há empresas que estão mirando na próxima superaplicação voltada para o consumidor: com a tecnologia de texto longo como um ponto de ruptura, derivando várias aplicações a partir de um modelo básico. O fundador da empresa prevê que o mercado nacional de grandes modelos será dividido em dois campos: empresas e consumidores, e que no mercado consumidor surgirão superaplicações baseadas em modelos desenvolvidos internamente.

No entanto, ainda há muito espaço para otimização em cenários de diálogo com longos textos no mercado atual. Por exemplo, alguns não suportam a obtenção de informações atualizadas online, não é possível pausar e modificar durante o processo de geração, e mesmo com suporte de informações de fundo, ainda podem surgir erros.

O desafio técnico de textos longos

Na tecnologia de longos textos, existe o dilema do "triângulo impossível" entre o comprimento do texto, a atenção e o poder computacional.

Isso se manifesta da seguinte forma: quanto mais longo o texto, mais difícil é concentrar atenção suficiente; quando a atenção é limitada, textos curtos tornam-se difíceis de interpretar informações complexas; processar textos longos requer uma grande quantidade de poder computacional, aumentando os custos.

A origem deste dilema reside no fato de que a maioria dos modelos é baseada na estrutura Transformer. O mecanismo de autoatenção, que é o mais importante nesta estrutura, embora permita que o modelo analise de forma flexível as relações entre as informações, faz com que a carga computacional aumente quadraticamente com o comprimento do contexto.

Algumas pesquisas mostram que um contexto excessivamente longo faz com que a proporção de informações relevantes diminua significativamente, tornando a distração da atenção quase inevitável. Isso constitui um paradoxo entre o comprimento do texto e a atenção, e é a razão fundamental pela qual as técnicas de texto longo em modelos grandes são difíceis de superar.

Ao mesmo tempo, a capacidade computacional tem sido um recurso escasso. Na implementação prática, é difícil para as empresas fornecerem um grande suporte de capacidade computacional, o que exige que os fornecedores controlem rigorosamente o consumo de capacidade computacional ao expandir os parâmetros do modelo ou o comprimento do texto. No entanto, atualmente, para superar a tecnologia de textos mais longos, muitas vezes é necessário mais capacidade computacional, criando mais um conflito entre o comprimento do texto e a capacidade computacional.

Sobre isso, especialistas da indústria afirmam que atualmente não há uma solução unificada para a modelagem de textos longos com grandes modelos, e a raiz do problema está na própria estrutura do Transformer, enquanto uma nova arquitetura está em desenvolvimento.

Atualmente, existem três abordagens diferentes para a solução:

  1. Utilizar ferramentas externas ao modelo para ajudar no processamento de textos longos. O método principal é dividir o texto longo em vários textos curtos, carregando apenas os fragmentos curtos necessários a cada vez, evitando o problema de que o modelo não consegue ler todo o texto longo de uma só vez.

  2. Reestruturar a forma como o cálculo de autoatenção é feito. Por exemplo, dividir textos longos em diferentes grupos e calcular dentro de cada grupo, em vez de calcular a relação entre cada palavra, para reduzir a carga computacional e aumentar a velocidade.

  3. Otimizar o próprio modelo. Por exemplo, ajustar finamente o modelo existente para que possa extrapolar para sequências mais longas; ou aumentar o comprimento do contexto reduzindo a quantidade de parâmetros.

O dilema do "triângulo impossível" para textos longos ainda pode não ter solução, mas isso também esclarece a direção de exploração dos fornecedores de grandes modelos: encontrar o melhor ponto de equilíbrio entre o comprimento do texto, a atenção e o custo computacional, permitindo processar informações suficientes enquanto considera as limitações de cálculo de atenção e custo computacional.

TOKEN-2.85%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 5
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)