Traitement de longs textes : la nouvelle norme des grands modèles face au défi de la "Trinité impie".

Capacité de long texte : le nouveau "standard" des grands modèles

De 4000 à 400 000 tokens, le grand modèle améliore sa capacité à traiter de longs textes à un rythme significatif.

La capacité de traitement de longs textes semble être devenue une nouvelle "norme" pour les fournisseurs de grands modèles.

À l'international, OpenAI a augmenté plusieurs fois la longueur d'entrée de contexte de GPT-3.5 de 4000 à 16000 tokens, et celle de GPT-4 de 8000 à 32000 tokens. Son concurrent Anthropic a étendu la longueur de contexte à 100000 tokens en une seule fois. LongLLaMA a quant à lui porté la longueur de contexte à 256000 tokens, voire plus.

Dans le pays, certaines startups de grands modèles ont également réalisé des percées dans ce domaine. Par exemple, un produit d'assistant intelligent publié par une entreprise peut prendre en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. Une autre équipe de recherche a développé une nouvelle technologie, LongLoRA, qui peut étendre la longueur de texte d'un modèle de 7B à 100 000 tokens, et d'un modèle de 70B à 32 000 tokens.

Actuellement, plusieurs grandes entreprises de technologie de modèles et institutions de recherche, tant nationales qu'internationales, ont fait de l'extension de la longueur de contexte une priorité pour leurs mises à jour.

Ces entreprises et institutions sont principalement prisées par le marché des capitaux. Par exemple, OpenAI a reçu près de 12 milliards de dollars d'investissements; la dernière valorisation d'Anthropic pourrait atteindre 30 milliards de dollars; une entreprise nationale créée depuis seulement six mois a également rapidement bouclé plusieurs tours de financement, avec une valorisation de marché de plus de 300 millions de dollars.

Pourquoi les entreprises de grands modèles attachent-elles autant d'importance à la technologie des longs textes ? Que signifie une augmentation de la longueur du contexte de 100 fois ?

En apparence, cela signifie que la longueur du texte pouvant être saisi augmente, et que la capacité de lecture du modèle s'améliore. Passant de la capacité de lire un court article à celle de traiter un roman complet.

D'un point de vue plus profond, la technologie des longs textes est en train de promouvoir l'application de grands modèles dans des domaines professionnels tels que la finance, la justice et la recherche. Dans ces domaines, la capacité à résumer, comprendre et répondre aux questions sur des documents longs est une exigence fondamentale et constitue également une direction nécessitant une mise à niveau intelligente.

Cependant, la longueur du texte n'est pas toujours un indicateur de qualité. Des études montrent qu'il n'y a pas de corrélation directe entre le soutien d'un modèle à des entrées contextuelles plus longues et la performance du modèle. Ce qui est réellement crucial, c'est la capacité du modèle à utiliser efficacement le contenu contextuel.

Actuellement, l'exploration de la longueur des textes, tant au niveau national qu'international, n'a pas encore atteint ses limites. 400 000 tokens ne sont peut-être qu'un début, et de nombreuses entreprises continuent de franchir cette barrière technologique.

Pourquoi améliorer la capacité de traitement des longs textes ?

Un fondateur d'une entreprise de grands modèles a déclaré que c'est en raison des limitations de la longueur d'entrée que de nombreuses applications de grands modèles rencontrent des difficultés à se concrétiser. C'est également la raison pour laquelle de nombreuses entreprises se concentrent actuellement sur les technologies de texte long.

Par exemple, dans les scènes de personnages virtuels, en raison de la capacité limitée à traiter de longs textes, les personnages virtuels peuvent oublier des informations importantes. Lors du développement de jeux de type scénario, une longueur d'entrée insuffisante ne permet que de réduire les règles et les paramètres, ce qui affecte l'expérience de jeu. Dans des domaines spécialisés comme le droit et la finance, l'analyse et la génération de contenu approfondi sont souvent limitées.

Sur la route vers les applications IA futures, les longs textes jouent toujours un rôle important. Les agents IA doivent s'appuyer sur des informations historiques pour prendre des décisions, et les applications IA natives ont besoin de contexte pour maintenir une expérience utilisateur cohérente et personnalisée.

Le fondateur pense que, que ce soit par écrit, par la voix ou par vidéo, la compression sans perte de grandes quantités de données peut atteindre un haut degré d'intelligence. La limite des grands modèles est déterminée par la capacité d'une seule étape et le nombre d'étapes d'exécution, où la capacité d'une seule étape est liée au nombre de paramètres, tandis que le nombre d'étapes d'exécution correspond à la longueur du contexte.

En même temps, même les modèles avec un grand nombre de paramètres ont du mal à éviter complètement le problème des hallucinations. Comparé aux textes courts, les textes longs peuvent fournir plus de contexte et d'informations détaillées, aidant le modèle à juger plus précisément le sens, à réduire l'ambiguïté et à améliorer la précision du raisonnement.

Il est évident que la technologie des longs textes peut à la fois résoudre certains problèmes précoces des grands modèles et est l'une des technologies clés pour faire avancer les applications industrielles. Cela indique également que les grands modèles généraux entrent dans une nouvelle phase, passant de LLM à l'ère Long LLM.

Grâce à certains nouveaux produits publiés, nous pouvons entrevoir les fonctionnalités améliorées de la phase Long LLM des grands modèles :

Tout d'abord, il s'agit d'extraire, de résumer et d'analyser les informations clés à partir de textes très longs. Par exemple, on peut rapidement analyser l'idée principale d'un article, extraire les informations clés d'un rapport financier ou répondre à des questions sur un livre entier.

En termes de code, il est possible de générer du code directement à partir de texte, voire de reproduire le processus de codage basé sur des articles de recherche. C'est un grand pas en avant par rapport aux sites de génération de croquis de code de la première génération.

Dans des scénarios de dialogue prolongé, il est possible de réaliser un jeu de rôle plus vivant. En saisissant le corpus de personnages spécifiques, en réglant le ton et la personnalité, il est possible d'avoir une conversation en tête-à-tête avec un personnage virtuel.

Ces exemples montrent que les robots de conversation évoluent vers une spécialisation, une personnalisation et une profondeur accrues, ce qui pourrait être un nouvel outil pour activer les applications industrielles.

Une entreprise vise à devenir la prochaine super application orientée vers les consommateurs : en utilisant la technologie de texte long comme percée, elle dérive plusieurs applications à partir d'un modèle de base. Le fondateur de cette entreprise prévoit que le marché national des grands modèles se divisera en deux camps, entreprises et consommateurs, et qu'il y aura des super applications basées sur des modèles auto-développés sur le marché des consommateurs.

Cependant, il y a encore beaucoup de place pour l'optimisation des scénarios de dialogue en texte long sur le marché actuel. Par exemple, certains ne prennent pas en charge la connexion pour obtenir des informations récentes, il n'est pas possible de suspendre et de modifier durant le processus de génération, et même avec des informations de contexte, des erreurs peuvent encore se produire.

Les défis techniques des longs textes

Dans le domaine des technologies de traitement de longs textes, il existe un dilemme des "trois impossibilités" entre la longueur du texte, l'attention et la puissance de calcul.

Cela se manifeste par le fait que : plus le texte est long, plus il est difficile de concentrer une attention suffisante ; lorsque l'attention est limitée, il est également difficile de déchiffrer des informations complexes dans un texte court ; traiter des textes longs nécessite une grande puissance de calcul, augmentant ainsi les coûts.

La racine de ce dilemme réside dans le fait que la plupart des modèles sont basés sur une structure Transformer. Le mécanisme d'auto-attention, qui est le plus important de cette structure, permet au modèle d'analyser de manière flexible les relations entre les informations, mais sa charge de calcul augmente de manière quadratique avec la longueur du contexte.

Certaines études montrent qu'un contexte trop long entraîne une diminution significative de la proportion d'informations pertinentes, rendant la distraction de l'attention apparemment inévitable. Cela constitue un paradoxe entre la longueur du texte et l'attention, et c'est la raison fondamentale pour laquelle la technologie des longs textes des grands modèles a du mal à progresser.

En même temps, la puissance de calcul a toujours été une ressource rare. Dans le déploiement pratique, il est difficile pour les entreprises de fournir un soutien de grande puissance de calcul, ce qui exige des fabricants de contrôler strictement la consommation de puissance de calcul lors de l'expansion des paramètres du modèle ou de la longueur du texte. Cependant, pour surmonter les technologies de texte plus long, il faut souvent plus de puissance de calcul, créant ainsi un nouveau conflit entre la longueur du texte et la puissance de calcul.

À cet égard, les experts du secteur indiquent qu'il n'existe actuellement pas de solution unifiée pour la modélisation de longs textes avec des grands modèles, la source du problème réside dans la structure même du Transformer, et une toute nouvelle architecture est en cours de développement.

Actuellement, il existe principalement trois approches différentes :

  1. Utiliser des outils externes au modèle pour traiter de longs textes. La méthode principale consiste à diviser le long texte en plusieurs courts textes à traiter, en chargeant à chaque fois uniquement le segment court nécessaire, évitant ainsi le problème où le modèle ne peut pas lire l'intégralité du long texte en une seule fois.

  2. Reconstruire la manière de calculer l'auto-attention. Par exemple, diviser de longs textes en différents groupes et effectuer des calculs au sein de chaque groupe, plutôt que de calculer les relations entre chaque mot, afin de réduire la charge de calcul et d'augmenter la vitesse.

  3. Optimiser le modèle lui-même. Par exemple, affiner le modèle existant pour qu'il puisse extrapoler à des séquences plus longues ; ou réduire le nombre de paramètres pour augmenter la longueur du contexte.

Le dilemme du "triangle impossible" pour les longs textes n'est peut-être pas encore résolu, mais cela précise également la direction d'exploration des fabricants de grands modèles : trouver le meilleur équilibre entre la longueur du texte, l'attention et la puissance de calcul, afin de pouvoir traiter suffisamment d'informations tout en tenant compte des limites de calcul de l'attention et du coût de la puissance de calcul.

TOKEN-3.66%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)