Le développement récent de l'industrie de l'IA est considéré comme la quatrième révolution industrielle. L'émergence de grands modèles a considérablement amélioré l'efficacité des différents secteurs, estimée à environ 20 % d'augmentation de la productivité aux États-Unis. La capacité de généralisation des grands modèles est considérée comme un nouveau paradigme de conception logicielle, capable de supporter une plus large gamme d'entrées et de sorties modales. Les technologies d'apprentissage profond ont apporté une quatrième prospérité à l'industrie de l'IA, et cette tendance s'est également répandue dans l'industrie des cryptomonnaies.
Ce rapport explorera l'histoire du développement de l'industrie de l'IA, les classifications technologiques et l'impact des technologies d'apprentissage profond sur l'industrie. Une analyse approfondie de l'état actuel et des tendances du développement de la chaîne de valeur, y compris les GPU, le cloud computing, les sources de données et les dispositifs périphériques dans l'apprentissage profond. Il examinera essentiellement la relation entre les cryptomonnaies et l'industrie de l'IA, en réorganisant la structure de la chaîne de valeur de l'IA liée aux cryptomonnaies.
Histoire du développement de l'industrie de l'IA
L'industrie de l'IA a débuté dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le monde académique et l'industrie ont développé, à travers différentes époques et divers contextes disciplinaires, plusieurs courants pour réaliser l'intelligence artificielle.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique". Ce concept vise à permettre aux machines d'améliorer les performances du système en itérant sur des tâches en fonction des données. Les étapes principales consistent à envoyer des données à l'algorithme, à entraîner le modèle avec ces données, à tester et déployer le modèle, puis à utiliser le modèle pour accomplir des tâches de prédiction automatisées.
Actuellement, il existe trois grandes écoles de pensée en apprentissage automatique : le connexionnisme, le symbolisme et le comportementalisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.
Actuellement, le connexionnisme, représenté par les réseaux de neurones, est en tête ( également appelé apprentissage profond ), la principale raison étant que cette architecture possède une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et de neurones ( ainsi que le nombre de paramètres ) deviennent suffisamment élevés, il y a suffisamment d'opportunités pour modéliser des tâches générales complexes. Grâce à l'entrée de données, il est possible d'ajuster en permanence les paramètres des neurones, et après avoir passé plusieurs données, ce neurone atteindra un état optimal ( paramètres ), d'où vient le terme "profondeur" - un nombre suffisant de couches et de neurones.
Par exemple, cela peut être simplement compris comme la construction d'une fonction, où lorsque l'entrée est X=2, Y=3 ; et lorsque X=3, Y=5. Si l'on veut que cette fonction s'applique à toutes les valeurs de X, il faut continuellement ajouter le degré de cette fonction ainsi que ses paramètres. Par exemple, une fonction qui satisfait cette condition pourrait être Y = 2X -1. Cependant, si une donnée est X=2, Y=11, il serait nécessaire de reconstruire une fonction adaptée à ces trois points de données. En utilisant un GPU pour un craquage intensif, on découvre que Y = X2 -3X +5 est assez approprié, bien qu'il ne soit pas nécessaire qu'il coïncide parfaitement avec les données, il suffit de respecter un équilibre et d'obtenir une sortie globalement similaire. Dans ce contexte, X2, X et X0 représentent différents neurones, tandis que 1, -3 et 5 sont leurs paramètres.
À ce moment-là, si nous entrons une grande quantité de données dans le réseau de neurones, nous pouvons augmenter le nombre de neurones et itérer les paramètres pour ajuster les nouvelles données. Cela permettra d'ajuster toutes les données.
La technologie d'apprentissage profond basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions technologiques, passant des premiers réseaux de neurones, aux réseaux de neurones à propagation avant, RNN, CNN, GAN, jusqu'aux modèles modernes tels que ceux utilisant la technologie Transformer comme GPT. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur ( Transformer ), destiné à encoder toutes les modalités ( telles que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes. Ensuite, ces données sont introduites dans le réseau de neurones, permettant ainsi au réseau de neurones d'ajuster tout type de données, réalisant ainsi le multimodal.
Le développement de l'IA a connu trois vagues technologiques. La première vague a eu lieu dans les années 1960, une décennie après la proposition de la technologie IA. Cette vague a été déclenchée par le développement de la technologie symboliste, qui a résolu les problèmes du traitement du langage naturel et du dialogue homme-machine. À la même époque, les systèmes experts sont nés, dont un système expert en chimie complet. Ce système possède des connaissances chimiques très solides et infère des réponses similaires à celles d'un expert en chimie par le biais de questions. Ce système expert en chimie peut être considéré comme une combinaison d'une base de connaissances en chimie et d'un système d'inférence.
Après les systèmes experts, dans les années 1990, Judea Pearl a proposé des réseaux bayésiens, également connus sous le nom de réseaux de croyance, (. À la même époque, Brooks a proposé la robotique basée sur le comportement, marquant la naissance du comportementalisme.
En 1997, IBM Deep Blue a battu le champion d'échecs Garry Kasparov avec un score de 3,5 à 2,5, cette victoire étant considérée comme un jalon pour l'intelligence artificielle, marquant le début d'un nouvel essor des technologies AI.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept d'apprentissage profond, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage de représentations à partir des données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, passant de RNN, GAN à Transformer et Stable Diffusion, ces deux algorithmes ayant façonné cette troisième vague technologique, qui est également la période de prospérité du connexionnisme.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage en profondeur, y compris :
En 2011, le Watson) d'IBM a battu des humains et remporté le championnat dans le jeu-questionnaire « Jeopardy( ».
En 2014, Goodfellow a proposé le GAN), Réseau Adversarial Génératif(, qui apprend en faisant s'affronter deux réseaux neuronaux, capable de générer des photos indiscernables des vraies. En même temps, Goodfellow a également écrit un livre intitulé "Deep Learning", surnommé le livre des fleurs, qui est l'un des livres d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé un algorithme d'apprentissage profond dans la revue "Nature", et la proposition de cette méthode d'apprentissage profond a immédiatement suscité un énorme écho dans le monde académique et industriel.
En 2015, OpenAI a été créé, plusieurs investisseurs de renom ont annoncé un investissement commun de 1 milliard de dollars.
En 2016, AlphaGo, basé sur la technologie d'apprentissage en profondeur, a affronté le champion du monde de Go et joueur professionnel de niveau 9 dan, Lee Sedol, et a remporté la victoire avec un score total de 4 à 1.
En 2017, une entreprise de technologie robotique a développé un robot humanoïde nommé Sophia, qui est considéré comme le premier robot à avoir obtenu le statut de citoyen de plein droit dans l'histoire, doté d'une riche gamme d'expressions faciales et de capacités de compréhension linguistique humaine.
En 2017, Google a publié un article intitulé "Attention is all you need" proposant l'algorithme Transformer, ce qui a conduit à l'émergence de modèles de langage à grande échelle.
En 2018, OpenAI a publié le GPT), un modèle de langage génératif pré-entraîné basé sur l'algorithme Transformer(, qui était l'un des plus grands modèles de langage de l'époque.
En 2018, l'équipe de Google Deepmind a lancé AlphaGo basé sur l'apprentissage profond, capable de prédire la structure des protéines, considéré comme un immense symbole de progrès dans le domaine de l'intelligence artificielle.
En 2019, OpenAI a publié GPT-2, qui possède 1,5 milliard de paramètres.
En 2020, OpenAI a développé le GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné sur 570 Go de texte et peut atteindre des performances à la pointe de la technologie sur plusieurs tâches de traitement du langage naturel, y compris répondre à des questions, traduire et rédiger des articles.
En 2021, OpenAI a lancé GPT-4, un modèle qui possède 1,76 billion de paramètres, soit 10 fois plus que GPT-3.
En janvier 2023, l'application ChatGPT basée sur le modèle GPT-4 a été lancée, et en mars, ChatGPT a atteint un million d'utilisateurs, devenant ainsi l'application à atteindre le plus rapidement un million d'utilisateurs dans l'histoire.
![Nouveaux venus | AI x Crypto : De zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Chaîne de l'industrie de l'apprentissage profond
Les modèles de langage actuels reposent tous sur des méthodes d'apprentissage profond basées sur des réseaux neuronaux. Avec GPT en tête, les grands modèles ont engendré un engouement pour l'intelligence artificielle, attirant de nombreux acteurs dans ce domaine. Nous avons également constaté une explosion de la demande sur le marché pour les données et la puissance de calcul. Par conséquent, dans cette partie du rapport, nous explorons principalement la chaîne d'approvisionnement des algorithmes d'apprentissage profond. Dans l'industrie de l'IA dominée par les algorithmes d'apprentissage profond, comment sont constitués les acteurs en amont et en aval, et quelle est la situation actuelle de ces acteurs ainsi que la relation entre l'offre et la demande, et le développement futur.
Tout d'abord, il est important de clarifier que lors de l'entraînement des grands modèles LLMs, dirigés par GPT et basés sur la technologie Transformer, ), cela se divise en trois étapes.
Avant l'entraînement, comme il est basé sur le Transformer, le convertisseur doit transformer l'entrée de texte en valeurs numériques, ce processus est appelé "Tokenization", après quoi ces valeurs sont appelées Token. Selon une règle empirique générale, un mot ou un caractère anglais peut être considéré comme un Token, tandis que chaque caractère chinois peut être grossièrement considéré comme deux Tokens. C'est également l'unité de base utilisée pour la tarification de GPT.
Première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée, comme l'exemple donné dans la première partie du rapport avec (X,Y), pour rechercher les meilleurs paramètres de chaque neurone sous ce modèle, cela nécessite une grande quantité de données à ce stade, et ce processus est également le plus coûteux en termes de calcul, car il faut itérer plusieurs fois sur les neurones en essayant divers paramètres. Une fois qu'un lot de paires de données est entraîné, on utilise généralement le même lot de données pour un second entraînement afin d'itérer les paramètres.
Deuxième étape, le fine-tuning. Le fine-tuning consiste à fournir un lot de données limité, mais de très haute qualité, pour l'entraînement. Ce changement permettra d'obtenir une sortie de modèle de meilleure qualité, car l'apprentissage préalable nécessite une grande quantité de données, mais de nombreuses données peuvent contenir des erreurs ou être de faible qualité. L'étape de fine-tuning peut améliorer la qualité du modèle grâce à des données de haute qualité.
La troisième étape, l'apprentissage par renforcement. Tout d'abord, un tout nouveau modèle sera créé, que nous appelons "modèle de récompense", dont l'objectif est très simple : classer les résultats de sortie. Par conséquent, la mise en œuvre de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, ce modèle sera utilisé pour déterminer si la sortie de notre grand modèle est de haute qualité, ce qui permettra d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ( Cependant, il est parfois nécessaire d'impliquer des humains pour évaluer la qualité de la sortie du modèle ).
En résumé, pendant le processus d'entraînement des grands modèles, la préformation exige une quantité de données très élevée, et la puissance de calcul GPU nécessaire est également la plus importante, tandis que le réglage fin nécessite des données de meilleure qualité pour améliorer les paramètres. L'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises à l'aide d'un modèle de récompense pour produire des résultats de meilleure qualité.
Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple que nous prenons avec la fonction Y = aX + b, il y a en réalité deux neurones, X et X0. Par conséquent, peu importe comment les paramètres varient, les données qu'ils peuvent modéliser sont extrêmement limitées, car leur essence reste une ligne droite. Si le nombre de neurones augmente, alors il est possible d'itérer plus de paramètres, ce qui permet de modéliser davantage de données. C'est la raison pour laquelle les grands modèles produisent des miracles, et c'est aussi pourquoi on les appelle communément de grands modèles : ils sont essentiellement constitués de millions de neurones et de paramètres, de quantités massives de données, tout en nécessitant une puissance de calcul énorme.
Ainsi, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois facteurs influencent ensemble la qualité des résultats des grands modèles et leur capacité de généralisation. Supposons que le nombre de paramètres soit p, la quantité de données soit n( calculée en fonction du nombre de tokens), alors nous pouvons estimer la puissance de calcul nécessaire à l'aide de règles empiriques générales, ce qui nous permet d'anticiper la puissance de calcul à acheter et le temps d'entraînement nécessaire.
La puissance de calcul est généralement exprimée en Flops, représentant une opération de calcul en virgule flottante. Les opérations en virgule flottante désignent l'addition, la soustraction, la multiplication et la division de valeurs non entières, comme 2.5 + 3.557. La virgule flottante indique la capacité à inclure des décimales, tandis que FP16 représente une précision qui supporte les décimales, et FP32 est une précision généralement plus courante. Selon des règles empiriques observées en pratique, le pré-entraînement (Pre-traning) est généralement effectué plusieurs fois ( sur de grands modèles, nécessitant environ 6np Flops, où 6 est appelé constante de l'industrie. L'inférence )Inference, c'est le processus par lequel nous entrons des données et attendons la sortie du grand modèle (, divisé en deux parties : n tokens en entrée et n tokens en sortie, nécessitant donc environ 2np Flops au total.
Au début, des puces CPU étaient utilisées pour l'entraînement et fournir un soutien en puissance de calcul, mais par la suite, on a commencé à utiliser progressivement des GPU à la place, comme certaines puces GPU haute performance, etc. En effet, le CPU existe en tant que calcul général, alors que le GPU peut être utilisé comme calcul spécialisé, surpassant de loin le CPU en termes d'efficacité énergétique. Le GPU exécute des calculs en virgule flottante principalement grâce à un module appelé Tensor Core.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Fusion de l'IA et de l'industrie des cryptoactifs : de l'apprentissage en profondeur aux grands modèles
IA x Crypto : de zéro au sommet
Le développement récent de l'industrie de l'IA est considéré comme la quatrième révolution industrielle. L'émergence de grands modèles a considérablement amélioré l'efficacité des différents secteurs, estimée à environ 20 % d'augmentation de la productivité aux États-Unis. La capacité de généralisation des grands modèles est considérée comme un nouveau paradigme de conception logicielle, capable de supporter une plus large gamme d'entrées et de sorties modales. Les technologies d'apprentissage profond ont apporté une quatrième prospérité à l'industrie de l'IA, et cette tendance s'est également répandue dans l'industrie des cryptomonnaies.
Ce rapport explorera l'histoire du développement de l'industrie de l'IA, les classifications technologiques et l'impact des technologies d'apprentissage profond sur l'industrie. Une analyse approfondie de l'état actuel et des tendances du développement de la chaîne de valeur, y compris les GPU, le cloud computing, les sources de données et les dispositifs périphériques dans l'apprentissage profond. Il examinera essentiellement la relation entre les cryptomonnaies et l'industrie de l'IA, en réorganisant la structure de la chaîne de valeur de l'IA liée aux cryptomonnaies.
Histoire du développement de l'industrie de l'IA
L'industrie de l'IA a débuté dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le monde académique et l'industrie ont développé, à travers différentes époques et divers contextes disciplinaires, plusieurs courants pour réaliser l'intelligence artificielle.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique". Ce concept vise à permettre aux machines d'améliorer les performances du système en itérant sur des tâches en fonction des données. Les étapes principales consistent à envoyer des données à l'algorithme, à entraîner le modèle avec ces données, à tester et déployer le modèle, puis à utiliser le modèle pour accomplir des tâches de prédiction automatisées.
Actuellement, il existe trois grandes écoles de pensée en apprentissage automatique : le connexionnisme, le symbolisme et le comportementalisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.
Actuellement, le connexionnisme, représenté par les réseaux de neurones, est en tête ( également appelé apprentissage profond ), la principale raison étant que cette architecture possède une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et de neurones ( ainsi que le nombre de paramètres ) deviennent suffisamment élevés, il y a suffisamment d'opportunités pour modéliser des tâches générales complexes. Grâce à l'entrée de données, il est possible d'ajuster en permanence les paramètres des neurones, et après avoir passé plusieurs données, ce neurone atteindra un état optimal ( paramètres ), d'où vient le terme "profondeur" - un nombre suffisant de couches et de neurones.
Par exemple, cela peut être simplement compris comme la construction d'une fonction, où lorsque l'entrée est X=2, Y=3 ; et lorsque X=3, Y=5. Si l'on veut que cette fonction s'applique à toutes les valeurs de X, il faut continuellement ajouter le degré de cette fonction ainsi que ses paramètres. Par exemple, une fonction qui satisfait cette condition pourrait être Y = 2X -1. Cependant, si une donnée est X=2, Y=11, il serait nécessaire de reconstruire une fonction adaptée à ces trois points de données. En utilisant un GPU pour un craquage intensif, on découvre que Y = X2 -3X +5 est assez approprié, bien qu'il ne soit pas nécessaire qu'il coïncide parfaitement avec les données, il suffit de respecter un équilibre et d'obtenir une sortie globalement similaire. Dans ce contexte, X2, X et X0 représentent différents neurones, tandis que 1, -3 et 5 sont leurs paramètres.
À ce moment-là, si nous entrons une grande quantité de données dans le réseau de neurones, nous pouvons augmenter le nombre de neurones et itérer les paramètres pour ajuster les nouvelles données. Cela permettra d'ajuster toutes les données.
La technologie d'apprentissage profond basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions technologiques, passant des premiers réseaux de neurones, aux réseaux de neurones à propagation avant, RNN, CNN, GAN, jusqu'aux modèles modernes tels que ceux utilisant la technologie Transformer comme GPT. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur ( Transformer ), destiné à encoder toutes les modalités ( telles que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes. Ensuite, ces données sont introduites dans le réseau de neurones, permettant ainsi au réseau de neurones d'ajuster tout type de données, réalisant ainsi le multimodal.
Le développement de l'IA a connu trois vagues technologiques. La première vague a eu lieu dans les années 1960, une décennie après la proposition de la technologie IA. Cette vague a été déclenchée par le développement de la technologie symboliste, qui a résolu les problèmes du traitement du langage naturel et du dialogue homme-machine. À la même époque, les systèmes experts sont nés, dont un système expert en chimie complet. Ce système possède des connaissances chimiques très solides et infère des réponses similaires à celles d'un expert en chimie par le biais de questions. Ce système expert en chimie peut être considéré comme une combinaison d'une base de connaissances en chimie et d'un système d'inférence.
Après les systèmes experts, dans les années 1990, Judea Pearl a proposé des réseaux bayésiens, également connus sous le nom de réseaux de croyance, (. À la même époque, Brooks a proposé la robotique basée sur le comportement, marquant la naissance du comportementalisme.
En 1997, IBM Deep Blue a battu le champion d'échecs Garry Kasparov avec un score de 3,5 à 2,5, cette victoire étant considérée comme un jalon pour l'intelligence artificielle, marquant le début d'un nouvel essor des technologies AI.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept d'apprentissage profond, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage de représentations à partir des données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, passant de RNN, GAN à Transformer et Stable Diffusion, ces deux algorithmes ayant façonné cette troisième vague technologique, qui est également la période de prospérité du connexionnisme.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage en profondeur, y compris :
En 2011, le Watson) d'IBM a battu des humains et remporté le championnat dans le jeu-questionnaire « Jeopardy( ».
En 2014, Goodfellow a proposé le GAN), Réseau Adversarial Génératif(, qui apprend en faisant s'affronter deux réseaux neuronaux, capable de générer des photos indiscernables des vraies. En même temps, Goodfellow a également écrit un livre intitulé "Deep Learning", surnommé le livre des fleurs, qui est l'un des livres d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé un algorithme d'apprentissage profond dans la revue "Nature", et la proposition de cette méthode d'apprentissage profond a immédiatement suscité un énorme écho dans le monde académique et industriel.
En 2015, OpenAI a été créé, plusieurs investisseurs de renom ont annoncé un investissement commun de 1 milliard de dollars.
En 2016, AlphaGo, basé sur la technologie d'apprentissage en profondeur, a affronté le champion du monde de Go et joueur professionnel de niveau 9 dan, Lee Sedol, et a remporté la victoire avec un score total de 4 à 1.
En 2017, une entreprise de technologie robotique a développé un robot humanoïde nommé Sophia, qui est considéré comme le premier robot à avoir obtenu le statut de citoyen de plein droit dans l'histoire, doté d'une riche gamme d'expressions faciales et de capacités de compréhension linguistique humaine.
En 2017, Google a publié un article intitulé "Attention is all you need" proposant l'algorithme Transformer, ce qui a conduit à l'émergence de modèles de langage à grande échelle.
En 2018, OpenAI a publié le GPT), un modèle de langage génératif pré-entraîné basé sur l'algorithme Transformer(, qui était l'un des plus grands modèles de langage de l'époque.
En 2018, l'équipe de Google Deepmind a lancé AlphaGo basé sur l'apprentissage profond, capable de prédire la structure des protéines, considéré comme un immense symbole de progrès dans le domaine de l'intelligence artificielle.
En 2019, OpenAI a publié GPT-2, qui possède 1,5 milliard de paramètres.
En 2020, OpenAI a développé le GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné sur 570 Go de texte et peut atteindre des performances à la pointe de la technologie sur plusieurs tâches de traitement du langage naturel, y compris répondre à des questions, traduire et rédiger des articles.
En 2021, OpenAI a lancé GPT-4, un modèle qui possède 1,76 billion de paramètres, soit 10 fois plus que GPT-3.
En janvier 2023, l'application ChatGPT basée sur le modèle GPT-4 a été lancée, et en mars, ChatGPT a atteint un million d'utilisateurs, devenant ainsi l'application à atteindre le plus rapidement un million d'utilisateurs dans l'histoire.
![Nouveaux venus | AI x Crypto : De zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Chaîne de l'industrie de l'apprentissage profond
Les modèles de langage actuels reposent tous sur des méthodes d'apprentissage profond basées sur des réseaux neuronaux. Avec GPT en tête, les grands modèles ont engendré un engouement pour l'intelligence artificielle, attirant de nombreux acteurs dans ce domaine. Nous avons également constaté une explosion de la demande sur le marché pour les données et la puissance de calcul. Par conséquent, dans cette partie du rapport, nous explorons principalement la chaîne d'approvisionnement des algorithmes d'apprentissage profond. Dans l'industrie de l'IA dominée par les algorithmes d'apprentissage profond, comment sont constitués les acteurs en amont et en aval, et quelle est la situation actuelle de ces acteurs ainsi que la relation entre l'offre et la demande, et le développement futur.
Tout d'abord, il est important de clarifier que lors de l'entraînement des grands modèles LLMs, dirigés par GPT et basés sur la technologie Transformer, ), cela se divise en trois étapes.
Avant l'entraînement, comme il est basé sur le Transformer, le convertisseur doit transformer l'entrée de texte en valeurs numériques, ce processus est appelé "Tokenization", après quoi ces valeurs sont appelées Token. Selon une règle empirique générale, un mot ou un caractère anglais peut être considéré comme un Token, tandis que chaque caractère chinois peut être grossièrement considéré comme deux Tokens. C'est également l'unité de base utilisée pour la tarification de GPT.
Première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée, comme l'exemple donné dans la première partie du rapport avec (X,Y), pour rechercher les meilleurs paramètres de chaque neurone sous ce modèle, cela nécessite une grande quantité de données à ce stade, et ce processus est également le plus coûteux en termes de calcul, car il faut itérer plusieurs fois sur les neurones en essayant divers paramètres. Une fois qu'un lot de paires de données est entraîné, on utilise généralement le même lot de données pour un second entraînement afin d'itérer les paramètres.
Deuxième étape, le fine-tuning. Le fine-tuning consiste à fournir un lot de données limité, mais de très haute qualité, pour l'entraînement. Ce changement permettra d'obtenir une sortie de modèle de meilleure qualité, car l'apprentissage préalable nécessite une grande quantité de données, mais de nombreuses données peuvent contenir des erreurs ou être de faible qualité. L'étape de fine-tuning peut améliorer la qualité du modèle grâce à des données de haute qualité.
La troisième étape, l'apprentissage par renforcement. Tout d'abord, un tout nouveau modèle sera créé, que nous appelons "modèle de récompense", dont l'objectif est très simple : classer les résultats de sortie. Par conséquent, la mise en œuvre de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, ce modèle sera utilisé pour déterminer si la sortie de notre grand modèle est de haute qualité, ce qui permettra d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ( Cependant, il est parfois nécessaire d'impliquer des humains pour évaluer la qualité de la sortie du modèle ).
En résumé, pendant le processus d'entraînement des grands modèles, la préformation exige une quantité de données très élevée, et la puissance de calcul GPU nécessaire est également la plus importante, tandis que le réglage fin nécessite des données de meilleure qualité pour améliorer les paramètres. L'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises à l'aide d'un modèle de récompense pour produire des résultats de meilleure qualité.
Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple que nous prenons avec la fonction Y = aX + b, il y a en réalité deux neurones, X et X0. Par conséquent, peu importe comment les paramètres varient, les données qu'ils peuvent modéliser sont extrêmement limitées, car leur essence reste une ligne droite. Si le nombre de neurones augmente, alors il est possible d'itérer plus de paramètres, ce qui permet de modéliser davantage de données. C'est la raison pour laquelle les grands modèles produisent des miracles, et c'est aussi pourquoi on les appelle communément de grands modèles : ils sont essentiellement constitués de millions de neurones et de paramètres, de quantités massives de données, tout en nécessitant une puissance de calcul énorme.
Ainsi, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois facteurs influencent ensemble la qualité des résultats des grands modèles et leur capacité de généralisation. Supposons que le nombre de paramètres soit p, la quantité de données soit n( calculée en fonction du nombre de tokens), alors nous pouvons estimer la puissance de calcul nécessaire à l'aide de règles empiriques générales, ce qui nous permet d'anticiper la puissance de calcul à acheter et le temps d'entraînement nécessaire.
La puissance de calcul est généralement exprimée en Flops, représentant une opération de calcul en virgule flottante. Les opérations en virgule flottante désignent l'addition, la soustraction, la multiplication et la division de valeurs non entières, comme 2.5 + 3.557. La virgule flottante indique la capacité à inclure des décimales, tandis que FP16 représente une précision qui supporte les décimales, et FP32 est une précision généralement plus courante. Selon des règles empiriques observées en pratique, le pré-entraînement (Pre-traning) est généralement effectué plusieurs fois ( sur de grands modèles, nécessitant environ 6np Flops, où 6 est appelé constante de l'industrie. L'inférence )Inference, c'est le processus par lequel nous entrons des données et attendons la sortie du grand modèle (, divisé en deux parties : n tokens en entrée et n tokens en sortie, nécessitant donc environ 2np Flops au total.
Au début, des puces CPU étaient utilisées pour l'entraînement et fournir un soutien en puissance de calcul, mais par la suite, on a commencé à utiliser progressivement des GPU à la place, comme certaines puces GPU haute performance, etc. En effet, le CPU existe en tant que calcul général, alors que le GPU peut être utilisé comme calcul spécialisé, surpassant de loin le CPU en termes d'efficacité énergétique. Le GPU exécute des calculs en virgule flottante principalement grâce à un module appelé Tensor Core.