De nos jours, tout le monde vend quelque chose, que ce soit de la nourriture, un logement, des encyclopédies, des produits électroniques, des applications ou même de l'IA récente.
Dans le passé, on vendait des objets pratiques qui satisfaisaient les niveaux inférieurs de la hiérarchie des besoins de Maslow, aujourd'hui on vend des rêves et de l'espoir, en les emballant dans des vêtements brillants, notamment dans le domaine du chiffrement et de l'IA.
Le chiffrement des produits et infrastructures d'IA est souvent difficile à comprendre, ce qui conduit les équipes à utiliser trop de jargon lors de la communication, rendant difficile l'attraction des utilisateurs.
De plus, le lancement d'un véritable laboratoire d'IA (et non une simple encapsulation) nécessite un financement important pour soutenir les talents, les contributeurs, les ressources de calcul et d'autres ressources nécessaires.
Les laboratoires AI de niveau entreprise avancé peuvent coûter plusieurs millions de dollars par an. Si l'on étudie, entraîne et optimise des modèles AI de pointe, les coûts peuvent atteindre des centaines de millions de dollars. Le prix des GPU de modèle H100 varie entre 25 000 et 40 000 dollars, tandis que les GPU des modèles Blackwell B200 et GB200 plus récents coûtent entre 30 000 et 70 000 dollars. Entraîner un modèle de pointe peut nécessiter des milliers de ces GPU.
Les avantages de l'IA décentralisée (DeAI) : petits modèles + apprentissage par renforcement
Choisir un système décentralisé, c'est-à-dire coordonner des ressources de calcul à l'échelle mondiale pour entraîner un modèle unique, pourrait théoriquement réduire considérablement le coût des GPU (économisant de 30 % à 90 %), car vous pouvez tirer parti du réseau de GPU inactifs dans le monde entier. Cependant, en pratique, il est très difficile de coordonner ces GPU et de s'assurer qu'ils fonctionnent tous de manière optimale. Par conséquent, il n'existe actuellement aucun laboratoire d'IA décentralisé capable de résoudre le problème de l'entraînement décentralisé.
Cependant, l'avenir est encore prometteur, car quelques laboratoires ont obtenu des résultats encourageants dans le domaine de l'apprentissage renforcé décentralisé. C'est ce processus de jeu contre soi-même et d'apprentissage autonome qui permet à un petit modèle de devenir extrêmement intelligent.
Tous les cas ne nécessitent pas de grands modèles de langage (LLM). Former des modèles spécifiques à un domaine et utiliser l'apprentissage par renforcement (RL) pour perfectionner et améliorer leurs compétences est la manière la plus économique et efficace de fournir des solutions d'IA de niveau entreprise, car au fond, ce que les clients veulent, ce sont des résultats (conformité, sécurité, rentabilité et amélioration de la productivité).
Dès 2019, OpenAI Five a battu l'équipe championne du monde OG dans Dota 2. Ce n'était pas un coup de chance, mais un écrasement complet, avec deux victoires consécutives contre l'équipe OG.
Vous vous demandez peut-être comment cela a été fait ?
« Dota 2 » est un jeu de bataille en arène multijoueur extrêmement complexe, où 5 joueurs s'affrontent pour accomplir divers objectifs et détruire la base adverse.
Pour permettre à l'IA de rivaliser avec les meilleurs joueurs, elle a suivi les étapes suivantes :
Commencer à s'affronter soi-même depuis zéro : apprendre les connaissances de base et s'affronter des millions de fois. Si vous gagnez, cela signifie que l'opération est favorable ; si vous perdez, cela signifie que l'opération est mauvaise (c'est-à-dire un test à grande échelle).
Mettre en place un système de récompense (points) pour inciter les comportements qui peuvent apporter une valeur d'espérance (EV) positive (comme détruire des tours de défense, éliminer des héros), tout en pénalisant les comportements avec une valeur d'espérance négative.
La méthode d'entraînement utilise un algorithme d'apprentissage par renforcement appelé “PPO”, où l'IA essaie certaines actions pendant le match, et PPO considère les résultats comme des retours d'information. Si le résultat est bon, elle le fait plus souvent ; si le résultat est mauvais, elle le fait moins souvent. Cette méthode guide progressivement l'IA dans la bonne direction.
Des centaines de GPU fonctionnent depuis près d'un an pour former l'IA, l'IA apprend et s'adapte continuellement aux mises à jour et aux changements de version du jeu.
Après un certain temps, il a commencé à explorer de manière autonome des stratégies complexes (sacrifier une ligne de soldats, adopter un style de jeu conservateur ou agressif au bon moment, saisir les occasions d'attaques de grande envergure, etc.), et a commencé à s'affronter aux joueurs humains et à gagner.
Bien qu'OpenAI Five ait été retiré, il a inspiré l'idée que de petits modèles peuvent également être extrêmement efficaces dans des tâches spécifiques (le nombre de paramètres d'OpenAI Five n'est que de 58 Mo).
Des grands laboratoires d'IA comme OpenAI peuvent le faire parce qu'ils disposent des fonds et des ressources nécessaires pour entraîner des modèles d'apprentissage par renforcement. Si une entreprise souhaite avoir son propre OpenAI Five pour la détection de fraude, les robots d'usine, les voitures autonomes ou le trading sur les marchés financiers, elle a besoin d'une quantité importante de fonds pour y parvenir.
L'apprentissage par renforcement décentralisé a résolu ce problème, c'est pourquoi des laboratoires d'IA décentralisés comme Nous Research, Pluralis, gensyn, Prime Intellect et Gradient construisent un réseau GPU mondial pour former ensemble des modèles d'apprentissage par renforcement, fournissant une infrastructure pour l'IA spécifique aux entreprises.
Certain laboratoires étudient des moyens de réduire encore les coûts, comme l'utilisation de RTX 5090/4090 au lieu de H100 pour entraîner des modèles d'apprentissage par renforcement. D'autres se concentrent sur l'utilisation de l'apprentissage par renforcement pour améliorer le niveau d'intelligence des grands modèles de base.
Quel que soit le domaine de recherche, il deviendra l'une des directions de développement les plus prometteuses pour le chiffrement AI décentralisé. Si les solutions de renforcement décentralisées peuvent être appliquées à grande échelle dans le commerce, les clients d'entreprise investiront massivement dans l'AI, et nous verrons également plus d'équipes d'AI décentralisées réaliser des revenus annuels à 8 ou 9 chiffres.
fournit des fonds à DeAI et réalise une expansion à l'échelle grâce à la couche de coordination
Cependant, avant d'atteindre un revenu annuel à 8 ou 9 chiffres, ils doivent continuer à rechercher, mettre en œuvre et passer à des solutions d'apprentissage par renforcement commercialement viables, ce qui nécessite des fonds importants.
Lever des fonds par le biais de couches de coordination comme Bittensor est l'un des meilleurs moyens. Chaque jour, des millions de dollars de récompenses TAO sont distribués aux sous-réseaux (startups et laboratoires d'IA), tandis que les contributeurs (talents en IA) contribuent aux sous-réseaux qui les intéressent pour obtenir une part des récompenses.
Bittensor permet aux contributeurs de participer au développement de l'IA et permet aux investisseurs d'investir dans des laboratoires d'IA qui contribuent à la technologie DeAI.
Actuellement, dans l'écosystème Bittensor, plusieurs domaines clés de DeAI se démarquent, notamment l'informatique quantique, l'entraînement décentralisé, les agents IA et les systèmes de prédiction (l'apprentissage par renforcement n'en fait pas encore partie, mais plus de 3 sous-réseaux se concentrent activement sur l'apprentissage par renforcement décentralisé).
Quel est l'état actuel des progrès en apprentissage renforcé décentralisé ?
L'apprentissage par renforcement a prouvé qu'il pouvait être appliqué à grande échelle, mais n'a pas encore été industrialisé. La bonne nouvelle est que la demande des entreprises pour des agents IA capables d'apprendre à partir de retours réels augmente rapidement. Par exemple, des agents capables d'apprendre à partir d'environnements réels, d'appels de vente et de services clients, ainsi que des modèles de trading capables de s'adapter aux changements du marché, etc. Ces systèmes d'auto-apprentissage peuvent générer ou économiser des millions de dollars pour les entreprises.
Les technologies de la confidentialité sont également en plein essor. L'environnement d'exécution de confiance (TEE), le chiffrement intégré dans le TEE et des technologies telles que la confidentialité différentielle aident à chiffrer et à protéger les informations privées dans l'application des boucles de rétroaction, permettant ainsi aux secteurs sensibles tels que la santé, la finance et le droit de maintenir la conformité tout en disposant d'agents d'IA auto-apprenants puissants dans des domaines spécifiques.
Que va-t-il se passer ensuite ?
L'apprentissage par renforcement est le choix incontournable pour rendre l'IA encore plus intelligente. L'apprentissage par renforcement transforme l'IA d'un système génératif en un agent IA proactif et intelligent.
La combinaison de la vie privée et de l'apprentissage renforcé incitera les entreprises à adopter réellement des solutions conformes pour leurs clients.
L'apprentissage par renforcement rend possible l'économie des agents, où les agents achètent des ressources de calcul, négocient entre eux et fournissent des services.
En raison de son efficacité économique, l'apprentissage par renforcement décentralisé deviendra la méthode par défaut pour l'expansion de l'entraînement par renforcement.
L'apprentissage par renforcement fédéré (Federated RL) va émerger, permettant à plusieurs parties d'apprendre de manière collaborative sans partager de données sensibles locales, alliant protection de la vie privée et apprentissage autonome, tout en améliorant considérablement le niveau d'intelligence et en respectant les exigences réglementaires.
Lectures connexes : Chiffrement de l'IA en pleine mutation : Virtuals perdent en popularité, DeFAI et l'IA de prédiction prennent le devant de la scène.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Comment DeAI peut-il rivaliser avec l'IA centralisée : avantages, applications et financement
Auteur : 0xJeff, chiffrement KOL
Compiler : Felix, PANews
De nos jours, tout le monde vend quelque chose, que ce soit de la nourriture, un logement, des encyclopédies, des produits électroniques, des applications ou même de l'IA récente.
Dans le passé, on vendait des objets pratiques qui satisfaisaient les niveaux inférieurs de la hiérarchie des besoins de Maslow, aujourd'hui on vend des rêves et de l'espoir, en les emballant dans des vêtements brillants, notamment dans le domaine du chiffrement et de l'IA.
Le chiffrement des produits et infrastructures d'IA est souvent difficile à comprendre, ce qui conduit les équipes à utiliser trop de jargon lors de la communication, rendant difficile l'attraction des utilisateurs.
De plus, le lancement d'un véritable laboratoire d'IA (et non une simple encapsulation) nécessite un financement important pour soutenir les talents, les contributeurs, les ressources de calcul et d'autres ressources nécessaires.
Les laboratoires AI de niveau entreprise avancé peuvent coûter plusieurs millions de dollars par an. Si l'on étudie, entraîne et optimise des modèles AI de pointe, les coûts peuvent atteindre des centaines de millions de dollars. Le prix des GPU de modèle H100 varie entre 25 000 et 40 000 dollars, tandis que les GPU des modèles Blackwell B200 et GB200 plus récents coûtent entre 30 000 et 70 000 dollars. Entraîner un modèle de pointe peut nécessiter des milliers de ces GPU.
Les avantages de l'IA décentralisée (DeAI) : petits modèles + apprentissage par renforcement
Choisir un système décentralisé, c'est-à-dire coordonner des ressources de calcul à l'échelle mondiale pour entraîner un modèle unique, pourrait théoriquement réduire considérablement le coût des GPU (économisant de 30 % à 90 %), car vous pouvez tirer parti du réseau de GPU inactifs dans le monde entier. Cependant, en pratique, il est très difficile de coordonner ces GPU et de s'assurer qu'ils fonctionnent tous de manière optimale. Par conséquent, il n'existe actuellement aucun laboratoire d'IA décentralisé capable de résoudre le problème de l'entraînement décentralisé.
Cependant, l'avenir est encore prometteur, car quelques laboratoires ont obtenu des résultats encourageants dans le domaine de l'apprentissage renforcé décentralisé. C'est ce processus de jeu contre soi-même et d'apprentissage autonome qui permet à un petit modèle de devenir extrêmement intelligent.
Tous les cas ne nécessitent pas de grands modèles de langage (LLM). Former des modèles spécifiques à un domaine et utiliser l'apprentissage par renforcement (RL) pour perfectionner et améliorer leurs compétences est la manière la plus économique et efficace de fournir des solutions d'IA de niveau entreprise, car au fond, ce que les clients veulent, ce sont des résultats (conformité, sécurité, rentabilité et amélioration de la productivité).
Dès 2019, OpenAI Five a battu l'équipe championne du monde OG dans Dota 2. Ce n'était pas un coup de chance, mais un écrasement complet, avec deux victoires consécutives contre l'équipe OG.
Vous vous demandez peut-être comment cela a été fait ?
« Dota 2 » est un jeu de bataille en arène multijoueur extrêmement complexe, où 5 joueurs s'affrontent pour accomplir divers objectifs et détruire la base adverse.
Pour permettre à l'IA de rivaliser avec les meilleurs joueurs, elle a suivi les étapes suivantes :
Bien qu'OpenAI Five ait été retiré, il a inspiré l'idée que de petits modèles peuvent également être extrêmement efficaces dans des tâches spécifiques (le nombre de paramètres d'OpenAI Five n'est que de 58 Mo).
Des grands laboratoires d'IA comme OpenAI peuvent le faire parce qu'ils disposent des fonds et des ressources nécessaires pour entraîner des modèles d'apprentissage par renforcement. Si une entreprise souhaite avoir son propre OpenAI Five pour la détection de fraude, les robots d'usine, les voitures autonomes ou le trading sur les marchés financiers, elle a besoin d'une quantité importante de fonds pour y parvenir.
L'apprentissage par renforcement décentralisé a résolu ce problème, c'est pourquoi des laboratoires d'IA décentralisés comme Nous Research, Pluralis, gensyn, Prime Intellect et Gradient construisent un réseau GPU mondial pour former ensemble des modèles d'apprentissage par renforcement, fournissant une infrastructure pour l'IA spécifique aux entreprises.
Certain laboratoires étudient des moyens de réduire encore les coûts, comme l'utilisation de RTX 5090/4090 au lieu de H100 pour entraîner des modèles d'apprentissage par renforcement. D'autres se concentrent sur l'utilisation de l'apprentissage par renforcement pour améliorer le niveau d'intelligence des grands modèles de base.
Quel que soit le domaine de recherche, il deviendra l'une des directions de développement les plus prometteuses pour le chiffrement AI décentralisé. Si les solutions de renforcement décentralisées peuvent être appliquées à grande échelle dans le commerce, les clients d'entreprise investiront massivement dans l'AI, et nous verrons également plus d'équipes d'AI décentralisées réaliser des revenus annuels à 8 ou 9 chiffres.
fournit des fonds à DeAI et réalise une expansion à l'échelle grâce à la couche de coordination
Cependant, avant d'atteindre un revenu annuel à 8 ou 9 chiffres, ils doivent continuer à rechercher, mettre en œuvre et passer à des solutions d'apprentissage par renforcement commercialement viables, ce qui nécessite des fonds importants.
Lever des fonds par le biais de couches de coordination comme Bittensor est l'un des meilleurs moyens. Chaque jour, des millions de dollars de récompenses TAO sont distribués aux sous-réseaux (startups et laboratoires d'IA), tandis que les contributeurs (talents en IA) contribuent aux sous-réseaux qui les intéressent pour obtenir une part des récompenses.
Bittensor permet aux contributeurs de participer au développement de l'IA et permet aux investisseurs d'investir dans des laboratoires d'IA qui contribuent à la technologie DeAI.
Actuellement, dans l'écosystème Bittensor, plusieurs domaines clés de DeAI se démarquent, notamment l'informatique quantique, l'entraînement décentralisé, les agents IA et les systèmes de prédiction (l'apprentissage par renforcement n'en fait pas encore partie, mais plus de 3 sous-réseaux se concentrent activement sur l'apprentissage par renforcement décentralisé).
Quel est l'état actuel des progrès en apprentissage renforcé décentralisé ?
L'apprentissage par renforcement a prouvé qu'il pouvait être appliqué à grande échelle, mais n'a pas encore été industrialisé. La bonne nouvelle est que la demande des entreprises pour des agents IA capables d'apprendre à partir de retours réels augmente rapidement. Par exemple, des agents capables d'apprendre à partir d'environnements réels, d'appels de vente et de services clients, ainsi que des modèles de trading capables de s'adapter aux changements du marché, etc. Ces systèmes d'auto-apprentissage peuvent générer ou économiser des millions de dollars pour les entreprises.
Les technologies de la confidentialité sont également en plein essor. L'environnement d'exécution de confiance (TEE), le chiffrement intégré dans le TEE et des technologies telles que la confidentialité différentielle aident à chiffrer et à protéger les informations privées dans l'application des boucles de rétroaction, permettant ainsi aux secteurs sensibles tels que la santé, la finance et le droit de maintenir la conformité tout en disposant d'agents d'IA auto-apprenants puissants dans des domaines spécifiques.
Que va-t-il se passer ensuite ?
L'apprentissage par renforcement est le choix incontournable pour rendre l'IA encore plus intelligente. L'apprentissage par renforcement transforme l'IA d'un système génératif en un agent IA proactif et intelligent.
La combinaison de la vie privée et de l'apprentissage renforcé incitera les entreprises à adopter réellement des solutions conformes pour leurs clients.
L'apprentissage par renforcement rend possible l'économie des agents, où les agents achètent des ressources de calcul, négocient entre eux et fournissent des services.
En raison de son efficacité économique, l'apprentissage par renforcement décentralisé deviendra la méthode par défaut pour l'expansion de l'entraînement par renforcement.
L'apprentissage par renforcement fédéré (Federated RL) va émerger, permettant à plusieurs parties d'apprendre de manière collaborative sans partager de données sensibles locales, alliant protection de la vie privée et apprentissage autonome, tout en améliorant considérablement le niveau d'intelligence et en respectant les exigences réglementaires.
Lectures connexes : Chiffrement de l'IA en pleine mutation : Virtuals perdent en popularité, DeFAI et l'IA de prédiction prennent le devant de la scène.