Le Saint Graal de Crypto AI : Exploration à la pointe de la formation décentralisée
Dans l'ensemble de la chaîne de valeur de l'IA, l'entraînement des modèles est la phase la plus gourmande en ressources et la plus exigeante en termes de technologie, déterminant directement la capacité maximale du modèle et l'efficacité de son application réelle. Comparé à l'appel léger de la phase d'inférence, le processus d'entraînement nécessite un investissement continu en puissance de calcul à grande échelle, des processus de traitement des données complexes et un soutien d'algorithmes d'optimisation à haute intensité, ce qui en fait véritablement "une industrie lourde" dans la construction des systèmes d'IA. D'un point de vue des paradigmes d'architecture, les méthodes d'entraînement peuvent être classées en quatre catégories : entraînement centralisé, entraînement distribué, apprentissage fédéré et entraînement décentralisé, qui est le sujet principal de cet article.
L'entraînement centralisé est la méthode traditionnelle la plus courante, réalisée par une seule institution au sein d'un cluster haute performance local, où l'ensemble du processus d'entraînement, des composants matériels, des logiciels de base, du système de gestion de cluster, jusqu'à tous les composants du cadre d'entraînement, est coordonné par un système de contrôle unifié. Cette architecture de collaboration approfondie permet d'optimiser l'efficacité du partage de mémoire, de la synchronisation des gradients et des mécanismes de tolérance aux pannes, ce qui la rend très adaptée à l'entraînement de modèles à grande échelle tels que GPT et Gemini, avec des avantages en termes d'efficacité et de contrôle des ressources, mais présente également des problèmes tels que le monopole des données, les barrières à l'accès aux ressources, la consommation d'énergie et les risques de points de défaillance unique.
L'entraînement distribué est la méthode dominante pour l'entraînement de grands modèles actuellement. Son principe fondamental consiste à décomposer la tâche d'entraînement du modèle, puis à la distribuer à plusieurs machines pour une exécution collaborative, afin de surmonter les goulots d'étranglement en matière de calcul et de stockage sur une seule machine. Bien qu'il présente des caractéristiques "décentralisées" sur le plan physique, l'ensemble reste contrôlé, programmé et synchronisé par une institution centralisée, fonctionnant souvent dans un environnement de réseau local à haute vitesse. Grâce à la technologie de bus de haute vitesse NVLink, le nœud principal coordonne de manière unifiée les sous-tâches. Les méthodes principales comprennent :
Parallélisme des données : chaque nœud entraîne différents paramètres de données partagés, nécessitant une correspondance des poids du modèle
Parallélisation des modèles : déployer différentes parties du modèle sur différents nœuds pour réaliser une forte extensibilité.
Pipeline parallèle : exécution séquentielle par étapes, augmentation du débit
Parallélisme de tenseurs : segmentation fine du calcul matriciel, amélioration de la granularité du parallélisme
L'entraînement distribué est une combinaison de "contrôle centralisé + exécution distribuée", analogiquement similaire à un même patron dirigeant à distance plusieurs employés de "bureau" collaborant pour accomplir des tâches. Actuellement, presque tous les grands modèles dominants (GPT-4, Gemini, LLaMA, etc. ) sont entraînés de cette manière.
La formation décentralisée représente un avenir plus ouvert et résistant à la censure. Ses caractéristiques principales sont les suivantes : plusieurs nœuds qui ne se font pas confiance, (, peuvent être des ordinateurs personnels, des GPU cloud ou des dispositifs en périphérie, ), qui collaborent à l'exécution des tâches de formation sans coordinateur central, généralement par le biais de protocoles qui pilotent la distribution et la coopération des tâches, et en s'appuyant sur des mécanismes d'incitation cryptographique pour garantir l'honnêteté des contributions. Les principaux défis auxquels ce modèle est confronté incluent :
Hétérogénéité des appareils et difficulté de découpage : haute difficulté de coordination des appareils hétérogènes, faible efficacité de découpage des tâches
Bouteille d'efficacité de communication : communication réseau instable, le goulot d'étranglement de la synchronisation des gradients est évident
Exécution de confiance manquante : manque d'environnement d'exécution de confiance, difficile de vérifier si le nœud participe réellement au calcul.
Manque de coordination unifiée : pas de centralisateur, distribution des tâches et mécanismes de rollback des anomalies complexes
La formation décentralisée peut être comprise comme : un groupe de bénévoles du monde entier contribuant chacun de leur côté à la puissance de calcul pour entraîner un modèle en collaboration, mais "la véritable formation décentralisée à grande échelle réalisable" reste un défi d'ingénierie systémique, impliquant l'architecture système, les protocoles de communication, la sécurité cryptographique, les mécanismes économiques, la validation des modèles et plusieurs autres aspects. Cependant, la question de savoir si l'on peut "collaborer efficacement + inciter à l'honnêteté + obtenir des résultats corrects" est encore à un stade précoce d'exploration des prototypes.
L'apprentissage fédéré, en tant que forme de transition entre la distribution et la Décentralisation, met l'accent sur la conservation locale des données et l'agrégation centralisée des paramètres du modèle. Il est adapté aux scénarios axés sur la conformité à la vie privée, comme la santé et la finance. L'apprentissage fédéré possède la structure d'ingénierie de l'entraînement distribué et la capacité de collaboration locale, tout en bénéficiant des avantages de la distribution des données de l'entraînement décentralisé. Cependant, il dépend toujours d'une partie coordonnée de confiance et ne possède pas les caractéristiques d'ouverture totale et de résistance à la censure. On peut le considérer comme une solution "décentralisée contrôlée" dans un contexte de conformité à la vie privée, avec des tâches d'entraînement, des structures de confiance et des mécanismes de communication relativement modérés, ce qui le rend plus adapté comme architecture de déploiement transitoire dans l'industrie.
Décentralisation des limites, opportunités et chemins réels de l'entraînement
D'un point de vue de paradigme d'entraînement, la Décentralisation de l'entraînement n'est pas adaptée à tous les types de tâches. Dans certains scénarios, en raison de la complexité de la structure des tâches, des exigences en ressources extrêmement élevées ou de la difficulté de collaboration, elle n'est naturellement pas adaptée à être réalisée efficacement entre des nœuds hétérogènes et non fiables. Par exemple, l'entraînement de grands modèles dépend souvent de haute mémoire, de faible latence et de bande passante élevée, ce qui rend difficile la découpe et la synchronisation efficaces dans un réseau ouvert ; les tâches liées à la confidentialité des données et aux restrictions de souveraineté (, comme la santé, la finance et les données sensibles ), sont contraintes par des obligations légales et éthiques, et ne peuvent pas être partagées ouvertement ; tandis que les tâches manquant de motivation à la collaboration (, comme les modèles propriétaires d'entreprise ou l'entraînement de prototypes internes ), manquent de dynamisme de participation externe. Ces limites forment ensemble les restrictions réelles de l'entraînement décentralisé actuel.
Mais cela ne signifie pas que l'entraînement décentralisé est un faux problème. En fait, dans les types de tâches légères, faciles à paralléliser et motivantes, l'entraînement décentralisé présente des perspectives d'application claires. Cela inclut, mais sans s'y limiter : le fine-tuning LoRA, les tâches d'entraînement post-alignment comportemental telles que RLHF, DPO(, les tâches d'entraînement et d'annotation par crowdsourcing de données, l'entraînement de modèles de base de petite taille contrôlables en ressources, ainsi que les scénarios d'entraînement collaboratif impliquant des dispositifs edge. Ces tâches présentent généralement des caractéristiques de haute parallélisation, de faible couplage et de tolérance à l'hétérogénéité de la puissance de calcul, ce qui les rend très adaptées à l'entraînement collaboratif via des réseaux P2P, des protocoles Swarm, des optimisateurs distribués, etc.
![Le Saint Graal de Crypto AI : exploration à la pointe de l'entraînement décentralisé])https://img-cdn.gateio.im/webp-social/moments-69eb6c2dab3d6284b890285c71e7a47f.webp(
Décentralisation entraînement classique projet analyse
Actuellement, dans le domaine de la formation décentralisée et de l'apprentissage fédéré, les projets de blockchain représentatifs comprennent principalement Prime Intellect, Pluralis.ai, Gensyn, Nous Research et Flock.io. En termes d'innovation technique et de difficulté de mise en œuvre, Prime Intellect, Nous Research et Pluralis.ai offrent de nombreuses explorations originales dans l'architecture des systèmes et la conception des algorithmes, représentant les directions de recherche théorique à la pointe actuelle ; tandis que les voies de mise en œuvre de Gensyn et Flock.io sont relativement claires, avec des progrès d'ingénierie initiaux déjà visibles. Cet article analysera successivement les technologies clés et les architectures d'ingénierie derrière ces cinq projets, et discutera davantage de leurs différences et de leurs relations complémentaires dans le système de formation AI décentralisé.
) Prime Intellect : Pion des réseaux collaboratifs d'apprentissage renforcé vérifiable par la trajectoire d'entraînement.
Prime Intellect s'engage à construire un réseau d'entraînement AI sans besoin de confiance, permettant à quiconque de participer à la formation et de recevoir des récompenses fiables pour sa contribution calculée. Prime Intellect souhaite, à travers les trois grands modules PRIME-RL + TOPLOC + SHARDCAST, construire un système d'entraînement AI décentralisé doté de vérifiabilité, d'ouverture et d'un mécanisme d'incitation complet.
(# Structure de la pile de protocoles Prime Intellect et valeur des modules clés
![Le Saint Graal de Crypto AI : exploration à la pointe de l'entraînement décentralisé])https://img-cdn.gateio.im/webp-social/moments-b11af8d10db6e8baa0c19e87aa18dd82.webp###
Détails clés sur le mécanisme d'entraînement de Prime Intellect
#PRIME-RL: Architecture de tâche de renforcement asynchrone découplée
PRIME-RL est un cadre de modélisation et d'exécution des tâches personnalisé par Prime Intellect pour des scénarios d'entraînement décentralisés, spécialement conçu pour les réseaux hétérogènes et la participation asynchrone. Il utilise l'apprentissage par renforcement comme objet d'adaptation prioritaire, décomposant de manière structurelle les processus d'entraînement, d'inférence et de téléchargement de poids, permettant à chaque nœud d'entraînement de compléter indépendamment le cycle de tâches en local, tout en collaborant avec des mécanismes de validation et d'agrégation via des interfaces standardisées. Comparé aux processus d'apprentissage supervisé traditionnels, PRIME-RL est plus adapté à la mise en œuvre de l'entraînement flexible dans un environnement sans planification centralisée, réduisant ainsi la complexité du système et établissant une base pour soutenir le parallélisme des tâches multiples et l'évolution des stratégies.
#TOPLOC:Mécanisme de vérification des comportements d'entraînement léger
TOPLOC###Observation de confiance & Vérification de la localité( est un mécanisme central de vérifiabilité proposé par Prime Intellect, utilisé pour déterminer si un nœud a réellement accompli un apprentissage de stratégie efficace basé sur des données d'observation. Contrairement à des solutions lourdes comme ZKML, TOPLOC ne dépend pas du recalcul complet du modèle, mais analyse la trajectoire de cohérence locale entre "séquence d'observation ↔ mise à jour de stratégie" pour réaliser une vérification de structure légère. C'est la première fois qu'il transforme les trajectoires comportementales pendant le processus d'entraînement en objets vérifiables, ce qui constitue une innovation clé pour réaliser une distribution de récompenses d'entraînement sans confiance, fournissant une voie réalisable pour construire un réseau d'entraînement collaboratif décentralisé, auditables et incitatifs.
![Le Saint Graal de Crypto AI : exploration de pointe de l'entraînement décentralisé])https://img-cdn.gateio.im/webp-social/moments-f86b109da66a0a4c9239221650a4a0a8.webp(
#SHARDCAST: Protocole d'agrégation et de propagation de poids asynchrone
SHARDCAST est un protocole de propagation et d'agrégation de poids conçu par Prime Intellect, spécialement optimisé pour des environnements réseau réels asynchrones, à bande passante limitée et avec des états de nœuds en constante évolution. Il combine un mécanisme de propagation de gossip et une stratégie de synchronisation locale, permettant à plusieurs nœuds de soumettre en continu des mises à jour partielles dans des états désynchronisés, réalisant ainsi la convergence progressive des poids et l'évolution de plusieurs versions. Par rapport aux méthodes AllReduce centralisées ou synchronisées, SHARDCAST améliore considérablement l'évolutivité et la tolérance aux pannes de l'entraînement décentralisé, constituant ainsi la base essentielle pour établir un consensus stable sur les poids et une itération d'entraînement continue.
![Le Saint Graal de Crypto AI : exploration à la pointe de la formation décentralisée])https://img-cdn.gateio.im/webp-social/moments-a562dacd6fc5420f2afd895664b6be65.webp(
#OpenDiLoCo: Cadre de communication asynchrone sparse
OpenDiLoCo est un cadre d'optimisation de communication indépendant et open source développé par l'équipe Prime Intellect, basé sur le concept DiLoCo proposé par DeepMind, conçu spécifiquement pour relever les défis courants de la formation décentralisée tels que les limitations de bande passante, l'hétérogénéité des appareils et l'instabilité des nœuds. Son architecture repose sur la parallélisation des données, en construisant des structures topologiques clairsemées telles que Ring, Expander et Small-World, évitant ainsi les coûts de communication élevés liés à la synchronisation globale, et permettant d'effectuer un entraînement collaboratif des modèles en ne s'appuyant que sur les nœuds voisins locaux. En combinant des mises à jour asynchrones et un mécanisme de tolérance aux pannes, OpenDiLoCo permet à des GPU grand public et à des appareils en périphérie de participer de manière stable aux tâches d'entraînement, améliorant ainsi considérablement la participation à la formation collaborative mondiale, et constitue l'une des infrastructures de communication clés pour construire un réseau d'entraînement décentralisé.
#PCCL: Bibliothèque de communication collaborative
PCCL)Prime Collective Communication Library( est une bibliothèque de communication légère conçue sur mesure par Prime Intellect pour un environnement d'entraînement AI décentralisé, visant à résoudre les goulets d'étranglement d'adaptation des bibliothèques de communication traditionnelles) telles que NCCL, Gloo( dans des dispositifs hétérogènes et des réseaux à faible bande passante. PCCL prend en charge la topologie sparse, la compression de gradient, la synchronisation à basse précision et la récupération de points de contrôle, et peut fonctionner sur des GPU grand public et des nœuds instables, étant le composant de base soutenant la capacité de communication asynchrone du protocole OpenDiLoCo. Il améliore considérablement la tolérance à la bande passante du réseau d'entraînement et la compatibilité des dispositifs, ouvrant la "dernière étape" des fondations de communication pour construire un véritable réseau d'entraînement collaboratif ouvert et sans confiance.
)# Prime Intellect réseau d'incitation et répartition des rôles
Prime Intellect a construit un réseau d'entraînement sans autorisation, vérifiable et doté d'un mécanisme d'incitation économique, permettant à quiconque de participer aux tâches et de recevoir des récompenses basées sur des contributions réelles. Le protocole fonctionne sur la base de trois catégories de rôles clés :
Initiateur de la tâche : définir l'environnement d'entraînement, le modèle initial, la fonction de récompense et les critères de validation
Nœud de formation : exécuter la formation locale, soumettre la mise à jour des poids et les trajectoires d'observation
Nœud de validation : utiliser le mécanisme TOPLOC pour vérifier l'authenticité du comportement d'entraînement et participer aux récompenses.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
11 J'aime
Récompense
11
7
Partager
Commentaire
0/400
TestnetFreeloader
· 07-24 13:39
Faisons du buzz pour gagner un peu d'argent.
Voir l'originalRépondre0
just_another_wallet
· 07-21 14:53
Cette vague d'entraînement nécessite combien de puissance de calcul ?
Voir l'originalRépondre0
TokenRationEater
· 07-21 14:53
C'est encore l'occasion de devenir riche, il ne reste plus qu'à attendre l'ouverture des marchés pour foncer.
Voir l'originalRépondre0
HorizonHunter
· 07-21 14:50
6 ans de pigeons, étude des directions de trading de tendance, expérience riche en All in et prise des gens pour des idiots. Passionné par l'exploration approfondie des projets AI et Blockchain, je recherche la pensée indépendante.
Suivant cette idée, je vais générer un commentaire :
Même en se sacrifiant, on ne peut pas rattraper les grandes entreprises.
Voir l'originalRépondre0
RegenRestorer
· 07-21 14:37
On refait des roues AI.
Voir l'originalRépondre0
AirdropFreedom
· 07-21 14:34
Rapide, noir et violent?
Voir l'originalRépondre0
GhostWalletSleuth
· 07-21 14:28
Puissance de calcul brûle de l'argent et il faut encore se battre comme ça ? C'est vraiment de l'argent.
Décentralisation de l'IA à la pointe de l'entraînement : Prime Intellect ouvre la voie à un nouveau paradigme de réseau de collaboration vérifiable
Le Saint Graal de Crypto AI : Exploration à la pointe de la formation décentralisée
Dans l'ensemble de la chaîne de valeur de l'IA, l'entraînement des modèles est la phase la plus gourmande en ressources et la plus exigeante en termes de technologie, déterminant directement la capacité maximale du modèle et l'efficacité de son application réelle. Comparé à l'appel léger de la phase d'inférence, le processus d'entraînement nécessite un investissement continu en puissance de calcul à grande échelle, des processus de traitement des données complexes et un soutien d'algorithmes d'optimisation à haute intensité, ce qui en fait véritablement "une industrie lourde" dans la construction des systèmes d'IA. D'un point de vue des paradigmes d'architecture, les méthodes d'entraînement peuvent être classées en quatre catégories : entraînement centralisé, entraînement distribué, apprentissage fédéré et entraînement décentralisé, qui est le sujet principal de cet article.
L'entraînement centralisé est la méthode traditionnelle la plus courante, réalisée par une seule institution au sein d'un cluster haute performance local, où l'ensemble du processus d'entraînement, des composants matériels, des logiciels de base, du système de gestion de cluster, jusqu'à tous les composants du cadre d'entraînement, est coordonné par un système de contrôle unifié. Cette architecture de collaboration approfondie permet d'optimiser l'efficacité du partage de mémoire, de la synchronisation des gradients et des mécanismes de tolérance aux pannes, ce qui la rend très adaptée à l'entraînement de modèles à grande échelle tels que GPT et Gemini, avec des avantages en termes d'efficacité et de contrôle des ressources, mais présente également des problèmes tels que le monopole des données, les barrières à l'accès aux ressources, la consommation d'énergie et les risques de points de défaillance unique.
L'entraînement distribué est la méthode dominante pour l'entraînement de grands modèles actuellement. Son principe fondamental consiste à décomposer la tâche d'entraînement du modèle, puis à la distribuer à plusieurs machines pour une exécution collaborative, afin de surmonter les goulots d'étranglement en matière de calcul et de stockage sur une seule machine. Bien qu'il présente des caractéristiques "décentralisées" sur le plan physique, l'ensemble reste contrôlé, programmé et synchronisé par une institution centralisée, fonctionnant souvent dans un environnement de réseau local à haute vitesse. Grâce à la technologie de bus de haute vitesse NVLink, le nœud principal coordonne de manière unifiée les sous-tâches. Les méthodes principales comprennent :
L'entraînement distribué est une combinaison de "contrôle centralisé + exécution distribuée", analogiquement similaire à un même patron dirigeant à distance plusieurs employés de "bureau" collaborant pour accomplir des tâches. Actuellement, presque tous les grands modèles dominants (GPT-4, Gemini, LLaMA, etc. ) sont entraînés de cette manière.
La formation décentralisée représente un avenir plus ouvert et résistant à la censure. Ses caractéristiques principales sont les suivantes : plusieurs nœuds qui ne se font pas confiance, (, peuvent être des ordinateurs personnels, des GPU cloud ou des dispositifs en périphérie, ), qui collaborent à l'exécution des tâches de formation sans coordinateur central, généralement par le biais de protocoles qui pilotent la distribution et la coopération des tâches, et en s'appuyant sur des mécanismes d'incitation cryptographique pour garantir l'honnêteté des contributions. Les principaux défis auxquels ce modèle est confronté incluent :
La formation décentralisée peut être comprise comme : un groupe de bénévoles du monde entier contribuant chacun de leur côté à la puissance de calcul pour entraîner un modèle en collaboration, mais "la véritable formation décentralisée à grande échelle réalisable" reste un défi d'ingénierie systémique, impliquant l'architecture système, les protocoles de communication, la sécurité cryptographique, les mécanismes économiques, la validation des modèles et plusieurs autres aspects. Cependant, la question de savoir si l'on peut "collaborer efficacement + inciter à l'honnêteté + obtenir des résultats corrects" est encore à un stade précoce d'exploration des prototypes.
L'apprentissage fédéré, en tant que forme de transition entre la distribution et la Décentralisation, met l'accent sur la conservation locale des données et l'agrégation centralisée des paramètres du modèle. Il est adapté aux scénarios axés sur la conformité à la vie privée, comme la santé et la finance. L'apprentissage fédéré possède la structure d'ingénierie de l'entraînement distribué et la capacité de collaboration locale, tout en bénéficiant des avantages de la distribution des données de l'entraînement décentralisé. Cependant, il dépend toujours d'une partie coordonnée de confiance et ne possède pas les caractéristiques d'ouverture totale et de résistance à la censure. On peut le considérer comme une solution "décentralisée contrôlée" dans un contexte de conformité à la vie privée, avec des tâches d'entraînement, des structures de confiance et des mécanismes de communication relativement modérés, ce qui le rend plus adapté comme architecture de déploiement transitoire dans l'industrie.
Décentralisation des limites, opportunités et chemins réels de l'entraînement
D'un point de vue de paradigme d'entraînement, la Décentralisation de l'entraînement n'est pas adaptée à tous les types de tâches. Dans certains scénarios, en raison de la complexité de la structure des tâches, des exigences en ressources extrêmement élevées ou de la difficulté de collaboration, elle n'est naturellement pas adaptée à être réalisée efficacement entre des nœuds hétérogènes et non fiables. Par exemple, l'entraînement de grands modèles dépend souvent de haute mémoire, de faible latence et de bande passante élevée, ce qui rend difficile la découpe et la synchronisation efficaces dans un réseau ouvert ; les tâches liées à la confidentialité des données et aux restrictions de souveraineté (, comme la santé, la finance et les données sensibles ), sont contraintes par des obligations légales et éthiques, et ne peuvent pas être partagées ouvertement ; tandis que les tâches manquant de motivation à la collaboration (, comme les modèles propriétaires d'entreprise ou l'entraînement de prototypes internes ), manquent de dynamisme de participation externe. Ces limites forment ensemble les restrictions réelles de l'entraînement décentralisé actuel.
Mais cela ne signifie pas que l'entraînement décentralisé est un faux problème. En fait, dans les types de tâches légères, faciles à paralléliser et motivantes, l'entraînement décentralisé présente des perspectives d'application claires. Cela inclut, mais sans s'y limiter : le fine-tuning LoRA, les tâches d'entraînement post-alignment comportemental telles que RLHF, DPO(, les tâches d'entraînement et d'annotation par crowdsourcing de données, l'entraînement de modèles de base de petite taille contrôlables en ressources, ainsi que les scénarios d'entraînement collaboratif impliquant des dispositifs edge. Ces tâches présentent généralement des caractéristiques de haute parallélisation, de faible couplage et de tolérance à l'hétérogénéité de la puissance de calcul, ce qui les rend très adaptées à l'entraînement collaboratif via des réseaux P2P, des protocoles Swarm, des optimisateurs distribués, etc.
![Le Saint Graal de Crypto AI : exploration à la pointe de l'entraînement décentralisé])https://img-cdn.gateio.im/webp-social/moments-69eb6c2dab3d6284b890285c71e7a47f.webp(
Décentralisation entraînement classique projet analyse
Actuellement, dans le domaine de la formation décentralisée et de l'apprentissage fédéré, les projets de blockchain représentatifs comprennent principalement Prime Intellect, Pluralis.ai, Gensyn, Nous Research et Flock.io. En termes d'innovation technique et de difficulté de mise en œuvre, Prime Intellect, Nous Research et Pluralis.ai offrent de nombreuses explorations originales dans l'architecture des systèmes et la conception des algorithmes, représentant les directions de recherche théorique à la pointe actuelle ; tandis que les voies de mise en œuvre de Gensyn et Flock.io sont relativement claires, avec des progrès d'ingénierie initiaux déjà visibles. Cet article analysera successivement les technologies clés et les architectures d'ingénierie derrière ces cinq projets, et discutera davantage de leurs différences et de leurs relations complémentaires dans le système de formation AI décentralisé.
) Prime Intellect : Pion des réseaux collaboratifs d'apprentissage renforcé vérifiable par la trajectoire d'entraînement.
Prime Intellect s'engage à construire un réseau d'entraînement AI sans besoin de confiance, permettant à quiconque de participer à la formation et de recevoir des récompenses fiables pour sa contribution calculée. Prime Intellect souhaite, à travers les trois grands modules PRIME-RL + TOPLOC + SHARDCAST, construire un système d'entraînement AI décentralisé doté de vérifiabilité, d'ouverture et d'un mécanisme d'incitation complet.
(# Structure de la pile de protocoles Prime Intellect et valeur des modules clés
![Le Saint Graal de Crypto AI : exploration à la pointe de l'entraînement décentralisé])https://img-cdn.gateio.im/webp-social/moments-b11af8d10db6e8baa0c19e87aa18dd82.webp###
Détails clés sur le mécanisme d'entraînement de Prime Intellect
#PRIME-RL: Architecture de tâche de renforcement asynchrone découplée
PRIME-RL est un cadre de modélisation et d'exécution des tâches personnalisé par Prime Intellect pour des scénarios d'entraînement décentralisés, spécialement conçu pour les réseaux hétérogènes et la participation asynchrone. Il utilise l'apprentissage par renforcement comme objet d'adaptation prioritaire, décomposant de manière structurelle les processus d'entraînement, d'inférence et de téléchargement de poids, permettant à chaque nœud d'entraînement de compléter indépendamment le cycle de tâches en local, tout en collaborant avec des mécanismes de validation et d'agrégation via des interfaces standardisées. Comparé aux processus d'apprentissage supervisé traditionnels, PRIME-RL est plus adapté à la mise en œuvre de l'entraînement flexible dans un environnement sans planification centralisée, réduisant ainsi la complexité du système et établissant une base pour soutenir le parallélisme des tâches multiples et l'évolution des stratégies.
#TOPLOC:Mécanisme de vérification des comportements d'entraînement léger
TOPLOC###Observation de confiance & Vérification de la localité( est un mécanisme central de vérifiabilité proposé par Prime Intellect, utilisé pour déterminer si un nœud a réellement accompli un apprentissage de stratégie efficace basé sur des données d'observation. Contrairement à des solutions lourdes comme ZKML, TOPLOC ne dépend pas du recalcul complet du modèle, mais analyse la trajectoire de cohérence locale entre "séquence d'observation ↔ mise à jour de stratégie" pour réaliser une vérification de structure légère. C'est la première fois qu'il transforme les trajectoires comportementales pendant le processus d'entraînement en objets vérifiables, ce qui constitue une innovation clé pour réaliser une distribution de récompenses d'entraînement sans confiance, fournissant une voie réalisable pour construire un réseau d'entraînement collaboratif décentralisé, auditables et incitatifs.
![Le Saint Graal de Crypto AI : exploration de pointe de l'entraînement décentralisé])https://img-cdn.gateio.im/webp-social/moments-f86b109da66a0a4c9239221650a4a0a8.webp(
#SHARDCAST: Protocole d'agrégation et de propagation de poids asynchrone
SHARDCAST est un protocole de propagation et d'agrégation de poids conçu par Prime Intellect, spécialement optimisé pour des environnements réseau réels asynchrones, à bande passante limitée et avec des états de nœuds en constante évolution. Il combine un mécanisme de propagation de gossip et une stratégie de synchronisation locale, permettant à plusieurs nœuds de soumettre en continu des mises à jour partielles dans des états désynchronisés, réalisant ainsi la convergence progressive des poids et l'évolution de plusieurs versions. Par rapport aux méthodes AllReduce centralisées ou synchronisées, SHARDCAST améliore considérablement l'évolutivité et la tolérance aux pannes de l'entraînement décentralisé, constituant ainsi la base essentielle pour établir un consensus stable sur les poids et une itération d'entraînement continue.
![Le Saint Graal de Crypto AI : exploration à la pointe de la formation décentralisée])https://img-cdn.gateio.im/webp-social/moments-a562dacd6fc5420f2afd895664b6be65.webp(
#OpenDiLoCo: Cadre de communication asynchrone sparse
OpenDiLoCo est un cadre d'optimisation de communication indépendant et open source développé par l'équipe Prime Intellect, basé sur le concept DiLoCo proposé par DeepMind, conçu spécifiquement pour relever les défis courants de la formation décentralisée tels que les limitations de bande passante, l'hétérogénéité des appareils et l'instabilité des nœuds. Son architecture repose sur la parallélisation des données, en construisant des structures topologiques clairsemées telles que Ring, Expander et Small-World, évitant ainsi les coûts de communication élevés liés à la synchronisation globale, et permettant d'effectuer un entraînement collaboratif des modèles en ne s'appuyant que sur les nœuds voisins locaux. En combinant des mises à jour asynchrones et un mécanisme de tolérance aux pannes, OpenDiLoCo permet à des GPU grand public et à des appareils en périphérie de participer de manière stable aux tâches d'entraînement, améliorant ainsi considérablement la participation à la formation collaborative mondiale, et constitue l'une des infrastructures de communication clés pour construire un réseau d'entraînement décentralisé.
#PCCL: Bibliothèque de communication collaborative
PCCL)Prime Collective Communication Library( est une bibliothèque de communication légère conçue sur mesure par Prime Intellect pour un environnement d'entraînement AI décentralisé, visant à résoudre les goulets d'étranglement d'adaptation des bibliothèques de communication traditionnelles) telles que NCCL, Gloo( dans des dispositifs hétérogènes et des réseaux à faible bande passante. PCCL prend en charge la topologie sparse, la compression de gradient, la synchronisation à basse précision et la récupération de points de contrôle, et peut fonctionner sur des GPU grand public et des nœuds instables, étant le composant de base soutenant la capacité de communication asynchrone du protocole OpenDiLoCo. Il améliore considérablement la tolérance à la bande passante du réseau d'entraînement et la compatibilité des dispositifs, ouvrant la "dernière étape" des fondations de communication pour construire un véritable réseau d'entraînement collaboratif ouvert et sans confiance.
)# Prime Intellect réseau d'incitation et répartition des rôles
Prime Intellect a construit un réseau d'entraînement sans autorisation, vérifiable et doté d'un mécanisme d'incitation économique, permettant à quiconque de participer aux tâches et de recevoir des récompenses basées sur des contributions réelles. Le protocole fonctionne sur la base de trois catégories de rôles clés :
Suivant cette idée, je vais générer un commentaire :
Même en se sacrifiant, on ne peut pas rattraper les grandes entreprises.