Développement de l'industrie de l'IA : du démarrage au sommet
Les progrès récents dans le domaine de l'intelligence artificielle sont considérés par certains comme la quatrième révolution industrielle. L'émergence de grands modèles de langage a considérablement amélioré l'efficacité dans divers secteurs, et le Boston Consulting Group estime que le GPT a augmenté l'efficacité au travail aux États-Unis d'environ 20 %. En même temps, la capacité de généralisation apportée par les grands modèles est considérée comme un nouveau paradigme de conception logicielle. Auparavant, la conception logicielle était basée sur un code précis, alors que la conception logicielle actuelle consiste à intégrer des cadres de grands modèles plus généralisés dans les logiciels, qui peuvent offrir de meilleures performances et prendre en charge une gamme plus large d'entrées et de sorties de modalités. La technologie d'apprentissage profond a effectivement apporté une quatrième prospérité à l'industrie de l'IA, et cet engouement s'est également étendu à l'industrie des crypto-monnaies.
Ce rapport examinera en détail l'évolution de l'industrie de l'IA, la classification des technologies, ainsi que l'impact de l'invention des technologies d'apprentissage profond sur le secteur. Ensuite, il analysera en profondeur la chaîne de valeur en amont et en aval de l'apprentissage profond, notamment les GPU, le cloud computing, les sources de données et les dispositifs périphériques, ainsi que l'état actuel et les tendances de son développement. Par la suite, nous examinerons en détail la relation entre les cryptomonnaies et l'industrie de l'IA, en clarifiant la structure de la chaîne de valeur de l'IA liée aux cryptomonnaies.
L'évolution de l'industrie de l'IA
L'industrie de l'IA a commencé à émerger dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le monde académique et l'industrie ont développé au fil des époques et des contextes disciplinaires différents de nombreux courants pour atteindre l'intelligence artificielle.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique". Le concept de cette technologie est de permettre aux machines d'améliorer les performances du système en itérant plusieurs fois sur des tâches en utilisant des données. Les étapes principales consistent à envoyer des données à l'algorithme, à utiliser ces données pour entraîner le modèle, à tester et à déployer le modèle, puis à utiliser le modèle pour accomplir des tâches de prédiction automatisées.
Actuellement, l'apprentissage automatique se divise en trois grandes écoles : le connexionnisme, le symbolisme et le comportementalisme, qui imitent respectivement le système nerveux, la pensée et le comportement humain.
Actuellement, le connexionnisme, représenté par les réseaux de neurones, est en tête ( également connu sous le nom d'apprentissage profond ). La raison principale est que cette architecture possède une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et le nombre de neurones ( ainsi que les paramètres ) deviennent suffisamment importants, il y a suffisamment d'opportunités pour s'adapter à des tâches générales complexes. Grâce à l'entrée des données, il est possible d'ajuster continuellement les paramètres des neurones, et après avoir traité plusieurs jeux de données, ce neurone atteindra un état optimal ( des paramètres ), ce qui est ce que nous appelons des miracles grâce à un effort considérable, et c'est aussi l'origine du mot "profondeur" - un nombre suffisant de couches et de neurones.
Par exemple, cela peut être compris comme la construction d'une fonction. Lorsque nous entrons X=2, Y=3 ; et X=3, Y=5. Si nous voulons que cette fonction soit applicable à tous les X, nous devons continuer à ajouter le degré de cette fonction ainsi que ses paramètres. Par exemple, je peux construire une fonction qui satisfait cette condition comme Y = 2X -1. Toutefois, si un ensemble de données montre X=2, Y=11, il sera nécessaire de reconstruire une fonction adaptée à ces trois points de données. En utilisant le GPU pour une attaque par force brute, il est découvert que Y = X2 -3X +5 est assez approprié, mais il n'est pas nécessaire que les données soient entièrement superposées, il suffit de respecter l'équilibre et d'avoir une sortie approximativement similaire. Dans cette équation, X2, X et X0 représentent différents neurones, et 1, -3, 5 sont leurs paramètres.
À ce moment-là, si nous entrons une grande quantité de données dans le réseau de neurones, nous pouvons augmenter le nombre de neurones et itérer les paramètres pour ajuster les nouvelles données. Cela nous permettra d'ajuster toutes les données.
Les technologies d'apprentissage profond basées sur les réseaux de neurones ont également connu plusieurs itérations et évolutions techniques, comme les premiers réseaux de neurones illustrés ci-dessus, les réseaux de neurones à propagation avant, RNN, CNN, GAN, qui ont finalement évolué vers les grands modèles modernes tels que GPT utilisant la technologie Transformer. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant simplement un convertisseur ( Transformer ), utilisé pour encoder toutes les modalités ( telles que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes. Ces valeurs sont ensuite introduites dans le réseau de neurones, permettant ainsi au réseau de neurones de s'adapter à tout type de données, réalisant ainsi le multimodal.
Le développement de l'IA a connu trois vagues technologiques. La première vague a eu lieu dans les années 1960, une décennie après la proposition de la technologie de l'IA. Cette vague a été provoquée par le développement de la technologie symbolique, qui a résolu les problèmes de traitement du langage naturel et de dialogue homme-machine. À la même époque, les systèmes experts ont vu le jour, notamment le système expert DENRAL, achevé sous l'égide de la NASA par l'Université de Stanford. Ce système possède une connaissance chimique très avancée, capable d'inférer des réponses similaires à celles d'un expert chimiste en posant des questions. Ce système expert en chimie peut être considéré comme une combinaison d'une base de connaissances chimiques et d'un système d'inférence.
Après les systèmes experts, dans les années 1990, le scientifique et philosophe américain d'origine israélienne Judea Pearl ( a proposé les réseaux bayésiens, également appelés réseaux de croyance. À la même époque, Brooks a proposé la robotique basée sur le comportement, marquant la naissance du behaviorisme.
En 1997, IBM Deep Blue a battu le champion d'échecs Garry Kasparov avec un score de 3,5 à 2,5, cette victoire étant considérée comme un jalon pour l'intelligence artificielle, marquant le début d'un nouveau sommet dans le développement de la technologie AI.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept d'apprentissage profond, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage des représentations des données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, passant des RNN, GAN aux Transformers et à la Stable Diffusion, ces deux algorithmes ayant façonné cette troisième vague technologique, marquant également l'apogée du connexionnisme.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage profond, y compris :
En 2011, le Watson) d'IBM a remporté le championnat dans le jeu télévisé de questions-réponses "Jeopardy(", battant des humains.
En 2014, Goodfellow a proposé le GAN), Réseau Adversarial Génératif(, qui apprend en faisant s'affronter deux réseaux de neurones, capable de générer des photos indistinguables des vraies. Parallèlement, Goodfellow a également écrit un livre intitulé "Deep Learning", surnommé le livre des fleurs, qui est l'un des livres d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé un algorithme d'apprentissage profond dans la revue "Nature", ce qui a immédiatement suscité un grand émoi dans le milieu académique et l'industrie.
En 2015, OpenAI a été créé, Musk, le président de YC Altman, l'investisseur providentiel Peter Thiel) et d'autres ont annoncé un investissement commun de 1 milliard de dollars.
En 2016, AlphaGo, basé sur la technologie d'apprentissage profond, a affronté le champion du monde de go et joueur professionnel de 9e dan, Lee Sedol, dans une bataille homme-machine au go, remportant la victoire avec un score total de 4 à 1.
En 2017, la société hongkongaise Hanson Robotics ( a développé le robot humanoïde Sophia, qui est considéré comme le premier robot à avoir obtenu le statut de citoyen de première classe dans l'histoire, doté d'une large gamme d'expressions faciales et de capacités de compréhension du langage humain.
En 2017, Google, qui dispose d'une riche réserve de talents et de technologies dans le domaine de l'intelligence artificielle, a publié le document "Attention is all you need" présentant l'algorithme Transformer, marquant le début de l'émergence de modèles linguistiques à grande échelle.
En 2018, OpenAI a publié le GPT), un Transformateur pré-entraîné génératif basé sur l'algorithme Transformer(, qui était l'un des plus grands modèles de langage à l'époque.
En 2018, l'équipe de Google DeepMind a lancé AlphaGo basé sur l'apprentissage en profondeur, capable de prédire la structure des protéines, considéré comme un grand jalon dans le domaine de l'intelligence artificielle.
En 2019, OpenAI a publié GPT-2, ce modèle possède 1,5 milliard de paramètres.
En 2020, OpenAI a développé GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné sur 570 Go de texte et peut atteindre des performances de pointe sur plusieurs tâches de traitement du langage naturel, telles que la réponse à des questions, la traduction et la rédaction d'articles.
En 2021, OpenAI a publié GPT-4, ce modèle possède 1,76 trillion de paramètres, soit 10 fois plus que GPT-3.
L'application ChatGPT basée sur le modèle GPT-4 a été lancée en janvier 2023, et en mars, ChatGPT a atteint 100 millions d'utilisateurs, devenant l'application à atteindre le plus rapidement 100 millions d'utilisateurs dans l'histoire.
En 2024, OpenAI lancera GPT-4 omni.
Note : En raison du grand nombre de papiers sur l'intelligence artificielle, des nombreuses écoles de pensée et de l'évolution technique variée, nous suivrons ici principalement l'histoire du développement de l'apprentissage profond ou du connexionnisme, tandis que d'autres écoles et technologies sont encore en pleine évolution.
![Nouvelle vulgarisation丨IA x Crypto : De zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Chaîne de valeur de l'apprentissage profond
Les modèles de langage actuels reposent tous sur des méthodes d'apprentissage profond basées sur des réseaux de neurones. Avec GPT en tête, les grands modèles ont suscité une vague d'engouement pour l'intelligence artificielle, entraînant l'arrivée massive de nombreux acteurs sur ce marché. Nous constatons également une explosion de la demande de données et de puissance de calcul. Par conséquent, dans cette partie du rapport, nous explorons principalement la chaîne d'industrie des algorithmes d'apprentissage profond, en examinant comment les secteurs en amont et en aval sont composés dans l'industrie de l'IA dominée par les algorithmes d'apprentissage profond, ainsi que l'état actuel et la relation d'offre et de demande, et le développement futur.
Tout d'abord, ce que nous devons clarifier, c'est que lors de l'entraînement de grands modèles de LLMs, principalement basés sur la technologie Transformer et GPT, ), cela se divise en trois étapes.
Avant l'entraînement, comme il est basé sur Transformer, le convertisseur doit transformer les entrées textuelles en valeurs numériques, ce processus est appelé "Tokenization", après quoi ces valeurs sont appelées Token. Selon la règle empirique générale, un mot ou un caractère en anglais peut être approximativement considéré comme un Token, tandis que chaque caractère chinois peut être approximativement considéré comme deux Tokens. C'est également l'unité de base utilisée pour la tarification de GPT.
Première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée, comme dans l'exemple donné dans la première partie du rapport avec (X,Y), pour trouver les meilleurs paramètres de chaque neurone sous ce modèle, il est nécessaire d'avoir une grande quantité de données, et ce processus est également le plus gourmand en calculs, car il faut itérer plusieurs fois pour que les neurones essaient divers paramètres. Une fois qu'un lot de paires de données est entraîné, on utilise généralement le même lot de données pour un second entraînement afin d'itérer les paramètres.
Deuxième étape, le fine-tuning. Le fine-tuning consiste à utiliser un petit lot de données, mais de très haute qualité, pour entraîner le modèle. Ce changement permettra d'améliorer la qualité de la sortie du modèle, car le pré-entraînement nécessite une grande quantité de données, mais de nombreuses données peuvent contenir des erreurs ou être de faible qualité. L'étape de fine-tuning peut améliorer la qualité du modèle grâce à des données de qualité.
Troisième étape, apprentissage par renforcement. Tout d'abord, nous allons établir un tout nouveau modèle, que nous appelons "modèle de récompense". L'objectif de ce modèle est très simple : il s'agit de classer les résultats de sortie. Par conséquent, la mise en œuvre de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, nous utiliserons ce modèle pour déterminer si les sorties de notre grand modèle sont de haute qualité, ce qui nous permet d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ( Cependant, il est parfois nécessaire d'impliquer des humains pour évaluer la qualité des sorties du modèle ).
En résumé, au cours du processus d'entraînement des grands modèles, le pré-entraînement nécessite une quantité de données très élevée, et la puissance de calcul GPU requise est également la plus importante. Le réglage fin nécessite des données de meilleure qualité pour améliorer les paramètres, et l'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises à l'aide d'un modèle de récompense pour produire des résultats de qualité supérieure.
Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple de la fonction Y = aX + b, il y a en réalité deux neurones, X et X0. Par conséquent, peu importe comment les paramètres changent, les données qu'ils peuvent modéliser sont extrêmement limitées, car leur essence reste une ligne droite. Si le nombre de neurones augmente, alors il est possible d'itérer davantage de paramètres, ce qui permet de modéliser davantage de données. C'est pourquoi les grands modèles produisent des miracles, et c'est également pourquoi le terme "grand modèle" est couramment utilisé. L'essence réside dans une quantité massive de neurones et de paramètres, ainsi qu'une grande quantité de données, tout en nécessitant une puissance de calcul énorme.
Ainsi, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois éléments influencent conjointement la qualité des résultats des grands modèles et leur capacité de généralisation. Supposons que le nombre de paramètres soit p, que la quantité de données soit n( calculée en nombre de tokens), alors nous pouvons estimer la puissance de calcul nécessaire à l'aide d'une règle empirique générale, ce qui nous permet d'évaluer la puissance de calcul que nous devons acheter et le temps d'entraînement.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
8 J'aime
Récompense
8
5
Partager
Commentaire
0/400
DataBartender
· Il y a 4h
啧 Encore un nouveau jouet pour se faire prendre pour des cons
Voir l'originalRépondre0
ForkPrince
· Il y a 6h
Ne fais pas de bêtises, c'est juste un développeur qui change de peau.
Voir l'originalRépondre0
BoredRiceBall
· 08-04 00:54
Ah, ai revient encore pour prendre notre travail.
Voir l'originalRépondre0
Rugpull幸存者
· 08-04 00:50
Les outils humains sont en train d'être éliminés.
Voir l'originalRépondre0
AltcoinOracle
· 08-04 00:45
fascinant... mon analyse montre une corrélation claire de 92,7 % entre les changements de paradigme de l'IA et les fractales du marché des cryptomonnaies. tout comme les textes anciens l'avaient prédit.
Histoire du développement de l'IA : des débuts à la percée des capacités de généralisation des grands modèles
Développement de l'industrie de l'IA : du démarrage au sommet
Les progrès récents dans le domaine de l'intelligence artificielle sont considérés par certains comme la quatrième révolution industrielle. L'émergence de grands modèles de langage a considérablement amélioré l'efficacité dans divers secteurs, et le Boston Consulting Group estime que le GPT a augmenté l'efficacité au travail aux États-Unis d'environ 20 %. En même temps, la capacité de généralisation apportée par les grands modèles est considérée comme un nouveau paradigme de conception logicielle. Auparavant, la conception logicielle était basée sur un code précis, alors que la conception logicielle actuelle consiste à intégrer des cadres de grands modèles plus généralisés dans les logiciels, qui peuvent offrir de meilleures performances et prendre en charge une gamme plus large d'entrées et de sorties de modalités. La technologie d'apprentissage profond a effectivement apporté une quatrième prospérité à l'industrie de l'IA, et cet engouement s'est également étendu à l'industrie des crypto-monnaies.
Ce rapport examinera en détail l'évolution de l'industrie de l'IA, la classification des technologies, ainsi que l'impact de l'invention des technologies d'apprentissage profond sur le secteur. Ensuite, il analysera en profondeur la chaîne de valeur en amont et en aval de l'apprentissage profond, notamment les GPU, le cloud computing, les sources de données et les dispositifs périphériques, ainsi que l'état actuel et les tendances de son développement. Par la suite, nous examinerons en détail la relation entre les cryptomonnaies et l'industrie de l'IA, en clarifiant la structure de la chaîne de valeur de l'IA liée aux cryptomonnaies.
L'évolution de l'industrie de l'IA
L'industrie de l'IA a commencé à émerger dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le monde académique et l'industrie ont développé au fil des époques et des contextes disciplinaires différents de nombreux courants pour atteindre l'intelligence artificielle.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique". Le concept de cette technologie est de permettre aux machines d'améliorer les performances du système en itérant plusieurs fois sur des tâches en utilisant des données. Les étapes principales consistent à envoyer des données à l'algorithme, à utiliser ces données pour entraîner le modèle, à tester et à déployer le modèle, puis à utiliser le modèle pour accomplir des tâches de prédiction automatisées.
Actuellement, l'apprentissage automatique se divise en trois grandes écoles : le connexionnisme, le symbolisme et le comportementalisme, qui imitent respectivement le système nerveux, la pensée et le comportement humain.
Actuellement, le connexionnisme, représenté par les réseaux de neurones, est en tête ( également connu sous le nom d'apprentissage profond ). La raison principale est que cette architecture possède une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et le nombre de neurones ( ainsi que les paramètres ) deviennent suffisamment importants, il y a suffisamment d'opportunités pour s'adapter à des tâches générales complexes. Grâce à l'entrée des données, il est possible d'ajuster continuellement les paramètres des neurones, et après avoir traité plusieurs jeux de données, ce neurone atteindra un état optimal ( des paramètres ), ce qui est ce que nous appelons des miracles grâce à un effort considérable, et c'est aussi l'origine du mot "profondeur" - un nombre suffisant de couches et de neurones.
Par exemple, cela peut être compris comme la construction d'une fonction. Lorsque nous entrons X=2, Y=3 ; et X=3, Y=5. Si nous voulons que cette fonction soit applicable à tous les X, nous devons continuer à ajouter le degré de cette fonction ainsi que ses paramètres. Par exemple, je peux construire une fonction qui satisfait cette condition comme Y = 2X -1. Toutefois, si un ensemble de données montre X=2, Y=11, il sera nécessaire de reconstruire une fonction adaptée à ces trois points de données. En utilisant le GPU pour une attaque par force brute, il est découvert que Y = X2 -3X +5 est assez approprié, mais il n'est pas nécessaire que les données soient entièrement superposées, il suffit de respecter l'équilibre et d'avoir une sortie approximativement similaire. Dans cette équation, X2, X et X0 représentent différents neurones, et 1, -3, 5 sont leurs paramètres.
À ce moment-là, si nous entrons une grande quantité de données dans le réseau de neurones, nous pouvons augmenter le nombre de neurones et itérer les paramètres pour ajuster les nouvelles données. Cela nous permettra d'ajuster toutes les données.
Les technologies d'apprentissage profond basées sur les réseaux de neurones ont également connu plusieurs itérations et évolutions techniques, comme les premiers réseaux de neurones illustrés ci-dessus, les réseaux de neurones à propagation avant, RNN, CNN, GAN, qui ont finalement évolué vers les grands modèles modernes tels que GPT utilisant la technologie Transformer. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant simplement un convertisseur ( Transformer ), utilisé pour encoder toutes les modalités ( telles que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes. Ces valeurs sont ensuite introduites dans le réseau de neurones, permettant ainsi au réseau de neurones de s'adapter à tout type de données, réalisant ainsi le multimodal.
Le développement de l'IA a connu trois vagues technologiques. La première vague a eu lieu dans les années 1960, une décennie après la proposition de la technologie de l'IA. Cette vague a été provoquée par le développement de la technologie symbolique, qui a résolu les problèmes de traitement du langage naturel et de dialogue homme-machine. À la même époque, les systèmes experts ont vu le jour, notamment le système expert DENRAL, achevé sous l'égide de la NASA par l'Université de Stanford. Ce système possède une connaissance chimique très avancée, capable d'inférer des réponses similaires à celles d'un expert chimiste en posant des questions. Ce système expert en chimie peut être considéré comme une combinaison d'une base de connaissances chimiques et d'un système d'inférence.
Après les systèmes experts, dans les années 1990, le scientifique et philosophe américain d'origine israélienne Judea Pearl ( a proposé les réseaux bayésiens, également appelés réseaux de croyance. À la même époque, Brooks a proposé la robotique basée sur le comportement, marquant la naissance du behaviorisme.
En 1997, IBM Deep Blue a battu le champion d'échecs Garry Kasparov avec un score de 3,5 à 2,5, cette victoire étant considérée comme un jalon pour l'intelligence artificielle, marquant le début d'un nouveau sommet dans le développement de la technologie AI.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept d'apprentissage profond, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage des représentations des données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, passant des RNN, GAN aux Transformers et à la Stable Diffusion, ces deux algorithmes ayant façonné cette troisième vague technologique, marquant également l'apogée du connexionnisme.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage profond, y compris :
En 2011, le Watson) d'IBM a remporté le championnat dans le jeu télévisé de questions-réponses "Jeopardy(", battant des humains.
En 2014, Goodfellow a proposé le GAN), Réseau Adversarial Génératif(, qui apprend en faisant s'affronter deux réseaux de neurones, capable de générer des photos indistinguables des vraies. Parallèlement, Goodfellow a également écrit un livre intitulé "Deep Learning", surnommé le livre des fleurs, qui est l'un des livres d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé un algorithme d'apprentissage profond dans la revue "Nature", ce qui a immédiatement suscité un grand émoi dans le milieu académique et l'industrie.
En 2015, OpenAI a été créé, Musk, le président de YC Altman, l'investisseur providentiel Peter Thiel) et d'autres ont annoncé un investissement commun de 1 milliard de dollars.
En 2016, AlphaGo, basé sur la technologie d'apprentissage profond, a affronté le champion du monde de go et joueur professionnel de 9e dan, Lee Sedol, dans une bataille homme-machine au go, remportant la victoire avec un score total de 4 à 1.
En 2017, la société hongkongaise Hanson Robotics ( a développé le robot humanoïde Sophia, qui est considéré comme le premier robot à avoir obtenu le statut de citoyen de première classe dans l'histoire, doté d'une large gamme d'expressions faciales et de capacités de compréhension du langage humain.
En 2017, Google, qui dispose d'une riche réserve de talents et de technologies dans le domaine de l'intelligence artificielle, a publié le document "Attention is all you need" présentant l'algorithme Transformer, marquant le début de l'émergence de modèles linguistiques à grande échelle.
En 2018, OpenAI a publié le GPT), un Transformateur pré-entraîné génératif basé sur l'algorithme Transformer(, qui était l'un des plus grands modèles de langage à l'époque.
En 2018, l'équipe de Google DeepMind a lancé AlphaGo basé sur l'apprentissage en profondeur, capable de prédire la structure des protéines, considéré comme un grand jalon dans le domaine de l'intelligence artificielle.
En 2019, OpenAI a publié GPT-2, ce modèle possède 1,5 milliard de paramètres.
En 2020, OpenAI a développé GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné sur 570 Go de texte et peut atteindre des performances de pointe sur plusieurs tâches de traitement du langage naturel, telles que la réponse à des questions, la traduction et la rédaction d'articles.
En 2021, OpenAI a publié GPT-4, ce modèle possède 1,76 trillion de paramètres, soit 10 fois plus que GPT-3.
L'application ChatGPT basée sur le modèle GPT-4 a été lancée en janvier 2023, et en mars, ChatGPT a atteint 100 millions d'utilisateurs, devenant l'application à atteindre le plus rapidement 100 millions d'utilisateurs dans l'histoire.
En 2024, OpenAI lancera GPT-4 omni.
Note : En raison du grand nombre de papiers sur l'intelligence artificielle, des nombreuses écoles de pensée et de l'évolution technique variée, nous suivrons ici principalement l'histoire du développement de l'apprentissage profond ou du connexionnisme, tandis que d'autres écoles et technologies sont encore en pleine évolution.
![Nouvelle vulgarisation丨IA x Crypto : De zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Chaîne de valeur de l'apprentissage profond
Les modèles de langage actuels reposent tous sur des méthodes d'apprentissage profond basées sur des réseaux de neurones. Avec GPT en tête, les grands modèles ont suscité une vague d'engouement pour l'intelligence artificielle, entraînant l'arrivée massive de nombreux acteurs sur ce marché. Nous constatons également une explosion de la demande de données et de puissance de calcul. Par conséquent, dans cette partie du rapport, nous explorons principalement la chaîne d'industrie des algorithmes d'apprentissage profond, en examinant comment les secteurs en amont et en aval sont composés dans l'industrie de l'IA dominée par les algorithmes d'apprentissage profond, ainsi que l'état actuel et la relation d'offre et de demande, et le développement futur.
Tout d'abord, ce que nous devons clarifier, c'est que lors de l'entraînement de grands modèles de LLMs, principalement basés sur la technologie Transformer et GPT, ), cela se divise en trois étapes.
Avant l'entraînement, comme il est basé sur Transformer, le convertisseur doit transformer les entrées textuelles en valeurs numériques, ce processus est appelé "Tokenization", après quoi ces valeurs sont appelées Token. Selon la règle empirique générale, un mot ou un caractère en anglais peut être approximativement considéré comme un Token, tandis que chaque caractère chinois peut être approximativement considéré comme deux Tokens. C'est également l'unité de base utilisée pour la tarification de GPT.
Première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée, comme dans l'exemple donné dans la première partie du rapport avec (X,Y), pour trouver les meilleurs paramètres de chaque neurone sous ce modèle, il est nécessaire d'avoir une grande quantité de données, et ce processus est également le plus gourmand en calculs, car il faut itérer plusieurs fois pour que les neurones essaient divers paramètres. Une fois qu'un lot de paires de données est entraîné, on utilise généralement le même lot de données pour un second entraînement afin d'itérer les paramètres.
Deuxième étape, le fine-tuning. Le fine-tuning consiste à utiliser un petit lot de données, mais de très haute qualité, pour entraîner le modèle. Ce changement permettra d'améliorer la qualité de la sortie du modèle, car le pré-entraînement nécessite une grande quantité de données, mais de nombreuses données peuvent contenir des erreurs ou être de faible qualité. L'étape de fine-tuning peut améliorer la qualité du modèle grâce à des données de qualité.
Troisième étape, apprentissage par renforcement. Tout d'abord, nous allons établir un tout nouveau modèle, que nous appelons "modèle de récompense". L'objectif de ce modèle est très simple : il s'agit de classer les résultats de sortie. Par conséquent, la mise en œuvre de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, nous utiliserons ce modèle pour déterminer si les sorties de notre grand modèle sont de haute qualité, ce qui nous permet d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ( Cependant, il est parfois nécessaire d'impliquer des humains pour évaluer la qualité des sorties du modèle ).
En résumé, au cours du processus d'entraînement des grands modèles, le pré-entraînement nécessite une quantité de données très élevée, et la puissance de calcul GPU requise est également la plus importante. Le réglage fin nécessite des données de meilleure qualité pour améliorer les paramètres, et l'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises à l'aide d'un modèle de récompense pour produire des résultats de qualité supérieure.
Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple de la fonction Y = aX + b, il y a en réalité deux neurones, X et X0. Par conséquent, peu importe comment les paramètres changent, les données qu'ils peuvent modéliser sont extrêmement limitées, car leur essence reste une ligne droite. Si le nombre de neurones augmente, alors il est possible d'itérer davantage de paramètres, ce qui permet de modéliser davantage de données. C'est pourquoi les grands modèles produisent des miracles, et c'est également pourquoi le terme "grand modèle" est couramment utilisé. L'essence réside dans une quantité massive de neurones et de paramètres, ainsi qu'une grande quantité de données, tout en nécessitant une puissance de calcul énorme.
Ainsi, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois éléments influencent conjointement la qualité des résultats des grands modèles et leur capacité de généralisation. Supposons que le nombre de paramètres soit p, que la quantité de données soit n( calculée en nombre de tokens), alors nous pouvons estimer la puissance de calcul nécessaire à l'aide d'une règle empirique générale, ce qui nous permet d'évaluer la puissance de calcul que nous devons acheter et le temps d'entraînement.