História do desenvolvimento da IA: da sua origem à quebra da capacidade de generalização dos grandes modelos

Desenvolvimento da Indústria de IA: Do Início ao Pico

Os recentes avanços no campo da inteligência artificial são vistos por alguns como a quarta revolução industrial. O surgimento de grandes modelos de linguagem aumentou significativamente a eficiência em vários setores, e a Boston Consulting Group acredita que o GPT melhorou a eficiência do trabalho nos EUA em cerca de 20%. Ao mesmo tempo, a capacidade de generalização trazida pelos grandes modelos é considerada um novo paradigma de design de software. No passado, o design de software consistia em código preciso; agora, o design de software incorpora estruturas de grandes modelos mais generalizadas, que oferecem melhor desempenho e suportam uma gama mais ampla de entradas e saídas de modalidades. A tecnologia de aprendizado profundo realmente trouxe a quarta prosperidade para a indústria de IA, e essa onda também se estendeu para a indústria de criptomoedas.

Este relatório irá explorar detalhadamente a trajetória de desenvolvimento da indústria de IA, a classificação das tecnologias e o impacto da invenção da tecnologia de aprendizado profundo na indústria. Em seguida, será feita uma análise aprofundada da cadeia de suprimentos da indústria de aprendizado profundo, incluindo GPU, computação em nuvem, fontes de dados e dispositivos de borda, bem como seu estado de desenvolvimento e tendências. Depois, discutiremos essencialmente a relação entre criptomoedas e a indústria de IA, organizando a estrutura da cadeia de suprimentos de IA relacionada a criptomoedas.

A evolução da indústria de IA

A indústria de IA começou na década de 1950. Para realizar a visão da inteligência artificial, o mundo acadêmico e a indústria, em diferentes épocas e com diferentes contextos disciplinares, desenvolveram muitas correntes para a realização da inteligência artificial.

As tecnologias modernas de inteligência artificial usam principalmente o termo "aprendizagem de máquina", cuja ideia é permitir que as máquinas melhorem o desempenho do sistema através de iterações repetidas em tarefas com base em dados. Os principais passos são enviar os dados para o algoritmo, treinar o modelo com esses dados, testar e implementar o modelo, e usar o modelo para realizar tarefas de previsão automatizadas.

Atualmente, a aprendizagem de máquina tem três principais correntes, que são o conexionismo, o simbolismo e o behaviorismo, que imitam, respetivamente, o sistema nervoso humano, o pensamento e o comportamento.

Atualmente, a abordagem conexionista, representada pelas redes neurais, está em destaque ( também conhecida como aprendizado profundo ). A principal razão é que essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Assim que o número de camadas e de neurônios (, e os parâmetros ) se tornam suficientemente altos, há uma grande oportunidade de ajustar tarefas complexas e gerais. Com a entrada de dados, os parâmetros dos neurônios podem ser ajustados continuamente, e após passar por múltiplos dados, esse neurônio alcançará um estado ótimo ( dos parâmetros ). Isso é o que chamamos de grandes milagres, e é também a origem da palavra "profundo" - um número suficiente de camadas e neurônios.

Um exemplo simples seria entender que construímos uma função, onde ao inserir X=2, temos Y=3; e ao inserir X=3, temos Y=5. Se quisermos que essa função se aplique a todos os X, precisaremos continuar adicionando o grau dessa função e seus parâmetros. Por exemplo, neste momento, posso construir uma função que satisfaça essa condição como Y = 2X -1, mas se houver um dado onde X=2 e Y=11, será necessário reestruturar uma função que se ajuste a esses três pontos de dados. Usando GPU para força bruta, encontramos que Y = X2 -3X +5 é bastante adequada, mas não precisa coincidir exatamente com os dados, apenas precisa obedecer ao equilíbrio e fornecer uma saída semelhante. Aqui, X2, X e X0 representam diferentes neurônios, enquanto 1, -3 e 5 são seus parâmetros.

Neste momento, se introduzirmos uma grande quantidade de dados na rede neural, podemos aumentar o número de neurônios e iterar os parâmetros para ajustar os novos dados. Assim, conseguiremos ajustar todos os dados.

A tecnologia de aprendizado profundo baseada em redes neurais também teve várias iterações e evoluções tecnológicas, como as primeiras redes neurais mostradas na figura acima, redes neurais feedforward, RNN, CNN e GAN, que evoluíram para modelos modernos grandes, como o GPT, que utilizam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, adicionando um conversor ( Transformer ), para codificar todos os modos (, como áudio, vídeo, imagens, etc., em valores correspondentes para representação. Esses dados são então inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, realiza multimodal.

![Novos conhecimentos丨AI x Crypto: Do zero ao auge])https://img-cdn.gateio.im/webp-social/moments-7e025deb1fddcd5fa716b6f144701074.webp(

O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda ocorreu na década de 1960, dez anos após a proposta da tecnologia de IA. Esta onda foi provocada pelo desenvolvimento da tecnologia do simbolismo, que resolveu problemas de processamento de linguagem natural e diálogo homem-máquina. Nesse mesmo período, os sistemas especialistas foram criados, sendo o sistema especialista DENRAL completado sob a supervisão da NASA e da Universidade de Stanford. Este sistema possui um conhecimento químico muito forte e gera respostas semelhantes às de um especialista em química através de inferências baseadas em perguntas. Este sistema especialista em química pode ser visto como uma combinação de um banco de dados de conhecimento químico e um sistema de inferência.

Após os sistemas especialistas, na década de 1990, o cientista e filósofo americano de origem israelita Judea Pearl ) Judea Pearl ( propôs as redes Bayesianas, que também são conhecidas como redes de crença. Na mesma época, Brooks apresentou a robótica baseada em comportamento, marcando o nascimento do behaviorismo.

Em 1997, o Deep Blue da IBM venceu o campeão de xadrez Kasparov por 3.5:2.5, e essa vitória é vista como um marco na inteligência artificial, marcando o auge do segundo desenvolvimento da tecnologia de IA.

A terceira onda da tecnologia de IA ocorreu em 2006. Os três gigantes do aprendizado profundo, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de aprendizado profundo, um algoritmo baseado em redes neurais artificiais para a aprendizagem de representações de dados. Depois, os algoritmos de aprendizado profundo evoluíram gradualmente, passando de RNN, GAN para Transformer e Stable Diffusion, que moldaram essa terceira onda tecnológica, e este também foi o auge do conexionismo.

Muitos eventos icónicos também surgiram gradualmente com a exploração e evolução da tecnologia de aprendizagem profunda, incluindo:

  • Em 2011, o Watson) da IBM venceu os humanos e conquistou o campeonato no programa de quiz "Jeopardy(".

  • Em 2014, Goodfellow propôs a GAN) Rede Generativa Adversarial, Generative Adversarial Network(, que aprende através de um jogo entre duas redes neurais, sendo capaz de gerar fotos tão realistas que enganam. Ao mesmo tempo, Goodfellow também escreveu um livro chamado "Deep Learning", conhecido como "livro das flores", que é um dos livros introdutórios importantes na área de aprendizado profundo.

  • Em 2015, Hinton e outros propuseram algoritmos de aprendizado profundo na revista "Nature", e a introdução desse método de aprendizado profundo gerou uma enorme repercussão tanto na comunidade acadêmica quanto na indústria.

  • Em 2015, a OpenAI foi criada, com Musk, o presidente da YC Altman, o investidor-anjo Peter Thiel) e outros anunciando um investimento conjunto de 1 bilhão de dólares.

  • Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, competiu contra o campeão mundial de Go e jogador profissional de 9 dan, Lee Sedol, vencendo por 4 a 1 no total.

  • Em 2017, a empresa de tecnologia Hanson Robotics de Hong Kong, China, (Hanson Robotics), desenvolveu o robô humanoide Sophia, que é conhecido como o primeiro robô na história a obter cidadania de primeira classe, possuindo uma rica variedade de expressões faciais e a capacidade de compreender a linguagem humana.

  • Em 2017, a Google, que possui um rico talento e reserva tecnológica na área de inteligência artificial, publicou o artigo "Attention is all you need", propondo o algoritmo Transformer, e modelos de linguagem em larga escala começaram a surgir.

  • Em 2018, a OpenAI lançou o GPT( Generative Pre-trained Transformer), construído com base no algoritmo Transformer, que era um dos maiores modelos de linguagem na época.

  • Em 2018, a equipe do Google Deepmind lançou o AlphaGo baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo visto como um grande marco de progresso no campo da inteligência artificial.

  • Em 2019, a OpenAI lançou o GPT-2, que possui 1,5 bilhões de parâmetros.

  • Em 2020, o GPT-3, desenvolvido pela OpenAI, possui 175 bilhões de parâmetros, 100 vezes mais do que a versão anterior, GPT-2. Este modelo foi treinado com 570 GB de texto e pode alcançar desempenho de ponta em várias tarefas de NLP(, incluindo resposta a perguntas, tradução e redação de artigos).

  • Em 2021, a OpenAI lançou o GPT-4, um modelo com 1,76 trilhão de parâmetros, que é 10 vezes maior que o GPT-3.

  • O programa ChatGPT baseado no modelo GPT-4 foi lançado em janeiro de 2023, e em março o ChatGPT alcançou 100 milhões de utilizadores, tornando-se o aplicativo que mais rapidamente atingiu 100 milhões de utilizadores na história.

  • Em 2024, a OpenAI lançará o GPT-4 omni.

Nota: Devido à grande quantidade de artigos sobre inteligência artificial, à diversidade de correntes e à evolução tecnológica, aqui seguimos principalmente a história do desenvolvimento do aprendizado profundo ou do conexionismo, enquanto outras correntes e tecnologias ainda estão em rápida evolução.

Novato Ciência丨AI x Crypto: Do zero ao auge

Cadeia de Indústria de Aprendizado Profundo

Atualmente, os grandes modelos de linguagem utilizam métodos de aprendizado profundo baseados em redes neurais. Liderados pelo GPT, os grandes modelos geraram uma onda de entusiasmo em inteligência artificial, com muitos jogadores entrando nesta pista. Também constatamos que a demanda do mercado por dados e poder de computação explodiu, portanto, nesta parte do relatório, estamos principalmente explorando a cadeia industrial dos algoritmos de aprendizado profundo. Na indústria de IA dominada por algoritmos de aprendizado profundo, como é composta a sua cadeia de suprimentos e demanda, e como é a situação atual e a relação de oferta e demanda, bem como o desenvolvimento futuro.

Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs, liderados pelo GPT, com base na tecnologia Transformer (, são divididos em três etapas.

Antes do treinamento, como é baseado em Transformer, o conversor precisa transformar a entrada de texto em valores numéricos, esse processo é chamado de "Tokenization". Após isso, esses valores são chamados de Token. De acordo com a regra geral, uma palavra ou caractere em inglês pode ser aproximadamente considerado um Token, enquanto cada caractere chinês pode ser aproximadamente considerado dois Tokens. Esta também é a unidade básica utilizada na precificação do GPT.

Primeiro passo, pré-treinamento. Ao fornecer ao nível de entrada um número suficiente de pares de dados, semelhante ao exemplo dado na primeira parte do relatório )X,Y(, para encontrar os melhores parâmetros para cada neurônio sob este modelo, é necessário um grande volume de dados, e este processo também é o que mais consome poder computacional, pois os neurônios precisam ser iterados repetidamente tentando vários parâmetros. Após o treinamento de um conjunto de dados ser concluído, geralmente usa-se o mesmo conjunto de dados para um segundo treinamento a fim de iterar os parâmetros.

O segundo passo, ajuste fino. O ajuste fino consiste em treinar com um lote menor, mas com dados de qualidade muito alta, e essa alteração fará com que a saída do modelo tenha uma qualidade superior, porque o pré-treinamento requer uma grande quantidade de dados, mas muitos dados podem conter erros ou serem de baixa qualidade. A etapa de ajuste fino pode melhorar a qualidade do modelo através de dados de alta qualidade.

O terceiro passo é o aprendizado por reforço. Primeiro, será criado um modelo totalmente novo, que chamamos de "modelo de recompensa". O objetivo deste modelo é muito simples: classificar os resultados de saída, portanto, a implementação deste modelo será relativamente simples, pois o cenário de negócios é bastante vertical. Em seguida, usaremos este modelo para determinar se a saída do nosso grande modelo é de alta qualidade, assim poderemos usar um modelo de recompensa para iterar automaticamente os parâmetros do grande modelo. ) No entanto, às vezes também é necessário a participação humana para avaliar a qualidade da saída do modelo (

Em resumo, durante o processo de treinamento de grandes modelos, o pré-treinamento tem uma exigência muito alta em relação à quantidade de dados, e a potência computacional necessária em GPU é a maior. Por outro lado, o ajuste fino requer dados de maior qualidade para melhorar os parâmetros, e o aprendizado por reforço pode iterar repetidamente os parâmetros através de um modelo de recompensa para produzir resultados de maior qualidade.

Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto da sua capacidade de generalização. Por exemplo, no caso da função Y = aX + b, na verdade existem dois neurônios, X e X0. Portanto, como os parâmetros variam, os dados que podem ser ajustados são extremamente limitados, pois a essência ainda é uma linha reta. Se houver mais neurônios, será possível iterar mais parâmetros e, assim, ajustar mais dados. Essa é a razão pela qual modelos grandes produzem milagres e também é por isso que o termo "modelo grande" é popular; a essência é uma quantidade enorme de neurônios e parâmetros, além de uma quantidade imensa de dados, e simultaneamente requer uma enorme capacidade computacional.

Portanto, o desempenho de grandes modelos é principalmente determinado por três aspectos: o número de parâmetros, a quantidade e a qualidade dos dados, e a capacidade computacional, que afetam conjuntamente a qualidade dos resultados e a capacidade de generalização do grande modelo. Suponhamos que o número de parâmetros seja p, a quantidade de dados seja n) calculada em termos de número de Tokens(, então podemos calcular a quantidade de computação necessária através de uma regra de experiência geral, assim podemos estimar a capacidade computacional que precisamos comprar e o tempo de treinamento.

GPT-6.48%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 3
  • Partilhar
Comentar
0/400
BoredRiceBallvip
· 08-04 00:54
Ah, ai está novamente a roubar o meu emprego.
Ver originalResponder0
Rugpull幸存者vip
· 08-04 00:50
Os trabalhadores de ferramentas estão a ser eliminados.
Ver originalResponder0
AltcoinOraclevip
· 08-04 00:45
fascinante... a minha análise mostra uma clara correlação de 92,7% entre as mudanças de paradigma da IA e os fractais do mercado de criptomoedas. assim como os antigos textos previram.
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)