AI e o setor de ativos de criptografia: da encriptação profunda a grandes modelos

2025-07-09 13:55:19

AI x Crypto: do zero ao auge

O recente desenvolvimento da indústria de IA é visto como a quarta revolução industrial. O surgimento de grandes modelos aumentou significativamente a eficiência de vários setores, estimando-se que tenha aumentado a eficiência do trabalho nos EUA em cerca de 20%. A capacidade de generalização trazida pelos grandes modelos é considerada um novo paradigma de design de software, capaz de suportar uma gama mais ampla de entradas e saídas modais. A tecnologia de aprendizado profundo trouxe a quarta prosperidade para a indústria de IA, e essa onda também se espalhou para a indústria de criptomoedas.

Este relatório explorará a história de desenvolvimento da indústria de IA, a classificação das tecnologias e o impacto da tecnologia de aprendizado profundo na indústria. Uma análise aprofundada da situação atual e das tendências do desenvolvimento da cadeia de suprimentos, incluindo GPU, computação em nuvem, fontes de dados e dispositivos de borda no aprendizado profundo. Explorar essencialmente a relação entre criptomoedas e a indústria de IA, organizando o padrão da cadeia de suprimentos de IA relacionada a criptomoedas.

História do desenvolvimento da indústria de IA

A indústria de IA começou na década de 1950 e, para realizar a visão da inteligência artificial, a academia e a indústria desenvolveram várias correntes para realizar a inteligência artificial em diferentes épocas e contextos disciplinares.

As tecnologias modernas de inteligência artificial usam principalmente o termo "aprendizado de máquina", cujo conceito é permitir que as máquinas melhorem o desempenho do sistema em tarefas através de iterações repetidas baseadas em dados. Os principais passos são enviar os dados para o algoritmo, usar esses dados para treinar o modelo, testar e implantar o modelo, e usar o modelo para realizar tarefas de previsão automatizadas.

Atualmente, a aprendizagem automática tem três grandes correntes principais: o conexionismo, o simbolismo e o behaviorismo, cada uma imitando o sistema nervoso, o pensamento e o comportamento humanos.

Atualmente, o conexionismo, representado por redes neurais, está em ascensão ( também conhecido como aprendizado profundo ), a principal razão é que essa arquitetura tem uma camada de entrada, uma camada de saída, mas múltiplas camadas ocultas. Uma vez que o número de camadas e o número de neurônios ( e parâmetros ) se torna suficiente, há oportunidades suficientes para ajustar tarefas complexas e gerais. Através da entrada de dados, é possível ajustar continuamente os parâmetros dos neurônios, e após passar por múltiplos dados, esse neurônio atingirá seu estado ótimo ( parâmetros ), que também é a origem da palavra "profundo" - um número suficiente de camadas e neurônios.

Por exemplo, pode-se entender simplesmente como a construção de uma função, onde quando X=2, Y=3; e quando X=3, Y=5. Se quisermos que esta função se aplique a todos os X, será necessário continuar adicionando o grau da função e seus parâmetros. Por exemplo, podemos construir uma função que satisfaça essa condição como Y = 2X - 1. No entanto, se houver um dado onde X=2 e Y=11, será necessário reconstruir uma função adequada para esses três pontos de dados. Usando GPU para uma força bruta, descobrimos que Y = X2 - 3X + 5 é bastante adequado, mas não precisa coincidir completamente com os dados, apenas precisa manter o equilíbrio e produzir uma saída semelhante. Aqui, X2, X e X0 representam diferentes neurônios, enquanto 1, -3 e 5 são seus parâmetros.

Neste momento, se introduzirmos uma grande quantidade de dados na rede neural, podemos aumentar os neurônios e iterar os parâmetros para ajustar os novos dados. Assim, conseguiremos ajustar todos os dados.

As tecnologias de deep learning baseadas em redes neurais também passaram por várias iterações e evoluções, desde as primeiras redes neurais, redes neurais de feedforward, RNN, CNN, GAN até a evolução para modelos modernos como o GPT, que utilizam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, acrescentando um conversor ( Transformer ), que é utilizado para codificar dados de todas as modalidades (, como áudio, vídeo, imagens, etc. ) em valores correspondentes para representação. Esses dados são então inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dados, ou seja, realizando multimodalidade.

O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda ocorreu na década de 1960, dez anos após a proposta da tecnologia de IA. Esta onda foi provocada pelo desenvolvimento da tecnologia do simbolismo, que resolveu problemas relacionados ao processamento de linguagem natural e ao diálogo homem-máquina. Nesse mesmo período, os sistemas especialistas nasceram; este é um sistema especialista em química completo, que possui um conhecimento químico muito forte e gera respostas semelhantes às de um especialista em química por meio de inferências a partir de perguntas. Este sistema especialista em química pode ser visto como uma combinação de um banco de dados de conhecimento químico e um sistema de inferência.

Após os sistemas especialistas, na década de 1990, Judea Pearl ( propôs as redes bayesianas, que também são conhecidas como redes de crença. Na mesma época, Brooks propôs a robótica baseada em comportamento, marcando o nascimento do behaviorismo.

Em 1997, o Deep Blue da IBM venceu o campeão de xadrez Garry Kasparov por 3,5 a 2,5. Esta vitória foi vista como um marco para a inteligência artificial, marcando o auge da segunda onda de desenvolvimento da tecnologia de IA.

A terceira onda da tecnologia de IA ocorreu em 2006. Os três gigantes do aprendizado profundo, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de aprendizado profundo, um algoritmo que usa redes neurais artificiais como arquitetura para aprender representações dos dados. Desde então, os algoritmos de aprendizado profundo evoluíram gradualmente, de RNN, GAN a Transformer e Stable Diffusion, sendo que esses dois últimos algoritmos moldaram esta terceira onda tecnológica, que também é o auge do conexionismo.

Muitos eventos icônicos também surgiram gradualmente acompanhados pela exploração e evolução da tecnologia de aprendizado profundo, incluindo:

Em 2011, o Watson da IBM) venceu os humanos e conquistou o título no programa de quiz "Jeopardy!"(.
Em 2014, Goodfellow propôs a Rede Generativa Adversarial GAN), Generative Adversarial Network(, que aprende através da competição entre duas redes neurais, capaz de gerar fotos que parecem reais. Ao mesmo tempo, Goodfellow também escreveu um livro chamado "Deep Learning", conhecido como o livro das flores, que é um dos livros de introdução mais importantes na área de aprendizado profundo.
Em 2015, Hinton e outros propuseram algoritmos de aprendizagem profunda na revista "Nature", e a introdução desse método de aprendizagem profunda causou um grande impacto tanto no meio acadêmico quanto na indústria.
Em 2015, a OpenAI foi criada, com vários investidores renomados anunciando um investimento conjunto de 1 bilhão de dólares.
Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, competiu contra o campeão mundial de Go e jogador profissional de nove dan, Lee Sedol, vencendo com um placar total de 4 a 1.
Em 2017, uma empresa de tecnologia robótica desenvolveu o robô humanoide Sophia, que foi chamado de o primeiro robô da história a obter cidadania de primeira classe, possuindo uma rica variedade de expressões faciais e capacidade de compreensão da linguagem humana.
Em 2017, o Google publicou o artigo "Attention is all you need" que propôs o algoritmo Transformer, dando início ao surgimento de modelos de linguagem em grande escala.
Em 2018, a OpenAI lançou o GPT), um Transformer Generativo Pré-treinado( baseado no algoritmo Transformer, que era um dos maiores modelos de linguagem da época.
Em 2018, a equipe do Google Deepmind lançou o AlphaGo, baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo considerado um grande marco de progresso no campo da inteligência artificial.
Em 2019, a OpenAI lançou o GPT-2, que possui 1,5 bilhões de parâmetros.
Em 2020, o GPT-3 desenvolvido pela OpenAI, com 175 bilhões de parâmetros, é 100 vezes mais que a versão anterior GPT-2. Este modelo foi treinado com 570 GB de texto e pode alcançar desempenho de ponta em várias tarefas de processamento de linguagem natural, como resposta a perguntas, tradução e redação de artigos.
Em 2021, a OpenAI lançou o GPT-4, que possui 1,76 trilhão de parâmetros, sendo 10 vezes mais que o GPT-3.
Em janeiro de 2023, foi lançado o aplicativo ChatGPT baseado no modelo GPT-4, em março o ChatGPT alcançou cem milhões de usuários, tornando-se o aplicativo que atingiu cem milhões de usuários mais rapidamente na história.

![Novos conhecimentos丨AI x Crypto: Do zero ao auge])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(

Cadeia de Indústria de Aprendizado Profundo

Atualmente, os grandes modelos de linguagem utilizam métodos de aprendizado profundo baseados em redes neurais. Com o GPT à frente, os grandes modelos geraram uma onda de entusiasmo em inteligência artificial, com um grande número de jogadores entrando neste setor. Também notamos uma explosão na demanda do mercado por dados e poder computacional. Portanto, nesta parte do relatório, exploramos a cadeia industrial dos algoritmos de aprendizado profundo, como os setores upstream e downstream se constituem na indústria de IA dominada por algoritmos de aprendizado profundo, e como a situação atual e a relação de oferta e demanda, bem como o desenvolvimento futuro, se apresentam.

Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs, liderados pelo GPT, baseado na tecnologia Transformer), este processo é dividido em três etapas.

Antes do treinamento, como é baseado em Transformer, o conversor precisa transformar a entrada de texto em valores numéricos, esse processo é chamado de "Tokenization". Depois, esses valores são chamados de Token. De acordo com uma regra geral, uma palavra ou caractere em inglês pode ser vagamente considerado como um Token, enquanto cada caractere chinês pode ser vagamente considerado como dois Tokens. Essa é também a unidade básica usada na avaliação do GPT.

Primeiro passo, pré-treinamento. Ao fornecer ao nível de entrada um número suficiente de pares de dados, semelhante ao exemplo apresentado na primeira parte do relatório (X,Y), para encontrar os melhores parâmetros para cada neurônio sob esse modelo, é necessário um grande volume de dados, e esse processo também é o mais exigente em termos de poder computacional, pois envolve a iteração repetida dos neurônios tentando várias configurações de parâmetros. Após a conclusão do treinamento de um lote de pares de dados, geralmente utiliza-se o mesmo lote de dados para um segundo treinamento a fim de iterar os parâmetros.

O segundo passo, ajuste fino. O ajuste fino é dar um conjunto de dados menor, mas de qualidade muito alta, para treinar; essa mudança fará com que a saída do modelo tenha uma qualidade superior, pois o pré-treinamento requer uma grande quantidade de dados, mas muitos desses dados podem conter erros ou serem de baixa qualidade. O passo de ajuste fino pode melhorar a qualidade do modelo através de dados de alta qualidade.

O terceiro passo é o aprendizado por reforço. Primeiro, será criado um novo modelo, que chamamos de "modelo de recompensa". O objetivo deste modelo é muito simples: classificar os resultados da saída. Portanto, a implementação deste modelo será relativamente simples, pois o cenário de negócios é bastante vertical. Em seguida, usamos este modelo para determinar se a saída do nosso grande modelo é de alta qualidade, permitindo assim que um modelo de recompensa itere automaticamente os parâmetros do grande modelo. ( No entanto, às vezes também é necessário a participação humana para avaliar a qualidade da saída do modelo ).

Em resumo, durante o processo de treinamento do grande modelo, o pré-treinamento tem uma exigência muito alta em relação à quantidade de dados, e a potência de cálculo da GPU necessária também é a mais alta, enquanto o ajuste fino requer dados de maior qualidade para melhorar os parâmetros. O aprendizado por reforço pode iterar os parâmetros repetidamente através de um modelo de recompensa para produzir resultados de maior qualidade.

Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto da capacidade de generalização. Por exemplo, no caso da função Y = aX + b, na verdade existem dois neurônios, X e X0. Portanto, como os parâmetros mudam, os dados que podem ser ajustados são extremamente limitados, pois sua essência ainda é uma linha reta. Se houver mais neurônios, mais parâmetros poderão ser iterados, permitindo ajustar mais dados. Essa é a razão pela qual modelos grandes produzem milagres, e também é por isso que são popularmente chamados de grandes modelos; a essência é uma quantidade massiva de neurônios e parâmetros, assim como uma quantidade massiva de dados, e também requer uma quantidade massiva de poder computacional.

Assim, o desempenho de grandes modelos é determinado principalmente por três aspectos: o número de parâmetros, a quantidade e a qualidade dos dados e a capacidade de computação. Esses três fatores influenciam conjuntamente a qualidade dos resultados e a capacidade de generalização do grande modelo. Suponhamos que o número de parâmetros seja p, a quantidade de dados seja n( calculada em termos de número de tokens), então podemos calcular a quantidade de computação necessária através de uma regra geral, o que nos permitirá estimar a capacidade de computação que precisamos adquirir e o tempo de treinamento.

A potência computacional é geralmente medida em Flops, que representa uma operação de ponto flutuante. Operações de ponto flutuante referem-se à adição, subtração, multiplicação e divisão de números não inteiros, como 2.5 + 3.557. O ponto flutuante indica a capacidade de apresentar números decimais, enquanto FP16 representa a precisão que suporta números decimais, e FP32 é uma precisão mais comum. Segundo a regra prática, o pré-treinamento (Pre-traning) ocorre uma vez ( e geralmente envolve múltiplos treinamentos ) de grandes modelos, necessitando aproximadamente de 6np Flops, onde 6 é conhecido como constante do setor. A inferência (Inference é o processo em que inserimos um dado e aguardamos a saída do grande modelo ), dividido em duas partes: entrada de n tokens e saída de n tokens, totalizando aproximadamente 2np Flops.

Nos primórdios, utilizava-se chips de CPU para treinamento, fornecendo suporte computacional, mas depois começou-se a substituir gradualmente por GPU, como certos chips de GPU de alto desempenho, etc. Porque a CPU existe como cálculo genérico, mas a GPU pode atuar como cálculo especializado, superando em muito a eficiência energética da CPU. A GPU realiza operações de ponto flutuante principalmente através de um módulo chamado Tensor Core.

GPT-4.77%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

12 Curtidas

Recompensa
12
7
Repostar
Compartilhar

Comentário

0/400

TommyTeacher1

· 07-09 14:25

A tecnologia traz poder real

Ver originalResponder0

TendênciasVer projetos
#Gatefunmemecontestcoming
641 Popularidade
#Fedratecutexpectationsheatup
36.3K Popularidade
#Spotetfapprovalupdates
499 Popularidade
#Blackrockkeepsbuyingbtc
89 Popularidade
#ShowMyAlphaPoints
174.5K Popularidade

Marcar

sitemap