AI y la fusión de la industria de Activos Cripto: del aprendizaje profundo a los grandes modelos

IA x Cripto: De cero a la cima

El desarrollo reciente de la industria de la IA se considera la cuarta revolución industrial. La aparición de grandes modelos ha mejorado significativamente la eficiencia en varias industrias, estimándose que ha aumentado la eficiencia laboral en Estados Unidos en aproximadamente un 20%. La capacidad de generalización que aportan los grandes modelos se considera un nuevo paradigma de diseño de software, capaz de soportar una gama más amplia de entradas y salidas de modalidades. La tecnología de aprendizaje profundo ha traído una cuarta prosperidad a la industria de la IA, y esta tendencia también se ha extendido a la industria de las criptomonedas.

Este informe explorará la historia del desarrollo de la industria de la IA, la clasificación de tecnologías y el impacto de la tecnología de aprendizaje profundo en la industria. Se analizará en profundidad el estado actual y las tendencias del desarrollo de la cadena de suministro en el aprendizaje profundo, incluyendo GPU, computación en la nube, fuentes de datos y dispositivos de borde. Se explorará esencialmente la relación entre las criptomonedas y la industria de la IA, y se organizará el patrón de la cadena de suministro de IA relacionada con las criptomonedas.

Introducción para nuevos usuarios丨AI x Crypto: De cero a la cima

La historia del desarrollo de la industria de la IA

La industria de la IA comenzó en la década de 1950. Para lograr la visión de la inteligencia artificial, el mundo académico y la industria han desarrollado diversas corrientes para implementar la inteligencia artificial en diferentes épocas y contextos disciplinarios.

La tecnología moderna de inteligencia artificial utiliza principalmente el término "aprendizaje automático", cuyo concepto es permitir que las máquinas mejoren el rendimiento del sistema mediante iteraciones repetidas basadas en datos en tareas. Los pasos principales son enviar datos al algoritmo, utilizar esos datos para entrenar el modelo, probar y desplegar el modelo, y usar el modelo para completar tareas de predicción automatizadas.

Actualmente, el aprendizaje automático tiene tres principales corrientes: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso, el pensamiento y el comportamiento humano.

Actualmente, el conexionismo representado por redes neuronales domina ( también conocido como aprendizaje profundo ). La razón principal es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y neuronas ( y sus parámetros ) se vuelve suficientemente grande, hay suficientes oportunidades para ajustar tareas generales complejas. A través de la entrada de datos, se pueden ajustar continuamente los parámetros de las neuronas, y después de pasar por múltiples datos, esa neurona alcanzará su estado óptimo ( parámetros ), de ahí proviene el término "profundo" — un número suficiente de capas y neuronas.

Por ejemplo, se puede entender simplemente como la construcción de una función, donde al ingresar X=2, Y=3; y al ingresar X=3, Y=5. Si se desea que esta función sea válida para todos los X, entonces es necesario seguir añadiendo el grado de la función y sus parámetros. Por ejemplo, se puede construir una función que satisfaga estas condiciones como Y = 2X - 1. Sin embargo, si hay un dato donde X=2, Y=11, será necesario reconstruir una función adecuada para estos tres puntos de datos. Al utilizar GPU para un ataque de fuerza bruta, se descubre que Y = X2 - 3X + 5 es bastante adecuada, aunque no necesita coincidir completamente con los datos, solo debe cumplir con el equilibrio y proporcionar una salida aproximadamente similar. En esto, X2, X y X0 representan diferentes neuronas, mientras que 1, -3 y 5 son sus parámetros.

En este momento, si introducimos una gran cantidad de datos en la red neuronal, podemos aumentar los neuronas y ajustar los parámetros para ajustar los nuevos datos. De esta manera, podemos ajustar todos los datos.

La tecnología de aprendizaje profundo basada en redes neuronales también ha tenido múltiples iteraciones y evoluciones, desde las primeras redes neuronales, redes neuronales de retroalimentación, RNN, CNN, GAN, hasta la evolución hacia modelos grandes modernos como el Transformer utilizado por GPT. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, que añade un convertidor ( Transformer ), para codificar los datos de todos los modos ( como audio, video, imágenes, etc. ) en valores numéricos correspondientes para su representación. Luego, se ingresan en la red neuronal, permitiendo que la red neuronal ajuste cualquier tipo de dato, logrando así la multimodalidad.

El desarrollo de la IA ha pasado por tres oleadas tecnológicas. La primera oleada fue en la década de 1960, diez años después de que se propusiera la tecnología de IA. Esta oleada fue provocada por el desarrollo de la tecnología del simbolismo, que resolvió problemas de procesamiento de lenguaje natural y de diálogo entre humanos y máquinas. En la misma época, surgieron los sistemas expertos, que son sistemas completos de expertos en química. Este sistema posee un amplio conocimiento químico y deduce respuestas similares a las de un experto en química a partir de preguntas. Este sistema experto en química puede considerarse como una combinación de una base de conocimientos químicos y un sistema de inferencia.

Después de los sistemas expertos, en la década de 1990, Judea Pearl ( propuso las redes bayesianas, que también se conocen como redes de creencias. En la misma época, Brooks propuso la robótica basada en el comportamiento, marcando el nacimiento del conductismo.

En 1997, la Deep Blue de IBM venció al campeón de ajedrez Garry Kasparov por 3.5:2.5, esta victoria se considera un hito en la inteligencia artificial, marcando el auge de la segunda fase de desarrollo de la tecnología de IA.

La tercera ola de la tecnología AI ocurrió en 2006. Los tres grandes de deep learning, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de deep learning, un algoritmo basado en redes neuronales artificiales para el aprendizaje de representaciones de datos. Posteriormente, los algoritmos de deep learning evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion, estos dos algoritmos moldearon conjuntamente esta tercera ola tecnológica, y también fue la época dorada del conexionismo.

Muchos eventos icónicos también han surgido gradualmente junto con la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:

  • En 2011, Watson) de IBM ganó el campeonato en el programa de preguntas y respuestas "Jeopardy(" al vencer a humanos.

  • En 2014, Goodfellow propuso la red generativa adversarial GAN), Generative Adversarial Network(, que aprende a generar fotos indistinguibles de las reales mediante el enfrentamiento de dos redes neuronales. Al mismo tiempo, Goodfellow también escribió un libro titulado "Deep Learning", conocido como el libro de las flores, que es uno de los libros de introducción más importantes en el campo del aprendizaje profundo.

  • En 2015, Hinton y otros propusieron un algoritmo de aprendizaje profundo en la revista "Nature", lo que provocó una gran repercusión en el ámbito académico y en la industria.

  • En 2015, OpenAI fue creado y varios inversores conocidos anunciaron una inversión conjunta de 1000 millones de dólares.

  • En 2016, AlphaGo, basado en tecnología de aprendizaje profundo, compitió contra el campeón mundial de Go y jugador profesional de novena dan, Lee Sedol, ganando con un marcador total de 4 a 1.

  • En 2017, una empresa de tecnología robótica desarrolló un robot humanoide llamado Sofía, que fue el primero en la historia en obtener la ciudadanía de primer nivel, con una rica capacidad de expresiones faciales y comprensión del lenguaje humano.

  • En 2017, Google publicó el documento "Attention is all you need" que propuso el algoritmo Transformer, comenzando la aparición de modelos de lenguaje a gran escala.

  • En 2018, OpenAI lanzó el GPT) Generative Pre-trained Transformer(, construido sobre el algoritmo Transformer, que era uno de los modelos de lenguaje más grandes de su tiempo.

  • En 2018, el equipo de Google Deepmind lanzó AlphaGo basado en aprendizaje profundo, que puede predecir la estructura de proteínas, y se considera un gran hito en el campo de la inteligencia artificial.

  • En 2019, OpenAI lanzó GPT-2, que cuenta con 1.5 mil millones de parámetros.

  • En 2020, OpenAI desarrolló GPT-3, que tiene 175 mil millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo utilizó 570 GB de texto para su entrenamiento y puede alcanzar un rendimiento de vanguardia en múltiples tareas de procesamiento de lenguaje natural, incluyendo preguntas y respuestas, traducción y redacción de artículos.

  • En 2021, OpenAI lanzó GPT-4, que cuenta con 1.76 billones de parámetros, 10 veces más que GPT-3.

  • En enero de 2023 se lanzó la aplicación ChatGPT basada en el modelo GPT-4, y en marzo ChatGPT alcanzó cien millones de usuarios, convirtiéndose en la aplicación que más rápido ha llegado a cien millones de usuarios en la historia.

![Introducción para nuevos usuarios丨AI x Crypto: De cero a la cima])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(

Cadena de industria de aprendizaje profundo

Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo basados en redes neuronales. Los grandes modelos encabezados por GPT han generado una ola de entusiasmo en la inteligencia artificial, atrayendo a numerosos jugadores a este campo. También hemos observado una explosión en la demanda del mercado por datos y potencia de cálculo. Por lo tanto, en esta parte del informe, exploramos la cadena de valor de los algoritmos de aprendizaje profundo, cómo se componen las partes superior e inferior de la industria de la IA dominada por algoritmos de aprendizaje profundo, y cuál es el estado actual de la cadena de suministro y la demanda, así como su desarrollo futuro.

Primero necesitamos aclarar que, al realizar el entrenamiento de grandes modelos LLMs) encabezados por GPT basados en la tecnología Transformer(, se divide en tres pasos.

Antes del entrenamiento, dado que se basa en Transformer, el convertidor necesita transformar la entrada de texto en valores numéricos, este proceso se llama "Tokenization". Después, estos valores se conocen como Tokens. Bajo la regla general, una palabra o carácter en inglés puede considerarse aproximadamente como un Token, mientras que cada carácter chino puede ser considerado aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.

Primer paso, preentrenamiento. Al proporcionar suficientes pares de datos a la capa de entrada, similar a los ejemplos dados en la primera parte del informe )X,Y(, se busca encontrar los mejores parámetros para cada neurona en el modelo. En este momento, se necesita una gran cantidad de datos, y este proceso también es el que más poder computacional consume, ya que implica iterar repetidamente las neuronas probando varios parámetros. Después de completar el entrenamiento de un lote de pares de datos, generalmente se utiliza el mismo lote de datos para un segundo entrenamiento para iterar los parámetros.

El segundo paso, el ajuste fino. El ajuste fino consiste en proporcionar un conjunto de datos más pequeño pero de muy alta calidad para el entrenamiento; este cambio hará que la salida del modelo tenga una calidad más alta, ya que el preentrenamiento requiere una gran cantidad de datos, pero muchos de estos datos pueden contener errores o ser de baja calidad. El paso de ajuste fino puede mejorar la calidad del modelo a través de datos de alta calidad.

El tercer paso, el aprendizaje por refuerzo. Primero se establecerá un modelo completamente nuevo, que llamamos "modelo de recompensa". El propósito de este modelo es muy simple: clasificar los resultados de salida, por lo que implementar este modelo será relativamente sencillo, ya que el escenario empresarial es bastante vertical. Luego, utilizamos este modelo para determinar si la salida de nuestro modelo grande es de alta calidad, de esta manera podemos usar un modelo de recompensa para iterar automáticamente los parámetros del modelo grande. ) Sin embargo, a veces también se necesita la participación humana para evaluar la calidad de la salida del modelo (.

En resumen, durante el proceso de entrenamiento de grandes modelos, el preentrenamiento tiene una demanda muy alta de la cantidad de datos, y también requiere la mayor potencia de cálculo de GPU, mientras que el ajuste fino necesita datos de mayor calidad para mejorar los parámetros. El aprendizaje por refuerzo puede iterar los parámetros repetidamente a través de un modelo de recompensa para producir resultados de mayor calidad.

Durante el proceso de entrenamiento, cuántos más parámetros haya, mayor será el techo de su capacidad de generalización. Por ejemplo, en el caso del ejemplo de función Y = aX + b, en realidad hay dos neuronas X y X0, por lo tanto, cómo cambian los parámetros limita enormemente los datos que se pueden ajustar, porque su esencia sigue siendo una línea recta. Si hay más neuronas, se pueden iterar más parámetros, lo que permite ajustar más datos. Esta es la razón por la cual los grandes modelos producen milagros, y también es por eso que se les llama comúnmente grandes modelos; en esencia, son enormes cantidades de neuronas y parámetros, así como grandes cantidades de datos, lo que también requiere una gran cantidad de poder de cálculo.

Por lo tanto, el rendimiento de los grandes modelos se determina principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la capacidad de cálculo. Estos tres influyen conjuntamente en la calidad de los resultados y la capacidad de generalización del modelo. Supongamos que la cantidad de parámetros es p, la cantidad de datos es n) calculada en función del número de tokens(, entonces podemos calcular la cantidad de cálculo necesaria a través de reglas generales, lo que nos permitirá estimar aproximadamente la capacidad de cálculo que necesitamos comprar y el tiempo de entrenamiento.

La potencia de cálculo generalmente se mide en Flops, que representa una operación de punto flotante. Las operaciones de punto flotante son el término general para la suma, resta, multiplicación y división de números no enteros, como 2.5 + 3.557; el punto flotante representa la capacidad de tener decimales, mientras que FP16 representa la precisión que admite decimales, y FP32 es una precisión más común. Según la regla empírica en la práctica, el preentrenamiento )Pre-traning( una ) generalmente se entrena varias veces ( un gran modelo, que aproximadamente requiere 6np Flops, donde 6 se conoce como constante de la industria. Y la inferencia )Inference, es el proceso en el que ingresamos un dato y esperamos la salida del gran modelo (, que se divide en dos partes: se ingresan n tokens y se generan n tokens de salida, por lo que se necesitan aproximadamente 2np Flops en total.

En los primeros días, se utilizaban chips de CPU para el entrenamiento y el soporte de potencia de cálculo, pero luego se comenzó a reemplazarlos gradualmente por GPU, como ciertos chips de GPU de alto rendimiento. Esto se debe a que la CPU existe como un cálculo general, mientras que la GPU puede funcionar como un cálculo específico, superando con creces a la CPU en eficiencia energética. La GPU realiza cálculos de punto flotante principalmente a través de un módulo llamado Tensor Core.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • Compartir
Comentar
0/400
MEVHunterZhangvip
· 07-11 22:51
alcista de 干就完了
Ver originalesResponder0
PaperHandsCriminalvip
· 07-11 21:32
La verdadera innovación está por delante
Ver originalesResponder0
MindsetExpandervip
· 07-11 06:08
El futuro ha llegado al principio
Ver originalesResponder0
TommyTeacher1vip
· 07-09 14:25
La tecnología trae poder real
Ver originalesResponder0
MidsommarWalletvip
· 07-09 14:25
¿Ya has visto la cima?
Ver originalesResponder0
DefiPlaybookvip
· 07-09 14:23
El futuro es prometedor, la innovación empodera.
Ver originalesResponder0
BugBountyHuntervip
· 07-09 14:21
El camino de la tecnología merece ser esperado.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)