AI x Activos Cripto:de desarrollo tecnológico a análisis panorámico de la cadena de producción

IA x Cripto: De cero a la cima

Introducción

El desarrollo reciente de la industria de la inteligencia artificial ha sido visto por algunos como la cuarta revolución industrial. La aparición de grandes modelos ha mejorado significativamente la eficiencia en diversas industrias, estimándose que ha aumentado en aproximadamente un 20% la eficiencia laboral en Estados Unidos. Al mismo tiempo, la capacidad de generalización que traen los grandes modelos se considera un nuevo paradigma de diseño de software; en comparación con el diseño de código preciso del pasado, el diseño de software actual se basa más en la incorporación de marcos de grandes modelos generalizados, que pueden ofrecer un mejor rendimiento y admitir entradas y salidas de modalidades más amplias. La tecnología de aprendizaje profundo ha traído una nueva ola de prosperidad a la industria de la IA, y esta tendencia también se ha extendido a la industria de las criptomonedas.

Este informe explorará en detalle la historia del desarrollo de la industria de la IA, la clasificación de tecnologías y el impacto de la tecnología de aprendizaje profundo en la industria. Luego, se analizará en profundidad el estado actual y las tendencias del desarrollo de la cadena industrial upstream y downstream en el aprendizaje profundo, incluyendo GPU, computación en la nube, fuentes de datos y dispositivos de borde. Finalmente, se explorará esencialmente la relación entre las criptomonedas y la industria de la IA, organizando la estructura de la cadena industrial de IA relacionada con las criptomonedas.

Nuevo Conocimiento丨AI x Crypto: De Cero a la Cima

Historia del desarrollo de la industria de la IA

La industria de la IA comenzó en la década de 1950; para lograr la visión de la inteligencia artificial, el mundo académico y la industria han desarrollado diversas escuelas de pensamiento en diferentes épocas y contextos disciplinarios.

La tecnología moderna de inteligencia artificial utiliza principalmente el término "aprendizaje automático", cuyo concepto es permitir que las máquinas iteren repetidamente en tareas basándose en datos para mejorar el rendimiento del sistema. Los pasos principales son enviar datos al algoritmo, utilizar estos datos para entrenar un modelo, probar y desplegar el modelo, y utilizar el modelo para completar tareas de predicción automatizada.

Actualmente, hay tres principales corrientes en el aprendizaje automático: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso, el pensamiento y el comportamiento humano.

Actualmente, el conexionismo representado por redes neuronales domina ( también conocido como aprendizaje profundo ), la principal razón es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y neuronas ( y los parámetros ) son suficientes, hay suficientes oportunidades para ajustar tareas generales complejas. A través de la entrada de datos, se pueden ajustar constantemente los parámetros de las neuronas, y después de múltiples datos, las neuronas alcanzarán su estado óptimo ( parámetros ), que es también de donde proviene su "profundidad" - un número suficiente de capas y neuronas.

La tecnología de aprendizaje profundo basada en redes neuronales también ha tenido múltiples iteraciones y evoluciones, desde las primeras redes neuronales, pasando por las redes neuronales de alimentación hacia adelante, RNN, CNN, GAN, hasta evolucionar hacia los modernos modelos grandes como el GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, que agrega un convertidor para codificar todos los datos de diferentes modalidades (, como audio, video, imágenes, etc. ) en valores numéricos correspondientes para representarlos. Luego, estos datos se ingresan en la red neuronal, de modo que la red neuronal puede ajustar cualquier tipo de datos, lo que permite la multimodalidad.

Nuevo conocimiento丨AI x Crypto: De cero a la cima

El desarrollo de la IA ha pasado por tres oleadas tecnológicas:

La primera ola fue en la década de 1960, diez años después de que se propusiera la tecnología de IA. Esta ola fue provocada por el desarrollo de tecnologías de simbolismo, que resolvieron problemas de procesamiento de lenguaje natural en general y de diálogo entre humanos y máquinas. En ese mismo período, nacieron los sistemas expertos, que son sistemas con un conocimiento químico muy sólido, capaces de inferir respuestas similares a las de un experto en química a través de preguntas.

La segunda ola de tecnología de IA ocurrió en 1997, cuando IBM Deep Blue venció al campeón de ajedrez Kasparov con un marcador de 3.5:2.5, y esta victoria se considera un hito en la inteligencia artificial.

La tercera ola de tecnología de IA ocurrió en 2006. Los tres gigantes del aprendizaje profundo propusieron el concepto de aprendizaje profundo, un algoritmo basado en redes neuronales artificiales que realiza el aprendizaje de representaciones de datos. Posteriormente, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion, estos algoritmos juntos moldearon la tercera ola tecnológica, así como el apogeo del conexionismo.

Muchos eventos emblemáticos también han ido surgiendo gradualmente junto con la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:

  • En 2011, Watson de IBM ganó el campeonato en el programa de preguntas "Jeopardy!" al vencer a humanos.

  • En 2014, Goodfellow propuso GAN, que permite aprender generando fotos casi indistinguibles de las reales mediante el juego entre dos redes neuronales.

  • En 2015, Hinton y otros propusieron algoritmos de aprendizaje profundo en la revista "Nature", lo que provocó una gran repercusión en el ámbito académico y en la industria.

  • En 2015, se fundó OpenAI, recibiendo una inversión de 1.000 millones de dólares.

  • En 2016, AlphaGo, basado en tecnología de aprendizaje profundo, se enfrentó a Lee Sedol en una batalla de go entre humanos y máquinas, ganando 4:1.

  • En 2017, Google publicó el artículo "Attention is all you need" que propuso el algoritmo Transformer, comenzando la aparición de modelos de lenguaje a gran escala.

  • En 2018, OpenAI lanzó GPT, un modelo de lenguaje construido sobre el algoritmo Transformer, que era uno de los más grandes en ese momento.

  • En 2019, OpenAI lanzó GPT-2, que tiene 1.5 mil millones de parámetros.

  • En 2020, OpenAI desarrolló GPT-3 con 175 mil millones de parámetros, 100 veces más que GPT-2.

  • En 2021, OpenAI lanzó GPT-4, que cuenta con 1.76 billones de parámetros, siendo 10 veces más que GPT-3.

  • La aplicación ChatGPT basada en el modelo GPT-4 se lanzó en enero de 2023 y alcanzó cien millones de usuarios en marzo, convirtiéndose en la aplicación que más rápido ha alcanzado los cien millones de usuarios en la historia.

Nuevos conceptos丨AI x Crypto: De cero a la cima

Cadena industrial de aprendizaje profundo

Actualmente, los modelos de lenguaje grandes utilizan métodos de aprendizaje profundo basados en redes neuronales. Con GPT a la cabeza, los grandes modelos han generado una ola de entusiasmo por la inteligencia artificial, atrayendo a numerosos jugadores a este campo, lo que ha provocado una gran demanda de datos y poder computacional en el mercado. Por lo tanto, en esta parte del informe, exploraremos principalmente la cadena de suministro de los algoritmos de aprendizaje profundo. En la industria de la IA dominada por algoritmos de aprendizaje profundo, ¿cómo están compuestos sus flujos de suministro y demanda? ¿Cuál es el estado actual de estos flujos y sus relaciones de oferta y demanda, así como su futuro desarrollo?

Primero es necesario aclarar que, al entrenar grandes modelos como GPT basados en la tecnología Transformer, se divide en tres pasos.

Antes del entrenamiento, debido a que se basa en Transformer, el convertidor necesita transformar la entrada de texto en valores numéricos, este proceso se denomina "Tokenización", y después estos valores se llaman Token. En general, una palabra o carácter en inglés se puede considerar aproximadamente como un Token, mientras que cada carácter chino se puede considerar aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.

Primer paso, preentrenamiento. A través de proporcionar suficientes pares de datos a la capa de entrada, se busca los mejores parámetros para cada neurona del modelo. Este proceso requiere una gran cantidad de datos y es el más intensivo en cómputo, ya que se deben iterar repetidamente las neuronas intentando varios parámetros. Una vez completado el entrenamiento de un lote de pares de datos, generalmente se usa el mismo lote de datos para un segundo entrenamiento con el fin de iterar los parámetros.

El segundo paso, ajuste fino. El ajuste fino consiste en proporcionar un conjunto de datos más pequeño pero de muy alta calidad para el entrenamiento; este cambio permitirá que la salida del modelo tenga una mayor calidad, ya que el preentrenamiento requiere una gran cantidad de datos, pero muchos de esos datos pueden contener errores o ser de baja calidad. El paso de ajuste fino puede mejorar la calidad del modelo a través de datos de alta calidad.

El tercer paso es el aprendizaje por refuerzo. Primero se establecerá un nuevo modelo, llamado "modelo de recompensa", cuyo objetivo es muy simple: clasificar los resultados de salida. Luego, se utilizará este modelo para determinar si la salida del modelo grande es de alta calidad, de esta manera se puede usar un modelo de recompensa para iterar automáticamente los parámetros del modelo grande. ( Pero a veces también se necesita la participación humana para evaluar la calidad de la salida del modelo ).

En resumen, durante el proceso de entrenamiento de un modelo grande, el preentrenamiento tiene una demanda muy alta de cantidad de datos, y la potencia de cálculo de GPU requerida es la máxima, mientras que el ajuste fino necesita datos de mayor calidad para mejorar los parámetros; el aprendizaje por refuerzo puede iterar repetidamente los parámetros a través de un modelo de recompensa para producir resultados de mayor calidad.

Durante el proceso de entrenamiento, cuanto más parámetros hay, mayor es el techo de su capacidad de generalización. Por lo tanto, el rendimiento de los grandes modelos está determinado principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la potencia de cálculo; estos tres influyen en la calidad de los resultados del gran modelo y en su capacidad de generalización.

Supongamos que la cantidad de parámetros es p y la cantidad de datos es n(, calculando en función de la cantidad de Token), entonces podemos calcular la cantidad de computación necesaria a través de una regla general, lo que nos permitirá estimar la situación de la potencia de cálculo que se necesita comprar y el tiempo de entrenamiento.

La potencia de cálculo generalmente se mide en Flops, que representa una operación de punto flotante. Según la regla empírica de la práctica, preentrenar un gran modelo requiere aproximadamente 6np Flops, donde 6 se considera una constante de la industria. Y la inferencia (Inference, es el proceso en el que ingresamos un dato y esperamos la salida del gran modelo ), dividido en dos partes: ingresar n tokens y salir n tokens, por lo que se necesitan aproximadamente 2np Flops en total.

En los primeros días, se utilizaban chips de CPU para proporcionar soporte de cálculo, pero luego comenzaron a sustituirse gradualmente por GPUs, como los chips A100 y H100 de Nvidia. Esto se debe a que la CPU está diseñada para cálculos generales, mientras que la GPU puede realizar cálculos especializados, superando con creces a la CPU en eficiencia energética. La GPU realiza operaciones de punto flotante principalmente a través de un módulo llamado Tensor Core. Por lo tanto, los chips generales tienen datos de Flops bajo precisiones FP16 / FP32, que representan su capacidad de cálculo principal y son uno de los principales indicadores de rendimiento del chip.

Podemos ver que esta enorme cantidad de cálculos requiere que varias chips de última generación trabajen juntos para lograr un preentrenamiento. Además, la cantidad de parámetros de GPT-4 es diez veces mayor que la de GPT-3, lo que significa que incluso si la cantidad de datos se mantiene constante, se necesitará comprar diez veces más chips. Además, la cantidad de tokens de GPT-4 es de 13 billones, que también es diez veces más que la de GPT-3. En última instancia, GPT-4 podría necesitar más de cien veces la capacidad de cálculo de chips.

En el entrenamiento de grandes modelos, el almacenamiento de datos también es un problema, debido a la enorme cantidad de datos, y como la memoria de la GPU generalmente es pequeña, cuando el espacio de memoria no puede acomodar estos datos, es necesario examinar el ancho de banda del chip, es decir, la velocidad de transferencia de datos del disco duro a la memoria. Al mismo tiempo, dado que no solo utilizaremos un chip, necesitamos usar métodos de aprendizaje colaborativo, donde múltiples chips de GPU entrenan juntos un gran modelo, lo que implica la tasa de transferencia entre GPUs. Por lo tanto, muchas veces, los factores o costos que limitan la práctica del entrenamiento del modelo final no son necesariamente la capacidad de cálculo del chip, sino que más a menudo puede ser el ancho de banda del chip. Debido a que la transferencia de datos es lenta, esto puede llevar a un aumento en el tiempo de ejecución del modelo, lo que incrementará los costos de energía.

Nuevo Conocimiento丨AI x Crypto: De Cero a la Cima

La relación entre Crypto y AI

La blockchain se beneficia del desarrollo de la tecnología ZK, evolucionando hacia la idea de descentralización + desconfianza. Regresamos al inicio de la creación de la blockchain, que es la cadena de Bitcoin. En el artículo de Satoshi Nakamoto, se le llama primero un sistema de transferencia de valor desconfianzado. Luego se lanzó una plataforma de contratos inteligentes descentralizada, desconfianzada y de intercambio de valor.

Volver a lo esencial, creemos que toda la red blockchain es una red de valor, cada transacción es una conversión de valor basada en el token subyacente. Aquí, el valor se manifiesta en forma de Token, y la Tokenomics son las reglas específicas que reflejan el valor de ese Token.

En el internet tradicional, la generación de valor se liquida mediante P/E, y se manifiesta en una forma final, que es el precio de las acciones. Todo el tráfico, valor e influencia se convierte en el flujo de caja de la empresa; este flujo de caja es la última manifestación del valor, que finalmente se convierte en P/E y se refleja en el precio de las acciones y en la capitalización de mercado.

Sin embargo, para la red de Ethereum, ETH representa múltiples dimensiones del valor de la red de Ethereum. No solo puede generar flujos de efectivo estables a través del staking, sino que también actúa como medio de intercambio de valor, medio de almacenamiento de valor y bien de consumo en actividades de la red. Además, también actúa como capa de protección de seguridad para el Restaking, las tarifas de Gas del sistema Layer2, entre otros.

La tokenómica es muy importante, la economía de tokens puede definir el activo de liquidación del ecosistema (, que es el token nativo de la red ) y su valor relativo. Aunque no podamos establecer un precio para cada dimensión, tenemos una representación del valor multidimensional, que es el precio del token. Este valor supera con creces la forma de existencia de los valores de la empresa. Una vez que se asigna un token a la red y se permite la circulación de dicho token, al igual que todos los Q coins de Tencent, hay una cantidad limitada y un mecanismo de deflación e inflación.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Compartir
Comentar
0/400
notSatoshi1971vip
· hace1h
Un artículo revolucionario
Ver originalesResponder0
GameFiCriticvip
· 07-18 03:40
Nueva tendencia de doble golpe técnico
Ver originalesResponder0
NeverPresentvip
· 07-18 03:40
Profundidad análisis obligatorio
Ver originalesResponder0
fren_with_benefitsvip
· 07-18 03:38
El futuro ya ha llegado y brilla intensamente
Ver originalesResponder0
ProposalManiacvip
· 07-18 03:36
La tecnología siempre está en camino.
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)