Revolución de datos de IA: el auge de los datos on-chain y la era de DataFi

La próxima década de la industria de IA: de la potencia computacional a los datos

El tamaño de los parámetros y la potencia computacional de los modelos de inteligencia artificial (IA) han crecido de manera exponencial en los últimos años, pero un núcleo de limitación que ha sido ignorado está comenzando a manifestarse: los datos. A medida que el tamaño del modelo supera los billones de parámetros y la potencia computacional se mide en cientos de billones de operaciones de punto flotante por segundo (FLOPS), el mayor desafío que enfrenta la industria de la IA ya no es la arquitectura del modelo o la potencia computacional de los chips, sino cómo convertir los datos de comportamiento humano fragmentados en recursos verificables, estructurados y listos para la IA.

Esta percepción revela las contradicciones estructurales en el desarrollo actual de la IA, al mismo tiempo que esboza un nuevo panorama de la "era DataFi". En esta era, los datos ya no son un subproducto de la tecnología, sino un factor de producción central que es medible, comerciable y capaz de generar valor, al igual que la electricidad y la Potencia computacional.

Las contradicciones estructurales de la industria de la IA: de la competencia por la potencia computacional a la escasez de datos

El desarrollo de la IA ha sido impulsado a largo plazo por el doble núcleo "modelo-potencia computacional". Desde la revolución del aprendizaje profundo, los parámetros del modelo han pasado de millones (como AlexNet en 2012) a billones (como GPT-4), y la demanda de potencia computacional ha crecido de manera exponencial. El costo de entrenar un modelo de lenguaje grande y avanzado ha superado los 100 millones de dólares, de los cuales el 90% se destina al alquiler de clústeres de GPU. Sin embargo, mientras la industria centra su atención en "modelos más grandes" y "chips más rápidos", una crisis silenciosa del lado de la oferta de datos está llegando.

Los "datos orgánicos" generados por la humanidad han alcanzado un techo de crecimiento. Tomando como ejemplo los datos textuales, la cantidad total de texto de alta calidad disponible en la internet (libros, artículos, noticias) es de aproximadamente 10^12 palabras, mientras que el entrenamiento de un modelo de mil millones de parámetros requiere aproximadamente datos a nivel de 10^13 palabras. Esto significa que el actual conjunto de datos solo puede soportar el entrenamiento de 10 modelos de igual escala. Más grave aún, la proporción de datos duplicados y contenido de baja calidad supera el 60%, lo que comprime aún más la oferta de datos efectivos. Cuando los modelos comienzan a "devorar" los datos que ellos mismos generan, el deterioro del rendimiento del modelo causado por la "contaminación de datos" se ha convertido en una preocupación latente en la industria.

La raíz de esta contradicción radica en que la industria de la IA ha considerado los datos como "recursos gratuitos" a largo plazo, en lugar de "activos estratégicos" que necesitan ser cuidadosamente cultivados. Los modelos y la Potencia computacional han formado un sistema de mercado maduro, pero la producción, limpieza, verificación y transacción de datos aún se encuentran en la "era salvaje". La próxima década de la IA será la década de la "infraestructura de datos", y los datos en cadena de las redes criptográficas son la clave para desbloquear esta situación.

Datos en cadena: la "base de datos de comportamiento humano" más necesaria para la IA

En el contexto de la escasez de datos, los datos en cadena de las redes de criptomonedas muestran un valor inigualable. En comparación con los datos del internet tradicional, los datos en cadena poseen inherentemente la autenticidad de la "alineación de incentivos". Cada transacción, cada interacción de contrato y cada comportamiento de dirección de billetera están directamente vinculados al capital real y son inalterables. Estos datos se definen como "los datos de comportamiento de alineación de incentivos humanos más concentrados en Internet", lo que se refleja en tres dimensiones:

  1. Señales de "intención" del mundo real: los datos en la cadena registran comportamientos de decisión votados con dinero real, reflejando directamente el juicio del usuario sobre el valor del proyecto, su preferencia de riesgo y su estrategia de asignación de fondos. Estos datos de "respaldo de capital" tienen un valor extremadamente alto para entrenar la capacidad de decisión de la IA.

  2. Cadena de "comportamiento" rastreable: La transparencia de la blockchain permite que las acciones de los usuarios sean completamente rastreables. El historial de transacciones de una dirección de billetera, los protocolos con los que ha interactuado y los cambios en los activos que posee, forman una "cadena de comportamiento" coherente. Estos datos de comportamiento estructurados son precisamente los "muestras de razonamiento humano" más escasas en los modelos de IA actuales.

  3. Acceso "sin licencia" a un ecosistema abierto: los datos en la cadena son abiertos y no requieren licencia. Cualquier desarrollador puede acceder a los datos originales a través de exploradores de blockchain o API de datos, lo que proporciona una fuente de datos "sin barreras" para el entrenamiento de modelos de IA. Sin embargo, los datos en la cadena existen en forma de "registros de eventos", son "señales originales" no estructuradas que necesitan ser limpiadas, normalizadas y correlacionadas para ser utilizadas por modelos de IA. Actualmente, la "tasa de conversión estructurada" de los datos en la cadena es inferior al 5%, y una gran cantidad de señales de alto valor se encuentran enterradas en miles de millones de eventos fragmentados.

Hyperdata Network: el "sistema operativo" de los datos en cadena

Para resolver el problema de la fragmentación de datos en la cadena, la industria ha propuesto el concepto de Hyperdata Network: un "sistema operativo inteligente en cadena" diseñado específicamente para la IA. Su objetivo principal es transformar las señales dispersas en la cadena en datos listos para la IA que sean estructurados, verificables y combinables en tiempo real.

Manuscrito:Estándares de datos abiertos

Uno de los mayores problemas de los datos en la cadena es "el desorden de formatos". Los registros de eventos de diferentes blockchains tienen formatos variados, y la estructura de datos de diferentes versiones de un mismo protocolo también puede cambiar. Manuscript, como un estándar de esquema de datos abierto, unifica la definición y la forma de descripción de los datos en la cadena. Por ejemplo, estandariza el "comportamiento de staking de usuarios" en un conjunto de datos estructurados que incluye campos como staker_address, protocol_id, amount, timestamp, reward_token, asegurando que los modelos de IA no necesiten adaptarse a los formatos de datos de diferentes cadenas o protocolos, y puedan "entender" directamente la lógica de negocio detrás de los datos.

Este valor estandarizado radica en la reducción de los costos de fricción en el desarrollo de IA. Basado en Manuscript, todos los datos en la cadena se han preprocesado de acuerdo a un estándar unificado, y los desarrolladores pueden acceder directamente a datos estructurados como "registros de participación de usuarios" y "registros de provisión de liquidez", lo que acorta significativamente el ciclo de entrenamiento del modelo.

Garantía de la confiabilidad de los datos

El requisito fundamental de los modelos de IA sobre los datos es la "credibilidad". Hyperdata Network garantiza la autenticidad de los datos a través del mecanismo AVS (Active Validator Set) de Ethereum. AVS es un componente de extensión de la capa de consenso de Ethereum, compuesto por nodos validador, que son responsables de verificar la integridad y precisión de los datos en la cadena. Cuando Hyperdata Network procesa un evento en la cadena, los nodos AVS validan cruzadamente los valores hash de los datos, la información de la firma y el estado en la cadena, asegurando que los datos estructurados generados sean completamente consistentes con los datos originales en la cadena.

Este mecanismo de verificación de "garantía de economía criptográfica" resuelve el problema de confianza de la verificación centralizada de datos tradicionales. La veracidad de los datos está respaldada por una red de verificadores descentralizados, y cualquier intento de manipulación activará el mecanismo de penalización del contrato inteligente.

Capa de disponibilidad de datos de alto rendimiento

Los modelos de IA, especialmente las aplicaciones de IA de interacción en tiempo real, requieren un suministro de datos de baja latencia y alta capacidad de procesamiento. La capa de Disponibilidad de Datos (DA) está diseñada específicamente para esta necesidad, optimizando los algoritmos de compresión de datos y los protocolos de transmisión para lograr el procesamiento en tiempo real de cientos de miles de eventos en la cadena por segundo. Por ejemplo, cuando se realiza una gran transacción en una plataforma, DA puede completar la extracción de datos, la normalización y la verificación en 1 segundo, y enviar la "señal de gran transacción" estructurada a los modelos de IA suscritos, permitiéndoles ajustar sus estrategias de trading a tiempo.

Detrás de la alta capacidad de procesamiento se encuentra una arquitectura modular. DA separa el almacenamiento de datos de la computación, el almacenamiento de datos es asumido por una red de nodos distribuidos, mientras que la computación se realiza a través de Rollup fuera de la cadena, evitando así el cuello de botella de rendimiento de la propia blockchain. Este diseño permite que Hyperdata Network pueda satisfacer las demandas de datos en tiempo real de aplicaciones de IA a gran escala.

Era DataFi: Cuando los datos se convierten en "capital" negociable

El objetivo final de Hyperdata Network es impulsar la industria de la IA hacia la era DataFi: los datos ya no son un "material de entrenamiento" pasivo, sino un "capital" activo que puede ser valorado, negociado y apreciado. La realización de esta visión depende de que Hyperdata Network transforme los datos en cuatro atributos fundamentales:

  1. Estructurado: de "señal original" a "activo utilizable". Los datos en cadena sin procesar son como "petróleo crudo", necesitan ser refinados para convertirse en "gasolina". Hyperdata Network transforma estos datos en datos estructurados a través de estándares, lo que permite que los datos sean llamados directamente por modelos de IA, tan simple como llamar a una interfaz API.

  2. Combinable: los "bloques de Lego" de los datos. Los datos estructurados se pueden combinar libremente como bloques de Lego. Por ejemplo, los desarrolladores pueden combinar "registros de participación de usuarios" con "datos de fluctuación de precios" y "volumen de menciones en redes sociales" para entrenar un "modelo de predicción del sentimiento del mercado DeFi". Esta combinabilidad expande enormemente los límites de aplicación de los datos.

  3. Verificable: "Endoso de crédito" de los datos. Los datos estructurados verificados generarán una "huella digital" única (valor hash), que se almacenará en la blockchain. Cualquier aplicación de IA o desarrollador que utilice esos datos podrá confirmar la autenticidad de los datos mediante la verificación del valor hash.

  4. Monetizable: la "monetización del valor" de los datos. En la era de DataFi, los proveedores de datos pueden monetizar datos estructurados directamente. Por ejemplo, un equipo desarrolló una "señal de alerta de vulnerabilidades de contratos inteligentes" analizando datos en la cadena, y puede empaquetar esa señal como un servicio API, cobrando por cada llamada. Los usuarios comunes también pueden autorizar el intercambio de sus datos en la cadena anonimizada y recibir recompensas en tokens de datos.

Conclusión: Revolución de datos, la próxima década de la IA

Cuando hablamos del futuro de la IA, a menudo nos enfocamos en el "nivel de inteligencia" de los modelos, pero descuidamos el "suelo de datos" que sustenta esa inteligencia. Hyperdata Network revela una verdad central: la evolución de la IA es, en esencia, la evolución de la infraestructura de datos. Desde la "limitación" de los datos generados por los humanos hasta el "descubrimiento de valor" de los datos en cadena, desde el "desorden" de las señales fragmentadas hasta el "orden" de los datos estructurados, desde los "recursos gratuitos" de los datos hasta los "activos de capital" de DataFi, Hyperdata Network está reconfigurando la lógica subyacente de la industria de la IA.

En esta era de DataFi, los datos se convertirán en el puente que conecta la IA con el mundo real. Los agentes de comercio perciben el sentimiento del mercado a través de datos en cadena, los dApps autónomos optimizan servicios mediante datos de comportamiento del usuario, y los usuarios comunes obtienen ingresos continuos a través de la compartición de datos. Al igual que la red eléctrica dio lugar a la revolución industrial, la Potencia computacional de la red dio lugar a la revolución de Internet, la Hyperdata Network está dando lugar a la "revolución de datos" de la IA.

Las aplicaciones nativas de IA de próxima generación no solo necesitan modelos o billeteras, sino también datos programables, sin necesidad de confianza y de alta calidad. Cuando los datos finalmente se les otorgue el valor que merecen, la IA podrá liberar verdaderamente el poder de cambiar el mundo.

ETH-2.43%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 6
  • Republicar
  • Compartir
Comentar
0/400
GateUser-3824aa38vip
· hace11h
Esto se ha vuelto difícil, los datos ya están siendo acumulados.
Ver originalesResponder0
SmartContractPlumbervip
· 08-14 16:58
La filtración de datos privados también es una gran vulnerabilidad, tan peligrosa como la reentrada de contratos inteligentes.
Ver originalesResponder0
governance_ghostvip
· 08-14 16:53
Los datos son el nuevo petróleo, ¿verdad? 草
Ver originalesResponder0
MultiSigFailMastervip
· 08-14 16:50
No escuches las exageraciones, los datos no son más que el medicamento para prolongar la vida de las tarjetas gráficas que se dice ahora.
Ver originalesResponder0
airdrop_whisperervip
· 08-14 16:48
Los datos y la potencia computacional se enfrentan, la potencia computacional no puede ganar.
Ver originalesResponder0
ThreeHornBlastsvip
· 08-14 16:35
Los datos son el hermano mayor, la Potencia computacional es el hermano menor.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)