Следующие десять лет в AI-индустрии: от Вычислительной мощностью к данным
Параметры моделей искусственного интеллекта (ИИ) и вычислительная мощность в последние годы растут экспоненциально, но одна игнорируемая основная проблема постепенно становится очевидной — данные. С ростом масштаба моделей до триллионов параметров и вычислительной мощности, измеряемой в сотнях миллиардов операций в секунду (FLOPS), главной проблемой, с которой сталкивается индустрия ИИ, больше не является архитектура модели или вычислительная мощность чипов, а то, как преобразовать фрагментированные данные человеческого поведения в проверяемые, структурированные ресурсы, готовые для ИИ.
Это понимание раскрывает структурные противоречия текущего развития ИИ, одновременно描绘вая новый пейзаж эпохи "DataFi". В этой эпохе данные больше не являются побочным продуктом технологий, а становятся основным производственным фактором, который можно измерять, торговать и увеличивать, как электричество и Вычислительная мощность.
Структурные противоречия в AI-индустрии: от соревнования вычислительной мощности до голода данных
Развитие ИИ долгое время двигалось вдвух направлениях: "модель-вычислительная мощность". С момента революции глубокого обучения параметры модели выросли с миллиона (например, AlexNet 2012 года) до триллионов (например, GPT-4), при этом потребность в вычислительной мощности увеличивается экспоненциально. Стоимость обучения современно большого языкового модели превысила 100 миллионов долларов, из которых 90% идет на аренду кластеров GPU. Однако, когда отрасль сосредоточила внимание на "более больших моделях" и "более быстрых чипах", на горизонте незаметно назревает кризис предложения данных.
Сгенерированные человечеством "органические данные" достигли потолка роста. Например, в случае текстовых данных, общее количество высококачественных текстов (книг, статей, новостей), доступных для парсинга в Интернете, составляет около 10^12 слов, тогда как для обучения модели с миллиардом параметров необходимо около 10^13 слов данных. Это означает, что существующий пул данных может поддерживать обучение лишь 10 моделей одинакового масштаба. Более того, доля повторяющихся данных и низкокачественного контента превышает 60%, что еще больше сжимает предложение эффективных данных. Когда модели начинают "поглощать" данные, созданные ими самими, "загрязнение данных" приводит к деградации производительности моделей и становится беспокойством в отрасли.
Корень этого противоречия заключается в том, что в индустрии ИИ данные долгое время рассматривались как "бесплатный ресурс", а не как "стратегический актив", требующий тщательного ухода. Модели и вычислительная мощность уже образовали зрелую рыночную систему, но производство, очистка, верификация и торговля данными все еще находятся в "первобытной эпохе". Следующее десятилетие ИИ станет десятилетием "инфраструктуры данных", и данные на крипто-сетях станут ключом к решению этой проблемы.
Данные на цепочке: "База данных человеческого поведения", которую AI нуждается больше всего
На фоне дефицита данных, ончейн данные криптосетей демонстрируют неоспоримую ценность. По сравнению с традиционными интернет-данными, ончейн данные обладают подлинностью, естественно имеющей "выравнивание стимулов". Каждая транзакция, каждое взаимодействие с контрактом, каждое действие адреса кошелька напрямую связано с реальным капиталом и не подлежит изменению. Эти данные определяются как "самые концентрированные данные о человеческом поведении с выравниванием стимулов в Интернете", что конкретно проявляется в трех измерениях:
Реальные "сигналы намерений": данные на блокчейне фиксируют решения, основанные на голосовании реальными деньгами, что напрямую отражает оценку пользователем ценности проекта, его склонность к риску и стратегию распределения капитала. Такие данные, "подтвержденные капиталом", имеют высокую ценность для обучения способности принятия решений AI.
Прослеживаемая "цепочка действий": прозрачность блокчейна позволяет полностью отслеживать действия пользователей. Исторические транзакции адреса кошелька, взаимодействовавшие протоколы, изменения в удерживаемых активах составляют связную "цепочку действий". Эти структурированные данные о действиях являются самыми дефицитными "образцами человеческого рассуждения" для современных AI моделей.
Открытая экосистема "без разрешений": данные в цепочке открыты и не требуют разрешений. Любой разработчик может получить исходные данные через блокчейн-браузер или API данных, что предоставляет AI моделям "беспредельный" источник данных. Однако данные в цепочке существуют в форме "журналов событий", являются неструктурированными "исходными сигналами" и требуют очистки, стандартизации и связи для использования AI моделями. В настоящее время "структурированная конверсия" данных в цепочке составляет менее 5%, и множество ценных сигналов теряется среди миллиардов фрагментированных событий.
Hyperdata Network: "Операционная система" для данных на цепочке
Для решения проблемы фрагментации данных в блокчейне в отрасли была предложена концепция Hyperdata Network — «умной операционной системы на блокчейне», специально разработанной для ИИ. Ее основной целью является преобразование разрозненных сигналов в блокчейне в структурированные, проверяемые, готовые к комбинированию в реальном времени данные для ИИ.
Рукопись:Открытые стандарты данных
Одной из главных проблем данных на блокчейне является "хаос формата". Форматы журналов событий различных блокчейнов различаются, а структура данных разных версий одного и того же протокола также может изменяться. Manuscript как открыенный стандарт схемы данных унифицирует определения и способы описания данных на блокчейне. Например, он стандартизирует "поведение пользователей при ставках" в структурированные данные, включающие поля staker_address, protocol_id, amount, timestamp, reward_token, что обеспечивает возможность AI-моделям "понимать" бизнес-логику данных без необходимости адаптации к различным форматам данных разных блокчейнов или протоколов.
Эта стандартизированная ценность заключается в снижении трения при разработке ИИ. На основе Manuscript все данные в цепочке были предварительно обработаны по единому стандарту, и разработчики могут напрямую вызывать такие структурированные данные, как "Записи о залоге пользователей", "Записи о предоставлении ликвидности" и т.д., что значительно сокращает период обучения модели.
Гарантия достоверности данных
Основное требование AI-моделей к данным — это "достоверность". Сеть Hyperdata обеспечивает подлинность данных с помощью механизма AVS (Active Validator Set) на базе Ethereum. AVS является расширяющим компонентом уровня консенсуса Ethereum, состоящим из узлов-валидаторов, которые отвечают за проверку целостности и точности данных в цепочке. Когда сеть Hyperdata обрабатывает событие в цепочке, узлы AVS перекрестно проверяют хеш-значения данных, информацию о подписи и состояние в цепочке, чтобы гарантировать, что выводимые структурированные данные полностью совпадают с исходными данными в цепочке.
Механизм верификации, основанный на "гарантии криптоэкономики", решает проблему доверия, присущую традиционной централизованной верификации данных. Подлинность данных подтверждается децентрализованной сетью верификаторов, и любое вмешательство вызывает механизм наказания смарт-контракта.
Высокопроизводительный уровень доступности данных
Модели ИИ, особенно ИИ-приложения для взаимодействия в реальном времени, требуют низкой задержки и высокой пропускной способности данных. Уровень доступности данных (DA) специально разработан для этого требования, оптимизируя алгоритмы сжатия данных и протоколы передачи, обеспечивая обработку сотен тысяч событий на блокчейне в реальном времени каждую секунду. Например, когда на какой-либо платформе происходит крупная сделка, DA может за 1 секунду завершить извлечение, стандартизацию и проверку данных, а затем отправить структурированный "сигнал о крупной сделке" подписанным моделям ИИ, позволяя им своевременно корректировать торговую стратегию.
Высокая пропускная способность достигается благодаря модульной архитектуре. DA отделяет хранение данных от вычислений, хранение данных осуществляется распределенной сетью узлов, а вычисления выполняются с помощью оффчейн Rollup, что позволяет избежать узких мест производительности самой блокчейна. Такой подход позволяет Hyperdata Network поддерживать требования к реальным данным для масштабных AI приложений.
Эра DataFi: когда данные становятся" капиталом" для торговли
Конечная цель Hyperdata Network заключается в том, чтобы продвинуть индустрию ИИ в эпоху DataFi — данные больше не являются пассивным "тренировочным материалом", а становятся активным "капиталом", который можно оценивать, торговать и увеличивать. Реализация этого видения зависит от того, что Hyperdata Network превращает данные в четыре основные характеристики:
Структурирование: от "исходного сигнала" к "доступным активам". Неподготовленные данные блокчейна подобны "нефтяным" ресурсам, которые необходимо переработать, чтобы превратить в "бензин". Hyperdata Network преобразует их в структурированные данные через стандарты, позволяя данным быть непосредственно использованными моделями ИИ, так же просто, как вызов API.
Комбинируемость: "Лего" данных. Структурированные данные могут свободно комбинироваться, как Лего. Например, разработчики могут комбинировать "записи о залоге пользователей" с "данными о колебаниях цен", "количеством упоминаний в социальных сетях", чтобы создать "модель прогнозирования настроений на рынке DeFi". Эта комбинируемость значительно расширяет границы применения данных.
Проверяемый: "Кредитная поддержка" данных. Проверенные структурированные данные генерируют уникальный "отпечаток данных" (хеш-значение) и хранятся в блокчейне. Любое ИИ-приложение или разработчик, использующий эти данные, могут подтвердить их подлинность, проверив хеш-значение.
Монетизация: "монетизация ценности" данных. В эпоху DataFi поставщики данных могут непосредственно монетизировать структурированные данные. Например, команда, проанализировавшая данные на блокчейне, разработала "сигнал предупреждения о уязвимостях смарт-контрактов", который можно упаковать в сервис API и взимать плату за количество вызовов. Обычные пользователи также могут разрешить совместное использование своих анонимизированных данных на блокчейне, получая вознаграждение в виде токенов данных.
Заключение: Данные революция, следующее десятилетие ИИ
Когда мы говорим о будущем ИИ, мы часто сосредотачиваемся на "умственном уровне" моделей, игнорируя "данные, которые поддерживают интеллект". Hyperdata Network раскрывает одну ключевую истину: эволюция ИИ по сути является эволюцией инфраструктуры данных. От "ограниченности" данных, создаваемых человеком, до "обнаружения ценности" данных на блокчейне, от "беспорядка" фрагментированных сигналов до "упорядоченности" структурированных данных, от "бесплатных ресурсов" данных до "капитальных активов" DataFi, Hyperdata Network переосмысляет базовую логику индустрии ИИ.
В эпоху DataFi данные станут мостом между ИИ и реальным миром. Торговые агенты воспринимают рыночные настроения с помощью данных на блокчейне, автономные dApp оптимизируют услуги на основе данных о поведении пользователей, а обычные пользователи получают постоянный доход за счет обмена данными. Как электрическая сеть стала причиной промышленной революции, вычислительная мощность стала причиной интернет-революции, так Hyperdata Network порождает "данные революцию" в ИИ.
Следующее поколение нативных AI-приложений требует не только моделей или кошельков, но и данных, которые не требуют доверия, программируемых и с высоким уровнем сигнала. Когда данные наконец получат должную ценность, AI сможет по-настоящему раскрыть силу, способную изменить мир.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
10 Лайков
Награда
10
6
Репост
Поделиться
комментарий
0/400
GateUser-3824aa38
· 12ч назад
Это становится сложно, данные уже начали сворачиваться.
Посмотреть ОригиналОтветить0
SmartContractPlumber
· 08-14 16:58
Утечка данных о конфиденциальности также является огромной уязвимостью, столь же опасной, как повторный вход в смарт-контракты.
Посмотреть ОригиналОтветить0
governance_ghost
· 08-14 16:53
Данные — это новая нефть, да?
Посмотреть ОригиналОтветить0
MultiSigFailMaster
· 08-14 16:50
Не слушай, что говорят слишком далеко. Данные - это ведь сейчас говорят, что это лекарство для видеокарт, да?
Посмотреть ОригиналОтветить0
airdrop_whisperer
· 08-14 16:48
Данные и вычислительная мощность борются, вычислительная мощность не сможет выиграть.
Посмотреть ОригиналОтветить0
ThreeHornBlasts
· 08-14 16:35
Данные — это старший брат, вычислительная мощность — младший брат.
Революция данных AI: Восход данных в блокчейне и эпоха DataFi
Следующие десять лет в AI-индустрии: от Вычислительной мощностью к данным
Параметры моделей искусственного интеллекта (ИИ) и вычислительная мощность в последние годы растут экспоненциально, но одна игнорируемая основная проблема постепенно становится очевидной — данные. С ростом масштаба моделей до триллионов параметров и вычислительной мощности, измеряемой в сотнях миллиардов операций в секунду (FLOPS), главной проблемой, с которой сталкивается индустрия ИИ, больше не является архитектура модели или вычислительная мощность чипов, а то, как преобразовать фрагментированные данные человеческого поведения в проверяемые, структурированные ресурсы, готовые для ИИ.
Это понимание раскрывает структурные противоречия текущего развития ИИ, одновременно描绘вая новый пейзаж эпохи "DataFi". В этой эпохе данные больше не являются побочным продуктом технологий, а становятся основным производственным фактором, который можно измерять, торговать и увеличивать, как электричество и Вычислительная мощность.
Структурные противоречия в AI-индустрии: от соревнования вычислительной мощности до голода данных
Развитие ИИ долгое время двигалось вдвух направлениях: "модель-вычислительная мощность". С момента революции глубокого обучения параметры модели выросли с миллиона (например, AlexNet 2012 года) до триллионов (например, GPT-4), при этом потребность в вычислительной мощности увеличивается экспоненциально. Стоимость обучения современно большого языкового модели превысила 100 миллионов долларов, из которых 90% идет на аренду кластеров GPU. Однако, когда отрасль сосредоточила внимание на "более больших моделях" и "более быстрых чипах", на горизонте незаметно назревает кризис предложения данных.
Сгенерированные человечеством "органические данные" достигли потолка роста. Например, в случае текстовых данных, общее количество высококачественных текстов (книг, статей, новостей), доступных для парсинга в Интернете, составляет около 10^12 слов, тогда как для обучения модели с миллиардом параметров необходимо около 10^13 слов данных. Это означает, что существующий пул данных может поддерживать обучение лишь 10 моделей одинакового масштаба. Более того, доля повторяющихся данных и низкокачественного контента превышает 60%, что еще больше сжимает предложение эффективных данных. Когда модели начинают "поглощать" данные, созданные ими самими, "загрязнение данных" приводит к деградации производительности моделей и становится беспокойством в отрасли.
Корень этого противоречия заключается в том, что в индустрии ИИ данные долгое время рассматривались как "бесплатный ресурс", а не как "стратегический актив", требующий тщательного ухода. Модели и вычислительная мощность уже образовали зрелую рыночную систему, но производство, очистка, верификация и торговля данными все еще находятся в "первобытной эпохе". Следующее десятилетие ИИ станет десятилетием "инфраструктуры данных", и данные на крипто-сетях станут ключом к решению этой проблемы.
Данные на цепочке: "База данных человеческого поведения", которую AI нуждается больше всего
На фоне дефицита данных, ончейн данные криптосетей демонстрируют неоспоримую ценность. По сравнению с традиционными интернет-данными, ончейн данные обладают подлинностью, естественно имеющей "выравнивание стимулов". Каждая транзакция, каждое взаимодействие с контрактом, каждое действие адреса кошелька напрямую связано с реальным капиталом и не подлежит изменению. Эти данные определяются как "самые концентрированные данные о человеческом поведении с выравниванием стимулов в Интернете", что конкретно проявляется в трех измерениях:
Реальные "сигналы намерений": данные на блокчейне фиксируют решения, основанные на голосовании реальными деньгами, что напрямую отражает оценку пользователем ценности проекта, его склонность к риску и стратегию распределения капитала. Такие данные, "подтвержденные капиталом", имеют высокую ценность для обучения способности принятия решений AI.
Прослеживаемая "цепочка действий": прозрачность блокчейна позволяет полностью отслеживать действия пользователей. Исторические транзакции адреса кошелька, взаимодействовавшие протоколы, изменения в удерживаемых активах составляют связную "цепочку действий". Эти структурированные данные о действиях являются самыми дефицитными "образцами человеческого рассуждения" для современных AI моделей.
Открытая экосистема "без разрешений": данные в цепочке открыты и не требуют разрешений. Любой разработчик может получить исходные данные через блокчейн-браузер или API данных, что предоставляет AI моделям "беспредельный" источник данных. Однако данные в цепочке существуют в форме "журналов событий", являются неструктурированными "исходными сигналами" и требуют очистки, стандартизации и связи для использования AI моделями. В настоящее время "структурированная конверсия" данных в цепочке составляет менее 5%, и множество ценных сигналов теряется среди миллиардов фрагментированных событий.
Hyperdata Network: "Операционная система" для данных на цепочке
Для решения проблемы фрагментации данных в блокчейне в отрасли была предложена концепция Hyperdata Network — «умной операционной системы на блокчейне», специально разработанной для ИИ. Ее основной целью является преобразование разрозненных сигналов в блокчейне в структурированные, проверяемые, готовые к комбинированию в реальном времени данные для ИИ.
Рукопись:Открытые стандарты данных
Одной из главных проблем данных на блокчейне является "хаос формата". Форматы журналов событий различных блокчейнов различаются, а структура данных разных версий одного и того же протокола также может изменяться. Manuscript как открыенный стандарт схемы данных унифицирует определения и способы описания данных на блокчейне. Например, он стандартизирует "поведение пользователей при ставках" в структурированные данные, включающие поля staker_address, protocol_id, amount, timestamp, reward_token, что обеспечивает возможность AI-моделям "понимать" бизнес-логику данных без необходимости адаптации к различным форматам данных разных блокчейнов или протоколов.
Эта стандартизированная ценность заключается в снижении трения при разработке ИИ. На основе Manuscript все данные в цепочке были предварительно обработаны по единому стандарту, и разработчики могут напрямую вызывать такие структурированные данные, как "Записи о залоге пользователей", "Записи о предоставлении ликвидности" и т.д., что значительно сокращает период обучения модели.
Гарантия достоверности данных
Основное требование AI-моделей к данным — это "достоверность". Сеть Hyperdata обеспечивает подлинность данных с помощью механизма AVS (Active Validator Set) на базе Ethereum. AVS является расширяющим компонентом уровня консенсуса Ethereum, состоящим из узлов-валидаторов, которые отвечают за проверку целостности и точности данных в цепочке. Когда сеть Hyperdata обрабатывает событие в цепочке, узлы AVS перекрестно проверяют хеш-значения данных, информацию о подписи и состояние в цепочке, чтобы гарантировать, что выводимые структурированные данные полностью совпадают с исходными данными в цепочке.
Механизм верификации, основанный на "гарантии криптоэкономики", решает проблему доверия, присущую традиционной централизованной верификации данных. Подлинность данных подтверждается децентрализованной сетью верификаторов, и любое вмешательство вызывает механизм наказания смарт-контракта.
Высокопроизводительный уровень доступности данных
Модели ИИ, особенно ИИ-приложения для взаимодействия в реальном времени, требуют низкой задержки и высокой пропускной способности данных. Уровень доступности данных (DA) специально разработан для этого требования, оптимизируя алгоритмы сжатия данных и протоколы передачи, обеспечивая обработку сотен тысяч событий на блокчейне в реальном времени каждую секунду. Например, когда на какой-либо платформе происходит крупная сделка, DA может за 1 секунду завершить извлечение, стандартизацию и проверку данных, а затем отправить структурированный "сигнал о крупной сделке" подписанным моделям ИИ, позволяя им своевременно корректировать торговую стратегию.
Высокая пропускная способность достигается благодаря модульной архитектуре. DA отделяет хранение данных от вычислений, хранение данных осуществляется распределенной сетью узлов, а вычисления выполняются с помощью оффчейн Rollup, что позволяет избежать узких мест производительности самой блокчейна. Такой подход позволяет Hyperdata Network поддерживать требования к реальным данным для масштабных AI приложений.
Эра DataFi: когда данные становятся" капиталом" для торговли
Конечная цель Hyperdata Network заключается в том, чтобы продвинуть индустрию ИИ в эпоху DataFi — данные больше не являются пассивным "тренировочным материалом", а становятся активным "капиталом", который можно оценивать, торговать и увеличивать. Реализация этого видения зависит от того, что Hyperdata Network превращает данные в четыре основные характеристики:
Структурирование: от "исходного сигнала" к "доступным активам". Неподготовленные данные блокчейна подобны "нефтяным" ресурсам, которые необходимо переработать, чтобы превратить в "бензин". Hyperdata Network преобразует их в структурированные данные через стандарты, позволяя данным быть непосредственно использованными моделями ИИ, так же просто, как вызов API.
Комбинируемость: "Лего" данных. Структурированные данные могут свободно комбинироваться, как Лего. Например, разработчики могут комбинировать "записи о залоге пользователей" с "данными о колебаниях цен", "количеством упоминаний в социальных сетях", чтобы создать "модель прогнозирования настроений на рынке DeFi". Эта комбинируемость значительно расширяет границы применения данных.
Проверяемый: "Кредитная поддержка" данных. Проверенные структурированные данные генерируют уникальный "отпечаток данных" (хеш-значение) и хранятся в блокчейне. Любое ИИ-приложение или разработчик, использующий эти данные, могут подтвердить их подлинность, проверив хеш-значение.
Монетизация: "монетизация ценности" данных. В эпоху DataFi поставщики данных могут непосредственно монетизировать структурированные данные. Например, команда, проанализировавшая данные на блокчейне, разработала "сигнал предупреждения о уязвимостях смарт-контрактов", который можно упаковать в сервис API и взимать плату за количество вызовов. Обычные пользователи также могут разрешить совместное использование своих анонимизированных данных на блокчейне, получая вознаграждение в виде токенов данных.
Заключение: Данные революция, следующее десятилетие ИИ
Когда мы говорим о будущем ИИ, мы часто сосредотачиваемся на "умственном уровне" моделей, игнорируя "данные, которые поддерживают интеллект". Hyperdata Network раскрывает одну ключевую истину: эволюция ИИ по сути является эволюцией инфраструктуры данных. От "ограниченности" данных, создаваемых человеком, до "обнаружения ценности" данных на блокчейне, от "беспорядка" фрагментированных сигналов до "упорядоченности" структурированных данных, от "бесплатных ресурсов" данных до "капитальных активов" DataFi, Hyperdata Network переосмысляет базовую логику индустрии ИИ.
В эпоху DataFi данные станут мостом между ИИ и реальным миром. Торговые агенты воспринимают рыночные настроения с помощью данных на блокчейне, автономные dApp оптимизируют услуги на основе данных о поведении пользователей, а обычные пользователи получают постоянный доход за счет обмена данными. Как электрическая сеть стала причиной промышленной революции, вычислительная мощность стала причиной интернет-революции, так Hyperdata Network порождает "данные революцию" в ИИ.
Следующее поколение нативных AI-приложений требует не только моделей или кошельков, но и данных, которые не требуют доверия, программируемых и с высоким уровнем сигнала. Когда данные наконец получат должную ценность, AI сможет по-настоящему раскрыть силу, способную изменить мир.