Наступні десять років в індустрії штучного інтелекту: від Обчислювальної потужності до даних
Параметри моделей штучного інтелекту (ШІ) та їх обчислювальна потужність в останні роки зросли в експоненційній формі, але одна знехтувана ключова проблема поступово стає очевидною — дані. Коли масштаб моделей перевищує трильйони параметрів, а обчислювальна потужність вимірюється в мільярди мільярдів операцій на секунду (FLOPS), найбільшим викликом для галузі ШІ більше не є архітектура моделей чи обчислювальна потужність чіпів, а те, як перетворити фрагментовані дані людської поведінки на перевірні, структуровані, готові до ШІ ресурси.
Це усвідомлення виявляє структурні суперечності сучасного розвитку ШІ, одночасно окреслюючи зовсім нову картину "Епохи даних". У цю епоху дані більше не є побічним продуктом технологій, а є вимірювальним, торгованим та таким, що підлягає збільшенню, основним виробничим фактором, подібно до електрики та Обчислювальної потужності.
Структурні суперечності в індустрії штучного інтелекту: від обчислювальної потужності до голоду даних
Розвиток ШІ тривалий час керувався «модель-Обчислювальна потужність» подвійним ядром. З моменту революції глибокого навчання параметри моделей зросли з мільйонів (як у випадку з AlexNet 2012 року) до трильйонів (як у GPT-4), а потреба в обчислювальній потужності зросла експоненційно. Вартість навчання передової великої мовної моделі перевищила 100 мільйонів доларів, при цьому 90% витрачається на оренду GPU-кластерів. Проте, коли галузь зосереджується на «більших моделях» і «швидших чіпах», криза з боку постачання даних тихо наближається.
Генеровані людьми "органічні дані" досягли стелі зростання. Наприклад, щодо текстових даних, загальна кількість високоякісних текстів (книги, статті, новини), доступних для веб-сканування в Інтернеті, становить близько 10^12 слів, в той час як для навчання моделі з трильйоном параметрів потрібно приблизно 10^13 слів даних. Це означає, що наявний пул даних може підтримувати навчання лише 10 моделей однакового масштабу. Ще суворішою є ситуація, що понад 60% складають повторювані дані та низькоякісний контент, що ще більше скорочує постачання ефективних даних. Коли модель починає "поглинати" дані, які вона генерує сама, "забруднення даних" призводить до деградації продуктивності моделі, що стало тривожним сигналом для галузі.
Ця суперечність корениться в тому, що індустрія ШІ протягом тривалого часу розглядала дані як "безкоштовний ресурс", а не як "стратегічний актив", який потребує ретельного вирощування. Моделі та Обчислювальна потужність вже сформували зрілу ринкову систему, але виробництво, очищення, верифікація та торгівля даними все ще знаходяться в "дикуватій епосі". Наступне десятиліття для ШІ буде десятиліттям "інфраструктури даних", а дані, що зберігаються на криптовалютних мережах, є ключем до розв'язання цієї проблеми.
Данні на ланцюгу: найнеобхідніша для AI "база даних людської поведінки"
На фоні голоду даних, онлайнові дані криптомережі демонструють незамінну цінність. У порівнянні з традиційними даними Інтернету, онлайнові дані природно мають справжність "узгодження стимулів". Кожна транзакція, кожна взаємодія з контрактом, кожна дія з адресою гаманця безпосередньо пов'язана з реальним капіталом і є незмінною. Ці дані визначені як "найконцентрованіші дані про поведінку людей, узгоджену з інтересами в Інтернеті", що конкретизується в трьох вимірах:
Реальні "сигнали наміру" світу: дані на ланцюгу записують рішення, прийняті шляхом голосування справжніми грошима, що безпосередньо відображає оцінку користувачем цінності проєкту, ризикові вподобання та стратегії розподілу коштів. Ці дані "з підписом капіталу" мають надзвичайну цінність для навчання рішень ШІ.
Відстежувана "ланцюгова поведінка": прозорість блокчейну дозволяє повністю відстежувати поведінку користувачів. Історія транзакцій гаманця, протоколи, з якими взаємодіяли, зміни в активі, формують зв'язний "ланцюг поведінки". Ці структуровані дані про поведінку є найбільш дефіцитними "зразками людського міркування" для поточних AI моделей.
Відкритий екосистеми "безліцензійний доступ": дані на ланцюгу є відкритими та без ліцензії. Будь-який розробник може отримати сирі дані через блокчейн-браузер або API даних, що забезпечує "безбар'єрне" джерело даних для навчання моделей ШІ. Проте дані на ланцюгу існують у формі "журналів подій", є неструктурованими "сирими сигналами", які потребують очищення, стандартизації та зв'язування, щоб їх можна було використовувати в моделях ШІ. Наразі "структурована конверсія" даних на ланцюгу становить менше 5%, і велика кількість високоякісних сигналів занурена в десятки мільярдів фрагментованих подій.
Hyperdata Network: "Операційна система" для даних на ланцюгу
Щоб вирішити проблему фрагментації даних в блокчейні, в галузі було запропоновано концепцію Hyperdata Network — "розумної операційної системи" для AI, розробленої для блокчейну. Її основною метою є перетворення розсіяних сигналів блокчейну на структуровані, перевірені, що можуть бути об'єднані в реальному часі, дані, готові до використання в AI.
Рукопис: Відкриті стандарти даних
Однією з найбільших проблем даних на блокчейні є "безлад у форматах". Журнали подій різних блокчейнів мають різні формати, а структура даних одного й того ж протоколу може змінюватися в різних версіях. Manuscript, як відкритий стандарт схеми даних, уніфікує визначення та опис даних на блокчейні. Наприклад, він стандартизує "поведінку користувачів щодо стейкінгу" у структуровані дані, що містять поля staker_address, protocol_id, amount, timestamp, reward_token тощо, забезпечуючи, щоб AI-модель не потребувала адаптації до різних форматів даних блокчейну або протоколів і могла безпосередньо "зрозуміти" бізнес-логіку, що стоїть за даними.
Ця стандартизована цінність полягає у зниженні витрат на розробку ШІ. На основі Manuscript всі дані в ланцюзі були попередньо оброблені за єдиним стандартом, розробники можуть безпосередньо викликати "записи про стейкінг користувачів" "записи про надання ліквідності" та інші структуровані дані, що значно скорочує час навчання моделей.
Забезпечення достовірності даних
Основна вимога до даних від AI-моделей – це "достовірність". Hyperdata Network забезпечує достовірність даних за допомогою механізму AVS (Active Validator Set) в Ethereum. AVS є розширювальним компонентом консенсусного рівня Ethereum, що складається з валідаторських вузлів, які відповідають за перевірку цілісності та точності даних в ланцюзі. Коли Hyperdata Network обробляє подію в ланцюзі, вузли AVS перехресно перевіряють хеш-значення даних, інформацію про підпис і стан в ланцюзі, забезпечуючи повну відповідність структурованих даних з оригінальними даними в ланцюзі.
Цей механізм верифікації "гарантії криптоекономіки" вирішує проблему довіри традиційної централізованої верифікації даних. Справжність даних підтверджується децентралізованою мережею верифікаторів, і будь-яка спроба підробки активує механізм покарання смарт-контракту.
Високопродуктивний рівень доступності даних
Моделі ШІ, особливо інтерактивні AI-додатки, потребують низької затримки та високої пропускної здатності даних. Рівень доступності даних (DA) спеціально розроблений для цієї потреби, оптимізуючи алгоритми стиснення даних і протоколи передачі, забезпечуючи обробку сотень тисяч подій на ланцюгу в реальному часі. Наприклад, коли на певній платформі відбувається велика транзакція, DA може за 1 секунду завершити витягування, стандартизацію та верифікацію даних і надіслати структурований "сигнал великої транзакції" підписаним моделям ШІ, дозволяючи їм своєчасно коригувати торгові стратегії.
За високою пропускною спроможністю стоїть модульна архітектура. DA відокремлює зберігання даних від обчислень, зберігання даних забезпечується мережею розподілених вузлів, а обчислення здійснюються через оффчейн Rollup, що уникає продуктивних вузьких місць самої блокчейн-технології. Такий дизайн дозволяє Hyperdata Network підтримувати вимоги в реальному часі до даних для масштабних AI-додатків.
Era DataFi: Коли дані стають торгівельним "капіталом"
Головною метою Hyperdata Network є сприяння переходу AI-індустрії в епоху DataFi — дані більше не є пасивним "тренувальним матеріалом", а стають активним "капіталом", який може бути оцінений, торгуватися та приносити прибуток. Реалізація цього бачення залежить від перетворення даних Hyperdata Network у чотири основні властивості:
Структурованість: від "сировинного сигналу" до "придатного активу". Неперероблені дані в ланцюгу, подібно до "нафти", повинні бути очищені, щоб стати "бензином". Hyperdata Network перетворює їх у структуровані дані за допомогою стандартів, що дозволяє AI моделям безпосередньо їх викликати, так само просто, як виклик API.
Комбінованість: "Лего" даних. Структуровані дані можуть вільно комбінуватися, як блоки Лего. Наприклад, розробники можуть поєднувати "записи про заставу користувачів" з "даними про коливання цін", "кількістю згадувань у соціальних мережах", щоб навчити "модель прогнозування емоцій на ринку DeFi". Ця комбінованість значно розширює межі застосування даних.
Можливість перевірки: "кредитна підтримка" даних. Через перевірені структуровані дані буде згенеровано унікальний "дані відбиток" (хеш-значення), яке зберігається на блокчейні. Будь-який AI-додаток або розробник, який використовує ці дані, може підтвердити достовірність даних через перевірку хеш-значення.
Можливість реалізації: "монетизація вартості" даних. В епоху DataFi постачальники даних можуть безпосередньо монетизувати структуровані дані. Наприклад, команда, яка аналізувала дані на блокчейні, розробила "сигнал попередження про вразливості смарт-контрактів", який можна упакувати в API-сервіс і стягувати плату за кожен виклик. Звичайні користувачі також можуть надати дозвіл на спільний доступ до своїх анонімізованих даних на блокчейні, отримуючи винагороду у вигляді токенів даних.
Висновок: Революція даних, наступні десять років ШІ
Коли ми говоримо про майбутнє ШІ, ми часто зосереджуємося на "інтелектуальних можливостях" моделей, ігноруючи "дані, що підтримують інтелект". Hyperdata Network розкриває одну з основних істин: еволюція ШІ по суті є еволюцією інфраструктури даних. Від "обмеженості" людських даних до "виявлення вартості" даних на блокчейні, від "безладдя" фрагментованих сигналів до "упорядкованості" структурованих даних, від "безкоштовних ресурсів" даних до "капітальних активів" DataFi, Hyperdata Network трансформує базову логіку індустрії ШІ.
У цю еру DataFi дані стануть мостом, що з'єднує ШІ та реальний світ. Торгові агенти сприймають ринкові настрої через дані на ланцюгу, автономні dApp оптимізують послуги за допомогою даних про поведінку користувачів, а звичайні користувачі отримують постійний дохід шляхом обміну даними. Як електрична мережа спричинила промислову революцію, Обчислювальна потужність мережі породила інтернет-революцію, так Hyperdata Network спричиняє "революцію даних" для ШІ.
Наступне покоління нативних AI-додатків потребує не лише моделей або гаманців, але й даних, які не потребують довіри, є програмованими та мають високий сигнал. Коли дані нарешті отримають належну цінність, AI зможе по-справжньому звільнити силу, яка змінює світ.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
10 лайків
Нагородити
10
6
Репост
Поділіться
Прокоментувати
0/400
GateUser-3824aa38
· 20год тому
Це вже важко витримати, дані почали зростати.
Переглянути оригіналвідповісти на0
SmartContractPlumber
· 08-14 16:58
Витік конфіденційності даних також є величезною вразливістю, такою ж небезпечною, як повторний вхід у смартконтракти.
Переглянути оригіналвідповісти на0
governance_ghost
· 08-14 16:53
Дані — це нова нафта, правда?
Переглянути оригіналвідповісти на0
MultiSigFailMaster
· 08-14 16:50
Не слухайте занадто далеко, дані - це ж тепер ліки для відеокарт.
Переглянути оригіналвідповісти на0
airdrop_whisperer
· 08-14 16:48
Дані та обчислювальна потужність борються, обчислювальна потужність не виграє.
Переглянути оригіналвідповісти на0
ThreeHornBlasts
· 08-14 16:35
Дані – це старший брат, обчислювальна потужність – молодший брат.
AI революція даних: зростання даних у блокчейні та епохи DataFi
Наступні десять років в індустрії штучного інтелекту: від Обчислювальної потужності до даних
Параметри моделей штучного інтелекту (ШІ) та їх обчислювальна потужність в останні роки зросли в експоненційній формі, але одна знехтувана ключова проблема поступово стає очевидною — дані. Коли масштаб моделей перевищує трильйони параметрів, а обчислювальна потужність вимірюється в мільярди мільярдів операцій на секунду (FLOPS), найбільшим викликом для галузі ШІ більше не є архітектура моделей чи обчислювальна потужність чіпів, а те, як перетворити фрагментовані дані людської поведінки на перевірні, структуровані, готові до ШІ ресурси.
Це усвідомлення виявляє структурні суперечності сучасного розвитку ШІ, одночасно окреслюючи зовсім нову картину "Епохи даних". У цю епоху дані більше не є побічним продуктом технологій, а є вимірювальним, торгованим та таким, що підлягає збільшенню, основним виробничим фактором, подібно до електрики та Обчислювальної потужності.
Структурні суперечності в індустрії штучного інтелекту: від обчислювальної потужності до голоду даних
Розвиток ШІ тривалий час керувався «модель-Обчислювальна потужність» подвійним ядром. З моменту революції глибокого навчання параметри моделей зросли з мільйонів (як у випадку з AlexNet 2012 року) до трильйонів (як у GPT-4), а потреба в обчислювальній потужності зросла експоненційно. Вартість навчання передової великої мовної моделі перевищила 100 мільйонів доларів, при цьому 90% витрачається на оренду GPU-кластерів. Проте, коли галузь зосереджується на «більших моделях» і «швидших чіпах», криза з боку постачання даних тихо наближається.
Генеровані людьми "органічні дані" досягли стелі зростання. Наприклад, щодо текстових даних, загальна кількість високоякісних текстів (книги, статті, новини), доступних для веб-сканування в Інтернеті, становить близько 10^12 слів, в той час як для навчання моделі з трильйоном параметрів потрібно приблизно 10^13 слів даних. Це означає, що наявний пул даних може підтримувати навчання лише 10 моделей однакового масштабу. Ще суворішою є ситуація, що понад 60% складають повторювані дані та низькоякісний контент, що ще більше скорочує постачання ефективних даних. Коли модель починає "поглинати" дані, які вона генерує сама, "забруднення даних" призводить до деградації продуктивності моделі, що стало тривожним сигналом для галузі.
Ця суперечність корениться в тому, що індустрія ШІ протягом тривалого часу розглядала дані як "безкоштовний ресурс", а не як "стратегічний актив", який потребує ретельного вирощування. Моделі та Обчислювальна потужність вже сформували зрілу ринкову систему, але виробництво, очищення, верифікація та торгівля даними все ще знаходяться в "дикуватій епосі". Наступне десятиліття для ШІ буде десятиліттям "інфраструктури даних", а дані, що зберігаються на криптовалютних мережах, є ключем до розв'язання цієї проблеми.
Данні на ланцюгу: найнеобхідніша для AI "база даних людської поведінки"
На фоні голоду даних, онлайнові дані криптомережі демонструють незамінну цінність. У порівнянні з традиційними даними Інтернету, онлайнові дані природно мають справжність "узгодження стимулів". Кожна транзакція, кожна взаємодія з контрактом, кожна дія з адресою гаманця безпосередньо пов'язана з реальним капіталом і є незмінною. Ці дані визначені як "найконцентрованіші дані про поведінку людей, узгоджену з інтересами в Інтернеті", що конкретизується в трьох вимірах:
Реальні "сигнали наміру" світу: дані на ланцюгу записують рішення, прийняті шляхом голосування справжніми грошима, що безпосередньо відображає оцінку користувачем цінності проєкту, ризикові вподобання та стратегії розподілу коштів. Ці дані "з підписом капіталу" мають надзвичайну цінність для навчання рішень ШІ.
Відстежувана "ланцюгова поведінка": прозорість блокчейну дозволяє повністю відстежувати поведінку користувачів. Історія транзакцій гаманця, протоколи, з якими взаємодіяли, зміни в активі, формують зв'язний "ланцюг поведінки". Ці структуровані дані про поведінку є найбільш дефіцитними "зразками людського міркування" для поточних AI моделей.
Відкритий екосистеми "безліцензійний доступ": дані на ланцюгу є відкритими та без ліцензії. Будь-який розробник може отримати сирі дані через блокчейн-браузер або API даних, що забезпечує "безбар'єрне" джерело даних для навчання моделей ШІ. Проте дані на ланцюгу існують у формі "журналів подій", є неструктурованими "сирими сигналами", які потребують очищення, стандартизації та зв'язування, щоб їх можна було використовувати в моделях ШІ. Наразі "структурована конверсія" даних на ланцюгу становить менше 5%, і велика кількість високоякісних сигналів занурена в десятки мільярдів фрагментованих подій.
Hyperdata Network: "Операційна система" для даних на ланцюгу
Щоб вирішити проблему фрагментації даних в блокчейні, в галузі було запропоновано концепцію Hyperdata Network — "розумної операційної системи" для AI, розробленої для блокчейну. Її основною метою є перетворення розсіяних сигналів блокчейну на структуровані, перевірені, що можуть бути об'єднані в реальному часі, дані, готові до використання в AI.
Рукопис: Відкриті стандарти даних
Однією з найбільших проблем даних на блокчейні є "безлад у форматах". Журнали подій різних блокчейнів мають різні формати, а структура даних одного й того ж протоколу може змінюватися в різних версіях. Manuscript, як відкритий стандарт схеми даних, уніфікує визначення та опис даних на блокчейні. Наприклад, він стандартизує "поведінку користувачів щодо стейкінгу" у структуровані дані, що містять поля staker_address, protocol_id, amount, timestamp, reward_token тощо, забезпечуючи, щоб AI-модель не потребувала адаптації до різних форматів даних блокчейну або протоколів і могла безпосередньо "зрозуміти" бізнес-логіку, що стоїть за даними.
Ця стандартизована цінність полягає у зниженні витрат на розробку ШІ. На основі Manuscript всі дані в ланцюзі були попередньо оброблені за єдиним стандартом, розробники можуть безпосередньо викликати "записи про стейкінг користувачів" "записи про надання ліквідності" та інші структуровані дані, що значно скорочує час навчання моделей.
Забезпечення достовірності даних
Основна вимога до даних від AI-моделей – це "достовірність". Hyperdata Network забезпечує достовірність даних за допомогою механізму AVS (Active Validator Set) в Ethereum. AVS є розширювальним компонентом консенсусного рівня Ethereum, що складається з валідаторських вузлів, які відповідають за перевірку цілісності та точності даних в ланцюзі. Коли Hyperdata Network обробляє подію в ланцюзі, вузли AVS перехресно перевіряють хеш-значення даних, інформацію про підпис і стан в ланцюзі, забезпечуючи повну відповідність структурованих даних з оригінальними даними в ланцюзі.
Цей механізм верифікації "гарантії криптоекономіки" вирішує проблему довіри традиційної централізованої верифікації даних. Справжність даних підтверджується децентралізованою мережею верифікаторів, і будь-яка спроба підробки активує механізм покарання смарт-контракту.
Високопродуктивний рівень доступності даних
Моделі ШІ, особливо інтерактивні AI-додатки, потребують низької затримки та високої пропускної здатності даних. Рівень доступності даних (DA) спеціально розроблений для цієї потреби, оптимізуючи алгоритми стиснення даних і протоколи передачі, забезпечуючи обробку сотень тисяч подій на ланцюгу в реальному часі. Наприклад, коли на певній платформі відбувається велика транзакція, DA може за 1 секунду завершити витягування, стандартизацію та верифікацію даних і надіслати структурований "сигнал великої транзакції" підписаним моделям ШІ, дозволяючи їм своєчасно коригувати торгові стратегії.
За високою пропускною спроможністю стоїть модульна архітектура. DA відокремлює зберігання даних від обчислень, зберігання даних забезпечується мережею розподілених вузлів, а обчислення здійснюються через оффчейн Rollup, що уникає продуктивних вузьких місць самої блокчейн-технології. Такий дизайн дозволяє Hyperdata Network підтримувати вимоги в реальному часі до даних для масштабних AI-додатків.
Era DataFi: Коли дані стають торгівельним "капіталом"
Головною метою Hyperdata Network є сприяння переходу AI-індустрії в епоху DataFi — дані більше не є пасивним "тренувальним матеріалом", а стають активним "капіталом", який може бути оцінений, торгуватися та приносити прибуток. Реалізація цього бачення залежить від перетворення даних Hyperdata Network у чотири основні властивості:
Структурованість: від "сировинного сигналу" до "придатного активу". Неперероблені дані в ланцюгу, подібно до "нафти", повинні бути очищені, щоб стати "бензином". Hyperdata Network перетворює їх у структуровані дані за допомогою стандартів, що дозволяє AI моделям безпосередньо їх викликати, так само просто, як виклик API.
Комбінованість: "Лего" даних. Структуровані дані можуть вільно комбінуватися, як блоки Лего. Наприклад, розробники можуть поєднувати "записи про заставу користувачів" з "даними про коливання цін", "кількістю згадувань у соціальних мережах", щоб навчити "модель прогнозування емоцій на ринку DeFi". Ця комбінованість значно розширює межі застосування даних.
Можливість перевірки: "кредитна підтримка" даних. Через перевірені структуровані дані буде згенеровано унікальний "дані відбиток" (хеш-значення), яке зберігається на блокчейні. Будь-який AI-додаток або розробник, який використовує ці дані, може підтвердити достовірність даних через перевірку хеш-значення.
Можливість реалізації: "монетизація вартості" даних. В епоху DataFi постачальники даних можуть безпосередньо монетизувати структуровані дані. Наприклад, команда, яка аналізувала дані на блокчейні, розробила "сигнал попередження про вразливості смарт-контрактів", який можна упакувати в API-сервіс і стягувати плату за кожен виклик. Звичайні користувачі також можуть надати дозвіл на спільний доступ до своїх анонімізованих даних на блокчейні, отримуючи винагороду у вигляді токенів даних.
Висновок: Революція даних, наступні десять років ШІ
Коли ми говоримо про майбутнє ШІ, ми часто зосереджуємося на "інтелектуальних можливостях" моделей, ігноруючи "дані, що підтримують інтелект". Hyperdata Network розкриває одну з основних істин: еволюція ШІ по суті є еволюцією інфраструктури даних. Від "обмеженості" людських даних до "виявлення вартості" даних на блокчейні, від "безладдя" фрагментованих сигналів до "упорядкованості" структурованих даних, від "безкоштовних ресурсів" даних до "капітальних активів" DataFi, Hyperdata Network трансформує базову логіку індустрії ШІ.
У цю еру DataFi дані стануть мостом, що з'єднує ШІ та реальний світ. Торгові агенти сприймають ринкові настрої через дані на ланцюгу, автономні dApp оптимізують послуги за допомогою даних про поведінку користувачів, а звичайні користувачі отримують постійний дохід шляхом обміну даними. Як електрична мережа спричинила промислову революцію, Обчислювальна потужність мережі породила інтернет-революцію, так Hyperdata Network спричиняє "революцію даних" для ШІ.
Наступне покоління нативних AI-додатків потребує не лише моделей або гаманців, але й даних, які не потребують довіри, є програмованими та мають високий сигнал. Коли дані нарешті отримають належну цінність, AI зможе по-справжньому звільнити силу, яка змінює світ.