Індустрія ШІ останнім часом розвивається швидкими темпами і сприймається деякими людьми як четверта промислова революція. Поява великих моделей суттєво підвищила ефективність у різних галузях, за оцінками, GPT підвищив ефективність роботи в США приблизно на 20%. Водночас здатність великих моделей до генералізації вважається новою парадигмою дизайну програмного забезпечення: раніше дизайн програмного забезпечення полягав у точному коді, тепер більше уваги приділяється вбудовуванню загального каркасу великих моделей у програмне забезпечення, що забезпечує кращу продуктивність і більш широку підтримку модальностей. Технології глибокого навчання дійсно принесли нову хвилю процвітання в індустрії ШІ, і цей бум також поширився на індустрію криптовалют.
Цей звіт детально розгляне розвиток індустрії ШІ, класифікацію технологій та вплив технології глибокого навчання на цю галузь. Потім буде проведено глибокий аналіз стану та тенденцій розвитку в upstream та downstream промислового ланцюга, таких як GPU, хмарні обчислення, джерела даних, пристрої на краю в глибокому навчанні. Наостанок ми в основному розглянемо зв'язок між криптовалютою та індустрією ШІ, проаналізуємо структуру промислового ланцюга, пов'язану з криптовалютою.
Історія розвитку індустрії штучного інтелекту
Індустрія штучного інтелекту почала свій шлях у 50-х роках XX століття. Для реалізації бачення штучного інтелекту академічна та індустріальна сфери в різні епохи та з різним предметним фоном розвинули кілька шкіл для реалізації штучного інтелекту.
Сучасні технології штучного інтелекту в основному використовують термін "машинне навчання", ідея якого полягає в тому, щоб дозволити машинам покладатися на дані для багаторазового покращення продуктивності системи в рамках завдання. Основні етапи включають введення даних в алгоритм, навчання моделі на даних, тестування та впровадження моделі, використання моделі для виконання автоматизованих прогнозних завдань.
Наразі машинне навчання має три основні напрямки: коннекціонізм, символізм та біхевіоризм, які імітують людську нервову систему, мислення та поведінку.
Наразі зв'язковий підхід, представлений нейронними мережами, переважає (, також відомий як глибоке навчання ). Основна причина цього полягає в тому, що така архітектура має один вхідний шар, один вихідний шар, але кілька прихованих шарів. Коли число шарів та нейронів (, а також їх параметри ) достатньо великі, виникає достатня можливість для моделювання складних загальних завдань. Завдяки введенню даних, параметри нейронів можна постійно коригувати, і після кількох ітерацій з даними цей нейрон досягне оптимального стану (, що також є походженням терміна "глибоке" - достатня кількість шарів та нейронів.
Наприклад, можна просто зрозуміти це як побудову функції, де при X=2, Y=3; при X=3, Y=5. Якщо ви хочете, щоб ця функція відповідала всім X, потрібно постійно додавати ступінь цієї функції та її параметри. Наприклад, можна побудувати функцію, яка задовольняє цю умову, як Y = 2X - 1. Але якщо є дані, де X=2, Y=11, то потрібно перебудувати функцію, яка підходить для цих трьох точок даних. Використовуючи GPU для брутфорсу, виявляється, що Y = X2 - 3X + 5 є досить підходящим, але не потрібно, щоб вона повністю збігалася з даними, потрібно лише дотримуватися балансу, щоб вихідні дані були приблизно схожими. Тут X2, X та X0 представляють різні нейрони, а 1, -3, 5 - це їх параметри.
У цей час, якщо ми введемо велику кількість даних у нейронну мережу, ми можемо збільшити кількість нейронів та ітерувати параметри для підгонки нових даних. Таким чином, ми зможемо підлаштувати всі дані.
А на основі технології глибокого навчання з нейронними мережами також є кілька технічних ітерацій та еволюцій, зокрема, такі як найраніші нейронні мережі, мережі прямого поширення, RNN, CNN, GAN, які врешті-решт еволюціонували до сучасних великих моделей, таких як GPT, що використовують технологію Transformer. Технологія Transformer - це лише один з напрямків еволюції нейронних мереж, вона додала перетворювач ) Transformer (, який використовується для кодування всіх модальностей ), таких як аудіо, відео, зображення тощо ( у відповідні числові значення для представлення. Потім ці дані вводяться до нейронної мережі, що дозволяє нейронній мережі адаптуватися до будь-якого типу даних, тобто реалізувати мультимодальність.
Розвиток штучного інтелекту пройшов через три технологічні хвилі. Перша хвиля припала на 60-ті роки XX століття, через десятиліття після висунення концепції штучного інтелекту. Ця хвиля була викликана розвитком символістських технологій, які вирішили проблеми загальної обробки природної мови та діалогу між людиною і комп'ютером. В той же час виникли експертні системи, зокрема експертна система DENRAL, яку розробили деякі установи. Ця система має дуже глибокі знання в хімії і здатна робити висновки через запитання, щоб генерувати відповіді, аналогічні тим, які дав би хімічний експерт. Цю хімічну експертну систему можна розглядати як поєднання бази знань з хімії та системи висновків.
Після експертних систем у 90-х роках XX століття вчені запропонували байєсівські мережі, які також називають мережами віри. У той же період Брукс запропонував робототехніку на основі поведінки, що стало знаковим моментом для виникнення біхевіоризму.
У 1997 році технологічна компанія Deep Blue здобула перемогу над чемпіоном світу з шахів Гаррі Каспаровим з рахунком 3.5:2.5, ця перемога вважається віхою в історії штучного інтелекту, технології ШІ пережили другий пік розвитку.
Третя хвиля технологій штучного інтелекту відбулася в 2006 році. Три велетні глибокого навчання Ян ЛеКун, Джеффрі Хінтон та Йошуа Бенгіо запропонували концепцію глибокого навчання, алгоритму, що використовує штучні нейронні мережі для навчання представлення даних. Після цього алгоритми глибокого навчання поступово еволюціонували, від RNN, GAN до Transformer та Stable Diffusion, ці алгоритми разом сформували цю третю технологічну хвилю, і це також був розквіт коннекціонізму.
Багато знакових подій також супроводжувалися дослідженнями та еволюцією технології глибокого навчання, зокрема:
У 2011 році система технологічної компанії перемогла людей на вікторині «Небезпечна межа» )Jeopardy( та здобула титул чемпіона.
У 2014 році Goodfellow запропонував GAN) генеративну змагальну мережу, Generative Adversarial Network(, яка навчається шляхом суперництва між двома нейронними мережами та здатна генерувати фотознімки, які важко відрізнити від справжніх. Одночасно Goodfellow написав книгу «Deep Learning», яка називається «квітковою книгою», і є однією з важливих вступних книжок у сфері глибокого навчання.
У 2015 році Хінтон та інші представили алгоритми глибокого навчання в журналі «Природа», що викликало величезний резонанс у науковому середовищі та промисловості.
У 2015 році була створена компанія штучного інтелекту, кілька відомих осіб оголосили про спільне інвестування 10 мільярдів доларів.
У 2016 році, на основі технології глибокого навчання, AlphaGo провела та матч проти чемпіона світу з го, професійного дев'ятого дану Лі Седжина, вигравши з загальним рахунком 4:1.
У 2017 році компанія розробила андроїда Софію, яка стала першим у історії роботом, що отримав статус повноправного громадянина, з багатими виразами обличчя та здатністю розуміти людську мову.
У 2017 році певна компанія, що має багатий кадровий та технологічний резерв у сфері штучного інтелекту, опублікувала статтю "Attention is all you need", в якій було запропоновано алгоритм Transformer, і почали з'являтися масштабні мовні моделі.
У 2018 році компанія випустила GPT)Generative Pre-trained Transformer(, побудований на основі алгоритму Transformer, що був одним з найбільших мовних моделей на той час.
У 2018 році команда певної компанії випустила AlphaGo на основі глибокого навчання, здатний передбачати структуру білків, що розглядається як величезний прогрес у сфері штучного інтелекту.
У 2019 році компанія випустила GPT-2, ця модель має 1,5 мільярда параметрів.
У 2020 році компанія розробила GPT-3, який має 175 мільярдів параметрів, що в 100 разів більше, ніж у попередньої версії GPT-2. Ця модель була навчена на 570 ГБ тексту і може досягати передових результатів у кількох завданнях обробки природної мови ), таких як відповіді на запитання, переклад, написання статей (.
У 2021 році одна компанія випустила GPT-4, ця модель має 1,76 трильйона параметрів, що в 10 разів більше, ніж у GPT-3.
У січні 2023 року випущено програму ChatGPT на базі моделі GPT-4, у березні ChatGPT досягнув ста мільйонів користувачів, ставши найшвидшою програмою в історії, що досягла ста мільйонів користувачів.
У 2024 році одна компанія випустить GPT-4 omni.
! [Newcomer Science丨AI x Crypto: від нуля до піку])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Ланцюг промисловості глибокого навчання
Сучасні великі мовні моделі використовують методи глибокого навчання на основі нейронних мереж. Завдяки GPT, великі моделі викликали бурхливий розвиток штучного інтелекту, і багато гравців увійшли в цю галузь. Ми також виявили, що ринок має величезний попит на дані та обчислювальні потужності. Тому в цій частині звіту ми в основному досліджуємо промисловий ланцюг алгоритмів глибокого навчання, як складаються верхня і нижня частини галузі штучного інтелекту, що керується алгоритмами глибокого навчання, а також як виглядає поточний стан верхньої та нижньої частини, їхні відносини попиту і пропозиції та майбутній розвиток.
По-перше, нам потрібно чітко зрозуміти, що під час тренування великих моделей LLMs на базі GPT, заснованих на технології Transformer, загалом існує три етапи.
Перед навчанням, оскільки це базується на Transformer, конвертеру потрібно перетворити текстовий вхід у числовий, цей процес називається "Tokenization", після чого ці числові значення називаються Token. За загальним правилом, одне англійське слово або символ можна грубо вважати одним Token, а кожен ієрогліф може бути грубо вважатися двома Token. Це також є основною одиницею, що використовується для оцінки GPT.
Перший крок, попереднє навчання. Шляхом надання достатньої кількості пар даних на вхідному шарі, подібно до прикладу, наведеного у першій частині звіту )X,Y(, для пошуку оптимальних параметрів для кожного нейрона в моделі, в цей час потрібно багато даних, і цей процес є також найбільш витратним з точки зору обчислювальних ресурсів, оскільки потрібно багаторазово ітеративно пробувати різні параметри нейронів. Після завершення навчання партії даних зазвичай використовують ту ж партію даних для повторного навчання з метою ітерації параметрів.
Другий крок, доопрацювання. Доопрацювання - це надання невеликої, але дуже якісної партії даних для навчання, такі зміни дозволяють моделі генерувати виходи вищої якості, адже попереднє навчання вимагає великої кількості даних, проте багато з цих даних можуть містити помилки або бути низької якості. Крок доопрацювання може підвищити якість моделі за рахунок якісних даних.
Третій крок, підкріплене навчання. Спочатку буде створено абсолютно нову модель, ми називаємо її "модель винагороди", мета якої дуже проста: провести ранжування виходу результатів, тому реалізувати цю модель буде досить просто, оскільки бізнес-сценарій досить вертикальний. Потім ця модель буде використовуватися для визначення, чи є виходи нашої великої моделі високоякісними, таким чином ми зможемо використовувати модель винагороди для автоматичної ітерації параметрів великої моделі. ) Але іноді також потрібна людська участь для оцінки якості виходу моделі (
Коротко кажучи, під час навчання великої моделі попереднє навчання має дуже високі вимоги до обсягу даних, а витрати GPU також є найбільшими, тоді як доопрацювання вимагає більш якісних даних для покращення параметрів, а навчання з підкріпленням може повторно ітеративно змінювати параметри за допомогою моделі винагороди для отримання результатів вищої якості.
У процесі навчання, чим більше параметрів, тим вища межа його узагальнюючої здатності. Наприклад, у прикладі з функцією Y = aX + b, насправді є два нейрони X та X0, тому як би не змінювалися параметри, дані, які можна апроксимувати, є вкрай обмеженими, оскільки по суті це все ще пряма. Якщо нейронів більше, то можна ітеративно змінювати більше параметрів, отже, можна апроксимувати більше даних. Це і є причина, чому великі моделі досягають чудових результатів, і тому вони отримали назву "великі моделі". По суті, це величезна кількість нейронів та параметрів, величезна кількість даних, а також величезна обчислювальна потужність.
Отже, на результати великої моделі впливають три основні аспекти: кількість параметрів, обсяг і якість даних, обчислювальна потужність. Ці три фактори спільно впливають на якість результатів великої моделі та її здатність до узагальнення. Припустимо, що кількість параметрів дорівнює p, обсяг даних дорівнює n), обчислення ведеться за кількістю токенів (. Тоді ми зможемо зазвичай за допомогою емпіричних правил розрахувати необхідну обчислювальну потужність, що дозволить нам приблизно оцінити, яку обчислювальну потужність потрібно купити, а також час навчання.
Обчислювальна потужність зазвичай вимірюється у Flops, що представляє одну операцію з плаваючою комою. Операції з плаваючою комою є загальним терміном для додавання, віднімання, множення і ділення нецілих чисел, таких як 2.5+3.557. Плаваюча кома означає можливість мати десяткові дроби, тоді як FP16 означає підтримку точності з десятковими дробами, а FP32 є звичайною точністю. Згідно з практичним емпіричним правилом, попереднє навчання )Pre-traning( один раз ) зазвичай вимагає багаторазового навчання ( великої моделі, приблизно 6np Flops, де 6 називається галузевою константою. А інференс )Inference - це процес, коли ми вводимо дані і чекаємо виходу великої моделі (, який ділиться на дві частини: введення n токенів та вихід.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
13 лайків
Нагородити
13
5
Репост
Поділіться
Прокоментувати
0/400
CryptoSourGrape
· 15год тому
Якби я раніше зробив All in AI, можливо, я вже зараз лежав би і їздив на LAMB... Тепер можу лише кожного дня крутити, крутити, крутити.
Переглянути оригіналвідповісти на0
MEVHunterZhang
· 18год тому
Знову AI обдурює людей, як лохів
Переглянути оригіналвідповісти на0
SeasonedInvestor
· 18год тому
20% це, напевно, брехня.
Переглянути оригіналвідповісти на0
AirdropSkeptic
· 18год тому
Підняли до верху, чекайте на обман для дурнів.
Переглянути оригіналвідповісти на0
CryptoPhoenix
· 18год тому
булран не за горами, відродження ШІ дає надію крипто... Ведмежий ринок формує менталітет, віра ніколи не зникне
Штучний інтелект та Глибина Криптоактиви інтегруються, великі моделі ведуть нову хвилю технологій
AI x Crypto: від нуля до вершин
Індустрія ШІ останнім часом розвивається швидкими темпами і сприймається деякими людьми як четверта промислова революція. Поява великих моделей суттєво підвищила ефективність у різних галузях, за оцінками, GPT підвищив ефективність роботи в США приблизно на 20%. Водночас здатність великих моделей до генералізації вважається новою парадигмою дизайну програмного забезпечення: раніше дизайн програмного забезпечення полягав у точному коді, тепер більше уваги приділяється вбудовуванню загального каркасу великих моделей у програмне забезпечення, що забезпечує кращу продуктивність і більш широку підтримку модальностей. Технології глибокого навчання дійсно принесли нову хвилю процвітання в індустрії ШІ, і цей бум також поширився на індустрію криптовалют.
Цей звіт детально розгляне розвиток індустрії ШІ, класифікацію технологій та вплив технології глибокого навчання на цю галузь. Потім буде проведено глибокий аналіз стану та тенденцій розвитку в upstream та downstream промислового ланцюга, таких як GPU, хмарні обчислення, джерела даних, пристрої на краю в глибокому навчанні. Наостанок ми в основному розглянемо зв'язок між криптовалютою та індустрією ШІ, проаналізуємо структуру промислового ланцюга, пов'язану з криптовалютою.
Історія розвитку індустрії штучного інтелекту
Індустрія штучного інтелекту почала свій шлях у 50-х роках XX століття. Для реалізації бачення штучного інтелекту академічна та індустріальна сфери в різні епохи та з різним предметним фоном розвинули кілька шкіл для реалізації штучного інтелекту.
Сучасні технології штучного інтелекту в основному використовують термін "машинне навчання", ідея якого полягає в тому, щоб дозволити машинам покладатися на дані для багаторазового покращення продуктивності системи в рамках завдання. Основні етапи включають введення даних в алгоритм, навчання моделі на даних, тестування та впровадження моделі, використання моделі для виконання автоматизованих прогнозних завдань.
Наразі машинне навчання має три основні напрямки: коннекціонізм, символізм та біхевіоризм, які імітують людську нервову систему, мислення та поведінку.
! Newcomer Science Popular丨AI x Crypto: від нуля до піку
Наразі зв'язковий підхід, представлений нейронними мережами, переважає (, також відомий як глибоке навчання ). Основна причина цього полягає в тому, що така архітектура має один вхідний шар, один вихідний шар, але кілька прихованих шарів. Коли число шарів та нейронів (, а також їх параметри ) достатньо великі, виникає достатня можливість для моделювання складних загальних завдань. Завдяки введенню даних, параметри нейронів можна постійно коригувати, і після кількох ітерацій з даними цей нейрон досягне оптимального стану (, що також є походженням терміна "глибоке" - достатня кількість шарів та нейронів.
Наприклад, можна просто зрозуміти це як побудову функції, де при X=2, Y=3; при X=3, Y=5. Якщо ви хочете, щоб ця функція відповідала всім X, потрібно постійно додавати ступінь цієї функції та її параметри. Наприклад, можна побудувати функцію, яка задовольняє цю умову, як Y = 2X - 1. Але якщо є дані, де X=2, Y=11, то потрібно перебудувати функцію, яка підходить для цих трьох точок даних. Використовуючи GPU для брутфорсу, виявляється, що Y = X2 - 3X + 5 є досить підходящим, але не потрібно, щоб вона повністю збігалася з даними, потрібно лише дотримуватися балансу, щоб вихідні дані були приблизно схожими. Тут X2, X та X0 представляють різні нейрони, а 1, -3, 5 - це їх параметри.
У цей час, якщо ми введемо велику кількість даних у нейронну мережу, ми можемо збільшити кількість нейронів та ітерувати параметри для підгонки нових даних. Таким чином, ми зможемо підлаштувати всі дані.
А на основі технології глибокого навчання з нейронними мережами також є кілька технічних ітерацій та еволюцій, зокрема, такі як найраніші нейронні мережі, мережі прямого поширення, RNN, CNN, GAN, які врешті-решт еволюціонували до сучасних великих моделей, таких як GPT, що використовують технологію Transformer. Технологія Transformer - це лише один з напрямків еволюції нейронних мереж, вона додала перетворювач ) Transformer (, який використовується для кодування всіх модальностей ), таких як аудіо, відео, зображення тощо ( у відповідні числові значення для представлення. Потім ці дані вводяться до нейронної мережі, що дозволяє нейронній мережі адаптуватися до будь-якого типу даних, тобто реалізувати мультимодальність.
Розвиток штучного інтелекту пройшов через три технологічні хвилі. Перша хвиля припала на 60-ті роки XX століття, через десятиліття після висунення концепції штучного інтелекту. Ця хвиля була викликана розвитком символістських технологій, які вирішили проблеми загальної обробки природної мови та діалогу між людиною і комп'ютером. В той же час виникли експертні системи, зокрема експертна система DENRAL, яку розробили деякі установи. Ця система має дуже глибокі знання в хімії і здатна робити висновки через запитання, щоб генерувати відповіді, аналогічні тим, які дав би хімічний експерт. Цю хімічну експертну систему можна розглядати як поєднання бази знань з хімії та системи висновків.
Після експертних систем у 90-х роках XX століття вчені запропонували байєсівські мережі, які також називають мережами віри. У той же період Брукс запропонував робототехніку на основі поведінки, що стало знаковим моментом для виникнення біхевіоризму.
У 1997 році технологічна компанія Deep Blue здобула перемогу над чемпіоном світу з шахів Гаррі Каспаровим з рахунком 3.5:2.5, ця перемога вважається віхою в історії штучного інтелекту, технології ШІ пережили другий пік розвитку.
Третя хвиля технологій штучного інтелекту відбулася в 2006 році. Три велетні глибокого навчання Ян ЛеКун, Джеффрі Хінтон та Йошуа Бенгіо запропонували концепцію глибокого навчання, алгоритму, що використовує штучні нейронні мережі для навчання представлення даних. Після цього алгоритми глибокого навчання поступово еволюціонували, від RNN, GAN до Transformer та Stable Diffusion, ці алгоритми разом сформували цю третю технологічну хвилю, і це також був розквіт коннекціонізму.
Багато знакових подій також супроводжувалися дослідженнями та еволюцією технології глибокого навчання, зокрема:
У 2011 році система технологічної компанії перемогла людей на вікторині «Небезпечна межа» )Jeopardy( та здобула титул чемпіона.
У 2014 році Goodfellow запропонував GAN) генеративну змагальну мережу, Generative Adversarial Network(, яка навчається шляхом суперництва між двома нейронними мережами та здатна генерувати фотознімки, які важко відрізнити від справжніх. Одночасно Goodfellow написав книгу «Deep Learning», яка називається «квітковою книгою», і є однією з важливих вступних книжок у сфері глибокого навчання.
У 2015 році Хінтон та інші представили алгоритми глибокого навчання в журналі «Природа», що викликало величезний резонанс у науковому середовищі та промисловості.
У 2015 році була створена компанія штучного інтелекту, кілька відомих осіб оголосили про спільне інвестування 10 мільярдів доларів.
У 2016 році, на основі технології глибокого навчання, AlphaGo провела та матч проти чемпіона світу з го, професійного дев'ятого дану Лі Седжина, вигравши з загальним рахунком 4:1.
У 2017 році компанія розробила андроїда Софію, яка стала першим у історії роботом, що отримав статус повноправного громадянина, з багатими виразами обличчя та здатністю розуміти людську мову.
У 2017 році певна компанія, що має багатий кадровий та технологічний резерв у сфері штучного інтелекту, опублікувала статтю "Attention is all you need", в якій було запропоновано алгоритм Transformer, і почали з'являтися масштабні мовні моделі.
У 2018 році компанія випустила GPT)Generative Pre-trained Transformer(, побудований на основі алгоритму Transformer, що був одним з найбільших мовних моделей на той час.
У 2018 році команда певної компанії випустила AlphaGo на основі глибокого навчання, здатний передбачати структуру білків, що розглядається як величезний прогрес у сфері штучного інтелекту.
У 2019 році компанія випустила GPT-2, ця модель має 1,5 мільярда параметрів.
У 2020 році компанія розробила GPT-3, який має 175 мільярдів параметрів, що в 100 разів більше, ніж у попередньої версії GPT-2. Ця модель була навчена на 570 ГБ тексту і може досягати передових результатів у кількох завданнях обробки природної мови ), таких як відповіді на запитання, переклад, написання статей (.
У 2021 році одна компанія випустила GPT-4, ця модель має 1,76 трильйона параметрів, що в 10 разів більше, ніж у GPT-3.
У січні 2023 року випущено програму ChatGPT на базі моделі GPT-4, у березні ChatGPT досягнув ста мільйонів користувачів, ставши найшвидшою програмою в історії, що досягла ста мільйонів користувачів.
У 2024 році одна компанія випустить GPT-4 omni.
! [Newcomer Science丨AI x Crypto: від нуля до піку])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Ланцюг промисловості глибокого навчання
Сучасні великі мовні моделі використовують методи глибокого навчання на основі нейронних мереж. Завдяки GPT, великі моделі викликали бурхливий розвиток штучного інтелекту, і багато гравців увійшли в цю галузь. Ми також виявили, що ринок має величезний попит на дані та обчислювальні потужності. Тому в цій частині звіту ми в основному досліджуємо промисловий ланцюг алгоритмів глибокого навчання, як складаються верхня і нижня частини галузі штучного інтелекту, що керується алгоритмами глибокого навчання, а також як виглядає поточний стан верхньої та нижньої частини, їхні відносини попиту і пропозиції та майбутній розвиток.
По-перше, нам потрібно чітко зрозуміти, що під час тренування великих моделей LLMs на базі GPT, заснованих на технології Transformer, загалом існує три етапи.
Перед навчанням, оскільки це базується на Transformer, конвертеру потрібно перетворити текстовий вхід у числовий, цей процес називається "Tokenization", після чого ці числові значення називаються Token. За загальним правилом, одне англійське слово або символ можна грубо вважати одним Token, а кожен ієрогліф може бути грубо вважатися двома Token. Це також є основною одиницею, що використовується для оцінки GPT.
Перший крок, попереднє навчання. Шляхом надання достатньої кількості пар даних на вхідному шарі, подібно до прикладу, наведеного у першій частині звіту )X,Y(, для пошуку оптимальних параметрів для кожного нейрона в моделі, в цей час потрібно багато даних, і цей процес є також найбільш витратним з точки зору обчислювальних ресурсів, оскільки потрібно багаторазово ітеративно пробувати різні параметри нейронів. Після завершення навчання партії даних зазвичай використовують ту ж партію даних для повторного навчання з метою ітерації параметрів.
Другий крок, доопрацювання. Доопрацювання - це надання невеликої, але дуже якісної партії даних для навчання, такі зміни дозволяють моделі генерувати виходи вищої якості, адже попереднє навчання вимагає великої кількості даних, проте багато з цих даних можуть містити помилки або бути низької якості. Крок доопрацювання може підвищити якість моделі за рахунок якісних даних.
Третій крок, підкріплене навчання. Спочатку буде створено абсолютно нову модель, ми називаємо її "модель винагороди", мета якої дуже проста: провести ранжування виходу результатів, тому реалізувати цю модель буде досить просто, оскільки бізнес-сценарій досить вертикальний. Потім ця модель буде використовуватися для визначення, чи є виходи нашої великої моделі високоякісними, таким чином ми зможемо використовувати модель винагороди для автоматичної ітерації параметрів великої моделі. ) Але іноді також потрібна людська участь для оцінки якості виходу моделі (
Коротко кажучи, під час навчання великої моделі попереднє навчання має дуже високі вимоги до обсягу даних, а витрати GPU також є найбільшими, тоді як доопрацювання вимагає більш якісних даних для покращення параметрів, а навчання з підкріпленням може повторно ітеративно змінювати параметри за допомогою моделі винагороди для отримання результатів вищої якості.
У процесі навчання, чим більше параметрів, тим вища межа його узагальнюючої здатності. Наприклад, у прикладі з функцією Y = aX + b, насправді є два нейрони X та X0, тому як би не змінювалися параметри, дані, які можна апроксимувати, є вкрай обмеженими, оскільки по суті це все ще пряма. Якщо нейронів більше, то можна ітеративно змінювати більше параметрів, отже, можна апроксимувати більше даних. Це і є причина, чому великі моделі досягають чудових результатів, і тому вони отримали назву "великі моделі". По суті, це величезна кількість нейронів та параметрів, величезна кількість даних, а також величезна обчислювальна потужність.
Отже, на результати великої моделі впливають три основні аспекти: кількість параметрів, обсяг і якість даних, обчислювальна потужність. Ці три фактори спільно впливають на якість результатів великої моделі та її здатність до узагальнення. Припустимо, що кількість параметрів дорівнює p, обсяг даних дорівнює n), обчислення ведеться за кількістю токенів (. Тоді ми зможемо зазвичай за допомогою емпіричних правил розрахувати необхідну обчислювальну потужність, що дозволить нам приблизно оцінити, яку обчислювальну потужність потрібно купити, а також час навчання.
Обчислювальна потужність зазвичай вимірюється у Flops, що представляє одну операцію з плаваючою комою. Операції з плаваючою комою є загальним терміном для додавання, віднімання, множення і ділення нецілих чисел, таких як 2.5+3.557. Плаваюча кома означає можливість мати десяткові дроби, тоді як FP16 означає підтримку точності з десятковими дробами, а FP32 є звичайною точністю. Згідно з практичним емпіричним правилом, попереднє навчання )Pre-traning( один раз ) зазвичай вимагає багаторазового навчання ( великої моделі, приблизно 6np Flops, де 6 називається галузевою константою. А інференс )Inference - це процес, коли ми вводимо дані і чекаємо виходу великої моделі (, який ділиться на дві частини: введення n токенів та вихід.