Історія розвитку ШІ: від початку до прориву в узагальненні великих моделей

2025-08-04 00:40:10

Розвиток індустрії ШІ: від початку до вершин

Останні досягнення в галузі штучного інтелекту деякі вважають четвертою промисловою революцією. Поява великих мовних моделей суттєво підвищила ефективність у різних сферах, а компанія Boston Consulting Group вважає, що GPT підвищила робочу ефективність в США приблизно на 20%. Водночас, загальні можливості, які пропонують великі моделі, вважаються новою парадигмою програмного дизайну. Раніше програмний дизайн базувався на точному коді, тепер же він передбачає більш загальні рамки великих моделей, інтегровані в програмне забезпечення, яке може демонструвати кращу продуктивність і підтримувати більш широкий спектр модальних введень та виведень. Технології глибокого навчання дійсно принесли четвертий бум в індустрії штучного інтелекту, і цей сплеск також поширився на індустрію криптовалют.

Цей звіт детально розгляне історію розвитку AI-індустрії, класифікацію технологій, а також вплив винаходу технології глибокого навчання на галузь. Потім буде проведено поглиблений аналіз ланцюга постачання в глибокому навчанні, включаючи GPU, хмарні обчислення, джерела даних, пристрої з краю та їхній стан розвитку і тенденції. Після цього ми детально обговоримо сутність взаємозв'язку між криптовалютою та AI-індустрією, а також проаналізуємо структуру AI-індустрії, пов'язаної з криптовалютою.

Історія розвитку індустрії штучного інтелекту

Індустрія штучного інтелекту почала свій розвиток з 50-х років XX століття. Щоб реалізувати бачення штучного інтелекту, академічна та промислова сфери в різні епохи та з різними дисциплінарними фонами розвинули багато напрямків для досягнення штучного інтелекту.

Сучасні технології штучного інтелекту в основному використовують термін "машинне навчання", ідея якого полягає в тому, щоб дозволити машинам покладатися на дані для багаторазової ітерації в завданнях з метою покращення продуктивності системи. Основні етапи полягають у передачі даних в алгоритм, використанні цих даних для навчання моделі, тестуванні та впровадженні моделі, використанні моделі для виконання автоматизованих прогнозних завдань.

Наразі машинне навчання має три основні напрямки: коннекціонізм, символізм і біхевіоризм, які імітують людську нервову систему, мислення та поведінку.

А наразі нейронні мережі, які представляють коннекціонізм, займають панівні позиції ( також відомі як глибоке навчання ), основна причина полягає в тому, що ця архітектура має один вхідний шар, один вихідний шар, але кілька прихованих шарів. Як тільки кількість шарів і нейронів ( параметрів ) стає достатньо великою, з'являється достатня можливість для підгонки до складних загальних завдань. Завдяки введенню даних можна постійно налаштовувати параметри нейронів, і врешті-решт, пройшовши через багато даних, цей нейрон досягне оптимального стану ( параметрів ), це також те, що ми називаємо великою силою, яка творить дива, і це також походження слова "глибина" — достатня кількість шарів і нейронів.

Простими словами, це можна зрозуміти як побудову функції, де при введенні X=2, Y=3; при X=3, Y=5. Якщо ми хочемо, щоб ця функція працювала для всіх X, то потрібно постійно додавати ступінь цієї функції та її параметри. Наприклад, на даний момент я можу побудувати функцію, яка задовольняє цим умовам, як Y = 2X -1, але якщо є дані X=2, Y=11, потрібно перебудувати функцію, яка підходить для цих трьох точок даних. Використовуючи GPU для брутфорс-розрахунків, ми знаходимо Y = X2 -3X +5, що є досить підходящим, але не потрібно, щоб воно повністю збігалося з даними, потрібно лише дотримуватись балансу, приблизно подібного виходу. Тут X2, X та X0 представляють різні нейрони, а 1, -3, 5 – це їх параметри.

У цей час, якщо ми введемо велику кількість даних у нейронну мережу, ми можемо збільшити кількість нейронів та ітераційні параметри, щоб підлаштувати нові дані. Таким чином, ми зможемо підлаштувати всі дані.

А технології глибокого навчання на основі нейронних мереж також мають кілька ітерацій і еволюцій, такі як найперша нейронна мережа на наведеній вище схемі, мережа з прямим пропуском, RNN, CNN, GAN, які врешті-решт еволюціонували в сучасні великі моделі, такі як GPT та інші, що використовують технології Transformer. Технологія Transformer є лише одним із напрямків еволюції нейронних мереж, до якого додано перетворювач ( Transformer ), який призначений для кодування всіх модальностей (, таких як аудіо, відео, зображення тощо ) у відповідні числові значення для представлення. Потім ці дані вводяться в нейронну мережу, що дозволяє нейронній мережі підлаштовуватися під будь-який тип даних, реалізуючи багатомодальність.

! Newcomer Science丨AI x Crypto: від нуля до піку

Розвиток ШІ пройшов три технологічні хвилі. Перша хвиля відбулася в 1960-х роках, через десять років після того, як було запропоновано технології ШІ. Ця хвиля виникла внаслідок розвитку символістських технологій, які вирішили проблеми загальної обробки природної мови та діалогу між людиною та комп'ютером. У той же період з'явилися експертні системи, зокрема експертна система DENRAL, розроблена в Стенфордському університеті під наглядом Національного управління з аеронавтики і дослідження космічного простору США. Ця система має дуже глибокі знання з хімії і може робити висновки на основі запитань, генеруючи відповіді, схожі на ті, що дає хімічний експерт. Цю хімічну експертну систему можна вважати поєднанням бази знань з хімії та системи висновків.

Після експертних систем у 1990-х роках ізраїльсько-американський вчений і філософ Юдея Перл ( Judea Pearl ) запропонував байєсівські мережі, які також називаються мережами віри. У той же період Брукс запропонував поведінкову робототехніку, що ознаменувало народження біхевіоризму.

У 1997 році IBM Deep Blue переміг чемпіона світу з шахів Гаррі Каспарова з рахунком 3.5:2.5, ця перемога вважається знаковою подією в історії штучного інтелекту, технології ШІ пережили другу хвилю розвитку.

Третя хвиля розвитку технологій штучного інтелекту відбулася в 2006 році. Три великі постаті глибокого навчання, Яан ЛеКун, Джеффрі Хінтон і Йошуа Бенгіо, запропонували концепцію глибокого навчання, алгоритму, що базується на архітектурі штучних нейронних мереж, для навчання репрезентацій даних. Після цього алгоритми глибокого навчання поступово еволюціонували, від RNN, GAN до Transformer і Stable Diffusion, ці два алгоритми спільно сформували цю третю технологічну хвилю, а також це був розквіт зв'язковості.

Багато знакових подій також супроводжували дослідження та еволюцію технології глибокого навчання, включаючи:

У 2011 році IBM Watson( переміг людину та здобув титул чемпіона в телевізійному вікторині «Jeopardy)».
У 2014 році Goodfellow запропонував GAN( генеративну змагальну мережу, Generative Adversarial Network), яка навчається шляхом змагання двох нейронних мереж, здатна генерувати фотографії, які важко відрізнити від справжніх. Одночасно Goodfellow написав книгу «Deep Learning», яка відома як «квіткова книга», і є однією з важливих вступних книг у галузі глибокого навчання.
У 2015 році Хінтон та інші в журналі «Природа» запропонували алгоритм глибокого навчання, що викликало величезний резонанс у наукових колах та промисловості.
У 2015 році OpenAI була заснована, Маск, президент YC Альтман, ангельський інвестор Пітер Тіль ( Peter Thiel ) та інші оголосили про спільне інвестування 1 мільярда доларів.
У 2016 році AlphaGo, оснований на технології глибокого навчання, провів битву між людиною та машиною з чемпіоном світу з го, професійним дев'ятим даном Лі Седолем, вигравши з загальним рахунком 4:1.
У 2017 році компанія Hanson Robotics з Гонконгу, яка розробила гуманоїдного робота Софію, отримала звання першого в історії робота, що отримав статус повноправного громадянина. Софія має багатий арсенал виразів обличчя та здатність розуміти людську мову.
У 2017 році компанія Google, яка має багатий кадровий та технологічний резерв у сфері штучного інтелекту, опублікувала статтю "Увага - це все, що вам потрібно", в якій було представлено алгоритм Transformer, і почали з'являтися великомасштабні мовні моделі.
У 2018 році OpenAI випустила GPT(Generative Pre-trained Transformer), створену на основі алгоритму Transformer, що на той час була однією з найбільших мовних моделей.
У 2018 році команда Google DeepMind представила AlphaGo на базі глибокого навчання, здатну прогнозувати структуру білків, що розглядається як величезний прогрес у галузі штучного інтелекту.
У 2019 році OpenAI випустила GPT-2, ця модель має 1,5 мільярда параметрів.
У 2020 році OpenAI розробила GPT-3, який має 175 мільярдів параметрів, що в 100 разів більше, ніж попередня версія GPT-2. Ця модель була навчена на 570 ГБ тексту і може досягати передових результатів у багатьох завданнях NLP(, таких як відповідь на запитання, переклад, написання статей).
У 2021 році OpenAI випустила GPT-4, ця модель має 1,76 трильйона параметрів, що в 10 разів більше, ніж у GPT-3.
У січні 2023 року був випущений додаток ChatGPT на основі моделі GPT-4, у березні ChatGPT досягнув ста мільйонів користувачів, ставши історично найшвидшим додатком, який досягнув ста мільйонів користувачів.
У 2024 році OpenAI запустить GPT-4 omni.

Примітка: Оскільки є багато наукових статей з штучного інтелекту, багато напрямків та технологій еволюціонують по-різному, тому тут основна увага приділяється історії розвитку глибокого навчання або коннекціонізму, інші напрямки та технології все ще перебувають у процесі швидкого розвитку.

Ланцюг промисловості глибокого навчання

Сучасні великі мовні моделі використовують методи глибокого навчання на основі нейронних мереж. Моделі на основі GPT стали основою буму штучного інтелекту, внаслідок чого на цей ринок прийшло багато гравців. Ми також виявили, що попит на дані та обчислювальну потужність різко зріс. Тому в цій частині звіту ми в основному досліджуємо виробничий ланцюг алгоритмів глибокого навчання, як складаються його верхні та нижні ланки в галузі AI, що домінує алгоритмами глибокого навчання, а також яка нинішня ситуація та співвідношення попиту і пропозиції, а також майбутній розвиток.

По-перше, нам потрібно зрозуміти, що під час навчання великих моделей LLMs( на базі технології Transformer, очолюваних GPT), є три етапи.

Перед навчанням, оскільки він оснований на Transformer, конвертер має перетворити текстовий ввід у числові значення, цей процес називається "Tokenization", після чого ці числові значення називаються Token. Згідно загального емпіричного правила, одне англійське слово або символ можна грубо вважати за один Token, тоді як кожен китайський ієрогліф можна грубо вважати за два Token. Це також є основною одиницею обліку, що використовується в GPT.

Перший крок, попереднє навчання. Шляхом надання вхідному шару достатньої кількості пар даних, подібно до прикладів, наведених у першій частині звіту (X,Y), для пошуку оптимальних параметрів для кожного нейрона в моделі, в цей момент потрібно багато даних, і цей процес також є найвитратнішим за обчислювальною потужністю, оскільки потрібно багаторазово ітераційно спробувати різні параметри нейронів. Після завершення навчання на одній партії даних зазвичай використовують ту ж саму партію даних для повторного навчання з метою ітерації параметрів.

Другий етап, доопрацювання. Доопрацювання — це надання невеликої кількості, але дуже якісних даних для навчання, такі зміни дозволять моделі видавати більш якісні результати, оскільки попереднє навчання потребує великої кількості даних, але багато з них можуть містити помилки або бути низької якості. Етап доопрацювання може підвищити якість моделі за рахунок якісних даних.

Третій крок, посилене навчання. Спочатку буде створено абсолютно нову модель, яку ми називаємо "модель винагороди". Мета цієї моделі дуже проста - це впорядкування вихідних результатів, тому створити цю модель буде досить просто, оскільки бізнес-сценарій досить специфічний. Після цього ми використовуємо цю модель, щоб визначити, чи є вихідні дані нашої великої моделі високоякісними, таким чином, ми можемо автоматично ітеративно налаштовувати параметри великої моделі за допомогою моделі винагороди. ( Але іноді також потрібно людське втручання для оцінки якості виходу моделі ).

Коротко кажучи, під час навчання великої моделі попереднє навчання має дуже високі вимоги до обсягу даних, а також вимагає найбільших обчислювальних потужностей GPU, тоді як доопрацювання вимагає більш якісних даних для покращення параметрів, а навчання з підкріпленням може повторно ітеративно коригувати параметри за допомогою моделі винагороди для отримання більш якісних результатів.

Під час тренування, чим більше параметрів, тим вища його межа узагальнення. Наприклад, у випадку з функцією Y = aX + b, насправді є два нейрони X та X0, тому, як би не змінювалися параметри, дані, які можна наблизити, залишаються вкрай обмеженими, адже по суті це все ж пряма. Якщо нейронів більше, то можна ітерувати більше параметрів, отже, можна наблизити більше даних. Саме тому великі моделі здатні на дива, і це також причина, чому їх називають великими моделями: по суті, це величезна кількість нейронів і параметрів, а також величезна кількість даних, що вимагає величезних обчислювальних потужностей.

Отже, вплив на результати великих моделей визначається в основному трьома аспектами: кількість параметрів, обсяг та якість даних, обчислювальна потужність. Ці три фактори спільно впливають на якість результатів великих моделей та їх здатність до узагальнення. Припустимо, що кількість параметрів дорівнює p, обсяг даних дорівнює n(, розрахованому за кількістю токенів), тоді ми можемо за загальними емпіричними правилами розрахувати необхідну обчислювальну потужність. Таким чином, ми можемо приблизно оцінити, яку обчислювальну потужність потрібно буде придбати та скільки часу займе навчання.

GPT1.5%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

8 лайків

Нагородити
8
5
Поділіться

Прокоментувати

0/400

DataBartender