AI Битва ста моделей: від академічних задач до інженерних змагань

Битва ста моделей в AI-індустрії: від академічних проблем до інженерних задач

Минулого місяця в індустрії ШІ відбувся поєдинок на тему тварин.

Одна сторона – це Llama, випущена Meta, яка завдяки своїй відкритій природі користується великою популярністю в спільноті розробників. Японська електронна компанія (NEC), вивчивши статтю та вихідний код Llama, швидко розробила японську версію ChatGPT, вирішивши таким чином проблему розвитку ШІ в Японії.

Інша сторона - це великий модель під назвою Falcon. У травні цього року з'явилася Falcon-40B, яка перевершила Llama і зайняла перше місце в "рейтингу відкритих LLM". Цей рейтинг був створений спільнотою відкритих моделей і забезпечує стандарти для оцінки можливостей LLM. Рейтинг в основному складається з того, що Llama і Falcon чергуються на першому місці.

Після випуску Llama 2 сімейство Llama тимчасово стало лідером; але на початку вересня Falcon випустив версію 180B і знову отримав вищий рейтинг.

Цікаво, що розробником Falcon є Інститут наукових досліджень та інновацій в Абу-Дабі, столиці Об'єднаних Арабських Еміратів. Офіційні представники ОАЕ заявили, що їх участь у цій сфері має на меті розірвати існуючі шаблони.

На наступний день після випуску версії 180B міністр штучного інтелекту ОАЕ потрапив до списку "100 найбільш впливових людей у сфері ШІ", складеного журналом Time; разом з ним до списку увійшли "батько штучного інтелекту" Джеффрі Хінтон, Альтман з OpenAI та інші.

Сьогодні сфера штучного інтелекту вступила в етап процвітання: країни та компанії з певними фінансовими можливостями просувають плани по створенню локальних версій ChatGPT. Тільки в районі Перської затоки є не один учасник — у серпні Саудівська Аравія щойно придбала понад 3000 чіпів H100 для навчання LLM для місцевих університетів.

Один із інвесторів висловився: "Коли-то я не вірив у інновації бізнес-моделей Інтернету, вважав, що немає бар'єрів; не думав, що стартапи в сфері жорстких технологій та великих моделей все ще викликають конкуренцію..."

Чому це повинно було бути складною високими технологіями, а стало змаганням, в якому може брати участь кожен?

Трансформер: ключовий поворотний момент у розвитку ШІ

Американські стартапи, китайські технологічні гіганти та нафтові магнати Близького Сходу можуть переслідувати мрії про великі моделі завдяки відомій статті: «Увага — це все, що вам потрібно».

У 2017 році 8 комп'ютерних учених з Google опублікували алгоритм Transformer у цій статті. Ця стаття наразі є третьою за кількістю цитувань в історії ШІ, поява Transformer спричинила цю хвилю AI.

Сучасні різноманітні великі моделі, включаючи сенсаційну глобальну серію GPT, побудовані на основі Transformer.

До цього часу завдання змусити машини розуміти текст залишалося складною проблемою в академічному світі. На відміну від розпізнавання зображень, людина під час читання звертає увагу не лише на поточні слова, але й використовує контекст для розуміння. Ранні нейронні мережі отримували незалежні вхідні дані, що ускладнювало розуміння довгих текстів навіть цілковитих статей.

У 2014 році вчений Google Ілля вперше досяг прориву. Він використовував рекурентні нейронні мережі (RNN) для обробки природної мови, що суттєво покращило продуктивність Google Translate. RNN вводить "циклічний дизайн", що дозволяє нейронам отримувати як поточний вхід, так і вхід з попереднього моменту, що надає їм можливість "об'єднувати контекст".

Поява RNN викликала дослідницький ентузіазм у науковому середовищі. Однак розробники швидко виявили, що RNN має серйозні недоліки: цей алгоритм використовує послідовні обчислення, хоча він вирішує проблему контексту, але має низьку ефективність роботи та важко обробляє велику кількість параметрів.

Починаючи з 2015 року, Шазел та інші почали розробляти альтернативи RNN, і в підсумку з'явився Transformer. У порівнянні з RNN, Transformer має дві основні інновації: перша - заміна циклічного дизайну на позиційне кодування, що дозволяє виконувати паралельні обчислення, значно підвищуючи ефективність навчання; друга - подальше посилення здатності розуміти контекст.

Transformer одночасно вирішив декілька технічних проблем і поступово став основним рішенням для обробки природної мови. Він перетворив великі моделі з теоретичних досліджень у чисто інженерну задачу.

У 2019 році OpenAI на основі Transformer розробила GPT-2, яка шокувала академічний світ. Google невдовзі випустила більш потужний AI — Meena. Meena, у порівнянні з GPT-2, не має алгоритмічних нововведень, а лише збільшила кількість параметрів навчання та обчислювальну потужність. Цей метод "насильницького нагромадження" справив глибоке враження на автора Transformer Шазела.

Поява Transformer призвела до уповільнення швидкості інновацій у базових алгоритмах в академічному середовищі. Інженерні елементи, такі як обробка даних, обсяги обчислень, архітектура моделей тощо, поступово стають ключовими в AI-змаганнях. Будь-яка компанія з певними технологічними можливостями може розробити великі моделі.

Комп'ютерний вчений Ву Ен Да під час виступу в Стенфордському університеті зазначив: "ШІ - це набір інструментів, що включає контрольоване навчання, неконтрольоване навчання, навчання з підкріпленням, а також сучасний генеративний ШІ. Це універсальні технології, подібні до електрики та Інтернету."

Хоча OpenAI все ще є лідером у сфері LLM, аналітичні агентства в галузі напівпровідників вважають, що переваги GPT-4 в основному походять від інженерних рішень — якщо його відкриють, будь-який конкурент зможе швидко його скопіювати. Цей аналітик прогнозує, що інші великі технологічні компанії можуть незабаром створити великі моделі, які за продуктивністю будуть порівнянні з GPT-4.

Вразливість оборонного рову

Сьогодні "Битва моделей" вже не є перебільшенням, а об'єктивною реальністю.

Звіт показує, що станом на липень цього року в Китаї кількість великих моделей досягла 130, перевищивши 114 в США. Окрім Китаю та США, інші заможні країни також активно запроваджують місцеві великі моделі: такі як Bhashini, що розробляється урядом Індії, та HyperClova X, створений корейською інтернет-компанією Naver.

Ця сцена, здавалося, повернулася до раннього Інтернету, епохи запеклої боротьби капіталу та технологій.

Як було зазначено раніше, Transformer перетворює великі моделі на чисто інженерну задачу: за наявності талановитих людей, фінансів та апаратного забезпечення можна досягти успіху, просто нарощуючи параметри. Але зниження бар'єрів для входу не означає, що кожен може стати гігантом ери ШІ.

Наприклад, використовуючи "Війна тварин", згадану на початку статті: Falcon, хоча і перевершує Llama у деяких рейтингах, має обмежений реальний вплив на Meta.

Як відомо, підприємства відкривають свої наукові досягнення, щоб поділитися науковим прогресом, а також сподіваються скористатися мудрістю мас. Завдяки постійному використанню та вдосконаленню Llama в академічних та промислових колах, Meta може застосувати ці досягнення у своїх продуктах.

Для відкритих великих моделей активна спільнота розробників є їхньою основною конкурентною перевагою. Meta ще в 2015 році, коли заснувала лабораторію штучного інтелекту, визначила стратегію з відкритим вихідним кодом; Цукерберг, почавши з соціальних медіа, добре знає, як "підтримувати стосунки з користувачами".

Наприклад, у жовтні цього року Meta організувала захід "Мотивація AI творців": розробники, які використовують Llama 2 для вирішення соціальних проблем, таких як освіта, навколишнє середовище, мають можливість отримати грант у розмірі 500 000 доларів.

Сьогодні серія Llama від Meta стала еталоном відкритих LLM. Станом на початок жовтня, 8 з 10 найкращих відкритих LLM у рейтингу базуються на Llama 2 і використовують її відкриту ліцензію. Лише на цій платформі кількість LLM, що використовують відкриту ліцензію Llama 2, перевищує 1500.

Звичайно, підвищення продуктивності, як у Falcon, також є стратегією, але наразі більшість LLM все ще має помітний розрив з GPT-4.

Наприклад, нещодавно GPT-4 зайняв перше місце в тесті AgentBench з результатом 4.41. AgentBench було спільно розроблено кількома відомими університетами для оцінки здатності LLM до міркування та прийняття рішень у багатовимірному відкритому середовищі. Результати тесту показали, що друге місце зайняв Claude з лише 2.77 балами, що є помітною різницею. Інші відомі відкриті LLM зазвичай отримують бали близько 1, що становить менше чверті від GPT-4.

Варто зазначити, що GPT-4 було випущено цього року в березні, і це все ще результати через півроку після того, як світові конкуренти почали наздоганяти. OpenAI може зберігати свою провідну позицію завдяки висококваліфікованій науковій команді та накопиченому досвіду.

Інакше кажучи, основною перевагою великих моделей є не розмір параметрів, а екосистема (відкритий шлях) або чисто інференційні можливості (закритий шлях).

З огляду на зростаючу активність відкритих спільнот, продуктивність різних LLM може зрештою стати схожою, оскільки всі використовують подібні архітектури моделей та набори даних.

Інше, більш очевидне питання: крім Midjourney, здається, жодна велика модель не змогла досягти прибутку.

Виклики цінового закріплення

У серпні цього року стаття під назвою "OpenAI може збанкрутувати наприкінці 2024 року" викликала увагу. Основна ідея статті може бути зведена до того, що OpenAI витрачає кошти занадто швидко.

У тексті згадується, що з моменту розробки ChatGPT збитки OpenAI швидко зросли, у 2022 році компанія зазнала збитків приблизно в 540 мільйонів доларів і змушена була покладатися на інвестиції Microsoft для підтримки.

Хоча заголовок дещо провокаційний, він справді відображає загальний стан постачальників великих моделей: серйозний дисбаланс між витратами та доходами.

Завищені витрати призвели до того, що наразі основними вигодами від буму ШІ користуються лише виробники чіпів, такі як NVIDIA.

Згідно з оцінками консалтингової компанії Omdia, компанія NVIDIA продала понад 300 тисяч чіпів H100 у другому кварталі цього року. Це ефективний AI-чіп, за яким змагаються провідні технологічні компанії та науково-дослідні установи. Якщо скласти ці 300 тисяч H100 один на одного, їхня вага буде дорівнювати вазі 4,5 літаків Boeing 747.

Виручка NVIDIA різко зросла, порівняно з минулим роком, зростання склало 854%, що шокувало Уолл-стріт. Наразі ціна на H100 на вторинному ринку підскочила до 40-50 тисяч доларів, тоді як його матеріальні витрати становлять лише близько 3000 доларів.

Високі витрати на обчислювальну потужність в певній мірі стримують розвиток галузі. Sequoia Capital оцінювала, що світові технологічні компанії щорічно планують інвестувати 200 мільярдів доларів у будівництво інфраструктури для великих моделей; в порівнянні з цим, великі моделі можуть генерувати максимум 75 мільярдів доларів доходу на рік, що створює щонайменше 125 мільярдів доларів дефіциту.

Крім того, за винятком кількох винятків, таких як Midjourney, більшість програмних компаній, витративши величезні кошти, досі не знайшли чіткої моделі отримання прибутку. Навіть бізнеси в галузі лідерів, таких як Microsoft і Adobe, стикаються з викликами.

Інструмент генерування коду AI GitHub Copilot, розроблений у співпраці Microsoft та OpenAI, хоча і стягує щомісячну плату в 10 доларів, насправді приносить щомісячний збиток Microsoft у 20 доларів через витрати на інфраструктуру, а важкі користувачі можуть збільшити збиток до 80 доларів на місяць. Виходячи з цього, можна припустити, що Microsoft 365 Copilot з ціною 30 доларів може приносити ще більші збитки.

Також, Adobe, яка щойно запустила інструмент Firefly AI, швидко впровадила систему балів, щоб запобігти надмірному використанню, що може призвести до збитків компанії. Як тільки користувач перевищить щомісячно виділені бали, Adobe знизить швидкість обслуговування.

Слід зазначити, що Microsoft та Adobe вже мають чіткі бізнес-сценарії та велику кількість платних користувачів. А більшість параметрів великих моделей, основним сценарієм застосування яких залишається спілкування.

Неможливо заперечити, що без появи OpenAI та ChatGPT ця революція в сфері ШІ, можливо, не відбулася б. Але на поточному етапі цінність, створена під час навчання великих моделей, все ще потребує обговорення.

З посиленням конкуренції за однорідністю та постійним зростанням кількості відкритих моделей постачальники великих моделей можуть зіткнутися з більшим тиском на виживання.

Так само, як успіх iPhone 4 залежав не тільки від його процесора A4, а й від можливості запускати різні цікаві додатки, справжня цінність ШІ, можливо, більше проявляється у його конкретних застосуваннях.

GPT7.51%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 6
  • Поділіться
Прокоментувати
0/400
WalletManagervip
· 08-04 16:48
Багато слів не допоможуть, тільки хто має більші параметри моделі.
Переглянути оригіналвідповісти на0
LuckyHashValuevip
· 08-02 08:00
В Японії справді потужно займаються штучним інтелектом.
Переглянути оригіналвідповісти на0
PaperHandSistervip
· 08-02 07:54
Ці двоє сперечаються, хто виграє, але не можуть зрівнятися з GPT4 биком!
Переглянути оригіналвідповісти на0
BridgeTrustFundvip
· 08-02 07:46
Одна гора не вміщує двох овець. Хто виграв?
Переглянути оригіналвідповісти на0
SquidTeachervip
· 08-02 07:45
Просто жорсткий рулон, жорсткий рулон!
Переглянути оригіналвідповісти на0
SurvivorshipBiasvip
· 08-02 07:35
Трава, це ж альпака і сокіл б'ються?
Переглянути оригіналвідповісти на0
  • Закріпити