Недавние достижения в области искусственного интеллекта рассматриваются некоторыми как четвертая промышленная революция. Появление крупных языковых моделей значительно повысило эффективность в различных отраслях, и компания Boston Consulting Group считает, что GPT повысил рабочую эффективность в США примерно на 20%. В то же время универсальность, которую предоставляют большие модели, рассматривается как новая парадигма программного дизайна. Ранее программный дизайн основывался на точном коде, теперь же он представляет собой более универсальные большие модели, встроенные в программное обеспечение, которые могут демонстрировать лучшие результаты и поддерживать более широкий спектр входных и выходных данных. Технология глубокого обучения действительно принесла четвертой бум в индустрию ИИ, и этот подъем также охватил индустрию криптовалют.
Этот отчет подробно рассмотрит историю развития AI-отрасли, классификацию технологий и влияние изобретения технологий глубокого обучения на отрасль. Затем будет проведен глубокий анализ цепочки поставок, включая GPU, облачные вычисления, источники данных, устройства на краю и так далее, а также текущее состояние и тенденции их развития. После этого мы подробно обсудим суть взаимосвязи между криптовалютой и AI-отраслью и проанализируем структуру AI-цепочки поставок, связанной с криптовалютой.
История развития AI-индустрии
Индустрия искусственного интеллекта начала развиваться с 50-х годов XX века. Для реализации видения искусственного интеллекта академические и промышленные круги в разные эпохи и с различным научным фоном разработали множество направлений для реализации искусственного интеллекта.
Современные технологии искусственного интеллекта в основном используют термин "машинное обучение". Идея этой технологии заключается в том, чтобы позволить машинам повторно итеративно улучшать производительность системы на основе данных в рамках задачи. Основные шаги включают в себя передачу данных алгоритму, использование этих данных для обучения модели, тестирование и развертывание модели, а также использование модели для выполнения автоматизированных задач прогнозирования.
В настоящее время в машинном обучении существует три основных направления: соединительный подход, символический подход и бихевиористский подход, которые соответственно имитируют нервную систему, мышление и поведение человека.
В настоящее время соединительная теория, представленная нейронными сетями, занимает лидирующие позиции (, также известная как глубокое обучение ). Основная причина заключается в том, что такая архитектура имеет один входной слой, один выходной слой и несколько скрытых слоев. Как только количество слоев и нейронов ( и их параметры ) становятся достаточно большими, появляется возможность адекватно моделировать сложные универсальные задачи. Путем ввода данных можно постоянно настраивать параметры нейронов, и в конечном итоге, пройдя через множество данных, нейрон достигнет оптимального состояния ( параметров ). Это то, что мы называем "великой силой, приносящей чудеса", и это также объясняет, откуда произошла "глубина" — достаточное количество слоев и нейронов.
Простыми словами, это можно понять как создание функции, в которую при вводе X=2 получается Y=3; при X=3 получается Y=5. Если мы хотим, чтобы эта функция работала для всех X, необходимо постоянно добавлять степень этой функции и ее параметры. Например, я могу сейчас построить функцию, удовлетворяющую этому условию, как Y = 2X - 1, но если есть данные X=2, Y=11, то необходимо переработать функцию, подходящую для этих трех точек данных. Используя GPU для брутфорса, мы обнаружили, что Y = X2 - 3X + 5 подходит лучше всего, но не обязательно полностью совпадать с данными; достаточно соблюдать баланс и получать приблизительно схожий результат. Здесь X2, X и X0 представляют разные нейроны, а 1, -3, 5 — это их параметры.
В этот момент, если мы вводим большое количество данных в нейронную сеть, мы можем увеличить количество нейронов и итерационные параметры для подгонки новых данных. Таким образом, мы сможем подогнать все данные.
На основе технологий глубокого обучения, основанных на нейронных сетях, также произошло несколько итераций и эволюций технологий, таких как самые ранние нейронные сети на изображении выше, прямые нейронные сети, RNN, CNN, GAN, которые в конечном итоге эволюционировали в современные большие модели, такие как GPT, использующие технологию Transformer. Технология Transformer является лишь одним направлением эволюции нейронных сетей, в неё добавлен преобразователь ( Transformer ), который используется для кодирования данных всех модальностей (, таких как аудио, видео, изображения и т. д., в соответствующие числовые значения. Затем эти данные вводятся в нейронную сеть, что позволяет нейронной сети адаптироваться к любому типу данных, реализуя тем самым мультимодальность.
! [Новичок в науке丨AI x Crypto: от нуля до пика])https://img-cdn.gateio.im/webp-social/moments-7e025deb1fddcd5fa716b6f144701074.webp(
Развитие ИИ прошло через три технологических волны. Первая волна пришлась на 60-е годы XX века, это произошло через десять лет после появления технологий ИИ. Эта волна была вызвана развитием символистских технологий, которые решали проблемы общего понимания естественного языка и взаимодействия человек-компьютер. В это же время возникли экспертные системы, одной из которых стал экспертный система DENRAL, созданная под руководством Стэнфордского университета и NASA. Эта система обладает очень глубокими знаниями в области химии и делает выводы на основе вопросов, чтобы генерировать ответы, аналогичные ответам химического эксперта. Эта система эксперта в химии может рассматриваться как сочетание химической базы знаний и системы вывода.
После экспертных систем в 1990-х годах израильско-американский ученый и философ Иудея Перл ) Judea Pearl ( предложил байесовские сети, которые также известны как сети веры. В то же время Брукс предложил робототехнику, основанную на поведении, что ознаменовало рождение бихевиоризма.
В 1997 году IBM Deep Blue с результатом 3.5:2.5 победил чемпиона мира по шахматам Гарри Каспарова)Kasparov(, эта победа считается вехой в области искусственного интеллекта, и технологии ИИ пережили второй всплеск развития.
Третья волна технологий искусственного интеллекта произошла в 2006 году. Три гиганта глубокого обучения Yann LeCun, Geoffrey Hinton и Yoshua Bengio предложили концепцию глубокого обучения, алгоритма, основанного на архитектуре искусственных нейронных сетей, для обучения представлениям данных. Затем алгоритмы глубокого обучения постепенно развивались, от RNN и GAN до Transformer и Stable Diffusion, эти два алгоритма совместно сформировали эту третью технологическую волну, и это также период расцвета соединительного подхода.
Многие знаковые события также постепенно возникают вместе с исследованием и эволюцией технологий глубокого обучения, включая:
В 2011 году IBM Watson) победил человека и завоевал чемпионский титул в викторине «Jeopardy(».
В 2014 году Гудфеллоу предложил GAN) генеративную состязательную сеть, Generative Adversarial Network(, которая обучается посредством противостояния двух нейронных сетей и способна генерировать фотореалистичные изображения. В то же время Гудфеллоу также написал книгу "Deep Learning", известную как "цветная книга", которая является одной из важных вводных книг в области глубокого обучения.
В 2015 году Хинтон и др. представили алгоритм глубокого обучения в журнале «Природа», и это предложение глубокого обучения сразу же вызвало огромный резонанс в академических кругах и в промышленности.
В 2015 году OpenAI была основана, и такие лица, как Маск, президент YC Алтман, ангел-инвестор Питер Тиль ) Peter Thiel ( и другие объявили о совместном вложении 1 миллиарда долларов.
В 2016 году AlphaGo, основанный на технологии глубокого обучения, одержал победу над чемпионом мира по го и профессиональным девятым даном Ли Сидо с общим счетом 4:1 в битве человек против машины.
В 2017 году компания Hanson Robotics из Гонконга, разработавшая гуманоидного робота Софиу, получила исторический статус первого робота, ставшего полноценным гражданином. Она обладает богатой мимикой и способностью понимать человеческий язык.
В 2017 году компания Google, обладающая богатым кадровым и техническим потенциалом в области искусственного интеллекта, опубликовала статью «Внимание — это всё, что вам нужно», в которой был представлен алгоритм Transformer, и началось появление крупномасштабных языковых моделей.
В 2018 году OpenAI выпустила GPT) Генеративный Предобученный Трансформер(, построенный на алгоритме Transformer, который был одной из крупнейших языковых моделей на тот момент.
В 2018 году команда Google Deepmind выпустила AlphaGo, основанный на глубоком обучении, который способен предсказывать структуру белков и считается значительным шагом вперед в области искусственного интеллекта.
В 2019 году OpenAI выпустила GPT-2, эта модель имеет 1,5 миллиарда параметров.
В 2020 году OpenAI разработала GPT-3, содержащую 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель использовала 570 ГБ текстов для обучения и может достигать передовых результатов в различных задачах NLP), таких как ответы на вопросы, перевод и написание статей(.
В 2021 году OpenAI выпустила GPT-4, эта модель обладает 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года запущено приложение ChatGPT на базе модели GPT-4, в марте ChatGPT достиг ста миллионов пользователей, став приложением, которое быстрее всего достигло ста миллионов пользователей в истории.
В 2024 году OpenAI выпустит GPT-4 omni.
Примечание: Поскольку существует множество статей по искусственному интеллекту, различных направлений и технологий, здесь в основном рассматривается история развития глубокого обучения или соединительного подхода, в то время как другие направления и технологии все еще находятся на стадии быстрого развития.
! [Новичок в популярной науке丨AI x Crypto: от нуля до пика])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Цепочка промышленности глубокого обучения
В настоящее время все языковые модели большого объема основаны на методах глубокого обучения с использованием нейронных сетей. Модели большого объема, такие как GPT, создали волну интереса к искусственному интеллекту, и множество игроков устремились на этот рынок. Мы также обнаружили, что рынок испытывает огромный спрос на данные и вычислительные мощности. Поэтому в этой части отчета мы в основном исследуем цепочку поставок алгоритмов глубокого обучения, как сформированы их вверх и вниз по потоку в AI-индустрии, доминируемой алгоритмами глубокого обучения, и каковы нынешние условия и соотношение спроса и предложения, а также будущее развитие.
Прежде всего, нам нужно уточнить, что при обучении больших моделей LLMs, основанных на технологии Transformer, таких как GPT ), процесс делится на три этапа.
Перед обучением, поскольку он основан на Transformer, преобразователь должен преобразовать текстовый ввод в числовые значения, этот процесс называется "Tokenization", после чего эти числовые значения называются токенами. По общему правилу, одно английское слово или символ можно грубо считать одним токеном, а каждый иероглиф можно грубо считать за два токена. Это также является основной единицей, используемой для оценки GPT.
Первый шаг, предварительное обучение. Путем предоставления входному слою достаточного количества пар данных, подобных приведенному в первой части отчета примеру (X,Y), мы ищем оптимальные параметры для каждого нейрона в модели. В этот момент требуется большое количество данных, и этот процесс также является наиболее ресурсоемким, поскольку необходимо многократно итеративно пробовать различные параметры нейронов. После завершения обучения одной партии данных обычно используется та же партия данных для вторичного обучения с целью итерации параметров.
Шаг второй, дообучение. Дообучение заключается в том, чтобы предоставить небольшую, но очень качественную выборку данных для обучения, такие изменения приведут к более высокому качеству выходных данных модели, поскольку предобучение требует большого объема данных, но многие из них могут содержать ошибки или быть низкого качества. Этап дообучения может повысить качество модели за счет качественных данных.
Шаг третий, обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения", цель этой модели очень проста, она предназначена для ранжирования выходных результатов, поэтому создание этой модели будет достаточно простым, поскольку бизнес-сцена довольно вертикальная. Затем мы используем эту модель для оценки, является ли вывод нашей большой модели качественным, таким образом, мы можем использовать модель вознаграждения для автоматической итерации параметров большой модели. ( Однако иногда также требуется человеческое участие для оценки качества вывода модели ).
Короче говоря, в процессе обучения больших моделей предварительное обучение предъявляет очень высокие требования к объему данных, а необходимая вычислительная мощность GPU также максимальна. В то время как дообучение требует данных более высокого качества для улучшения параметров, обучение с подкреплением может итеративно изменять параметры с помощью модели вознаграждения для получения более качественных результатов.
В процессе обучения, чем больше параметров, тем выше потолок его обобщающей способности. Например, если рассмотреть пример функции Y = aX + b, то на самом деле есть два нейрона X и X0. Таким образом, как ни меняй параметры, количество данных, которые можно подогнать, крайне ограничено, потому что по своей сути это все еще прямая линия. Если нейронов больше, то можно итеративно менять больше параметров, а значит, подгонять больше данных. Вот почему большие модели творят чудеса, и именно поэтому их называют большими моделями. По сути, это огромное количество нейронов и параметров, а также огромное количество данных, которые требуют мощных вычислительных ресурсов.
Таким образом, производительность больших моделей в основном определяется тремя аспектами: количеством параметров, объемом и качеством данных, вычислительной мощностью. Эти три фактора совместно влияют на качество результатов и обобщающую способность больших моделей. Предположим, что количество параметров равно p, объем данных n( рассчитывается по количеству токенов), тогда мы можем рассчитать необходимую вычислительную мощность с помощью общего эмпирического правила, что позволит нам оценить необходимую вычислительную мощность и время обучения.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
8 Лайков
Награда
8
5
Поделиться
комментарий
0/400
DataBartender
· 3ч назад
啧 Это снова новая игрушка для неудачников
Посмотреть ОригиналОтветить0
ForkPrince
· 6ч назад
Не придуривайся, просто программисты сменили оболочку.
Посмотреть ОригиналОтветить0
BoredRiceBall
· 08-04 00:54
Ах, снова ai приходит за работой.
Посмотреть ОригиналОтветить0
Rugpull幸存者
· 08-04 00:50
Инструментальные люди постепенно исчезают.
Посмотреть ОригиналОтветить0
AltcoinOracle
· 08-04 00:45
удивительно... мой анализ показывает явную корреляцию 92.7% между сдвигами парадигмы ИИ и фракталами крипторынка. именно так, как предсказывали древние тексты
История развития ИИ: от начала до прорыва в обобщающей способности больших моделей
Развитие ИИ-индустрии: от начала до вершины
Недавние достижения в области искусственного интеллекта рассматриваются некоторыми как четвертая промышленная революция. Появление крупных языковых моделей значительно повысило эффективность в различных отраслях, и компания Boston Consulting Group считает, что GPT повысил рабочую эффективность в США примерно на 20%. В то же время универсальность, которую предоставляют большие модели, рассматривается как новая парадигма программного дизайна. Ранее программный дизайн основывался на точном коде, теперь же он представляет собой более универсальные большие модели, встроенные в программное обеспечение, которые могут демонстрировать лучшие результаты и поддерживать более широкий спектр входных и выходных данных. Технология глубокого обучения действительно принесла четвертой бум в индустрию ИИ, и этот подъем также охватил индустрию криптовалют.
Этот отчет подробно рассмотрит историю развития AI-отрасли, классификацию технологий и влияние изобретения технологий глубокого обучения на отрасль. Затем будет проведен глубокий анализ цепочки поставок, включая GPU, облачные вычисления, источники данных, устройства на краю и так далее, а также текущее состояние и тенденции их развития. После этого мы подробно обсудим суть взаимосвязи между криптовалютой и AI-отраслью и проанализируем структуру AI-цепочки поставок, связанной с криптовалютой.
История развития AI-индустрии
Индустрия искусственного интеллекта начала развиваться с 50-х годов XX века. Для реализации видения искусственного интеллекта академические и промышленные круги в разные эпохи и с различным научным фоном разработали множество направлений для реализации искусственного интеллекта.
Современные технологии искусственного интеллекта в основном используют термин "машинное обучение". Идея этой технологии заключается в том, чтобы позволить машинам повторно итеративно улучшать производительность системы на основе данных в рамках задачи. Основные шаги включают в себя передачу данных алгоритму, использование этих данных для обучения модели, тестирование и развертывание модели, а также использование модели для выполнения автоматизированных задач прогнозирования.
В настоящее время в машинном обучении существует три основных направления: соединительный подход, символический подход и бихевиористский подход, которые соответственно имитируют нервную систему, мышление и поведение человека.
В настоящее время соединительная теория, представленная нейронными сетями, занимает лидирующие позиции (, также известная как глубокое обучение ). Основная причина заключается в том, что такая архитектура имеет один входной слой, один выходной слой и несколько скрытых слоев. Как только количество слоев и нейронов ( и их параметры ) становятся достаточно большими, появляется возможность адекватно моделировать сложные универсальные задачи. Путем ввода данных можно постоянно настраивать параметры нейронов, и в конечном итоге, пройдя через множество данных, нейрон достигнет оптимального состояния ( параметров ). Это то, что мы называем "великой силой, приносящей чудеса", и это также объясняет, откуда произошла "глубина" — достаточное количество слоев и нейронов.
Простыми словами, это можно понять как создание функции, в которую при вводе X=2 получается Y=3; при X=3 получается Y=5. Если мы хотим, чтобы эта функция работала для всех X, необходимо постоянно добавлять степень этой функции и ее параметры. Например, я могу сейчас построить функцию, удовлетворяющую этому условию, как Y = 2X - 1, но если есть данные X=2, Y=11, то необходимо переработать функцию, подходящую для этих трех точек данных. Используя GPU для брутфорса, мы обнаружили, что Y = X2 - 3X + 5 подходит лучше всего, но не обязательно полностью совпадать с данными; достаточно соблюдать баланс и получать приблизительно схожий результат. Здесь X2, X и X0 представляют разные нейроны, а 1, -3, 5 — это их параметры.
В этот момент, если мы вводим большое количество данных в нейронную сеть, мы можем увеличить количество нейронов и итерационные параметры для подгонки новых данных. Таким образом, мы сможем подогнать все данные.
На основе технологий глубокого обучения, основанных на нейронных сетях, также произошло несколько итераций и эволюций технологий, таких как самые ранние нейронные сети на изображении выше, прямые нейронные сети, RNN, CNN, GAN, которые в конечном итоге эволюционировали в современные большие модели, такие как GPT, использующие технологию Transformer. Технология Transformer является лишь одним направлением эволюции нейронных сетей, в неё добавлен преобразователь ( Transformer ), который используется для кодирования данных всех модальностей (, таких как аудио, видео, изображения и т. д., в соответствующие числовые значения. Затем эти данные вводятся в нейронную сеть, что позволяет нейронной сети адаптироваться к любому типу данных, реализуя тем самым мультимодальность.
! [Новичок в науке丨AI x Crypto: от нуля до пика])https://img-cdn.gateio.im/webp-social/moments-7e025deb1fddcd5fa716b6f144701074.webp(
Развитие ИИ прошло через три технологических волны. Первая волна пришлась на 60-е годы XX века, это произошло через десять лет после появления технологий ИИ. Эта волна была вызвана развитием символистских технологий, которые решали проблемы общего понимания естественного языка и взаимодействия человек-компьютер. В это же время возникли экспертные системы, одной из которых стал экспертный система DENRAL, созданная под руководством Стэнфордского университета и NASA. Эта система обладает очень глубокими знаниями в области химии и делает выводы на основе вопросов, чтобы генерировать ответы, аналогичные ответам химического эксперта. Эта система эксперта в химии может рассматриваться как сочетание химической базы знаний и системы вывода.
После экспертных систем в 1990-х годах израильско-американский ученый и философ Иудея Перл ) Judea Pearl ( предложил байесовские сети, которые также известны как сети веры. В то же время Брукс предложил робототехнику, основанную на поведении, что ознаменовало рождение бихевиоризма.
В 1997 году IBM Deep Blue с результатом 3.5:2.5 победил чемпиона мира по шахматам Гарри Каспарова)Kasparov(, эта победа считается вехой в области искусственного интеллекта, и технологии ИИ пережили второй всплеск развития.
Третья волна технологий искусственного интеллекта произошла в 2006 году. Три гиганта глубокого обучения Yann LeCun, Geoffrey Hinton и Yoshua Bengio предложили концепцию глубокого обучения, алгоритма, основанного на архитектуре искусственных нейронных сетей, для обучения представлениям данных. Затем алгоритмы глубокого обучения постепенно развивались, от RNN и GAN до Transformer и Stable Diffusion, эти два алгоритма совместно сформировали эту третью технологическую волну, и это также период расцвета соединительного подхода.
Многие знаковые события также постепенно возникают вместе с исследованием и эволюцией технологий глубокого обучения, включая:
В 2011 году IBM Watson) победил человека и завоевал чемпионский титул в викторине «Jeopardy(».
В 2014 году Гудфеллоу предложил GAN) генеративную состязательную сеть, Generative Adversarial Network(, которая обучается посредством противостояния двух нейронных сетей и способна генерировать фотореалистичные изображения. В то же время Гудфеллоу также написал книгу "Deep Learning", известную как "цветная книга", которая является одной из важных вводных книг в области глубокого обучения.
В 2015 году Хинтон и др. представили алгоритм глубокого обучения в журнале «Природа», и это предложение глубокого обучения сразу же вызвало огромный резонанс в академических кругах и в промышленности.
В 2015 году OpenAI была основана, и такие лица, как Маск, президент YC Алтман, ангел-инвестор Питер Тиль ) Peter Thiel ( и другие объявили о совместном вложении 1 миллиарда долларов.
В 2016 году AlphaGo, основанный на технологии глубокого обучения, одержал победу над чемпионом мира по го и профессиональным девятым даном Ли Сидо с общим счетом 4:1 в битве человек против машины.
В 2017 году компания Hanson Robotics из Гонконга, разработавшая гуманоидного робота Софиу, получила исторический статус первого робота, ставшего полноценным гражданином. Она обладает богатой мимикой и способностью понимать человеческий язык.
В 2017 году компания Google, обладающая богатым кадровым и техническим потенциалом в области искусственного интеллекта, опубликовала статью «Внимание — это всё, что вам нужно», в которой был представлен алгоритм Transformer, и началось появление крупномасштабных языковых моделей.
В 2018 году OpenAI выпустила GPT) Генеративный Предобученный Трансформер(, построенный на алгоритме Transformer, который был одной из крупнейших языковых моделей на тот момент.
В 2018 году команда Google Deepmind выпустила AlphaGo, основанный на глубоком обучении, который способен предсказывать структуру белков и считается значительным шагом вперед в области искусственного интеллекта.
В 2019 году OpenAI выпустила GPT-2, эта модель имеет 1,5 миллиарда параметров.
В 2020 году OpenAI разработала GPT-3, содержащую 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель использовала 570 ГБ текстов для обучения и может достигать передовых результатов в различных задачах NLP), таких как ответы на вопросы, перевод и написание статей(.
В 2021 году OpenAI выпустила GPT-4, эта модель обладает 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года запущено приложение ChatGPT на базе модели GPT-4, в марте ChatGPT достиг ста миллионов пользователей, став приложением, которое быстрее всего достигло ста миллионов пользователей в истории.
В 2024 году OpenAI выпустит GPT-4 omni.
Примечание: Поскольку существует множество статей по искусственному интеллекту, различных направлений и технологий, здесь в основном рассматривается история развития глубокого обучения или соединительного подхода, в то время как другие направления и технологии все еще находятся на стадии быстрого развития.
! [Новичок в популярной науке丨AI x Crypto: от нуля до пика])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Цепочка промышленности глубокого обучения
В настоящее время все языковые модели большого объема основаны на методах глубокого обучения с использованием нейронных сетей. Модели большого объема, такие как GPT, создали волну интереса к искусственному интеллекту, и множество игроков устремились на этот рынок. Мы также обнаружили, что рынок испытывает огромный спрос на данные и вычислительные мощности. Поэтому в этой части отчета мы в основном исследуем цепочку поставок алгоритмов глубокого обучения, как сформированы их вверх и вниз по потоку в AI-индустрии, доминируемой алгоритмами глубокого обучения, и каковы нынешние условия и соотношение спроса и предложения, а также будущее развитие.
Прежде всего, нам нужно уточнить, что при обучении больших моделей LLMs, основанных на технологии Transformer, таких как GPT ), процесс делится на три этапа.
Перед обучением, поскольку он основан на Transformer, преобразователь должен преобразовать текстовый ввод в числовые значения, этот процесс называется "Tokenization", после чего эти числовые значения называются токенами. По общему правилу, одно английское слово или символ можно грубо считать одним токеном, а каждый иероглиф можно грубо считать за два токена. Это также является основной единицей, используемой для оценки GPT.
Первый шаг, предварительное обучение. Путем предоставления входному слою достаточного количества пар данных, подобных приведенному в первой части отчета примеру (X,Y), мы ищем оптимальные параметры для каждого нейрона в модели. В этот момент требуется большое количество данных, и этот процесс также является наиболее ресурсоемким, поскольку необходимо многократно итеративно пробовать различные параметры нейронов. После завершения обучения одной партии данных обычно используется та же партия данных для вторичного обучения с целью итерации параметров.
Шаг второй, дообучение. Дообучение заключается в том, чтобы предоставить небольшую, но очень качественную выборку данных для обучения, такие изменения приведут к более высокому качеству выходных данных модели, поскольку предобучение требует большого объема данных, но многие из них могут содержать ошибки или быть низкого качества. Этап дообучения может повысить качество модели за счет качественных данных.
Шаг третий, обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения", цель этой модели очень проста, она предназначена для ранжирования выходных результатов, поэтому создание этой модели будет достаточно простым, поскольку бизнес-сцена довольно вертикальная. Затем мы используем эту модель для оценки, является ли вывод нашей большой модели качественным, таким образом, мы можем использовать модель вознаграждения для автоматической итерации параметров большой модели. ( Однако иногда также требуется человеческое участие для оценки качества вывода модели ).
Короче говоря, в процессе обучения больших моделей предварительное обучение предъявляет очень высокие требования к объему данных, а необходимая вычислительная мощность GPU также максимальна. В то время как дообучение требует данных более высокого качества для улучшения параметров, обучение с подкреплением может итеративно изменять параметры с помощью модели вознаграждения для получения более качественных результатов.
В процессе обучения, чем больше параметров, тем выше потолок его обобщающей способности. Например, если рассмотреть пример функции Y = aX + b, то на самом деле есть два нейрона X и X0. Таким образом, как ни меняй параметры, количество данных, которые можно подогнать, крайне ограничено, потому что по своей сути это все еще прямая линия. Если нейронов больше, то можно итеративно менять больше параметров, а значит, подгонять больше данных. Вот почему большие модели творят чудеса, и именно поэтому их называют большими моделями. По сути, это огромное количество нейронов и параметров, а также огромное количество данных, которые требуют мощных вычислительных ресурсов.
Таким образом, производительность больших моделей в основном определяется тремя аспектами: количеством параметров, объемом и качеством данных, вычислительной мощностью. Эти три фактора совместно влияют на качество результатов и обобщающую способность больших моделей. Предположим, что количество параметров равно p, объем данных n( рассчитывается по количеству токенов), тогда мы можем рассчитать необходимую вычислительную мощность с помощью общего эмпирического правила, что позволит нам оценить необходимую вычислительную мощность и время обучения.