AIの発展の歴史: 初期から大規模モデルの一般化能力への突破

AI業界の発展:スタートからピークへ

人工知能分野の最近の進展は、一部の人々によって第四次産業革命と見なされています。大規模言語モデルの出現は、さまざまな業界の効率を著しく向上させ、ボストンコンサルティンググループは、GPTがアメリカの労働効率を約20%向上させたと考えています。同時に、大規模モデルがもたらす一般化能力は、新しいソフトウェア設計のパラダイムと見なされています。過去のソフトウェア設計は正確なコードでしたが、現在のソフトウェア設計は、より一般化された大規模モデルフレームワークがソフトウェアに組み込まれており、これらのソフトウェアはより良いパフォーマンスを発揮し、より広範なモーダルの入力と出力をサポートすることができます。深層学習技術は確かにAI業界に第四の繁栄をもたらし、この熱潮は暗号通貨業界にも広がっています。

この報告書では、AI業界の発展の歴史、技術の分類、および深層学習技術の発明が業界に与える影響について詳しく探討します。その後、深層学習におけるGPU、クラウドコンピューティング、データソース、エッジデバイスなどの産業チェーンの上下流、およびその発展の現状とトレンドを深く分析します。その後、私たちは本質的に暗号通貨とAI業界の関係について詳しく探討し、暗号通貨に関連するAI産業チェーンの構造を整理しました。

AI業界の歴史

AI業界は20世紀50年代から始まりました。人工知能のビジョンを実現するために、学界と産業界は異なる時代と異なる学問的背景の下で、人工知能を実現するための多くの流派を発展させてきました。

現代の人工知能技術は主に「機械学習」という用語を使用しており、この技術の理念は、機械がデータに基づいてタスクを繰り返し反復することでシステムの性能を改善することです。主なステップは、データをアルゴリズムに送信し、そのデータを使用してモデルをトレーニングし、モデルをテストして展開し、モデルを使用して自動化された予測タスクを完了することです。

現在、機械学習には三つの主要な流派があり、連結主義、記号主義、行動主義があり、それぞれ人間の神経系、思考、行動を模倣しています。

現在、神経ネットワークを代表とするコネクショニズムが優勢であり(、深層学習とも呼ばれています)。その主な理由は、このアーキテクチャには入力層と出力層があり、複数の隠れ層が存在するためです。層の数や神経元(のパラメータ)の数が十分に多くなると、複雑な汎用タスクに適合する機会が十分に得られます。データを入力することで、神経元のパラメータを調整し続けることができ、最終的に多くのデータを経た結果、神経元は最適な状態(のパラメータ)に達します。これが私たちが言う「大きな力が奇跡を生む」ということの理由でもあり、これが「深層」という言葉の由来でもあります——十分な層数と神経元の数があるためです。

簡単に言うと、関数を構築したと理解できます。この関数にX=2を入力するとY=3、X=3を入力するとY=5になります。この関数がすべてのXに対応できるようにするには、その関数の次数とパラメータを追加し続ける必要があります。たとえば、今この条件を満たす関数をY = 2X -1として構築できますが、もしデータがX=2、Y=11の場合、これらの3つのデータポイントに適した関数を再構築する必要があります。GPUを使用して強制的に解決するとY = X2 -3X +5が比較的適切ですが、データと完全に一致する必要はなく、バランスを守る必要があります。大まかに似た出力で十分です。この中でX2、X、X0はそれぞれ異なるニューロンを表し、1、-3、5はそのパラメータです。

この時、大量のデータを神経ネットワークに入力すると、ニューロンを増やしたり、パラメータを反復して新しいデータにフィットさせることができます。これにより、すべてのデータにフィットさせることができます。

神経ネットワークに基づく深層学習技術にも、いくつかの技術的な反復と進化があり、上の図に示されている最初期の神経ネットワーク、フィードフォワード神経ネットワーク、RNN、CNN、GANがあり、最終的に現代の大規模モデルであるGPTなどで使用されるTransformer技術に進化しました。Transformer技術は神経ネットワークの進化の一つの方向であり、コンバーター(Transformer)を追加して、音声、動画、画像などのすべてのモダリティ(のデータを対応する数値にエンコードして表現します。それから、これを神経ネットワークに入力することで、神経ネットワークは任意のタイプのデータをフィッティングできるようになり、つまりマルチモーダルを実現します。

! [新人科学丨AI×暗号:ゼロからピークまで])https://img-cdn.gateio.im/webp-social/moments-7e025deb1fddcd5fa716b6f144701074.webp(

AIの発展は三つの技術的波を経てきました。最初の波は20世紀60年代で、AI技術が提唱されてから十年後のことです。この波は、記号主義技術の発展によって引き起こされました。この技術は、汎用の自然言語処理や人間とコンピュータの対話の問題を解決しました。同時期に、専門家システムが誕生しました。これはスタンフォード大学がアメリカ航空宇宙局の指導の下で完成させたDENRAL専門家システムです。このシステムは非常に強力な化学知識を持ち、質問を通じて推論を行い、化学の専門家と同様の答えを生成します。この化学専門家システムは、化学知識ベースと推論システムの統合と見なすことができます。

専門システムの後、1990年代にイスラエル系アメリカの科学者であり哲学者であるジュディア・パール)Judea Pearl(はベイズネットワークを提唱しました。このネットワークは信念ネットワークとも呼ばれます。同時期に、ブルックスは行動に基づくロボティクスを提唱し、行動主義の誕生を示しました。

1997年、IBMのディープブルー「Blue」が3.5:2.5でチェスチャンピオンのカスパロフ)Kasparov(に勝利しました。この勝利は人工知能の一つのマイルストーンと見なされ、AI技術は第二の発展の高潮を迎えました。

第三回目のAI技術の波は2006年に発生しました。深層学習の三巨頭であるYann LeCun、Geoffrey Hinton、Yoshua Bengioは、人工ニューラルネットワークを基盤としたデータ表現学習のアルゴリズムである深層学習の概念を提唱しました。その後、深層学習のアルゴリズムは徐々に進化し、RNN、GANからTransformer、Stable Diffusionへと至りました。この二つのアルゴリズムがこの第三の技術波を形成し、これは連結主義の最盛期でもあります。

多くの象徴的な出来事は、ディープラーニング技術の探求と進化と共に徐々に現れました。含まれているのは:

  • 2011年、IBMのワトソン)Watson(が「危険な境界」)Jeopardy(のクイズ番組で人間に勝利し、チャンピオンとなりました。

  • 2014年、GoodfellowはGAN)生成的対抗ネットワーク、Generative Adversarial Network(を提唱し、2つの神経ネットワークが互いに競い合うことで学習し、リアルに見える写真を生成できるようにしました。同時にGoodfellowは「Deep Learning」という本を書き、花書と呼ばれ、深層学習分野の重要な入門書の一つです。

  • 2015年、ヒントンらは『ネイチャー』誌で深層学習アルゴリズムを提案し、この深層学習手法の提案は、学術界および産業界で直ちに大きな反響を呼び起こした。

  • 2015年、OpenAIが設立され、マスク、YC社長のアルトマン、エンジェル投資家のピーター・ティール)ピーター・ティール(などが共同で10億ドルの出資を発表した。

  • 2016年、深層学習技術に基づくAlphaGoが囲碁の世界チャンピオンであり、プロ九段棋士の李世石と囲碁の人間対機械戦を行い、4対1の総スコアで勝利しました。

  • 2017年、中国香港のハンソンロボティクス会社)Hanson Robotics(が開発したヒューマノイドロボットソフィアは、歴史上初めて一等市民の地位を得たロボットとされており、豊かな表情と人間の言語理解能力を持っています。

  • 2017年、人工知能の分野で豊富な才能と技術的予備力を持つGoogleは、Transformerアルゴリズムを提案した論文「Attention is all you need」を発表し、大規模な言語モデルが登場し始めました。

  • 2018年、OpenAIはTransformerアルゴリズムに基づいて構築されたGPT)生成事前学習変換器(を発表しました。これは当時最大の言語モデルの一つです。

  • 2018年、GoogleチームのDeepMindは深層学習に基づくAlphaGoを発表し、タンパク質の構造予測を行うことができ、人工知能分野における大きな進歩の象徴と見なされました。

  • 2019年、OpenAIはGPT-2を発表し、このモデルは15億のパラメータを持っています。

  • 2020年、OpenAIが開発したGPT-3は、1750億のパラメータを持ち、以前のバージョンであるGPT-2の100倍の性能を持ちます。このモデルは570GBのテキストを使用してトレーニングされており、複数のNLP)自然言語処理(タスク)において、質問応答、翻訳、記事作成(で最先端の性能を達成しています。

  • 2021年にOpenAIがGPT-4を発表しました。このモデルは1.76兆のパラメータを持ち、GPT-3の10倍です。

  • 2023年1月にGPT-4モデルに基づくChatGPTアプリケーションがリリースされ、3月にはChatGPTが1億ユーザーに達し、歴史上最も早く1億ユーザーに到達したアプリケーションとなりました。

※2024年、OpenAIはGPT-4 omniを発売します。

注:人工知能に関する論文は多数存在し、流派もさまざまであり、技術の進化も異なるため、ここでは主に深層学習または結合主義の発展の歴史に従っている。他の流派や技術は依然として高速で進化している。

! [新参者科学人気丨AI×暗号:ゼロからピークまで])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(

ディープラーニング産業チェーン

現在、大規模なモデル言語はすべて神経ネットワークに基づく深層学習方法を使用しています。GPTを先頭にした大規模モデルは人工知能の熱潮を生み出し、多くのプレイヤーがこの分野に参入しました。私たちはまた、市場がデータや計算力の需要を大規模に発生させていることを発見しました。したがって、報告書のこの部分では、主に深層学習アルゴリズムの産業チェーンを探求します。深層学習アルゴリズムが主導するAI業界において、その上下流はどのように構成されているのか、また上下流の現状と需給関係、将来の発展はどのようになるのかを考察します。

まず明確にする必要があるのは、Transformer技術に基づくGPTを中心としたLLMs)大規模モデル(のトレーニングには、合計で3つのステップがあるということです。

トレーニングの前に、Transformerに基づいているため、トランスフォーマーはテキスト入力を数値に変換する必要があります。このプロセスは「トークン化」と呼ばれ、その後、これらの数値はトークンと呼ばれます。一般的な経験則として、1つの英単語または文字はおおよそ1つのトークンと見なすことができ、各漢字はおおよそ2つのトークンと見なすことができます。これがGPTの評価に使用される基本単位でもあります。

第一歩、プレトレーニング。入力層に十分なデータ対を与えることで、報告の第一部分に例示されている)X,Y(のように、このモデルの下で各ニューロンの最適なパラメータを見つける。この時、大量のデータが必要であり、このプロセスは最も計算リソースを消費するプロセスでもある。ニューロンがさまざまなパラメータを試すために反復的に行う必要がある。データの一批がトレーニングを完了した後、一般的に同じ一批のデータを使用して、パラメータを反復するための二次トレーニングを行う。

第二ステップ、ファインチューニング。ファインチューニングは、少量ではあるが非常に高品質なデータを用いてトレーニングを行うことです。このような変更により、モデルの出力の質が向上します。事前トレーニングには大量のデータが必要ですが、多くのデータにはエラーや低品質なものが含まれている可能性があります。ファインチューニングのステップは、優れたデータを通じてモデルの品質を向上させることができます。

第三ステップ、強化学習。まず新しいモデルを作成します。これを「報酬モデル」と呼び、このモデルの目的は非常にシンプルで、出力された結果をランク付けすることです。そのため、このモデルの実装は比較的簡単です。なぜなら、ビジネスシーンがかなり特化しているからです。その後、このモデルを使用して、大規模モデルの出力が高品質であるかどうかを判断します。こうすることで、報酬モデルを使って大規模モデルのパラメータを自動的に反復させることができます。)しかし、時にはモデルの出力品質を評価するために人間の参加が必要になることもあります。(

簡潔に言えば、大規模モデルのトレーニングプロセスにおいて、事前トレーニングはデータの量に非常に高い要求があり、必要とされるGPU計算能力も最も多くなります。一方、ファインチューニングはパラメータを改善するためにより高品質なデータを必要とし、強化学習は報酬モデルを介してパラメータを反復的にイテレーションし、より高品質な結果を出力することができます。

トレーニングの過程では、パラメーターが多ければ多いほど、その一般化能力の上限が高くなります。例えば、関数の例でY = aX + bとした場合、実際には2つのニューロンXとX0が存在します。したがって、パラメーターがどのように変化しても、フィットできるデータは非常に限られています。なぜなら、その本質は依然として直線だからです。ニューロンが多ければ多いほど、より多くのパラメーターを反復でき、より多くのデータをフィットできるようになります。これが大規模モデルが奇跡を生む理由であり、一般的に大規模モデルと呼ばれる理由です。本質的には大量のニューロンとパラメーター、大量のデータが必要で、同時に大量の計算能力も必要です。

したがって、大規模モデルのパフォーマンスは主に三つの要因によって決まります。パラメータの数、データの量と質、計算能力。この三つは共同して大規模モデルの結果の質と一般化能力に影響を与えます。パラメータの数をp、データの量をn)トークンの数で計算すると仮定します(、その場合、一般的な経験則を用いて必要な計算量を計算することができ、これにより私たちが大まかに購入する必要のある計算能力やトレーニング時間を予測することができます。

GPT-7.65%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 5
  • 共有
コメント
0/400
DataBartendervip
· 18時間前
啧 また初心者をカモにする新しいおもちゃです
原文表示返信0
ForkPrincevip
· 21時間前
ふざけないで、プログラマーがスキンを変えただけだ。
原文表示返信0
BoredRiceBallvip
· 08-04 00:54
ああ、aiがまたご飯を奪いに来た。
原文表示返信0
Rugpull幸存者vip
· 08-04 00:50
ツール人が淘汰されているよ
原文表示返信0
AltcoinOraclevip
· 08-04 00:45
魅力的です...私の分析では、AIパラダイムシフトと暗号資産市場のフラクタルの間に明確な92.7%の相関があります。古代の文献が予言した通りです。
原文表示返信0
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)