Lịch sử phát triển AI: từ những bước đầu đến sự đột phá trong khả năng tổng quát của mô hình lớn

Sự phát triển của ngành AI: Từ khởi đầu đến đỉnh cao

Những tiến bộ gần đây trong lĩnh vực trí tuệ nhân tạo được một số người coi là cuộc cách mạng công nghiệp lần thứ tư. Sự xuất hiện của các mô hình ngôn ngữ lớn đã nâng cao đáng kể hiệu quả trong nhiều ngành, công ty tư vấn Boston cho rằng GPT đã tăng khoảng 20% hiệu suất làm việc ở Mỹ. Đồng thời, khả năng tổng quát mà các mô hình lớn mang lại được coi là một mô hình thiết kế phần mềm mới. Trước đây, thiết kế phần mềm là mã chính xác, còn thiết kế phần mềm hiện tại là khung mô hình lớn tổng quát hơn được nhúng vào phần mềm, giúp phần mềm có hiệu suất tốt hơn và hỗ trợ đầu vào và đầu ra với nhiều định dạng hơn. Công nghệ học sâu thực sự đã mang lại sự thịnh vượng lần thứ tư cho ngành AI, và làn sóng này cũng đã lan rộng đến ngành công nghiệp tiền điện tử.

Báo cáo này sẽ khám phá chi tiết quá trình phát triển của ngành AI, phân loại công nghệ, cũng như ảnh hưởng của việc phát minh ra công nghệ học sâu đối với ngành. Sau đó, sẽ phân tích sâu về chuỗi ngành liên quan đến GPU, điện toán đám mây, nguồn dữ liệu, thiết bị biên trong học sâu, cũng như tình trạng và xu hướng phát triển của chúng. Tiếp theo, chúng tôi sẽ thảo luận một cách chi tiết về mối quan hệ giữa tiền điện tử và ngành AI, và sắp xếp lại cấu trúc chuỗi ngành liên quan đến AI trong tiền điện tử.

Quá trình phát triển của ngành AI

Ngành AI bắt đầu khởi sắc từ những năm 1950. Để hiện thực hóa tầm nhìn về trí tuệ nhân tạo, giới học thuật và công nghiệp đã phát triển nhiều trường phái thực hiện trí tuệ nhân tạo trong bối cảnh khác nhau của các thời đại và các lĩnh vực khác nhau.

Công nghệ trí tuệ nhân tạo hiện đại chủ yếu sử dụng thuật ngữ "học máy", ý tưởng của công nghệ này là cho phép máy móc dựa vào dữ liệu để lặp đi lặp lại trong các nhiệm vụ nhằm cải thiện hiệu suất của hệ thống. Các bước chính là đưa dữ liệu vào thuật toán, sử dụng dữ liệu này để đào tạo mô hình, kiểm tra triển khai mô hình, sử dụng mô hình để hoàn thành các nhiệm vụ dự đoán tự động.

Hiện nay, học máy có ba trường phái chính, lần lượt là kết nối, biểu tượng và hành vi, lần lượt mô phỏng hệ thống thần kinh, tư duy và hành vi của con người.

Hiện nay, chủ nghĩa kết nối được đại diện bởi mạng nơ-ron đang chiếm ưu thế ( còn được gọi là học sâu ), lý do chính là cấu trúc này có một lớp đầu vào, một lớp đầu ra, nhưng có nhiều lớp ẩn, khi số lượng lớp và số lượng nơ-ron ( tham số ) trở nên đủ lớn, thì có đủ cơ hội để khớp với các nhiệm vụ tổng quát phức tạp. Thông qua việc nhập dữ liệu, có thể điều chỉnh liên tục các tham số của nơ-ron, vì vậy cuối cùng, sau nhiều lần trải qua dữ liệu, nơ-ron đó sẽ đạt được trạng thái tối ưu ( tham số ), đây cũng chính là điều mà chúng ta gọi là "sức mạnh kỳ diệu" và đây cũng là nguồn gốc của từ "sâu" - đủ số lượng lớp và nơ-ron.

Ví dụ đơn giản, có thể hiểu là xây dựng một hàm, khi nhập X=2 thì Y=3; khi X=3 thì Y=5, nếu muốn hàm này áp dụng cho tất cả X, thì cần phải liên tục thêm bậc và tham số của hàm này, chẳng hạn tôi có thể xây dựng hàm thỏa mãn điều kiện này là Y = 2X -1, nhưng nếu có một dữ liệu là X=2, Y=11 thì cần phải xây dựng lại một hàm phù hợp với ba điểm dữ liệu này, sử dụng GPU để bẻ khóa một cách mạnh mẽ phát hiện Y = X2 -3X +5, khá phù hợp, nhưng không cần phải hoàn toàn khớp với dữ liệu, chỉ cần tuân thủ sự cân bằng, đầu ra tương tự là đủ. Trong đó, X2, X và X0 đại diện cho các nơ-ron khác nhau, còn 1, -3, 5 là các tham số của chúng.

Trong trường hợp này, nếu chúng ta nhập một lượng lớn dữ liệu vào mạng nơ-ron, chúng ta có thể tăng số lượng nơ-ron và điều chỉnh các tham số để khớp với dữ liệu mới. Như vậy, chúng ta có thể khớp với tất cả dữ liệu.

Công nghệ học sâu dựa trên mạng nơ-ron cũng đã trải qua nhiều lần lặp và tiến hóa kỹ thuật, lần lượt như hình ảnh trên là mạng nơ-ron sớm nhất, mạng nơ-ron hồi tiếp, RNN, CNN, GAN cuối cùng tiến hóa thành các mô hình lớn hiện đại như GPT sử dụng công nghệ Transformer. Công nghệ Transformer chỉ là một hướng tiến hóa của mạng nơ-ron, đã thêm một bộ chuyển đổi ( Transformer ), dùng để mã hóa dữ liệu của tất cả các kiểu như âm thanh, video, hình ảnh, v.v. ( thành các giá trị tương ứng để biểu thị. Sau đó, nó được đưa vào mạng nơ-ron, như vậy mạng nơ-ron có thể khớp với bất kỳ loại dữ liệu nào, tức là thực hiện đa mô thức.

![Người mới phổ cập丨AI x Crypto: Từ con số không đến đỉnh cao])https://img-cdn.gateio.im/webp-social/moments-7e025deb1fddcd5fa716b6f144701074.webp(

Sự phát triển của AI đã trải qua ba làn sóng công nghệ, làn sóng đầu tiên diễn ra vào những năm 60 của thế kỷ 20, sau một thập kỷ kể từ khi công nghệ AI được đề xuất, làn sóng này được gây ra bởi sự phát triển của công nghệ ký hiệu, công nghệ này giải quyết các vấn đề về xử lý ngôn ngữ tự nhiên tổng quát và đối thoại giữa người và máy. Cùng thời điểm đó, hệ thống chuyên gia ra đời, hệ thống DENRAL này được hoàn thành dưới sự giám sát của NASA tại Đại học Stanford, hệ thống này có kiến thức hóa học rất mạnh, thông qua việc đặt câu hỏi để suy diễn và tạo ra câu trả lời giống như một chuyên gia hóa học, hệ thống chuyên gia hóa học này có thể được coi là sự kết hợp giữa kho kiến thức hóa học và hệ thống suy diễn.

Sau hệ thống chuyên gia, vào những năm 1990, nhà khoa học và triết gia người Mỹ gốc Israel Judea Pearl ) đã đề xuất mạng Bayes, còn được gọi là mạng niềm tin. Cùng thời điểm đó, Brooks đã đề xuất robot học dựa trên hành vi, đánh dấu sự ra đời của hành vi học.

Năm 1997, IBM Deep Blue đã đánh bại nhà vô địch cờ vua Kasparov với tỉ số 3.5:2.5, chiến thắng này được coi là một cột mốc trong trí tuệ nhân tạo, công nghệ AI đã bước vào giai đoạn phát triển lần thứ hai.

Làn sóng công nghệ AI thứ ba xảy ra vào năm 2006. Ba gã khổng lồ trong lĩnh vực học sâu là Yann LeCun, Geoffrey Hinton và Yoshua Bengio đã đề xuất khái niệm học sâu, một thuật toán xây dựng trên mạng nơ-ron nhân tạo để học biểu diễn dữ liệu. Sau đó, các thuật toán học sâu dần phát triển, từ RNN, GAN đến Transformer và Stable Diffusion, hai thuật toán này đã cùng nhau định hình làn sóng công nghệ thứ ba, và đây cũng là thời kỳ hưng thịnh của chủ nghĩa liên kết.

Nhiều sự kiện biểu tượng cũng dần xuất hiện cùng với sự khám phá và tiến bộ của công nghệ học sâu, bao gồm:

  • Năm 2011, Watson của IBM ( đã đánh bại con người và giành chiến thắng trong chương trình quiz "Jeopardy" ).

  • Năm 2014, Goodfellow đã đề xuất GAN( Mạng đối kháng sinh sinh, Generative Adversarial Network), thông qua việc cho hai mạng nơ-ron đối kháng nhau để học, có khả năng tạo ra những bức ảnh giống thật. Đồng thời, Goodfellow cũng đã viết một cuốn sách có tên "Deep Learning", được gọi là sách hoa, là một trong những cuốn sách quan trọng dành cho người mới bắt đầu trong lĩnh vực học sâu.

  • Năm 2015, Hinton và các cộng sự đã đưa ra thuật toán học sâu trong tạp chí "Nature", phương pháp học sâu này đã ngay lập tức gây ra phản ứng mạnh mẽ trong giới học thuật cũng như trong ngành công nghiệp.

  • Năm 2015, OpenAI được thành lập, Musk, tổng thống YC Altman, nhà đầu tư thiên thần Peter Thiel( và những người khác tuyên bố cùng đầu tư 1 tỷ USD.

  • Năm 2016, AlphaGo dựa trên công nghệ học sâu đã thi đấu cờ vây với nhà vô địch thế giới, kỳ thủ chuyên nghiệp 9 dan Lee Sedol, và giành chiến thắng với tổng tỷ số 4-1.

  • Năm 2017, công ty công nghệ robot Hanson Robotics tại Hồng Kông, Trung Quốc )Hanson Robotics( đã phát triển robot hình người Sophia, được gọi là robot đầu tiên trong lịch sử được cấp quyền công dân hạng nhất, với khả năng biểu cảm khuôn mặt phong phú và khả năng hiểu ngôn ngữ của con người.

  • Năm 2017, Google, với nguồn nhân lực và tài nguyên công nghệ phong phú trong lĩnh vực trí tuệ nhân tạo, đã phát hành tài liệu "Attention is all you need" đề xuất thuật toán Transformer, mô hình ngôn ngữ quy mô lớn bắt đầu xuất hiện.

  • Năm 2018, OpenAI đã phát hành GPT) Generative Pre-trained Transformer( được xây dựng trên thuật toán Transformer, đây là một trong những mô hình ngôn ngữ lớn nhất vào thời điểm đó.

  • Năm 2018, đội ngũ Google Deepmind đã phát hành AlphaGo dựa trên học sâu, có khả năng dự đoán cấu trúc protein, được coi là một dấu mốc tiến bộ lớn trong lĩnh vực trí tuệ nhân tạo.

  • Năm 2019, OpenAI phát hành GPT-2, mô hình này có 1,5 tỷ tham số.

  • Năm 2020, GPT-3 do OpenAI phát triển, có 175 tỷ tham số, gấp 100 lần phiên bản trước đó GPT-2, mô hình này đã sử dụng 570GB văn bản để đào tạo, có thể đạt được hiệu suất tiên tiến nhất trong nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên như trả lời câu hỏi, dịch thuật, viết bài.

  • Năm 2021, OpenAI phát hành GPT-4, mô hình này có 1,76 nghìn tỷ tham số, gấp 10 lần GPT-3.

  • Ứng dụng ChatGPT dựa trên mô hình GPT-4 được ra mắt vào tháng 1 năm 2023, tháng 3 ChatGPT đạt 100 triệu người dùng, trở thành ứng dụng đạt 100 triệu người dùng nhanh nhất trong lịch sử.

  • Năm 2024, OpenAI ra mắt GPT-4 omni.

Chú ý: Do có rất nhiều bài báo về trí tuệ nhân tạo, nhiều trường phái khác nhau và sự phát triển công nghệ không đồng nhất, vì vậy ở đây chủ yếu đi theo lịch sử phát triển của học sâu hoặc chủ nghĩa kết nối, các trường phái và công nghệ khác vẫn đang trong quá trình phát triển nhanh chóng.

![Người mới phổ cập丨AI x Crypto: Từ số không đến đỉnh cao])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(

Chuỗi công nghiệp học sâu

Mô hình ngôn ngữ lớn hiện tại đều sử dụng phương pháp học sâu dựa trên mạng nơ-ron. Với sự dẫn đầu của GPT, mô hình lớn đã tạo ra một làn sóng mới trong lĩnh vực trí tuệ nhân tạo, khiến nhiều người tham gia vào lĩnh vực này. Chúng tôi cũng nhận thấy nhu cầu về dữ liệu và sức mạnh tính toán trên thị trường bùng nổ mạnh mẽ. Do đó, trong phần báo cáo này, chúng tôi chủ yếu khám phá chuỗi công nghiệp của thuật toán học sâu. Trong ngành AI được dẫn dắt bởi thuật toán học sâu, cấu trúc của các khâu thượng nguồn và hạ nguồn được hình thành như thế nào, và tình trạng hiện tại cũng như mối quan hệ cung cầu, sự phát triển trong tương lai ra sao.

Đầu tiên, chúng ta cần làm rõ rằng khi thực hiện việc đào tạo các mô hình lớn LLMs dựa trên công nghệ Transformer với GPT là chính, ) sẽ được chia thành ba bước.

Trước khi huấn luyện, vì dựa trên Transformer, nên bộ chuyển đổi cần chuyển đổi đầu vào văn bản thành giá trị số, quá trình này được gọi là "Tokenization", sau đó những giá trị này được gọi là Token. Theo quy tắc kinh nghiệm chung, một từ hoặc ký tự tiếng Anh có thể được coi như một Token, trong khi mỗi ký tự Trung Quốc có thể được coi là hai Token. Đây cũng là đơn vị cơ bản được sử dụng trong định giá GPT.

Bước đầu tiên, tiền huấn luyện. Bằng cách cung cấp đủ nhiều cặp dữ liệu cho lớp đầu vào, tương tự như ví dụ trong phần báo cáo đầu tiên (X,Y), để tìm các tham số tối ưu của từng neuron trong mô hình, lúc này cần rất nhiều dữ liệu, và quá trình này cũng là quá trình tiêu tốn sức mạnh tính toán nhất, vì phải lặp đi lặp lại việc thử nghiệm các tham số của các neuron. Sau khi hoàn thành huấn luyện một lô dữ liệu, thường sẽ sử dụng cùng một lô dữ liệu để huấn luyện lại nhằm điều chỉnh các tham số.

Bước thứ hai, tinh chỉnh. Tinh chỉnh là việc cung cấp một lượng dữ liệu nhỏ nhưng chất lượng rất cao để huấn luyện, sự thay đổi như vậy sẽ giúp đầu ra của mô hình có chất lượng cao hơn, vì việc huấn luyện trước cần một lượng lớn dữ liệu, nhưng nhiều dữ liệu có thể có sai sót hoặc chất lượng thấp. Bước tinh chỉnh có thể nâng cao chất lượng của mô hình thông qua dữ liệu chất lượng cao.

Bước thứ ba, học tăng cường. Đầu tiên, một mô hình hoàn toàn mới sẽ được xây dựng, chúng tôi gọi nó là "mô hình thưởng", mục đích của mô hình này rất đơn giản, đó là xếp hạng kết quả đầu ra, vì vậy việc thực hiện mô hình này sẽ khá đơn giản, vì bối cảnh kinh doanh khá chuyên biệt. Sau đó, sử dụng mô hình này để xác định xem đầu ra của mô hình lớn của chúng tôi có chất lượng cao hay không, như vậy chúng tôi có thể sử dụng một mô hình thưởng để tự động lặp lại các tham số của mô hình lớn. ( nhưng đôi khi cũng cần sự tham gia của con người để đánh giá chất lượng đầu ra của mô hình )

Nói ngắn gọn, trong quá trình đào tạo mô hình lớn, việc tiền huấn luyện có yêu cầu rất cao về khối lượng dữ liệu, và sức mạnh tính toán GPU cần thiết cũng là nhiều nhất, trong khi tinh chỉnh cần dữ liệu chất lượng cao hơn để cải thiện tham số, học tăng cường có thể lặp đi lặp lại các tham số thông qua một mô hình thưởng để xuất ra kết quả chất lượng cao hơn.

Trong quá trình huấn luyện, số lượng tham số càng nhiều thì khả năng tổng quát của nó càng cao, ví dụ như trong ví dụ hàm số Y = aX + b, thực tế có hai nơ-ron X và X0, do đó sự thay đổi của các tham số, dữ liệu mà nó có thể khớp rất hạn chế, vì bản chất của nó vẫn chỉ là một đường thẳng. Nếu số nơ-ron càng nhiều, thì có thể lặp lại nhiều tham số hơn, từ đó có thể khớp nhiều dữ liệu hơn, đó là lý do tại sao các mô hình lớn lại mang lại điều kỳ diệu, và đây cũng là lý do tại sao được gọi là mô hình lớn, bản chất chính là số lượng nơ-ron và tham số khổng lồ, cùng với một lượng dữ liệu khổng lồ, đồng thời cần một lượng tính toán khổng lồ.

Do đó, hiệu suất của mô hình lớn chủ yếu được quyết định bởi ba yếu tố: số lượng tham số, khối lượng và chất lượng dữ liệu, và công suất tính toán, ba yếu tố này cùng nhau ảnh hưởng đến chất lượng kết quả và khả năng tổng quát của mô hình lớn. Chúng ta giả định số lượng tham số là p, khối lượng dữ liệu là n( tính bằng số lượng Token), từ đó chúng ta có thể tính toán lượng tính toán cần thiết theo quy tắc kinh nghiệm thông thường, như vậy chúng ta có thể ước tính tình hình công suất tính toán mà chúng ta cần mua và thời gian đào tạo.

GPT2.61%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 5
  • Chia sẻ
Bình luận
0/400
DataBartendervip
· 08-06 19:36
啧 又 là đồ ngốc mới được chơi đùa với mọi người
Xem bản gốcTrả lời0
ForkPrincevip
· 08-06 17:05
Đừng gây rối, chỉ là lập trình viên đổi da thôi.
Xem bản gốcTrả lời0
BoredRiceBallvip
· 08-04 00:54
Ai lại đến cướp bát cơm của tôi rồi.
Xem bản gốcTrả lời0
Rugpull幸存者vip
· 08-04 00:50
Công cụ đang bị loại bỏ rồi.
Xem bản gốcTrả lời0
AltcoinOraclevip
· 08-04 00:45
thú vị... phân tích của tôi cho thấy có một mối quan hệ tương quan rõ ràng 92.7% giữa các sự thay đổi mô hình AI và các fractal thị trường tiền điện tử. giống như các văn bản cổ đại đã dự đoán
Xem bản gốcTrả lời0
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)