Cuộc chiến AI trăm mô hình: Từ bài toán học thuật đến cuộc thi kỹ thuật

Cuộc chiến trăm mô hình trong ngành AI: Từ vấn đề học thuật đến vấn đề kỹ thuật

Tháng trước, ngành công nghiệp AI đã diễn ra một cuộc đối đầu với chủ đề động vật.

Một bên là Llama do Meta phát hành, được cộng đồng phát triển ưa chuộng nhờ tính chất mã nguồn mở. Công ty điện khí Nhật Bản (NEC) sau khi nghiên cứu tài liệu và mã nguồn của Llama, đã nhanh chóng phát triển phiên bản ChatGPT tiếng Nhật, giải quyết được nút thắt trong sự phát triển AI của Nhật Bản.

Bên kia là một mô hình lớn có tên là Falcon. Vào tháng 5 năm nay, Falcon-40B ra mắt, vượt qua Llama để đứng đầu "bảng xếp hạng LLM mã nguồn mở". Bảng xếp hạng này được tạo ra bởi cộng đồng mô hình mã nguồn mở, cung cấp tiêu chuẩn để đánh giá khả năng của LLM. Bảng xếp hạng cơ bản là Llama và Falcon lần lượt chiếm giữ vị trí đầu bảng.

Sau khi Llama 2 được phát hành, gia đình Llama tạm thời dẫn đầu; nhưng đến đầu tháng 9, Falcon ra mắt phiên bản 180B, một lần nữa đạt được thứ hạng cao hơn.

Thú vị là, các nhà phát triển của Falcon là Viện Nghiên cứu Đổi mới Công nghệ ở Abu Dhabi, thủ đô của Các Tiểu vương quốc Ả Rập Thống nhất. Chính phủ Các Tiểu vương quốc Ả Rập Thống nhất cho biết họ tham gia vào lĩnh vực này nhằm phá vỡ cấu trúc hiện tại.

Ngày sau khi phát hành phiên bản 180B, Bộ trưởng Bộ Trí tuệ Nhân tạo của Các Tiểu vương quốc Ả Rập Thống nhất được chọn vào danh sách "100 người có ảnh hưởng nhất trong lĩnh vực AI" do tạp chí Time bình chọn; cùng với ông còn có "cha đẻ AI" Geoffrey Hinton, Sam Altman của OpenAI và nhiều người khác.

Hiện nay, lĩnh vực AI đã bước vào giai đoạn phát triển đa dạng: bất kỳ quốc gia và doanh nghiệp nào có tài chính đều đang thúc đẩy kế hoạch phiên bản ChatGPT nội địa. Chỉ riêng trong khu vực Vùng Vịnh, không chỉ có một người tham gia - vào tháng 8, Ả Rập Xê Út vừa mua hơn 3000 chip H100 cho các trường đại học trong nước, để đào tạo LLM.

Có nhà đầu tư từng phàn nàn rằng: "Năm đó không coi trọng sự đổi mới mô hình kinh doanh của Internet, cảm thấy không có rào cản; không ngờ khởi nghiệp với mô hình công nghệ cứng vẫn đang diễn ra với nhiều đối thủ..."

Tại sao công nghệ cứng vốn dĩ phải khó khăn lại trở thành một cuộc thi mà ai cũng có thể tham gia?

Transformer: Bước ngoặt quan trọng trong sự phát triển của AI

Các công ty khởi nghiệp Mỹ, các ông lớn công nghệ Trung Quốc và các tỷ phú dầu mỏ Trung Đông có thể theo đuổi giấc mơ mô hình lớn đều nhờ vào bài báo nổi tiếng: "Attention Is All You Need".

Năm 2017, 8 nhà khoa học máy tính của Google đã công bố thuật toán Transformer trong bài báo này. Bài báo này hiện là bài báo được trích dẫn nhiều thứ ba trong lịch sử AI, sự xuất hiện của Transformer đã kích hoạt làn sóng AI lần này.

Các mô hình lớn hiện tại, bao gồm chuỗi GPT gây chấn động toàn cầu, đều được xây dựng trên nền tảng của Transformer.

Trước đây, việc để máy hiểu văn bản luôn là một thách thức trong giới học thuật. Khác với nhận dạng hình ảnh, con người khi đọc không chỉ chú ý đến từ và câu hiện tại mà còn kết hợp bối cảnh để hiểu. Đầu vào của các mạng nơ-ron sớm độc lập với nhau, khó khăn trong việc hiểu văn bản dài hoặc thậm chí toàn bộ bài viết.

Năm 2014, nhà khoa học của Google, Ilya, lần đầu tiên đạt được bước đột phá. Ông đã sử dụng mạng nơ-ron hồi tiếp (RNN) để xử lý ngôn ngữ tự nhiên, giúp hiệu suất của Google Dịch được cải thiện đáng kể. RNN đã giới thiệu "thiết kế hồi tiếp", cho phép các nơ-ron vừa nhận đầu vào hiện tại, vừa nhận đầu vào của thời điểm trước đó, từ đó có khả năng "kết hợp ngữ cảnh".

Sự xuất hiện của RNN đã kích thích sự nhiệt tình nghiên cứu trong giới học thuật. Tuy nhiên, các nhà phát triển nhanh chóng nhận ra rằng RNN có những thiếu sót nghiêm trọng: thuật toán này sử dụng tính toán tuần tự, mặc dù giải quyết được vấn đề ngữ cảnh, nhưng hiệu suất chạy kém, khó xử lý một lượng lớn tham số.

Bắt đầu từ năm 2015, Shazelle và những người khác đã bắt tay vào phát triển các sản phẩm thay thế cho RNN, kết quả cuối cùng là Transformer. So với RNN, Transformer có hai đổi mới lớn: thứ nhất là thay thế thiết kế tuần hoàn bằng mã hóa vị trí, thực hiện tính toán song song, nâng cao đáng kể hiệu quả đào tạo; thứ hai là tăng cường khả năng hiểu bối cảnh.

Transformer đã giải quyết nhiều vấn đề kỹ thuật một cách đáng kể, dần trở thành giải pháp chính trong xử lý ngôn ngữ tự nhiên. Nó đã biến các mô hình lớn từ nghiên cứu lý thuyết thành vấn đề thuần túy của kỹ thuật.

Vào năm 2019, OpenAI đã phát triển GPT-2 dựa trên Transformer, gây chấn động giới học thuật. Google ngay lập tức ra mắt AI mạnh mẽ hơn - Meena. So với GPT-2, Meena không có sự đổi mới về thuật toán, chỉ đơn thuần là tăng cường các tham số huấn luyện và sức mạnh tính toán. Phương pháp "xếp chồng bạo lực" này đã để lại ấn tượng sâu sắc cho tác giả Transformer, Shahrazad.

Sự ra đời của Transformer đã làm chậm lại tốc độ đổi mới thuật toán cơ bản trong giới học thuật. Các yếu tố kỹ thuật như kỹ thuật dữ liệu, quy mô tính toán, kiến trúc mô hình dần trở thành chìa khóa trong cuộc cạnh tranh AI. Chỉ cần có một chút sức mạnh kỹ thuật, bất kỳ công ty nào cũng có thể phát triển một mô hình lớn.

Nhà khoa học máy tính Andrew Ng đã chỉ ra trong bài phát biểu tại Đại học Stanford: "AI là một tập hợp các công cụ, bao gồm học có giám sát, học không có giám sát, học tăng cường và bây giờ là AI sinh sinh. Tất cả đều là công nghệ phổ quát, tương tự như điện và internet."

Mặc dù OpenAI vẫn là người dẫn đầu trong lĩnh vực LLM, nhưng các cơ quan phân tích bán dẫn cho rằng, lợi thế của GPT-4 chủ yếu đến từ giải pháp kỹ thuật - nếu được mã nguồn mở, bất kỳ đối thủ cạnh tranh nào cũng có thể sao chép nhanh chóng. Nhà phân tích này dự đoán rằng các công ty công nghệ lớn khác có thể sớm tạo ra các mô hình lớn có hiệu suất tương đương với GPT-4.

Sự mong manh của hào thành

Hiện nay, "cuộc chiến trăm mô hình" không còn là cách nói phóng đại, mà là thực tế khách quan.

Báo cáo cho thấy, tính đến tháng 7 năm nay, số lượng mô hình lớn tại Trung Quốc đã đạt 130 cái, vượt qua 114 cái của Mỹ. Ngoài Trung Quốc và Mỹ, các quốc gia giàu có khác cũng đang lần lượt ra mắt mô hình lớn tại địa phương: như Bhashini do chính phủ Ấn Độ dẫn đầu, HyperClova X do công ty internet Hàn Quốc Naver phát triển.

Cảnh tượng này giống như trở về thời kỳ đầu của internet, thời đại mà vốn và công nghệ cạnh tranh khốc liệt.

Như đã đề cập trước đó, Transformer đã biến các mô hình lớn thành một vấn đề kỹ thuật thuần túy, chỉ cần có nhân tài, vốn và phần cứng, có thể đạt được bằng cách tích lũy các tham số. Tuy nhiên, việc giảm bớt rào cản gia nhập không có nghĩa là ai cũng có thể trở thành ông lớn trong kỷ nguyên AI.

Lấy ví dụ "Cuộc chiến động vật" được đề cập ở đầu bài viết: Mặc dù Falcon đã vượt qua Llama trong một số bảng xếp hạng, nhưng ảnh hưởng thực tế của nó đối với Meta là hạn chế.

Như đã biết, các doanh nghiệp mở nguồn kết quả nghiên cứu của mình không chỉ để chia sẻ tiến bộ khoa học công nghệ mà còn hy vọng tận dụng trí tuệ của quần chúng. Khi giới học thuật và ngành công nghiệp liên tục sử dụng và cải tiến Llama, Meta có thể áp dụng những kết quả này vào sản phẩm của mình.

Đối với mô hình lớn nguồn mở, cộng đồng lập trình viên năng động mới là sức mạnh cạnh tranh cốt lõi. Meta đã thiết lập chiến lược nguồn mở từ năm 2015 khi thành lập phòng thí nghiệm AI; Zuckerberg, người bắt đầu từ mạng xã hội, rất hiểu "duy trì mối quan hệ với người dùng".

Ví dụ, vào tháng 10 năm nay, Meta đã tổ chức sự kiện "Khuyến khích người sáng tạo AI": các nhà phát triển sử dụng Llama 2 để giải quyết các vấn đề xã hội như giáo dục, môi trường có cơ hội nhận được khoản tài trợ 500.000 đô la.

Hiện nay, dòng sản phẩm Llama của Meta đã trở thành tiêu chuẩn cho các LLM mã nguồn mở. Tính đến đầu tháng 10, trong top 10 bảng xếp hạng LLM mã nguồn mở, có 8 cái được phát triển dựa trên Llama 2 và áp dụng giấy phép mã nguồn mở của nó. Chỉ riêng trên nền tảng này, số lượng LLM sử dụng giấy phép mã nguồn mở Llama 2 đã vượt quá 1500.

Tất nhiên, nâng cao hiệu suất như Falcon cũng là một chiến lược, nhưng hiện tại hầu hết các LLM vẫn có sự chênh lệch rõ ràng so với GPT-4.

Ví dụ, gần đây, GPT-4 đã đạt 4.41 điểm và đứng đầu trong bài kiểm tra AgentBench. AgentBench được phát triển bởi nhiều trường đại học nổi tiếng nhằm đánh giá khả năng suy luận và ra quyết định của LLM trong môi trường mở đa chiều. Kết quả kiểm tra cho thấy, người đứng thứ hai là Claude chỉ đạt 2.77 điểm, chênh lệch rất rõ ràng. Điểm số của các LLM mã nguồn mở nổi tiếng khác thường chỉ xung quanh 1 điểm, chưa đến một phần tư điểm của GPT-4.

Cần lưu ý rằng GPT-4 được phát hành vào tháng 3 năm nay, đây vẫn là thành tích sau hơn nửa năm các đối thủ toàn cầu theo kịp. OpenAI có thể duy trì vị trí dẫn đầu nhờ vào đội ngũ nghiên cứu khoa học có trình độ cao và kinh nghiệm tích lũy qua nhiều năm.

Nói cách khác, lợi thế cốt lõi của mô hình lớn không phải là quy mô tham số, mà là xây dựng hệ sinh thái (đường đi mã nguồn mở) hoặc khả năng suy luận thuần túy (đường đi mã nguồn đóng).

Với sự phát triển ngày càng mạnh mẽ của cộng đồng mã nguồn mở, hiệu suất của các LLM có thể trở nên đồng nhất, vì mọi người đều sử dụng các kiến trúc mô hình và tập dữ liệu tương tự.

Một vấn đề khác rõ ràng hơn là: Ngoài Midjourney, dường như không có mô hình lớn nào khác có thể kiếm lợi nhuận.

Thách thức của việc định giá

Vào tháng 8 năm nay, một bài viết có tiêu đề "OpenAI có thể sẽ phá sản vào cuối năm 2024" đã thu hút sự chú ý. Nội dung chính của bài viết có thể tóm tắt như sau: Tốc độ tiêu tiền của OpenAI quá nhanh.

Bài viết đề cập rằng, kể từ khi phát triển ChatGPT, khoản lỗ của OpenAI đã nhanh chóng mở rộng, vào năm 2022, họ đã lỗ khoảng 540 triệu đô la Mỹ và chỉ có thể dựa vào đầu tư của Microsoft để duy trì.

Mặc dù tiêu đề có phần giật gân, nhưng nó thực sự phản ánh tình trạng chung của các nhà cung cấp mô hình lớn: chi phí và doanh thu đang mất cân bằng nghiêm trọng.

Chi phí quá cao khiến hiện tại chỉ có các nhà sản xuất chip như NVIDIA là hưởng lợi chính từ cơn sốt AI.

Theo ước tính của công ty tư vấn Omdia, NVIDIA đã bán ra hơn 300.000 chip H100 trong quý II năm nay. Đây là một loại chip AI hiệu quả, được các công ty công nghệ toàn cầu và các tổ chức nghiên cứu tranh nhau mua. Nếu xếp chồng 300.000 chip H100 lại với nhau, trọng lượng tương đương với 4,5 chiếc máy bay Boeing 747.

Doanh thu của Nvidia đã tăng vọt, tăng 854% so với cùng kỳ năm trước, khiến Phố Wall bất ngờ. Hiện tại, giá của H100 trên thị trường thứ cấp đã bị đẩy lên 40-50 nghìn đô la Mỹ, trong khi chi phí vật liệu chỉ khoảng 3000 đô la.

Chi phí sức mạnh tính toán cao ngăn cản sự phát triển của ngành công nghiệp ở một mức độ nào đó. Sequoia Capital từng ước tính: Các công ty công nghệ toàn cầu dự kiến sẽ đầu tư 200 tỷ USD mỗi năm cho việc xây dựng cơ sở hạ tầng mô hình lớn; so với đó, mô hình lớn chỉ có thể tạo ra tối đa 75 tỷ USD doanh thu mỗi năm, có ít nhất 125 tỷ USD thiếu hụt.

Ngoài ra, trừ một số trường hợp ngoại lệ như Midjourney, hầu hết các công ty phần mềm sau khi đầu tư một số tiền khổng lồ vẫn chưa tìm ra mô hình lợi nhuận rõ ràng. Ngay cả các ông lớn trong ngành như Microsoft và Adobe cũng đang phải đối mặt với những thách thức trong lĩnh vực AI.

Công cụ tạo mã AI GitHub Copilot do Microsoft hợp tác với OpenAI phát triển, mặc dù thu phí hàng tháng là 10 đô la, nhưng do chi phí cơ sở hạ tầng, Microsoft lại bị lỗ 20 đô la mỗi tháng, trong khi những người dùng nặng thậm chí có thể khiến Microsoft lỗ tới 80 đô la mỗi tháng. Dựa vào đó, có thể suy đoán rằng Microsoft 365 Copilot có giá 30 đô la có thể thua lỗ nhiều hơn.

Tương tự, Adobe vừa mới ra mắt công cụ Firefly AI cũng đã nhanh chóng triển khai hệ thống điểm, nhằm ngăn chặn người dùng sử dụng quá mức dẫn đến thua lỗ cho công ty. Một khi người dùng vượt quá số điểm phân bổ hàng tháng, Adobe sẽ giảm tốc độ dịch vụ.

Cần lưu ý rằng Microsoft và Adobe đã có các kịch bản kinh doanh rõ ràng và một số lượng lớn người dùng trả phí. Trong khi đó, hầu hết các mô hình lớn với quy mô tham số khổng lồ, ứng dụng chính của chúng vẫn là trò chuyện.

Không thể phủ nhận rằng nếu không có sự xuất hiện đột phá của OpenAI và ChatGPT, cuộc cách mạng AI này có thể đã không xảy ra. Tuy nhiên, ở giai đoạn hiện tại, giá trị được tạo ra từ việc đào tạo các mô hình lớn vẫn còn gây tranh cãi.

Khi cạnh tranh đồng nhất gia tăng, cùng với sự xuất hiện liên tục của các mô hình mã nguồn mở, các nhà cung cấp mô hình lớn đơn thuần có thể phải đối mặt với áp lực sinh tồn lớn hơn.

Cũng giống như sự thành công của iPhone 4 không chỉ dựa vào bộ vi xử lý A4 mà còn vì nó có thể chạy nhiều ứng dụng thú vị, giá trị thực sự của AI có thể được thể hiện nhiều hơn ở các tình huống ứng dụng cụ thể.

GPT8.72%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 6
  • Chia sẻ
Bình luận
0/400
WalletManagervip
· 08-04 16:48
Nói nhiều không có ích, chỉ là so sánh ai có tham số mô hình lớn hơn mà thôi.
Xem bản gốcTrả lời0
LuckyHashValuevip
· 08-02 08:00
Nhật Bản bên đó phát triển AI thật mạnh mẽ.
Xem bản gốcTrả lời0
PaperHandSistervip
· 08-02 07:54
Hai người này tranh cãi mãi mà không ai thắng cũng không bằng GPT4 bull啊
Xem bản gốcTrả lời0
BridgeTrustFundvip
· 08-02 07:46
Một ngọn núi không chứa hai con cừu, ai đã thắng vậy?
Xem bản gốcTrả lời0
SquidTeachervip
· 08-02 07:45
Cứ cuộn cứng đi mà cuộn cứng!
Xem bản gốcTrả lời0
SurvivorshipBiasvip
· 08-02 07:35
Cỏ, đây chẳng phải là lạc đà và chim ưng đánh nhau sao?
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)