Đại lý AI mới của Google DeepMind học tập, thích ứng và chơi game như một con người

Decrypt

2025-11-13 23:27:00

Tóm tắt

Hệ thống đã sử dụng mô hình Gemini của Google để lý luận về các mục tiêu, giải thích kế hoạch của nó và hành động trong các trò chơi chưa quen thuộc.
SIMA 2 đã học các kỹ năng mới thông qua việc chơi tự hướng và thích ứng với các thế giới được tạo ra chỉ vài khoảnh khắc trước đó bởi Genie 3.
DeepMind đã lên kế hoạch một buổi trình diễn nghiên cứu giới hạn dành cho các nhà phát triển và học giả.

Trung tâm Nghệ thuật, Thời trang và Giải trí của Decrypt.

Khám phá SCENE

Google DeepMind đã giới thiệu SIMA 2 vào thứ Năm—một tác nhân AI mới mà công ty tuyên bố hành xử như một “người bạn đồng hành” trong các thế giới ảo. Với sự ra mắt của SIMA 2, DeepMind nhằm mục tiêu tiến xa hơn những hành động đơn giản trên màn hình và hướng tới AI có khả năng lập kế hoạch, giải thích bản thân và học hỏi thông qua kinh nghiệm.

“Đây là một bước tiến quan trọng hướng tới Trí tuệ Nhân tạo Chung (AGI), với những tác động quan trọng cho tương lai của robotics và sự hiện thân của AI nói chung,” công ty cho biết trên trang web của mình.

Phiên bản đầu tiên của SIMA (Đại lý Đa thế giới Hướng dẫn Mở rộng), được phát hành vào tháng 3 năm 2024, đã học hàng trăm kỹ năng cơ bản bằng cách quan sát màn hình và sử dụng bàn phím và chuột ảo. Phiên bản mới của SIMA, Google cho biết, đã tiến thêm một bước bằng cách cho phép AI tự suy nghĩ.

SIMA 2 là đại lý AI mạnh mẽ nhất của chúng tôi cho các thế giới 3D ảo. 👾🌐

Được phát triển bởi Gemini, nó không chỉ đơn thuần theo dõi các hướng dẫn cơ bản mà còn có khả năng suy nghĩ, hiểu và thực hiện các hành động trong môi trường tương tác – có nghĩa là bạn có thể giao tiếp với nó qua văn bản, giọng nói, hoặc thậm chí hình ảnh. Đây là cách 🧵 pic.twitter.com/DuVWGJXW7W

— Google DeepMind (@GoogleDeepMind) 13 tháng 11, 2025

<br>

“SIMA 2 là đại diện AI mạnh mẽ nhất của chúng tôi cho các thế giới 3D ảo,” Google DeepMind viết trên X. “Được hỗ trợ bởi Gemini, nó vượt xa việc chỉ làm theo các hướng dẫn cơ bản để suy nghĩ, hiểu và thực hiện các hành động trong những môi trường tương tác–nghĩa là bạn có thể giao tiếp với nó qua văn bản, giọng nói, hoặc thậm chí là hình ảnh.”

Bằng cách sử dụng mô hình AI Gemini, Google cho biết SIMA có thể diễn giải các mục tiêu cấp cao, trình bày các bước mà nó định thực hiện và hợp tác trong các trò chơi với một mức độ lý luận mà hệ thống gốc không thể đạt được.

DeepMind báo cáo khả năng tổng quát mạnh mẽ hơn trong các môi trường ảo, và SIMA 2 đã hoàn thành các nhiệm vụ dài hơn, phức tạp hơn, bao gồm các gợi ý logic, các bản phác thảo được vẽ trên màn hình, và emoticon.

“Nhờ vào khả năng này, hiệu suất của SIMA 2 gần gũi hơn với người chơi con người trong nhiều nhiệm vụ khác nhau,” Google viết, lưu ý rằng SIMA 2 có tỷ lệ hoàn thành nhiệm vụ là 65%, so với 31% của SIMA 1.

Hệ thống cũng đã diễn giải các hướng dẫn và hành động trong những thế giới 3D hoàn toàn mới được tạo ra bởi Genie 3, một dự án khác của DeepMind được phát hành vào năm ngoái, tạo ra các môi trường tương tác từ một hình ảnh hoặc lời nhắc văn bản. SIMA 2 đã định hướng, hiểu các mục tiêu và thực hiện các hành động có ý nghĩa trong những thế giới mà nó chưa bao giờ gặp phải cho đến vài khoảnh khắc trước khi thử nghiệm.

“SIMA 2 giờ đây có khả năng thực hiện các hướng dẫn chi tiết tốt hơn nhiều, ngay cả trong những thế giới mà nó chưa từng thấy trước đây,” Google viết. “Nó có thể chuyển giao các khái niệm đã học như 'khai thác' trong một trò chơi và áp dụng nó vào 'thu hoạch' trong một trò chơi khác—kết nối các điểm giữa các nhiệm vụ tương tự.”

Sau khi học từ các minh họa của con người, các nhà nghiên cứu cho biết tác nhân đã chuyển sang chơi tự hướng dẫn, sử dụng thử nghiệm và sai sót cùng với phản hồi được tạo ra bởi Gemini để tạo ra dữ liệu trải nghiệm mới, bao gồm một vòng đào tạo nơi SIMA 2 tạo ra các nhiệm vụ, thực hiện chúng và sau đó đưa dữ liệu quỹ đạo của chính nó vào phiên bản tiếp theo của mô hình.

Trong khi Google ca ngợi SIMA 2 như một bước tiến tới trí tuệ nhân tạo, nghiên cứu cũng đã chỉ ra những khoảng trống cần được giải quyết, bao gồm việc gặp khó khăn với các nhiệm vụ dài và phức tạp, làm việc trong một khoảng bộ nhớ hạn chế, và đối mặt với các thách thức về diễn giải hình ảnh phổ biến đối với các hệ thống AI 3D.

Tuy nhiên, DeepMind cho biết nền tảng này đóng vai trò như một phòng thí nghiệm cho các kỹ năng có thể cuối cùng di chuyển vào lĩnh vực robotics và điều hướng.

“Nghiên cứu SIMA 2 của chúng tôi cung cấp một con đường vững chắc hướng tới các ứng dụng trong lĩnh vực robot và thêm một bước nữa hướng tới AGI trong thế giới thực,” nó nói.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.