Bảy nhà sáng lập cùng thảo luận, Anthropic đã ra đời như thế nào?

Question

「Không ai muốn khởi nghiệp, nhưng cảm thấy rằng mình buộc phải làm như vậy.”

Biên tập & tổng hợp: Deep Tide TechFlow

Khách mời: Chris Olah, Jack Clark, Daniela Amodei, Sam McCandlish, Tom Brown, Dario Amodei, Jared Kaplan – đồng sáng lập tại Anthropic

Nguồn podcast: Anthropic

Tiêu đề gốc: Building Anthropic | A conversation with our co-founders

Ngày phát hành: 20 tháng 12 năm 2024

Tóm tắt các ý chính

Trong tuần qua, Anthropic liên tiếp gặp hai sự cố:

Trước hết, gần 3.000 tài liệu nội bộ bị công khai do lỗi cấu hình CMS; ngay sau đó, Claude Code v2.1.88 khi phát hành lên npm lại kèm theo 59,8MB source map, khiến 510.000 dòng mã nguồn lộ thẳng ra ngoài.

Một công ty đã “cài chữ ‘an toàn’ vào trong gien” mà liên tục “văng khỏi đường ray” trong vận hành nội bộ, thật sự châm biếm đến mức đầy đủ dư vị.

Nhưng trước khi vội vàng chế giễu, hãy thử quay lại nghe cuộc trò chuyện nội bộ giữa bảy đồng sáng lập của Anthropic hơn một năm trước. Podcast này được thu vào tháng 12 năm 2024: bảy người bàn về cách công ty được hình thành, RSP (Responsible Scaling Policy, dịch sát “Chính sách mở rộng có trách nhiệm”) đã được mài giũa thế nào, vì sao “an toàn” không thể dùng tùy tiện, và cả câu nói của CEO Dario vốn được trích dẫn đi trích dẫn lại:

“Nếu một tòa nhà mỗi tuần đều hú còi báo cháy, thì thực ra đó là một tòa nhà cực kỳ không an toàn.”

Nghe lại câu này bây giờ thì cảm giác thật sự không giống trước nữa.

Bảy đồng sáng lập, nhận diện nhanh

Dario Amodei｜CEO, nguyên Phó chủ tịch nghiên cứu tại OpenAI, xuất thân thần kinh học; người chốt quyết định cuối cùng cho lộ trình chiến lược và an toàn của Anthropic. Trong cuộc trò chuyện này, anh là người phát biểu nhiều nhất.

Daniela Amodei｜Chủ tịch, là chị gái của Dario. Trước đó làm việc tại Stripe suốt 5 năm rưỡi, dẫn dắt các đội Trust & Safety; sớm hơn nữa đã làm trong lĩnh vực phi lợi nhuận và phát triển quốc tế. Việc dựng cấu trúc tổ chức và truyền thông đối ngoại của Anthropic cơ bản do cô chủ đạo.

Jared Kaplan｜Giáo sư vật lý chuyển sang nhà nghiên cứu AI, là một trong những tác giả cốt lõi của scaling laws. Thường xuyên đưa ra phán đoán từ góc nhìn của người đứng ngoài, và tự nhận rằng thời điểm làm AI là vì “làm vật lý quá chán rồi”.

Chris Olah｜Nhân vật tiêu biểu trong nghiên cứu khả giải thích (interpretability); 19 tuổi vào vòng AI ở Vùng Vịnh, lần lượt làm tại Google Brain và OpenAI. Ở Anthropic, anh mang màu sắc chủ nghĩa lý tưởng công nghệ đậm nhất.

Tom Brown｜Là tác giả đầu dòng của bài báo GPT-3; hiện phụ trách tài nguyên tính toán của Anthropic. Góc nhìn thiên về kỹ thuật và hạ tầng; trong podcast anh đã nói khá nhiều về quá trình từ “không quá tin AI sẽ nhanh như vậy” đến thay đổi quan điểm.

Jack Clark｜Cựu phóng viên công nghệ của Bloomberg; phụ trách chính sách và công vụ công của Anthropic. Trong cuộc trò chuyện này, anh đóng vai trò người dẫn dắt, chịu trách nhiệm gắn mạch và đặt câu hỏi truy vấn.

Sam McCandlish｜Đồng sáng lập mảng nghiên cứu; người phát biểu ít nhất trong toàn bộ buổi, nhưng thường chỉ bằng một câu đã chạm đúng chỗ hiểm, thuộc “vị trí chốt hạ”.

Tóm tắt các quan điểm nổi bật

Vì sao làm AI: từ chán vật lý đến “chờ nhìn đủ rồi mới tin”

Jared Kaplan: “Tôi trước kia làm vật lý khá lâu, hơi chán rồi, và cũng muốn làm việc với nhiều người bạn hơn, nên tôi chuyển sang làm AI.”

Dario Amodei: “Tôi không nghĩ là mình đã thuyết phục anh một cách rõ ràng; tôi chỉ liên tục cho anh xem kết quả từ các mô hình AI. Đến một lúc, tôi cho anh xem đủ nhiều, rồi anh sẽ nói: ‘Ừ, trông có vẻ đúng.’”

Đặt cược ngược với đồng thuận: phần lớn ‘đồng thuận’ chỉ là hiệu ứng bầy đàn ngụy trang thành sự trưởng thành

Jared Kaplan: “Nhiều nhà nghiên cứu AI bị AI winter tổn thương nặng về mặt tâm lý, kiểu như có tham vọng thì lại không được phép.”

Dario Amodei: “Bài học sâu nhất mười năm qua của tôi là: nhiều ‘sự đồng thuận mà ai cũng biết’ thực ra là hiệu ứng bầy đàn ngụy trang thành sự trưởng thành. Anh từng chứng kiến vài lần sự đồng thuận bị lật lại chỉ trong một đêm chưa? Sau đó người ta sẽ nói: không, chúng ta đặt cược vào cái này. Dù anh chỉ đúng 50% thì cũng đã đóng góp rất nhiều thứ mà người khác chẳng đóng góp.”

Sự an toàn và việc mở rộng quy mô quấn chặt với nhau

Dario Amodei: “Khi đó, một trong những động cơ để mở rộng mô hình là: mô hình phải đủ thông minh trước thì RLHF mới làm được. Và đó vẫn là điều chúng tôi tin đến tận bây giờ: an toàn và mở rộng quy mô đi đôi với nhau.”

RSP, Chính sách mở rộng có trách nhiệm chính là “hiến pháp” của Anthropic

Tom Brown: “Với Anthropic, RSP giống như hiến pháp của chúng tôi. Đó là một tài liệu cốt lõi mang tính định hướng; vì vậy chúng tôi sẵn sàng đổ rất nhiều thời gian và công sức để liên tục tinh chỉnh và ‘mài’ nó.”

Dario Amodei: “RSP sẽ ngăn không cho những kế hoạch không đáp ứng chuẩn an toàn tiếp tục tiến lên. Chúng tôi không phải chỉ nói khẩu hiệu trên giấy—mà thực sự lồng an toàn vào mọi khâu.”

Chuông báo cháy reo quá nhiều lần—khi thật sự cháy thì chẳng ai chạy

Daniela Amodei: “Chúng tôi không thể dùng tùy tiện từ ‘an toàn’ để điều khiển tiến độ công việc. Mục tiêu thật sự của chúng tôi là làm cho mọi người hiểu rõ chúng tôi đang nói đến ‘an toàn’ là gì.”

Dario Amodei: “Thông thường, thứ gây hại cho an toàn lại chính là những ‘buổi diễn tập an toàn’ diễn ra quá thường xuyên. Nếu một tòa nhà mỗi tuần đều vang tiếng còi báo cháy, thì đó thực ra là một tòa nhà cực kỳ không an toàn.”

“Thất bại cao thượng” là một cái bẫy

Chris Olah: “Có một quan niệm cho rằng hành vi đạo đức nhất là hy sinh các mục tiêu khác vì an toàn, nhằm chứng minh sự trong sạch của bản thân đối với sự nghiệp. Nhưng cách đó thực tế lại tự làm suy yếu mình. Bởi vì nó khiến quyền ra quyết định rơi vào tay những người không coi trọng an toàn.”

Các đồng sáng lập cam kết quyên góp 80% doanh thu

Tom Brown: “Chúng tôi cùng cam kết sẽ trích 80% doanh thu để quyên góp cho những hoạt động có thể thúc đẩy sự phát triển của xã hội—đây là điều mọi người đều không ngần ngại ủng hộ.”

Không ai muốn khởi nghiệp, nhưng cảm thấy mình buộc phải làm như vậy

Sam McCandlish: “Thật ra không ai trong chúng tôi ban đầu đã có ý định mở công ty. Chúng tôi chỉ cảm thấy đó là trách nhiệm của mình, vì đây là cách duy nhất để đảm bảo sự phát triển của AI đi đúng hướng.”

Daniela Amodei: “Sứ mệnh của chúng tôi vừa rõ ràng vừa trong trẻo; trong ngành công nghệ, điều này không hề phổ biến.”

Khả giải thích: trong mạng thần kinh cất giấu cả một bộ “sinh học nhân tạo”

Chris Olah: “Mạng thần kinh thật tuyệt vời; trong đó có rất nhiều điều chúng ta còn chưa thấy. Đôi lúc tôi tưởng tượng rằng, mười năm sau bước vào một tiệm sách, mua một giáo trình về sinh học của mạng thần kinh—trong sách sẽ có đủ thứ nội dung đáng kinh ngạc.”

AI dùng để tăng cường nền dân chủ, thay vì trở thành công cụ độc tài

Dario Amodei: “Chúng tôi lo ngại rằng nếu AI bị phát triển sai cách, nó có thể trở thành công cụ của chủ nghĩa độc tài. Làm sao để AI trở thành công cụ thúc đẩy tự do và tự quyết? Sự quan trọng của mảng này không hề thua kém sinh học và khả giải thích.”

Từ các cuộc họp ở Nhà Trắng tới giải Nobel: sức ảnh hưởng của AI đã vượt xa vòng công nghệ

Jared Kaplan: “Năm 2018 chắc chẳng ai nghĩ Tổng thống sẽ gọi bạn đến Nhà Trắng để nói rằng họ đang quan tâm tới các mô hình ngôn ngữ.”

Dario Amodei: “Chúng tôi đã thấy giải Nobel trong lĩnh vực hóa học trao cho AlphaFold, và chúng ta nên nỗ lực phát triển những công cụ có thể giúp chúng ta tạo ra hàng trăm AlphaFold.”

Vì sao phải nghiên cứu AI?

Jack Clark: Tại sao ngay từ đầu chúng ta lại làm AI? Jared, vì sao anh làm AI?

Jared Kaplan:

Tôi trước kia làm vật lý khá lâu, hơi chán rồi, và cũng muốn làm việc với nhiều người bạn hơn, nên tôi chuyển sang làm AI.

Tom Brown:

Tôi cứ tưởng là Dario đã thuyết phục anh.

Dario Amodei:

Tôi không nghĩ là mình đã thuyết phục anh một cách rõ ràng. Tôi chỉ liên tục cho anh xem kết quả từ các mô hình AI, để nhấn mạnh rằng chúng có tính phổ quát, không chỉ áp dụng cho một bài toán đơn lẻ. Đến một lúc, tôi cho anh xem đủ nhiều, rồi anh sẽ nói: “Ừ, trông có vẻ đúng.”

**Jack Clark: Chris, thời anh làm nghiên cứu khả giải thích, là lúc anh gặp mọi người ở Google không? **

Chris Olah:

Không. Thực ra, khi tôi 19 tuổi lần đầu tới Vùng Vịnh, tôi đã biết được khá nhiều người trong số các anh. Lúc đó tôi gặp Dario và Jared—họ là nghiên cứu sinh sau tiến sĩ (postdoc)—và trong mắt tôi lúc bấy giờ, điều đó đặc biệt ngầu. Sau đó tôi ở Google Brain; khi Dario gia nhập, một thời gian chúng tôi ngồi cạnh nhau; tôi cũng từng làm việc với Tom. Rồi sau này tới OpenAI thì tôi làm việc cùng tất cả mọi người.

Jack Clark:

Tôi nhớ năm 2015, tại một hội nghị, tôi thấy Dario muốn phỏng vấn anh; thậm chí Google PR còn nói rằng tôi phải đọc hết các bài báo của anh trước.

Dario Amodei:

Lúc đó tôi đang viết ở Google cuốn “Concrete Problems in AI Safety”.

Sam McCandlish:

Trước khi bắt đầu cùng làm với anh, anh còn mời tôi tới văn phòng để trò chuyện, kiểu như anh đã giải thích tổng quan về AI cho tôi. Tôi nhớ là sau khi nói chuyện xong, tôi nghĩ: “Hóa ra chuyện này nghiêm túc hơn rất nhiều so với những gì tôi từng nhận ra.” Lúc đó anh nói tới “Big Compute”, số lượng tham số, quy mô nơ-ron của bộ não…

Mở rộng mang tính đột phá

**Jack Clark: **Tôi nhớ khi làm scaling laws ở OpenAI, việc làm mô hình lớn hơn bắt đầu thật sự hiệu quả, và nó còn hiệu quả một cách dai dẳng, kỳ lạ, ở rất nhiều dự án—từ GPT-2 đến scaling laws rồi tới GPT-3—chúng tôi cứ đi dần dần tiến lại gần hơn theo cách đó.

**Dario Amodei: **Chúng tôi chính là cái nhóm “người khiến mọi thứ thành hiện thực”.

**Jared Kaplan: **Cả bọn cũng đều hào hứng với an toàn. Lúc đó có một ý tưởng: AI sẽ rất mạnh, nhưng có thể không hiểu các giá trị của con người, thậm chí không thể giao tiếp với chúng ta. Theo một cách nào đó, các mô hình ngôn ngữ có thể đảm bảo rằng nó phải hiểu được rất nhiều kiến thức ngầm.

Dario Amodei:

Còn có RLHF nằm trên cả mô hình ngôn ngữ. Một trong những động cơ để mở rộng mô hình của chúng tôi khi đó là: mô hình phải đủ thông minh trước thì RLHF mới làm được. Và đây vẫn là điều chúng tôi tin tưởng hiện nay: an toàn và mở rộng quy mô quấn chặt với nhau.

Chris Olah:

Đúng. Khi đó, công việc scaling cũng thực chất là một phần của đội an toàn. Bởi vì chúng tôi nghĩ rằng, để khiến mọi người coi trọng an toàn một cách nghiêm túc, điều đầu tiên là phải dự đoán được xu hướng của AI.

Jack Clark:

Tôi nhớ một lần ở một sân bay nào đó ở Anh, tôi lấy GPT-2 để sample rồi viết tin giả; sau đó tôi gửi lên Slack cho Dario và nói “Cái này dùng được đấy, có thể có tác động lớn đến chính sách”. Tôi nhớ phản hồi của Dario là “Đúng vậy”.

Sau đó chúng tôi cũng làm rất nhiều công việc liên quan đến việc công bố—điều đó thật sự điên rồ.

Daniela Amodei:

Tôi nhớ đoạn công bố đó—đó là lần đầu tiên chúng tôi thực sự bắt đầu hợp tác, lúc GPT-2 được công bố.

Jack Clark:

Tôi nghĩ điều đó giúp ích rất nhiều cho chúng tôi. Chúng tôi cùng làm một việc “hơi lạ nhưng định hướng an toàn”, rồi sau đó lại cùng làm Anthropic—một phiên bản lớn hơn, cũng “hơi lạ nhưng định hướng an toàn” như vậy.

Giai đoạn khởi đầu của AI

Tom Brown: Quay lại bài viết “Concrete Problems”. Tôi gia nhập OpenAI năm 2016. Lúc đó anh và tôi đều là nhóm người sớm nhất. Tôi khi đó cảm giác bài đó giống như bài báo an toàn AI chủ đạo đầu tiên. Nó ra đời thế nào?

Dario Amodei:

Chris biết rồi; anh ấy tham gia vào đó. Khi đó ở Google, tôi đã quên mất dự án chính của mình lúc ấy là gì. Bài đó trông như là thứ tôi “lôi ra khỏi sự trì hoãn”.

Chúng tôi muốn ghi lại những câu hỏi mở về an toàn AI. Lúc bấy giờ, an toàn AI thường bị nói rất trừu tượng; chúng tôi muốn gắn nó với ML thực tế của thời đó. Bây giờ thì đã làm theo mạch đó được 6-7 năm, nhưng khi đó nó đơn giản là một ý tưởng… hơi điên rồ.

Chris Olah:

Tôi nghĩ nó, theo một nghĩa nào đó, gần như là một dự án mang màu sắc chính trị. Khi đó nhiều người không coi trọng an toàn. Chúng tôi muốn tổng hợp một danh sách các câu hỏi mà mọi người thấy là hợp lý và đáng công nhận; nhiều câu hỏi vốn đã tồn tại trong tài liệu nghiên cứu, rồi sau đó tìm những người có uy tín, có độ tin cậy xuyên tổ chức, để cùng ký tên.

Tôi nhớ mình đã mất rất nhiều thời gian, trao đổi với hơn hai chục nhà nghiên cứu trong Brain, để giành được sự ủng hộ nhằm công bố. Nếu chỉ nhìn bản thân các vấn đề, thì khi nhìn lại ngày nay, không phải tất cả đều chắc chắn đúng; có thể đó không hẳn là các câu hỏi “đúng nhất”. Nhưng nếu xem đó là xây dựng đồng thuận—chứng minh rằng “đây là vấn đề thật, đáng để nghiêm túc”—thì đó là một khoảnh khắc quan trọng.

Jack Clark:

Cuối cùng, anh sẽ bước vào một thế giới khoa học viễn tưởng khá kỳ lạ. Tôi nhớ thời kỳ đầu Anthropic nói về Constitutional AI; Jared nói: “Chúng tôi viết cho mô hình ngôn ngữ một hiến pháp, rồi hành vi của nó sẽ biến thành như vậy.” Nghe lúc đó điên rồ. Vì sao các anh nghĩ là làm được?

Jared Kaplan:

Tôi đã bàn với Dario rất lâu, và tôi cảm thấy trong AI, các phương pháp đơn giản thường đạt hiệu quả rất cao. Phiên bản đầu có thể khá phức tạp, rồi sau đó được cắt giảm dần dần; cuối cùng còn lại là: lợi dụng việc mô hình giỏi làm trắc nghiệm, cung cấp cho nó lời nhắc thật rõ ràng để nó biết phải tìm cái gì—như vậy là đủ. Sau đó, chúng ta có thể viết thẳng các nguyên tắc ra.

Dario Amodei:

Cái này quay lại “Big Blob of Compute” (The Big Blob of Compute) “The Bitter Lesson” (The Bitter Lesson) “Scaling Hypothesis” (Scaling Hypothesis): Chỉ cần anh cung cấp cho AI một mục tiêu rõ ràng và dữ liệu phù hợp, thì nó sẽ học được. Một bộ lệnh, một bộ nguyên tắc; mô hình ngôn ngữ có thể đọc chúng, rồi cũng có thể đối chiếu chúng với hành vi của chính nó. Mục tiêu huấn luyện nằm ở đó. Vì vậy, quan điểm của tôi và Jared là: có cách để làm được, miễn là các chi tiết được lặp đi lặp lại cho đến khi đúng.

Jared Kaplan:

Với tôi lúc đầu thì khá kỳ lạ. Tôi chuyển từ vật lý sang; bây giờ ai cũng hào hứng với AI thì dễ quên cái không khí lúc ấy. Tôi khi đó nói chuyện với Dario và cảm giác rằng nhiều nhà nghiên cứu AI đã bị tổn thương nặng về mặt tâm lý bởi AI winter; kiểu như có “tham vọng” thì sẽ không được phép. Thời đó tồn tại một lệnh cấm mang màu phản tham vọng. Một lợi thế của các nhà vật lý là “tính ngạo mạn”: họ thường làm những việc khá tham vọng, và quen nói về những bức tranh lớn.

Dario Amodei:

Tôi nghĩ đúng là vậy. Năm 2014, nhiều điều đã không được nói ra. Và nó cũng giống như các vấn đề phổ biến trong giới học thuật: ngoài một vài lĩnh vực nhất định, các tổ chức ngày càng sợ rủi ro; AI công nghiệp cũng kế thừa tâm lý đó. Tôi nghĩ mãi đến khoảng năm 2022 thì chúng tôi mới đi ra khỏi nó.

Chris Olah:

Còn có “hai kiểu bảo thủ”. Một là coi rủi ro một cách nghiêm túc; hai là coi việc nghiêm túc với rủi ro và tin rằng ý tưởng có thể thành công chính là sự ngạo mạn. Lúc đó, chúng tôi thuộc phe thứ hai. Trong lịch sử, cuộc thảo luận về vật lý hạt nhân năm 1939 cũng có nét tương tự: Fermi phản đối; còn Szilard hoặc Teller lại nghiêm túc nhìn vào rủi ro hơn.

Dario Amodei:

Bài học sâu nhất mười năm qua của tôi là: nhiều “đồng thuận mà ai cũng biết” thực ra là hiệu ứng bầy đàn ngụy trang thành sự trưởng thành. Anh từng thấy bao nhiêu lần khi đồng thuận bị lật lại chỉ trong một đêm, rồi người ta sẽ nói: không, chúng ta đặt cược vào cái này. Có thể không nhất thiết đúng, nhưng bỏ qua tiếng ồn rồi vẫn đặt cược. Dù anh chỉ đúng 50% thì cũng đã đóng góp rất nhiều thứ mà người khác không đóng góp.

Thái độ của công chúng đối với trí tuệ nhân tạo đang thay đổi

Jared Kaplan: “Ngày nay ở một số vấn đề an toàn cũng giống vậy: bên ngoài có đồng thuận rằng nhiều vấn đề an toàn vốn dĩ sẽ không nảy sinh tự nhiên từ bên trong kỹ thuật. Nhưng trong quá trình nghiên cứu ở Anthropic, chúng tôi thấy nó thực sự sẽ nảy sinh một cách tự nhiên.”

Daniela Amodei:

Nhưng trong 18 tháng qua, điều này đang thay đổi—đồng thời cảm xúc của thế giới đối với AI cũng rõ ràng đang đổi khác. Khi làm nghiên cứu người dùng, chúng tôi nghe người dùng bình thường lo lắng nhiều hơn về tác động tổng thể của AI lên thế giới.

Đôi khi là lo về công việc, thiên kiến, độc tính; đôi khi là “liệu nó có làm rối thế giới, thay đổi cách con người hợp tác với nhau hay không”—những điều đó thật ra tôi không hoàn toàn dự liệu được.

am McCandlish:

Không hiểu vì sao, trong cộng đồng nghiên cứu ML lại thường bi quan hơn công chúng về việc “AI sẽ ngày càng mạnh lên”.

Jared Kaplan:

Năm 2023, tôi và Dario đi Nhà Trắng. Trong cuộc họp, Harris và Raimondo về cơ bản nói: “Chúng tôi đang nhìn vào các anh. AI là một việc lớn. Chúng tôi đang nghiêm túc quan tâm. Nhưng năm 2018 thì bạn đâu thể nghĩ rằng ‘Tổng thống sẽ gọi bạn đến Nhà Trắng để nói rằng họ đang theo dõi các mô hình ngôn ngữ’.”

Tom Brown:

Điều thú vị là nhiều người trong chúng tôi đã tham gia từ khi vấn đề còn chưa chắc chắn, giống như Fermi nghi ngờ về bom nguyên tử. Có một số bằng chứng cho thấy bom nguyên tử có thể được chế tạo, nhưng cũng có rất nhiều bằng chứng cho thấy nó sẽ không. Dù vậy ông cuối cùng vẫn quyết định thử. Bởi nếu đúng thì mức độ tác động sẽ quá lớn, nên đáng làm.

Trong giai đoạn 2015-2017 có một số bằng chứng, và số lượng bằng chứng đó ngày càng tăng, cho thấy AI có thể là một chuyện rất lớn. Tôi năm 2016 đã trò chuyện với người hướng dẫn: tôi từng làm khởi nghiệp, muốn làm AI safety, nhưng kiến thức toán không đủ mạnh, không biết nên làm thế nào. Lúc đó có người nói bạn cần giỏi lý thuyết ra quyết định; có người nói sẽ không xảy ra sự kiện điên rồ với AI; và số người ủng hộ thì rất ít.

Jack Clark:

Năm 2014, tôi làm bản tin xu hướng ImageNet nên bị xem là điên. Năm 2015, tôi muốn viết về NVIDIA vì vì paper về GPU—cũng bị nói là điên. Năm 2016 rời báo chí đi sang AI, rồi còn có email nói “đó là sai lầm lớn nhất trong đời anh”. Nhìn từ nhiều góc độ, việc nghiêm túc đặt cược rằng “mở rộng quy mô sẽ thành công” đúng là giống như một kẻ điên.

Jared Kaplan: Anh quyết định thế nào? Có do dự không?

Jack Clark:

Tôi đã làm một vụ cược ngược: yêu cầu làm phóng viên AI toàn thời gian và tăng lương gấp đôi, tôi biết chắc họ sẽ không đồng ý. Rồi tôi ngủ một giấc, dậy là nghỉ việc. Vì mỗi ngày tôi đều đọc các tài liệu lưu trữ, tôi luôn cảm thấy có một chuyện điên rồ cực lớn đang xảy ra; và ở một thời điểm nhất định thì anh phải đặt cược với niềm tin rất cao.

Tom Brown:

Tôi thì không quyết liệt như vậy; tôi lưỡng lự suốt sáu tháng.

Daniela Amodei:

Và lúc đó, việc “kỹ sư cũng có thể thúc đẩy AI một cách đáng kể” không phải là xu hướng chủ đạo. Khi đó là “chỉ có nghiên cứu viên mới làm được AI”, nên sự do dự của anh là điều không lạ.

Tom Brown:

Sau đó OpenAI nói: “Anh có thể giúp AI safety thông qua kỹ thuật.” Chính điều đó khiến tôi tham gia. Daniela, lúc đó cô vẫn là quản lý của tôi ở OpenAI; vì sao cô tham gia?

Daniela Amodei:

Tôi đã làm ở Stripe 5 năm rưỡi; Greg từng là sếp của tôi. Tôi cũng từng giới thiệu Greg và Dario cho nhau. Khi đó anh ấy đang sáng lập OpenAI, tôi nói với ông ấy: “Người thông minh nhất mà tôi biết chính là Dario. Nếu anh có thể đưa anh ấy vào đội của mình thì đúng là may mắn của anh.” Cuối cùng, Dario đã gia nhập OpenAI.

Có lẽ cũng giống như anh, tôi cũng đang suy nghĩ về việc sau khi rời Stripe thì mình sẽ làm gì tiếp. Tôi gia nhập Stripe vì trước đó khi làm việc ở tổ chức phi lợi nhuận và lĩnh vực phát triển quốc tế, tôi cảm thấy mình cần thêm kỹ năng—thực ra lúc đó tôi còn tưởng rằng mình cuối cùng sẽ quay lại mảng đó.

Trước khi gia nhập Stripe, tôi cảm thấy mình chưa đủ năng lực để giúp những người có điều kiện kém hơn so với tôi. Vì vậy tôi theo dõi các công ty công nghệ khác, hy vọng tìm được một cách mới để tạo ra ảnh hưởng lớn hơn. Còn lúc đó OpenAI lại khiến tôi thấy đó là lựa chọn rất phù hợp. Đó là một tổ chức phi lợi nhuận, hướng tới một mục tiêu vừa rất quan trọng vừa mang ý nghĩa lớn lao.

Tôi luôn tin vào tiềm năng của AI. Tôi biết Dario, và họ thật sự cần ai đó giúp quản lý. Vì vậy tôi thấy công việc này rất khớp với nền tảng của mình. Lúc đó tôi nghĩ: “Đây là một tổ chức phi lợi nhuận. Trong đây tập trung một nhóm người thực sự xuất sắc, mang tầm nhìn đẹp đẽ, nhưng cách vận hành dường như vẫn còn hơi lộn xộn.” Và chính thách thức kiểu đó khiến tôi hào hứng, vì tôi có thể bước vào và đóng góp.

Khi đó, tôi cảm thấy mình như một người đa năng: không chỉ quản lý các thành viên trong nhóm, mà còn dẫn dắt một số đội kỹ thuật; quản lý việc mở rộng tổ chức; tôi phụ trách mảng mở rộng tổ chức; và cũng đã từng làm trong nhóm ngôn ngữ, sau đó còn đảm nhiệm một số việc khác. Tôi cũng tham gia một số công việc liên quan tới chính sách, và từng hợp tác với Chris. Tôi nghĩ trong công ty có rất nhiều người tài, và điều đó khiến tôi đặc biệt muốn tham gia, giúp công ty trở nên hiệu quả hơn và có trật tự hơn.

Jack Clark: Tôi nhớ sau khi làm xong GPT-3, cô nói: “Các anh/chị đã nghe về trust and safety chưa?”

Daniela Amodei:

Trước kia tôi đã dẫn dắt đội trust and safety tại Stripe. Đối với những công nghệ kiểu như thế này, các bạn có thể cần cân nhắc vấn đề trust and safety. Thực chất đó là một “cầu nối” giữa nghiên cứu an toàn AI (AI Safety Research) và công việc vận hành hằng ngày mang tính thực dụng hơn—tức là làm sao để mô hình trở nên thực sự an toàn.

Đề xuất rằng “công nghệ này trong tương lai sẽ tạo ra tác động rất lớn” là điều cực kỳ quan trọng. Đồng thời, chúng tôi cũng cần làm một số việc thực tế hơn trong ngày thường để đặt nền tảng cho các tình huống rủi ro cao hơn trong tương lai.

Chính sách mở rộng có trách nhiệm: đảm bảo AI phát triển an toàn

Jack Clark: Thế vừa rồi mình đang nói đến chiến lược mở rộng có trách nhiệm (RSP, Responsible Scaling Policy) được đề xuất ra sao, vì sao chúng ta nghĩ tới nó, và hiện tại chúng ta đang áp dụng như thế nào—đặc biệt là khi xét đến công việc trust and safety trên mô hình mà chúng ta đang làm. Vậy RSP (Chính sách mở rộng có trách nhiệm) ban đầu là ai đề xuất?

Dario Amodei:

Ban đầu là tôi và Paul Christiano đề xuất, vào khoảng cuối năm 2022. Ý tưởng đầu tiên là: liệu chúng ta có nên tạm thời giới hạn việc mở rộng mô hình đến một quy mô nhất định hay không, cho đến khi chúng ta tìm được cách giải quyết một số vấn đề an toàn?

Nhưng sau đó chúng tôi thấy việc chỉ giới hạn ở một điểm rồi lại nới lỏng thì khá “kỳ”. Vì vậy chúng tôi quyết định đặt ra một loạt ngưỡng; mỗi lần mô hình đạt một ngưỡng, sẽ cần tiến hành một loạt bài kiểm tra để đánh giá xem mô hình có năng lực an toàn tương ứng hay không.

Mỗi khi đạt đến một ngưỡng, chúng tôi đều phải áp dụng các biện pháp an toàn và bảo đảm nghiêm ngặt hơn. Tuy nhiên, ngay từ đầu chúng tôi đã có một ý nghĩ: nếu việc này do bên thứ ba thực hiện thì có lẽ sẽ tốt hơn. Tức là, chiến lược này không nên do riêng một công ty gánh hết trách nhiệm; nếu không, các công ty khác có thể sẽ không muốn áp dụng theo. Vì vậy Paul đã tự mình thiết kế chiến lược đó. Tất nhiên, theo thời gian, nhiều chi tiết trong đó cũng thay đổi. Còn phía đội của chúng tôi thì luôn nghiên cứu để chiến lược vận hành tốt hơn.

Khi Paul hệ thống hóa khái niệm này thành hình hài rõ ràng, gần như trong lúc anh đang “công bố” khái niệm, đội của chúng tôi cũng xuất bản phiên bản của mình trong vòng một hoặc hai tháng. Thực ra, rất nhiều thành viên trong đội đã tham gia sâu vào quá trình này. Tôi nhớ mình ít nhất đã viết một trong những bản nháp đầu tiên, nhưng toàn bộ tài liệu đã trải qua nhiều lần chỉnh sửa.

Tom Brown:

Với Anthropic, RSP giống như “hiến pháp” của chúng tôi. Đó là một tài liệu cốt lõi mang tính định hướng; vì vậy chúng tôi sẵn sàng bỏ ra rất nhiều thời gian và công sức để mài giũa lặp đi lặp lại, nhằm đảm bảo độ chính xác và sự hoàn thiện.

Daniela Amodei:

Tôi thấy, trong quá trình phát triển của Anthropic, RSP thực sự rất thú vị. Nó đi qua nhiều giai đoạn, và cũng cần nhiều loại kỹ năng khác nhau để triển khai. Ví dụ, có những ý tưởng rất lớn—phần này chủ yếu do Dario, Paul, Sam và Jared đảm nhiệm—khi họ suy nghĩ: “Những nguyên tắc cốt lõi của chúng ta là gì? Chúng ta muốn truyền tải thông điệp gì? Làm sao để xác định hướng đi của mình là đúng?”

Ngoài ra, còn có các công việc rất thực tế ở tầng vận hành: trong quá trình lặp đổi, chúng tôi đánh giá và điều chỉnh các chi tiết. Ví dụ, lúc đầu chúng tôi kỳ vọng ở một mức độ an toàn nhất định thì sẽ đạt được một số mục tiêu; nhưng nếu không đạt, chúng tôi sẽ đánh giá lại và đảm bảo rằng chúng tôi có thể chịu trách nhiệm đối với kết quả công việc của chính mình.

Hơn nữa còn có nhiều điều chỉnh liên quan tới cấu trúc tổ chức. Ví dụ, chúng tôi quyết định thiết kế lại cấu trúc tổ chức của RSP để phân định rõ hơn trách nhiệm. Tôi rất thích ví von bằng từ “hiến pháp”. Như ở Mỹ, để đảm bảo hiến pháp được thực thi, họ xây dựng một loạt hệ thống và cơ quan như tòa án, Tòa án Tối cao, tổng thống, quốc hội hai viện… Dù các cơ quan này còn đảm nhiệm các nhiệm vụ khác, nhưng sự tồn tại của chúng phần lớn là để bảo vệ hiến pháp; và RSP của Anthropic cũng đang trải qua quá trình tương tự.

Sam McCandlish:

Theo tôi, điều này phản ánh một quan điểm cốt lõi của chúng tôi về vấn đề an toàn: vấn đề an toàn là có thể giải quyết. Đó là một nhiệm vụ cực kỳ phức tạp và nặng nề, cần đầu tư rất nhiều thời gian và công sức.

Giống như trong lĩnh vực an toàn ô tô, các thể chế và cơ quan liên quan phải mất nhiều năm phát triển mới hình thành. Nhưng vấn đề của chúng ta bây giờ là: chúng ta có đủ thời gian để làm hết những việc đó không? Vì vậy, chúng ta buộc phải tìm ra càng sớm càng tốt những thể chế then chốt cho an toàn AI, và xây dựng chúng trước tiên ngay tại đây; đồng thời đảm bảo rằng các thể chế đó có thể được nơi khác học theo và mở rộng.

Dario Amodei:

Điều này cũng giúp đồng bộ hóa và phối hợp trong nội bộ tổ chức. Bởi nếu bất kỳ bộ phận nào trong tổ chức có hành vi không phù hợp với giá trị an toàn của chúng tôi, thì RSP sẽ theo một cách nào đó phơi bày vấn đề, đúng không? RSP sẽ ngăn họ tiếp tục triển khai các kế hoạch không đáp ứng chuẩn an toàn. Vì vậy nó cũng trở thành một công cụ nhắc nhở liên tục để đảm bảo an toàn trở thành yêu cầu căn bản trong quy trình phát triển sản phẩm và hoạch định kế hoạch. Chúng tôi không nói suông những khẩu hiệu; chúng tôi thực sự lồng an toàn vào mọi khâu. Nếu ai đó gia nhập nhóm mà không thể đồng lòng với các nguyên tắc này, họ sẽ thấy mình không thể hòa nhập. Hoặc là thích nghi theo hướng đó, hoặc là thấy khó để tiếp tục.

Jack Clark:

Theo thời gian, RSP ngày càng trở nên quan trọng. Chúng tôi dành hàng nghìn giờ công cho nó. Khi tôi giải thích RSP với các nghị sĩ, tôi nói: “Chúng tôi đã đưa ra một số biện pháp để đảm bảo công nghệ của mình vừa không dễ bị lạm dụng, vừa có thể đảm bảo an toàn.” Phản ứng của họ thường là: “Nghe vậy là bình thường. Chẳng phải công ty nào cũng làm như thế sao?” Điều đó làm tôi vừa buồn cười vừa bất lực—thực ra không phải công ty nào cũng làm như vậy.

Daniela Amodei:

Ngoài việc thúc đẩy mức độ nhất quán về giá trị giữa các đội, tôi cũng nghĩ RSP giúp tăng tính minh bạch của công ty. Bởi nó ghi chép rõ ràng các mục tiêu của chúng tôi là gì; trong nội bộ, mọi người đều hiểu được; còn bên ngoài, người ta cũng biết rõ chúng tôi đang hướng tới gì trong vấn đề an toàn. Dù nó chưa hoàn hảo, chúng tôi vẫn liên tục tối ưu và cải tiến.

Tôi nghĩ việc nêu rõ “chúng tôi đang tập trung vào vấn đề cốt lõi nào” là quan trọng. Chúng tôi không thể dùng chữ “an toàn” để điều hướng tiến độ công việc một cách tùy tiện, kiểu như “vì vấn đề an toàn nên không thể làm việc X” hoặc “vì vấn đề an toàn nên buộc phải làm việc Y.” Mục tiêu thực sự của chúng tôi là làm cho mọi người hiểu rõ chúng tôi đang nói đến “an toàn” theo nghĩa nào.

Dario Amodei:

Nhìn về dài hạn, thứ gây tổn hại thực sự cho an toàn thường lại là những “buổi diễn tập an toàn” diễn ra quá thường xuyên. Tôi đã từng nói: “Nếu có một tòa nhà mà mỗi tuần đều vang tiếng còi báo cháy, thì đó thực ra là một tòa nhà rất không an toàn.” Bởi khi thật sự có cháy, có thể sẽ chẳng ai để ý. Chúng tôi phải đặc biệt coi trọng độ chính xác và việc hiệu chỉnh/hiệu lực của cảnh báo.

Chris Olah:

Xem từ một góc nhìn khác, tôi nghĩ RSP tạo ra các cơ chế khuyến khích “lành mạnh” trên nhiều phương diện. Ví dụ, trong nội bộ công ty, RSP liên kết cơ chế khuyến khích của từng đội với các mục tiêu an toàn. Điều đó có nghĩa là nếu chúng tôi không đạt tiến triển đủ về an toàn, các công việc liên quan sẽ bị tạm dừng.

Về mặt bên ngoài, RSP cũng tạo cơ chế khuyến khích lành mạnh hơn so với các phương pháp khác. Ví dụ, giả sử đến một ngày chúng tôi buộc phải thực hiện một số hành động lớn như thừa nhận rằng “mô hình của chúng tôi đã phát triển đến một giai đoạn nào đó, nhưng hiện tại chúng tôi vẫn chưa thể đảm bảo an toàn.” Khi đó, RSP cung cấp một khung rõ ràng và bằng chứng để hỗ trợ quyết định đó. Khung này được thiết lập sẵn, lại rõ ràng và dễ hiểu. Khi nhìn lại quá trình thảo luận về phiên bản RSP đầu tiên, tôi đã không nhận ra hết tiềm năng của nó; nhưng bây giờ tôi nghĩ nó thực sự hiệu quả hơn nhiều so với những cách khác tôi có thể nghĩ ra.

Jared Kaplan:

Tôi đồng ý với các ý kiến đó, nhưng tôi cũng nghĩ nó có thể đánh giá thấp thách thức mà chúng tôi phải đối mặt khi xây dựng chính sách đúng đắn, đánh giá chuẩn mực và vạch ranh giới. Chúng tôi đã lặp đi lặp lại rất nhiều trong những phần đó và vẫn tiếp tục tối ưu. Một vấn đề khó là: với một số công nghệ mới nổi, đôi khi rất khó xác định liệu nó nguy hiểm hay an toàn. Rất nhiều lần, chúng tôi rơi vào một vùng xám khổng lồ. Những thách thức đó khiến tôi rất hào hứng khi phát triển RSP từ đầu, và đến bây giờ vẫn vậy. Nhưng đồng thời, tôi nhận ra rằng để triển khai chiến lược này một cách rõ ràng và để nó thực sự phát huy tác dụng thì phức tạp và đầy thách thức hơn nhiều so với tưởng tượng ban đầu.

Sam McCandlish:

Vùng xám không thể dự đoán hoàn toàn, vì chúng ở khắp nơi. Chỉ khi bạn thực sự bắt đầu triển khai thì mới thấy vấn đề nằm ở đâu. Vì vậy mục tiêu của chúng tôi là triển khai mọi thứ sớm nhất có thể, để phát hiện các vấn đề tiềm ẩn càng sớm càng tốt.

Dario Amodei:

Anh phải lặp lại ba đến bốn lần thì mới làm được đến mức hoàn hảo. Việc lặp (iteration) là một công cụ cực kỳ mạnh, gần như không thể lần đầu đã làm đúng hoàn toàn. Và nếu rủi ro đang tăng lên, anh cần hoàn thành các vòng lặp sớm, chứ không nên đợi đến phút cuối.

Jack Clark:

Đồng thời, anh còn cần xây dựng các thể chế và quy trình nội bộ. Dù chi tiết có thể thay đổi theo thời gian, thì điều quan trọng nhất là nuôi dưỡng năng lực thực thi của đội ngũ.

Tom Brown:

Tôi phụ trách quản lý tài nguyên tính toán của Anthropic. Với tôi, chúng tôi cần giao tiếp với các bên liên quan bên ngoài; mỗi bên bên ngoài lại có những quan điểm khác nhau về tốc độ phát triển công nghệ. Ban đầu tôi cũng nghĩ công nghệ sẽ không phát triển nhanh như vậy, nhưng sau đó quan điểm của tôi đã thay đổi—tôi hiểu điều đó rất rõ. Tôi thấy RSP đặc biệt hữu ích, nhất là khi trao đổi với những người cho rằng công nghệ phát triển chậm hơn. Chúng tôi có thể nói với họ: “Trước khi công nghệ phát triển đến mức cực kỳ khẩn cấp, chúng tôi chưa cần phải áp dụng các biện pháp an toàn cực đoan.” Nếu họ nói: “Tôi nghĩ mọi thứ sẽ không trở nên khẩn cấp trong thời gian dài”, thì tôi có thể đáp: “Được, vậy thì tạm thời chưa cần đến các biện pháp an toàn cực đoan.” Điều đó giúp giao tiếp với bên ngoài trở nên trơn tru hơn.

Jack Clark:

Vậy RSP còn tác động đến mọi người ở những mặt nào nữa?

Sam McCandlish:

Tất cả xoay quanh việc đánh giá; mỗi đội đều đang thực hiện đánh giá. Ví dụ, đội training luôn làm công việc đánh giá; chúng tôi cố gắng xác định xem mô hình đã đủ mạnh đến mức có thể gây nguy hiểm hay chưa.

Daniela Amodei:

Điều đó thực chất nghĩa là chúng ta cần đo hiệu suất của mô hình theo các tiêu chuẩn của RSP, bao gồm việc kiểm tra xem có các dấu hiệu nào có thể khiến chúng tôi lo ngại hay không.

Sam McCandlish:

Đánh giá năng lực thấp nhất của mô hình tương đối dễ; nhưng đánh giá năng lực cao nhất thì rất khó. Vì vậy chúng tôi đã đầu tư rất nhiều sức nghiên cứu để trả lời câu hỏi kiểu như: “Mô hình có thể thực hiện một số tác vụ nguy hiểm không? Có những phương thức nào chúng tôi chưa nghĩ tới—như sơ đồ tư duy (mind maps), best event, hay việc sử dụng một số công cụ—liệu những thứ đó có giúp mô hình thực hiện các hành vi cực kỳ nguy hiểm không?”

Jack Clark:

Trong quá trình xây dựng chính sách, các công cụ đánh giá này rất hữu ích. Bởi “an toàn” là một khái niệm cực kỳ trừu tượng. Khi tôi nói: “Chúng tôi có một công cụ đánh giá, nó quyết định xem chúng tôi có được phép triển khai mô hình này hay không.” Sau đó, chúng tôi có thể phối hợp với nhà hoạch định chính sách, các chuyên gia về an ninh quốc gia, và các chuyên gia trong lĩnh vực CBRN (hóa học, sinh học, phóng xạ và hạt nhân) để cùng xây dựng các tiêu chuẩn đánh giá chính xác. Nếu không có các công cụ cụ thể như vậy, những sự phối hợp này có thể hoàn toàn không thể xảy ra. Nhưng một khi đã có tiêu chuẩn rõ ràng, mọi người sẽ sẵn sàng tham gia hơn và giúp chúng tôi đảm bảo độ chính xác. Vì vậy ở mảng này, vai trò của RSP là rất rõ rệt.

Daniela Amodei:

RSP cũng rất quan trọng với tôi, và thường ảnh hưởng đến công việc của tôi. Điều thú vị là cách tôi suy nghĩ về RSP có phần đặc biệt: tôi nghĩ nhiều hơn từ góc độ “giọng điệu” của nó, tức là cách nó diễn đạt. Gần đây chúng tôi đã điều chỉnh mạnh “giọng điệu” của RSP, vì trước đó giọng điệu quá mang tính kỹ thuật, thậm chí có cảm giác đối đầu. Tôi dành nhiều thời gian suy nghĩ làm sao để xây dựng một hệ thống khiến mọi người sẵn sàng tham gia.

Nếu RSP là một tài liệu mà bất kỳ ai trong công ty cũng có thể hiểu dễ dàng, thì sẽ tốt hơn rất nhiều. Giống như OKR (Objectives and Key Results—mục tiêu và kết quả then chốt) hiện tại vậy. Ví dụ, mục tiêu chính của RSP là gì? Làm sao biết đã đạt mục tiêu chưa? Mức độ an toàn AI hiện tại (ASL) là bao nhiêu? Là ASL-2 hay ASL-3? Nếu mọi người đều biết mình phải chú ý vào điểm nào, thì việc phát hiện vấn đề tiềm ẩn sẽ dễ hơn. Ngược lại, nếu RSP quá kỹ thuật, chỉ có một nhóm nhỏ người hiểu được thì hiệu dụng thực tế sẽ bị giảm mạnh.

Tôi rất vui khi thấy RSP đang tiến theo hướng dễ hiểu hơn. Bây giờ, theo tôi, đa số người trong công ty—thậm chí có thể là tất cả mọi người—dù vị trí của họ là gì, đều có thể đọc hiểu tài liệu này và thấy: “Điều này hợp lý. Tôi muốn phát triển AI theo sự dẫn dắt của các nguyên tắc dưới đây, và tôi cũng hiểu vì sao phải quan tâm đến những vấn đề này. Nếu trong công việc tôi gặp sự cố, tôi biết đại khái cần để ý gì.” Chúng tôi muốn RSP đủ đơn giản, để người làm ở nhà máy cũng có thể dễ dàng phán đoán: “Dây an toàn phải được cài vào đây, nhưng hiện tại nó chưa được cài đúng chỗ.” Nhờ vậy có thể phát hiện vấn đề kịp thời.

Điểm mấu chốt nằm ở việc xây dựng một cơ chế phản hồi lành mạnh, để lãnh đạo, hội đồng quản trị, các bộ phận khác trong công ty và các đội trực tiếp làm R&D có thể trao đổi trôi chảy. Tôi nghĩ: hầu hết các vấn đề nảy sinh là vì giao tiếp không thông suốt hoặc truyền đạt thông tin bị lệch. Nếu vấn đề chỉ xuất hiện vì những lý do đó thì thật đáng tiếc, đúng không? Cuối cùng, việc chúng tôi cần làm là biến những ý tưởng này thành hành động thực tế, và đảm bảo chúng đơn giản, rõ ràng, để ai cũng có thể hiểu.

Câu chuyện thành lập Anthropic

Sam McCandlish:

Thật ra không ai trong chúng tôi ban đầu đã có ý định mở công ty. Chúng tôi chỉ thấy đó là trách nhiệm của mình; chúng tôi buộc phải hành động, vì đây là con đường duy nhất để đảm bảo AI phát triển theo đúng hướng—và cũng chính là lý do khiến chúng tôi đưa ra lời cam kết đó.

Dario Amodei:

Ý tưởng ban đầu của tôi rất đơn giản: tôi muốn phát minh và khám phá điều gì đó mới theo một cách có ích. Ý tưởng đó kéo tôi bước vào lĩnh vực AI. Mà nghiên cứu AI cần rất nhiều hỗ trợ kỹ thuật, và cuối cùng cũng cần rất nhiều vốn.

Tuy nhiên, tôi nhận ra nếu không có mục tiêu và kế hoạch rõ ràng để thành lập công ty và quản trị môi trường, thì nhiều thứ có thể vẫn được làm ra—nhưng sẽ lặp lại những sai lầm trong ngành công nghệ khiến tôi cảm thấy xa cách. Những sai lầm đó thường bắt nguồn từ cùng một nhóm người, cùng một thái độ và cùng một kiểu suy nghĩ. Vì vậy vào một thời điểm nào đó, tôi nhận ra chúng tôi phải làm theo một cách hoàn toàn mới—gần như là điều không thể tránh khỏi.

Jared Kaplan:

Anh còn nhớ lúc chúng ta học cao học, anh từng có một kế hoạch hoàn chỉnh, thử khám phá làm sao dùng nghiên cứu khoa học để thúc đẩy lợi ích công cộng. Tôi nghĩ điều đó rất giống với cách nghĩ của chúng ta hiện tại. Tôi nhớ là lúc đó anh có một dự án tên là “Project Vannevar”, mục tiêu là đạt được điều này. Tôi khi đó là một giáo sư; tôi quan sát tình hình lúc đó và tin sâu rằng ảnh hưởng của AI đang tăng trưởng với tốc độ cực nhanh.

Tuy nhiên, do nhu cầu vốn cho nghiên cứu AI rất cao, cộng thêm việc tôi là một giáo sư vật lý, tôi nhận ra rằng mình không thể đơn độc thông qua nghiên cứu học thuật để thúc đẩy các tiến triển đó. Tôi muốn có thể cùng xây dựng một tổ chức với những người đáng tin cậy, để đảm bảo AI phát triển đúng hướng. Nhưng nói thật là tôi không bao giờ khuyên người khác mở một công ty, và cũng chưa từng có mong muốn như vậy. Với tôi, đó chỉ là một cách để đạt được mục tiêu. Tôi nghĩ thông thường, mấu chốt của thành công nằm ở việc anh thật sự quan tâm đến việc đạt được một mục tiêu có ý nghĩa với thế giới, rồi tìm ra cách tốt nhất để đạt mục tiêu đó.

Cách xây dựng văn hóa tin cậy

Daniela Amodei:

Tôi thường suy nghĩ về lợi thế chiến lược của đội nhóm, và một yếu tố có vẻ hơi bất ngờ nhưng lại rất quan trọng chính là sự tin tưởng lẫn nhau ở mức độ cao. Rất khó để truyền cảm giác về một sứ mệnh chung tới một số lượng lớn người. Nhưng ở Anthropic, chúng tôi đã thành công trong việc truyền được cảm giác đó đến ngày càng nhiều người. Trong đội ngũ này—từ lãnh đạo đến tất cả thành viên—mọi người tụ lại với nhau là vì sứ mệnh chung. Sứ mệnh của chúng tôi vừa rõ ràng vừa trong trẻo; trong ngành công nghệ, điều này không hề phổ biến.

Tôi cảm thấy mục tiêu mà chúng tôi đang nỗ lực theo đuổi mang một ý nghĩa thuần khiết; không ai trong chúng tôi bắt đầu vì muốn mở công ty. Chúng tôi chỉ cảm thấy mình buộc phải làm như vậy. Chúng tôi không thể tiếp tục đẩy công việc ở nơi cũ; chúng tôi phải tự làm lấy việc này.

Jack Clark:

Khi đó, cùng với sự xuất hiện của GPT-3, và bởi tất cả chúng tôi đều đã tiếp xúc hoặc tham gia vào các dự án như scaling laws (định luật mở rộng) v.v., đến năm 2020 chúng tôi đã nhìn thấy rõ xu hướng phát triển của AI. Chúng tôi nhận ra rằng nếu không nhanh chóng hành động, rất có thể chúng tôi sẽ sớm chạm tới một ngưỡng không thể đảo ngược. Chúng tôi phải hành động để tạo ra tác động lên môi trường đó.

Tom Brown:

Tôi muốn tiếp lời Daniela. Tôi đúng là tin rằng trong nội bộ đội nhóm tồn tại mức độ tin cậy rất cao. Mỗi người đều hiểu rằng họ tham gia nhóm vì muốn đóng góp cho thế giới. Chúng tôi còn cùng cam kết sẽ quyên góp 80% thu nhập cho các hoạt động thúc đẩy xã hội phát triển; đó là điều ai cũng không hề do dự ủng hộ: “Vâng, chắc chắn rồi, chúng tôi sẽ làm vậy.” Niềm tin này thật đặc biệt và hiếm có.

Daniela Amodei:

Tôi nghĩ Anthropic là một công ty có màu sắc chính trị rất nhạt. Tất nhiên, góc nhìn của chúng tôi có thể khác với người bình thường; và tôi cũng luôn nhắc bản thân về điều đó. Tôi tin rằng quy trình tuyển dụng và đặc điểm của các thành viên tạo nên một văn hóa gần như “tự động loại trừ” chuyện “chính trị văn phòng”.

Dario Amodei:

Còn có sự gắn kết của cả đội—sự gắn kết là cực kỳ quan trọng. Dù là đội sản phẩm, đội nghiên cứu, đội trust and safety, đội marketing hay đội chính sách, mọi người đều đang hướng tới cùng một mục tiêu chung của công ty. Khi các bộ phận khác nhau trong nội bộ công ty theo đuổi những mục tiêu hoàn toàn khác nhau, thường sẽ dẫn đến hỗn loạn. Và nếu họ nghĩ rằng bộ phận khác đang phá hoại công việc của mình thì càng không bình thường.

Tôi nghĩ một trong những thành tựu quan trọng nhất của chúng tôi là duy trì sự nhất quán tổng thể của công ty. Cơ chế như RSP đóng vai trò quan trọng. Cơ chế đó đảm bảo rằng không phải là có bộ phận A tạo ra vấn đề, rồi bộ phận B cố sửa vấn đề; mà tất cả các bộ phận đều thực hiện đúng chức năng của mình và phối hợp với nhau trong khuôn khổ của một “theory of change” (lý thuyết về sự thay đổi) thống nhất.

Chris Olah:

Tôi ban đầu gia nhập OpenAI vì nó là một tổ chức phi lợi nhuận, nơi tôi có thể tập trung cho nghiên cứu AI safety. Nhưng theo thời gian, tôi dần nhận ra mô hình đó không hoàn toàn phù hợp với mình; và điều đó buộc tôi phải đưa ra một số quyết định khó khăn. Trong quá trình đó, tôi rất tin vào phán đoán của Dario và Daniela, nhưng tôi không muốn rời đi. Bởi tôi nghĩ tăng thêm nhiều phòng thí nghiệm AI có thể không nhất thiết đem lại lợi ích cho thế giới, nên tôi do dự trước khi rời đi.

Khi cuối cùng chúng tôi quyết định rời đi, tôi vẫn còn do dự trong việc thành lập một công ty. Trước đó tôi từng lập luận rằng chúng ta nên lập một tổ chức phi lợi nhuận tập trung vào nghiên cứu an toàn. Nhưng cuối cùng thái độ thực tế và sự thừa nhận thẳng thắn các giới hạn thực tiễn đã khiến chúng tôi hiểu rằng thành lập Anthropic là cách tốt nhất để đạt được mục tiêu của mình.

Dario Amodei:

Một bài học quan trọng chúng tôi rút ra từ thời kỳ đầu là: ít hứa hơn, làm được nhiều hơn. Giữ thực tế, đối diện với sự đánh đổi; vì tin cậy và uy tín quan trọng hơn bất kỳ một chính sách cụ thể nào.

Daniela Amodei:

Điểm độc đáo của Anthropic là mức độ tin tưởng cao và sự thống nhất của đội ngũ. Ví dụ, khi tôi thấy Mike Krieger kiên trì không phát hành một số sản phẩm vì lý do an toàn, trong khi tôi lại thấy Vinay đang thảo luận cách cân bằng nhu cầu kinh doanh để thúc đẩy dự án hoàn thành—tôi cảm thấy rất đặc biệt. Ngoài ra, các kỹ sư trong đội kỹ thuật an toàn và đội suy luận cũng đang thảo luận cách đảm bảo sản phẩm vừa an toàn vừa thực dụng. Sự thống nhất về mục tiêu và thái độ thực dụng như vậy là một trong những điều thu hút nhất trong môi trường làm việc của Anthropic.

Dario Amodei:

Một văn hóa tổ chức lành mạnh là khi mọi người đều có thể hiểu và chấp nhận những sự đánh đổi mà tất cả cùng phải đối mặt. Thế giới chúng ta sống không hoàn hảo; mỗi quyết định đều cần cân bằng giữa những lợi ích khác nhau, và sự cân bằng đó thường không thể khiến ai cũng hoàn toàn hài lòng. Tuy nhiên, miễn là cả đội có thể chia sẻ một mục tiêu chung, cùng đối mặt với các sự đánh đổi đó, và từ vị trí của mình đóng góp sức lực cho mục tiêu tổng thể, thì đó mới là một hệ sinh thái lành mạnh.

Sam McCandlish:

Theo một nghĩa nào đó, đây là một cuộc “đua hướng lên”. Đúng, đây thật sự là một cuộc “đua hướng lên”. Dù đây không phải một lựa chọn hoàn toàn không có rủi ro; mọi thứ có thể sai; nhưng chúng tôi đều nhất trí với nhau rằng: “Đó chính là lựa chọn chúng tôi đưa ra.”

Cuộc cạnh tranh đỉnh cao trong AI

Jack Clark:

Nhưng thị trường vốn là thực dụng. Vì vậy, khi Anthropic càng thành công, người khác càng có động lực đi bắt chước những cách đã giúp chúng tôi đạt được thành công. Hơn nữa, khi thành công của chúng tôi gắn chặt với công việc thực tế trong lĩnh vực an toàn, thì thành công đó sẽ tạo ra một “lực hút” trong ngành, kéo các công ty khác cũng tham gia vào cuộc cạnh tranh này. Giống như khi chúng tôi phát triển dây an toàn, các công ty khác cũng có thể bắt chước—đó là một hệ sinh thái cạnh tranh lành mạnh.

Dario Amodei:

Nhưng nếu bạn nói: “Chúng tôi sẽ không phát triển công nghệ này, và anh cũng không thể làm tốt hơn người khác.” Cách đó không được, bởi bạn chưa chứng minh rằng lộ trình từ hiện trạng đến tương lai là khả thi. Thế giới cần rằng, dù là cả ngành hay một công ty riêng lẻ, đều phải tìm ra một cách để xã hội chuyển từ “công nghệ không tồn tại” sang “công nghệ tồn tại dưới dạng mạnh mẽ và được xã hội quản lý hiệu quả”. Tôi nghĩ cách duy nhất để đạt được điều đó là trực diện các sự đánh đổi—ở cấp công ty đơn lẻ, và cuối cùng là ở cả cấp ngành.

Anh cần tìm một cách vừa giữ được tính cạnh tranh—thậm chí dẫn đầu ngành ở một số mảng—vừa đảm bảo công nghệ an toàn. Nếu anh làm được điều đó, lực hút của anh đối với ngành sẽ rất mạnh. Từ môi trường quản lý, đến việc thu hút nhân tài từ nhiều công ty khác nhau, cho tới cách khách hàng nhìn nhận—tất cả các yếu tố đó sẽ thúc đẩy ngành đi theo cùng một hướng. Nếu anh có thể chứng minh rằng vẫn đạt được sự an toàn mà không phải hy sinh cạnh tranh lực—tức là tìm ra các giải pháp cùng có lợi—thì các công ty khác cũng sẽ được thúc đẩy để làm theo.

Jared Kaplan:

Theo tôi, đó là lý do vì sao các cơ chế như RSP lại quan trọng đến thế. Chúng tôi có thể nhìn rõ hướng phát triển của công nghệ và nhận ra rằng cần phải cảnh giác cao độ với một số vấn đề; nhưng đồng thời chúng tôi cũng phải tránh việc phát ra cảnh báo kiểu “sói đến rồi!” sai lầm. Không thể chỉ nói rằng “đổi mới nên dừng lại ở đây”. Chúng tôi cần tìm một cách khiến công nghệ AI mang lại trải nghiệm hữu ích, đổi mới và thú vị cho khách hàng, đồng thời nêu rõ các ràng buộc mà chúng tôi phải tuân theo—những ràng buộc vừa đảm bảo an toàn hệ thống, vừa khiến các công ty khác tin rằng họ cũng có thể thành công trong điều kiện an toàn và cạnh tranh với chúng tôi.

Dario Amodei:

Vài tháng sau khi chúng tôi giới thiệu RSP, ba công ty AI nổi tiếng nhất đều lần lượt đưa ra các cơ chế tương tự. Nghiên cứu khả giải thích là mảng đột phá thứ hai của chúng tôi. Ngoài ra, chúng tôi cũng hợp tác với một số tổ chức nghiên cứu an toàn AI; sự chú trọng tổng thể vào an toàn này đang tạo ra ảnh hưởng sâu rộng.

Jack Clark:

Đúng. Frontier Red Team hầu như bị các công ty khác bắt chước ngay. Đây là điều tốt. Chúng tôi muốn mọi phòng thí nghiệm đều có thể thử nghiệm những lỗ hổng an toàn có rủi ro cao tiềm ẩn.

Daniela Amodei:

Jack cũng từng đề cập trước đó rằng khách hàng rất quan tâm đến vấn đề an toàn. Khách hàng không muốn mô hình tạo ra thông tin sai lệch, và cũng không muốn mô hình dễ dàng bị vượt qua các ràng buộc an toàn. Họ muốn mô hình vừa hữu ích vừa không gây hại. Trong trao đổi với khách hàng, chúng tôi thường nghe họ nói: “Chúng tôi chọn Claude vì chúng tôi biết nó an toàn hơn.” Tôi nghĩ điều đó tạo ra tác động rất lớn lên thị trường. Chúng tôi cung cấp các mô hình đáng tin cậy và đáng phục; điều này cũng tạo sức ép thị trường không nhỏ lên đối thủ cạnh tranh.

Chris Olah:

Có lẽ có thể làm rõ thêm quan điểm mà Dario vừa nêu. Có một quan niệm rằng hành vi đạo đức nhất là “thất bại cao thượng”. Tức là, bạn nên hy sinh các mục tiêu khác vì an toàn, thậm chí hành động theo một cách không thực tế để chứng minh sự thuần khiết của bản thân dành cho sự nghiệp. Nhưng tôi cho rằng cách đó thực tế là tự làm suy yếu mình.

Trước hết, cách đó khiến quyền ra quyết định rơi vào tay những người không coi trọng an toàn và không ưu tiên an toàn. Mặt khác, nếu bạn cố gắng tìm một cách để “cân chỉnh” các cơ chế khuyến khích, đặt những quyết định khó khăn vào đúng nơi nhận được nhiều sự ủng hộ nhất từ bằng chứng cho quyết định đúng, thì bạn có thể kích hoạt “cuộc đua hướng lên” mà Dario mô tả. Trong cuộc đua đó, người không quan tâm đến an toàn không bị đẩy ra rìa; mà thay vào đó, những người khác bị buộc phải bước theo nhịp của bạn, tham gia vào cuộc đua này.

Nhìn về tương lai của trí tuệ nhân tạo

Jack Clark: Vậy còn chuyện chúng ta sẽ làm tiếp theo, điều gì khiến các anh/chị hào hứng nhất?

Chris Olah:

Tôi nghĩ có rất nhiều lý do để thấy khả giải thích đáng để hào hứng. Một lý do hiển nhiên là về mặt an toàn. Nhưng còn có một lý do khác: xét ở tầng cảm xúc, điều này cũng khiến tôi thấy hào hứng theo một cách rất có ý nghĩa. Bởi tôi tin rằng mạng thần kinh thật sự rất tuyệt vời, và trong đó có rất nhiều điều chúng ta còn chưa thấy. Chúng ta luôn đối xử với mạng thần kinh như một “hộp đen”, không quá quan tâm tới cấu trúc bên trong; nhưng khi bắt đầu nghiên cứu sâu, bạn sẽ thấy bên trong chứa đầy những cấu trúc đáng kinh ngạc.

Điều này giống như thái độ của nhiều người khi nói về sinh học: có người có thể nghĩ “tiến hóa thật nhàm chán; nó chỉ là một quá trình đơn giản, diễn ra rất lâu rồi tạo ra động vật”. Nhưng thực tế, mỗi loài động vật mà tiến hóa tạo ra đều chứa đầy sự phức tạp và cấu trúc khó tin. Và tôi nghĩ tiến hóa cũng là một quá trình tối ưu—giống như việc huấn luyện một mạng thần kinh. Bên trong mạng thần kinh cũng có toàn bộ một hệ cấu trúc phức tạp tương tự như “sinh học nhân tạo”. Nếu bạn sẵn sàng đi sâu vào chúng, bạn sẽ phát hiện ra rất nhiều điều đáng kinh ngạc.

Tôi cảm thấy chúng ta mới bắt đầu chậm rãi hé mở nó. Nó thật sự khó tin, bên trong có quá nhiều thứ đang chờ chúng ta khám phá. Chúng ta mới bắt đầu mở cánh cửa của nó, và tôi nghĩ những khám phá sắp tới sẽ cực kỳ hấp dẫn và tuyệt vời. Đôi lúc tôi tưởng tượng rằng, mười năm sau bước vào một hiệu sách, mua một cuốn giáo trình về khả giải thích của mạng thần kinh, hoặc một cuốn sách thật sự nói về “sinh học” của mạng thần kinh—trong sách có đủ mọi nội dung đáng kinh ngạc. Tôi tin rằng trong mười năm tới, thậm chí chỉ trong vài năm tới, chúng ta sẽ bắt đầu thực sự khám phá ra những thứ này. Đó sẽ là một hành trình điên rồ và tuyệt vời.

Jack Clark:

Vài năm trước, nếu có người nói: “Chính phủ sẽ thành lập các cơ quan mới để kiểm thử và đánh giá hệ thống AI, và các cơ quan đó sẽ cực kỳ chuyên nghiệp và làm việc hiệu quả.” Bạn có lẽ sẽ không tin. Nhưng điều đó đã xảy ra. Có thể nói, chính phủ đã dựng nên một “đại sứ quán mới” đ

Xem bản gốc

Bảy nhà sáng lập cùng thảo luận, Anthropic đã ra đời như thế nào?

Tóm tắt các ý chính

Bảy đồng sáng lập, nhận diện nhanh

Tóm tắt các quan điểm nổi bật

Vì sao phải nghiên cứu AI?

Mở rộng mang tính đột phá

Giai đoạn khởi đầu của AI

Thái độ của công chúng đối với trí tuệ nhân tạo đang thay đổi

Chính sách mở rộng có trách nhiệm: đảm bảo AI phát triển an toàn

Vậy RSP còn tác động đến mọi người ở những mặt nào nữa?

Câu chuyện thành lập Anthropic

Cách xây dựng văn hóa tin cậy

Cuộc cạnh tranh đỉnh cao trong AI

Nhìn về tương lai của trí tuệ nhân tạo

Chủ đề thịnh hành

AprilMarketOutlook

CryptoMarketsRiseBroadly

IsraelStrikesIranBTCPlunges

GoldSilverRally

ClaudeCode500KCodeLeak

Gate Fun hot

888888888888

爆仓终结币

bababoyi

bababoyi

APRIL

APRILIA

mtt

mtt sports

PYL

Pylora

Ghim