Setelah peluncuran Gemini3, tim memberikan pernyataan: Tiga poin inovasi, hukum skala masih berlaku.

金色财经_

2025-11-19 03:24:30

Penulis: Wuji, Terjemahan Khusus Teknologi Tencent

Pada 19 November waktu Beijing, setelah Google merilis model seri Gemini 3, podcast teknologi “Hard Fork” yang merupakan bagian dari New York Times merilis program spesial, di mana pembawa acara Kevin Roose dan Casey Newton mewawancarai CEO DeepMind Google, Demis Hassabis, dan kepala tim Gemini Google, Josh Woodward.

Wawancara kali ini berfokus pada model AI flagship terbaru yang dirilis oleh Google, Gemini 3 (sebenarnya adalah versi Pro dari seri Gemini 3.0), yang merupakan peluncuran monumental yang secara luas dianggap oleh industri sebagai upaya Google untuk kembali meraih posisi terdepan dalam teknologi dan produk setelah mengalami kegagalan Bard serta fase mengejar Gemini 1.x dan 2.x.

Dua orang yang bertanggung jawab menjelaskan secara rinci tentang terobosan Gemini 3 dalam pemikiran bertahap, generasi kode (terutama dalam pengkodean frontend dan “pengkodean suasana”), serta pembuatan antarmuka interaktif secara dinamis, menekankan bahwa Google telah dengan cepat menerapkan model terkuat ke produk-produk yang digunakan oleh miliaran pengguna seperti pencarian, Gmail, dan Workspace, yang mengubah batasan kompetisi.

Pandangan inti wawancara:

Gemini 3 sepenuhnya sesuai dengan jalur perkembangan yang diharapkan, masih membutuhkan 5 hingga 10 tahun dan 1 hingga 2 terobosan penelitian besar untuk mencapai kecerdasan buatan umum (AGI);
Keunggulan penuh Google dalam efisiensi, biaya, dan distribusi akan membuatnya unggul di pasar apa pun;
Bagian gelembung AI ada, tetapi Google memiliki jaminan ganda untuk monetisasi jangka pendek dan jalur baru senilai triliunan dalam jangka panjang.

Berikut adalah versi ringkas dari isi wawancara

Rodz: Casey, hari ini kami akan menyiarkan program khusus tambahan, dengan tema peluncuran Gemini 3.

Newton: Ya, Kevin. Model ini telah lama dinantikan di kalangan AI Silicon Valley, dan kita akhirnya akan merasakan produk jadi yang sebenarnya.

Rodz: Alasan kami memutuskan untuk melanggar ritme rilis Jumat dan merekam episode ini secara khusus adalah karena dua alasan. Pertama, kami mendapatkan kesempatan untuk mewawancarai dua orang pemimpin inti AI dari Google (CEO DeepMind, Hassabis, dan Wakil Presiden tim Gemini, Woodward).

Kedua, peluncuran Gemini 3 telah menarik perhatian besar dari industri. Kami mendengar dari beberapa sumber internal di laboratorium bahwa model ini telah mencapai terobosan di beberapa bidang kunci, yang mungkin menjadi ancaman substansial bagi pesaing. Selama dua tahun terakhir, Google dianggap sebagai pengejar, kini pertanyaannya adalah: Apakah mereka telah kembali ke posisi terdepan?

Newton: Sebelum kita resmi memulai wawancara, mari kita perkenalan secara singkat informasi yang diketahui. Google mengadakan briefing tertutup sebelum peluncuran, kemampuan baru yang paling mencolok dari Gemini 3 termasuk: kemampuan pengkodean yang sangat ditingkatkan dan kemampuan “pengkodean suasana”; serta fitur generasi antarmuka interaksi yang sepenuhnya baru.

Ini tidak hanya menghasilkan teks lagi, tetapi juga langsung menghasilkan antarmuka interaktif yang disesuaikan untuk pengguna. Misalnya, ketika pengguna menanyakan tentang kehidupan Van Gogh, model akan segera menghasilkan halaman pembelajaran lengkap yang mencakup gambar, garis waktu, dan elemen interaktif; contohnya juga menghasilkan kalkulator hipotek untuk properti senilai lebih dari satu juta dolar. Fungsi-fungsi ini menandai peralihan dari “menjawab pertanyaan” ke “membangun pengalaman.”

Rodz: Dalam semua pengujian acuan publik, Gemini 3 jauh melampaui Gemini 2.5 Pro. Misalnya, dalam kumpulan masalah tingkat doktoral yang dikenal sebagai “Ujian Terakhir Kemanusiaan” (Humanity's Last Exam), yang pertama hanya mencetak 21.6%, sedangkan yang kedua langsung meningkat menjadi 37.5%. Pernyataan umum dari Google adalah: setiap tugas yang dapat Anda lakukan di ChatGPT, Claude, atau versi lama Gemini lainnya, dapat dilakukan dengan lebih baik di Gemini 3.

Newton: Mereka juga menunjukkan demonstrasi awal Gemini Agent: model dapat mengakses secara mendalam email pengguna, memahami seluruh konten email, secara otomatis mengkategorikan, menyusun balasan, bahkan membantu pengguna untuk sepenuhnya mengosongkan kotak masuk.

Selain itu, mulai minggu ini Gemini 3 akan diluncurkan di Aplikasi Gemini dan Mode AI pencarian Google; mahasiswa di Amerika Serikat akan mendapatkan akses gratis versi premium selama satu tahun. Kata kunci yang sering ditekankan oleh Google adalah “Learn Anything”, yang sebenarnya memposisikan Gemini sebagai alat pendidikan yang paling dipersonalisasi.

Rodz: Demis, Josh, selamat datang di “Hard Fork”. Dua tahun yang lalu, Sundar Pichai membandingkan Bard dengan “sebuah Honda Civic yang dimodifikasi”, saat balapan di trek melawan pesaing yang lebih kuat. Lalu, Gemini 3 itu mobil apa?

Hasabis: Saya berharap itu jauh lebih cepat daripada Honda Civic. Saya tidak terbiasa menggunakan mobil sebagai metafora, mungkin lebih mirip dengan mobil balap drag profesional. Itu tidak dirancang untuk berkendara sehari-hari atau lintasan oval, itu memiliki kekuatan besar yang murni, terkonsentrasi pada satu tujuan tertentu. Ini mewakili kombinasi sempurna antara hasil penelitian teratas kami dan kekuatan komputasi skala besar, dengan tujuan untuk menunjukkan ledakan instan yang tak tertandingi dalam perlombaan di garis depan kecerdasan.

Rodz: Ini sangat menarik. Apa hal baru yang dapat dilakukan Gemini 3 di tingkat konkret dibandingkan dengan semua model AI sebelumnya? Tolong berikan kami beberapa contoh yang dapat diukur dan praktis.

Woodward: Ada tiga poin yang paling menonjol. Pertama, dalam penalaran multi-langkah, ia dapat berpikir lebih banyak langkah secara bersamaan, kami telah meningkatkan keandalannya ke tingkat yang baru. Model generasi sebelumnya sering “kehilangan arah” atau mengalami halusinasi saat melakukan penalaran logis yang rumit pada langkah ke-5 atau ke-6, sementara Gemini 3 dapat dengan andal menyelesaikan tugas penalaran koheren dari 10 hingga 15 langkah, seperti perencanaan pajak yang kompleks, perencanaan dan pemesanan perjalanan lintas negara secara keseluruhan, atau melakukan debug menyeluruh pada sistem besar yang memiliki jutaan baris kode.

Kedua, itu akan pertama kalinya menghasilkan antarmuka interaktif yang sepenuhnya baru dalam skala besar. Kebutuhan pengguna tidak lagi sekadar jawaban teks sederhana, tetapi komponen perangkat lunak yang disesuaikan. Misalnya, jika Anda bertanya kepadanya: “Bantu saya merancang dasbor yang bisa melacak semua portofolio investasi saya,” itu akan secara real-time menghasilkan antarmuka dasbor yang interaktif dan dapat dioperasikan, bukan sekadar tumpukan deskripsi tentang cara membuat dasbor.

Ketiga, kami menginvestasikan sumber daya besar dalam kemampuan pengkodean, terutama dalam pengkodean “atmosfer”, yang berarti ia dapat menghasilkan kode antarmuka pengguna yang fungsional dan dirancang dengan indah berdasarkan petunjuk bahasa alami. Produk baru seperti Google Antigravity yang akan datang juga akan sepenuhnya menunjukkan hal ini, model dapat secara dinamis mengubah tata letak dan fungsi antarmuka pengguna berdasarkan konteks.

Newton: Banyak orang berpendapat bahwa untuk pengguna biasa, kasus penggunaan “chat” sudah hampir terpecahkan. Mereka bahkan tidak dapat memikirkan masalah baru yang dapat membuat jawaban Gemini 3 berbeda secara kualitatif dari pendahulunya. Apa pendapat Anda tentang pandangan ini?

Woodward: Saya memahami pandangan ini. Secara permukaan, akurasi pertanyaan dasar sudah sangat tinggi. Namun, perbedaan yang sebenarnya terletak pada keandalan, integrasi, dan cara penyajian informasi. Jawaban Gemini 3 akan lebih ringkas, lebih ekspresif, dan cara penyajian informasinya lebih mudah dipahami, ini adalah perubahan yang bisa langsung dirasakan oleh kebanyakan orang.

Yang lebih penting, model ini mulai terintegrasi secara mendalam dengan sumber data lain dari pengguna, seperti interaksi dengan produk lain dalam ekosistem Google, benar-benar melampaui mode tanya jawab yang sederhana, dan menjadi “pengurus digital” pengguna. Ia dapat memahami konteks seluruh email Anda, sehingga saat menyusun balasan, tidak hanya menjawab pertanyaan, tetapi juga dapat menyesuaikan nada dan konten berdasarkan gaya Anda yang lalu, serta hubungan Anda dengan penerima.

Hasabis: Saya sepenuhnya setuju. Keandalan, gaya, dan kepribadian telah dipoles dengan cermat, lebih ringkas, dan lebih tepat sasaran. Dalam skenario seperti “pengkodean suasana”, ini telah melampaui ambang kegunaan. Ini adalah perubahan dari “asisten pintar” menjadi “rekan kerja pintar”. Saya sendiri berencana menggunakannya untuk kembali ke pemrograman game selama liburan Natal, sekarang tidak hanya dapat menulis kode fungsional, tetapi juga dapat memberikan saran arsitektur pada tahap awal desain.

Lodz: Demis, ketika kamu diwawancarai oleh kami pada bulan Mei tahun ini, kamu menilai bahwa AGI masih membutuhkan 5 hingga 10 tahun, dan mungkin memerlukan beberapa terobosan besar. Apakah Gemini 3 mengubah jadwal tersebut?

Hasabis: Tidak sama sekali. Ini sepenuhnya sesuai dengan jalur yang telah kami tetapkan selama dua tahun terakhir. Faktanya, sejak peluncuran seri Gemini, kecepatan kemajuan kami adalah yang tercepat di industri. Gemini 3 sangat mengesankan, tetapi masih dalam batas yang diharapkan.

Jarak menuju kecerdasan buatan umum yang sejati masih memerlukan 1 hingga 2 terobosan kunci dalam konsistensi, kedalaman penalaran, mekanisme memori, dan pemodelan dunia fisik (seperti proyek SIMA dan Genie yang sedang kami lakukan). Apa yang kami lakukan sekarang adalah “pemikiran sistem 1” (cepat, intuitif), tetapi untuk mencapai AGI, kami harus membuka “pemikiran sistem 2” (lambat, dipikirkan dengan matang, analitis).

Selain itu, model perlu memiliki mekanisme memori jangka panjang yang selektif, mampu mengingat dan menerapkan konten interaksi tertentu dari minggu atau bulan yang lalu, bukan hanya terbatas pada jendela konteks yang terbatas. Oleh karena itu, penilaian 5 hingga 10 tahun tetap tidak berubah.

Newton: Mengenai kepribadian model dan hubungan pengguna, industri sedang ramai membahas “AI Companion”. Hubungan seperti apa yang Anda harapkan antara pengguna dan Gemini 3?

Woodward: Ini adalah masalah yang sangat sensitif tetapi penting. Kami menganggapnya sebagai “alat super” daripada pasangan emosional, nilai inti adalah membantu pengguna menyelesaikan tugas sehari-hari dengan efisien, meningkatkan produktivitas. Kami lebih fokus pada metrik baru di dalam perusahaan: Berapa banyak tugas yang telah kami bantu Anda selesaikan hari ini? Ini lebih dekat dengan nilai inti dari mesin pencari Google generasi pertama — efisiensi. Kami percaya bahwa memosisikan model sebagai pasangan emosional memiliki risiko keamanan dan menyimpang dari misi inti Google sebagai penyedia informasi dan alat.

Rodz: Apakah kalian telah membuat kesalahan strategi besar dengan melewatkan peluang pertumbuhan viral “pasangan erotis” ini?

Woodward: Tidak ada komentar. Tim keamanan kami memiliki standar dan pedoman yang ketat untuk ini.

Rodz: Dalam beberapa minggu terakhir, pesaing tampak jelas tegang. Apakah Anda percaya bahwa Google saat ini telah memimpin dalam perlombaan AI?

Hassabis: Lingkungan saat ini adalah kompetisi yang paling sengit dalam sejarah. Satu-satunya hal yang benar-benar penting adalah kecepatan kemajuan, dan kami sangat puas dengan hal itu. Kami tidak pernah kehilangan posisi terdepan dalam penelitian, sekarang produk kami akhirnya dapat mengikuti. Para pesaing sangat unggul dalam penelitian, tetapi dalam distribusi skala besar dan integrasi vertikal, mereka tidak dapat meniru keunggulan kami.

Kami sedang menyuntikkan Gemini ke dalam produk-produk yang digunakan oleh miliaran pengguna seperti Maps, YouTube, Android, pencarian, Workspace, dan lainnya. Jaringan distribusi ini dan umpan balik data terminal adalah benteng yang tidak dapat dilalui. Selain itu, keunggulan full-stack kami pada chip TPU yang disesuaikan membuat biaya dan efisiensi pelatihan kami jauh lebih unggul dibandingkan pesaing yang bergantung pada sumber daya GPU eksternal.

Newton: Bagaimana pendapatmu tentang perdebatan mengenai hukum skala dan pengembalian yang menurun? Beberapa orang berpendapat bahwa semakin besar skala model, semakin rendah manfaat marginal dari peningkatan kinerja.

Hasabis: Ini adalah debat yang berkelanjutan. Kami sangat puas dengan peningkatan Gemini 3 dibandingkan 2.5, yang sepenuhnya sesuai dengan harapan. Pengembalian tidak lagi tumbuh secara eksponensial seperti di awal, tetapi peningkatan kegunaan dan keandalan yang dibawanya masih jauh lebih tinggi daripada biaya marjinal kami, sehingga masih layak untuk kami investasikan sepenuhnya. Sebelum terjadinya 1 hingga 2 terobosan penelitian yang diperlukan untuk mencapai AGI, mendorong kinerja dengan model dasar skala maksimum tetap merupakan strategi yang paling efektif saat ini. Kami percaya, hukum skala masih berlaku.

Rodz: Apakah kita sedang berada dalam gelembung AI?

Hassabis: Ini adalah pertanyaan yang terlalu biner. Di beberapa bidang (seperti perusahaan yang mengumpulkan miliaran dolar di putaran pendanaan awal tetapi tidak memiliki produk nyata, hanya berbicara tentang konsep), memang ada gelembung, dengan penilaian yang tidak sebanding dengan pendapatan aktual. Namun, Google memiliki baik monetisasi jangka pendek (pencarian, Workspace, cloud TPU) maupun jalur baru bernilai triliunan jangka panjang (robotika, permainan, penemuan obat, ilmu material, dll.).

Misalnya, model profesional kami seperti AlphaFold sedang menciptakan nilai nyata di bidang penemuan obat, yang merupakan pasar bernilai triliun yang tidak terkait dengan penilaian AI konsumen. Terlepas dari apakah ada gelembung jangka pendek, kami akan menang: menangkap peluang di masa makmur dan lebih tangguh dengan keunggulan tumpukan penuh dan aliran kas yang kuat saat menyusut.

Newton: Jika sekarang adalah perayaan Hari Bersyukur dan seseorang ingin mengalihkan topik politik, apa yang akan Anda sarankan mereka gunakan dari Gemini 3 untuk membuat semua orang terkesan?

Woodward: Saya tidak tahu apakah itu bisa menyelamatkan Hari Bersyukur, tetapi itu bisa membawa tawa. Ambil selfie dengan ponsel, lalu biarkan Gemini 3 mengedit foto dengan gila.

Model gambar kami di Gemini masih yang terkuat di dunia. Anda dapat segera mengubah foto keluarga menjadi adegan, gaya, atau latar belakang yang lucu. Pasti bisa memicu tawa seluruh ruangan. Kemudian, ketika Anda menunjukkan bagaimana ia bisa membantu Anda menulis surat pengunduran diri yang sopan atau menghasilkan kalkulator resep liburan yang disesuaikan, mereka secara alami akan menjelajahi fitur baru lainnya.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.