Gemini3のリリース後、チームが発表：3つの革新点スケールの法則は依然として有効

金色财经_

2025-11-19 03:24:30

著者：無忌、テンセントテクノロジー特約翻訳

日本時間11月19日、GoogleがGemini 3シリーズモデルを発表した後、ニューヨークタイムズ傘下のテクノロジーポッドキャスト《Hard Fork》が特別番組を放送し、ホストのケビン・ルース（Kevin Roose）とケイシー・ニュートン（Casey Newton）がGoogle DeepMindのCEOであるデミス・ハサビス（Demis Hassabis）とGoogle Geminiチームの責任者であるジョシュ・ウッドワード（Josh Woodward）にインタビューを行った。

! CvRvOPvU1NPiq0pgWagbJg1eE6Ig1z0vIyfmcy1f.jpeg

今回のインタビューは、Googleが最新のフラッグシップAIモデルGemini 3（実際にはGemini 3.0シリーズのProバージョン）を発表したことに焦点を当てています。これは、GoogleがBardの失敗、Gemini 1.xおよび2.xの追い上げ期間を経て、業界から技術と製品のリーダーシップを取り戻したと広く認識される初めてのマイルストーン的な発表です。

2人の責任者は、Gemini 3の多段推論、コード生成（特にフロントエンドと「雰囲気コーディング」）、動的に生成されたインターフェースなどの分野でのブレークスルーについて詳しく説明し、Googleが最強のモデルを検索、Gmail、Workspaceなどの数十億のユーザー向け製品に迅速に導入し、競争の壁を再構築していることを強調しました。

インタビューの核心的な見解：

Gemini 3は期待される発展の軌跡に完全に一致しており、汎用人工知能（AGI）までにはまだ5〜10年と1〜2回の重大な研究突破が必要です；
グーグルの効率、コスト、配信におけるフルスタックの優位性は、どの市場環境においても勝利することを意味します；
AIバブルの部分は存在しますが、Googleは短期的な収益化と長期的な兆億規模の新たな道の二重保障を持っています。

以下はインタビュー内容の要約版です

ロッズ：ケイシー、今日は急遽特別番組を放送します。テーマはGemini 3のリリースです。

ニュートン：そうですね、ケビン。このモデルはシリコンバレーのAIコミュニティで長い間待たれていました。ついに私たちは本物の製品を体験することができます。

ロッズ：私たちが通常の金曜日のリリースリズムを破ってこのエピソードを特別に録音した理由は主に二つあります。まず第一に、私たちはGoogleの二人のAIコア責任者（DeepMindのCEOハサビスとGeminiチームの副社長ウッドワード）とのインタビューの機会を得ました。

次に、Gemini 3の発表は業界の強い関心を引き起こしました。我々は複数のラボからの内部情報を聞いており、このモデルは特定の重要な分野でブレークスルーを達成し、競合他社に実質的な脅威を与える可能性があると言われています。過去2年間、Googleは追いかける者と見なされていましたが、今の問題は彼らが再び先頭に戻ったのかということです。

ニュートン：正式にインタビューに入る前に、まず既知の情報を簡単に紹介します。Googleは発表前に非公開のブリーフィングを開催し、Gemini 3の最も注目すべき新機能には、飛躍的に向上したコーディングと「雰囲気コーディング」機能、および新しいインターフェース生成機能が含まれています。

それはもはや単に文字を出力するのではなく、ユーザーのためにカスタマイズされたインタラクティブなインターフェースを直接生成します。たとえば、ユーザーがヴァン・ゴッホの生涯について尋ねると、モデルは画像、タイムライン、インタラクティブな要素を含む完全な学習ページを即座に生成します。また、百万ドル以上の不動産のモーゲージ計算機を生成することもあります。これらの機能は、「質問に答える」から「体験を構築する」への移行を示しています。

ロッズ：すべての公開ベンチマークテストにおいて、Gemini 3はGemini 2.5 Proを大幅に上回っています。例えば、「人類の最後の試験」（Humanity's Last Exam）と呼ばれる学際的な博士級の難題集では、前者のスコアは21.6%に対し、後者は37.5%に直接向上しました。Googleの全体的な見解は、ChatGPT、Claude、または他の旧バージョンのGeminiで行える任務は、すべてGemini 3でより良く実行できるということです。

ニュートン：彼らはまた、Gemini Agentの初期デモを示しました：このモデルはユーザーのメールボックスに深くアクセスし、すべてのメール内容を理解し、自動的に分類し、返信を作成し、さらにはユーザーが受信トレイを完全に空にするのを助けます。

さらに、今週からGemini 3がGeminiアプリとGoogle検索のAIモードに登場します。アメリカの大学生は1年間の無料プレミアムアクセスを得ることができます。Googleが繰り返し強調しているキーワードは「Learn Anything」（何でも学ぶ）であり、これは実際にはGeminiを究極のパーソナライズされた教育ツールとして位置づけています。

ロッズ：デミス、ジョシ、ようこそ『ハードフォーク』へ。2年前、サンダー・ピチャイはBardを「改造されたホンダシビック」と比喩し、より強力な競合他社とのレースに挑んでいました。それでは、Gemini 3はどんな車ですか？

ハサビス：私はそれがホンダ・シビックよりもずっと速いことを望んでいます。私は車を比喩として使うのにあまり慣れていませんが、おそらくプロのドラッグレーサーのようなものです。それは日常の運転やサーキット用に設計されたものではなく、特定の目標に向けて凝縮された純粋な力を持っています。それは私たちの最先端の研究成果とスケールされた計算能力の完璧な結合を表しており、目的はこの知的最前線の競争において、比類なき瞬時の爆発力を示すことです。

ロズ：これは面白いですね。従来のすべてのAIモデルと比べて、Gemini 3は具体的にどのような新しいことができるのですか？いくつかの定量的で実際的な例を教えてください。

ウッドワード：最も際立っている点は三つあります。第一に、多段階推論において、同時により多くのステップを考えることができ、信頼性を新たなレベルに引き上げました。前のモデルは、5、6ステップの複雑な論理推論に進むと「思考を失う」か、幻覚を引き起こすことがよくありましたが、Gemini 3は10から15ステップの一貫した推論タスクを信頼性高く完了でき、例えば複雑な税務計画、国際出張の全体計画と予約、あるいは数百万行のコードを持つ大規模システムの全体デバッグを行うことができます。

次に、それは初めて大規模に新しいインタラクティブインターフェースを生成します。ユーザーのニーズはもはや単純なテキスト回答ではなく、カスタマイズされたソフトウェアコンポーネントです。例えば、あなたが「私のすべての投資ポートフォリオを追跡できるダッシュボードを設計してください」と尋ねると、それはリアルタイムでインタラクティブで操作可能なダッシュボードインターフェースを生成し、ダッシュボードの作り方を説明するテキストの束ではありません。

第三に、私たちはコーディング能力に多大なリソースを投入しています。特にフロントエンドと「雰囲気コーディング」に関してです。これは、自然言語の提示に基づいて完全な機能を持ち、デザインが美しいユーザーインターフェースのコードを生成できることを意味します。今後登場予定のGoogle Antigravityなどの新製品もこれを十分に示すことになるでしょう。モデルは文脈に応じてユーザーインターフェースのレイアウトと機能を動的に変更することができます。

ニュートン：多くの人々は、一般ユーザーにとって「チャット」というユースケースは基本的に解決されたと考えています。彼らは、Gemini 3の回答が前の世代と質的に異なる新しい問題を思いつくことすらできません。この見解についてどう思いますか？

ウッドワード：私はこの見解を理解しています。一見すると、基本的な質問応答の正確性は非常に高いですが、本当の違いは信頼性、統合度、そして情報の提示方法にあります。Gemini 3の回答は、より簡潔で、より表現力豊かで、情報の提示方法がより理解しやすくなっています。これはほとんどの人がすぐに感じ取れる変化です。

より重要なことは、モデルがユーザーの他のデータソースと深く統合し始めたことです。例えば、Googleエコシステム内の他の製品と連携し、単純な問答モデルを超えて、ユーザーの「デジタル大管家」となるのです。これにより、ユーザーのメール全体の文脈を理解し、返信を起草する際には、単に質問に答えるだけでなく、過去のスタイルや受取人との関係に基づいてトーンや内容を調整することができます。

ハサビス：私は完全に同意します。それの信頼性、スタイル、個性はすべて注意深く磨かれ、より簡潔で本質を突いています。「雰囲気コーディング」などのシーンでは、実用性の閾値を超えています。これは「スマートアシスタント」から「スマート同僚」への変化です。私自身はクリスマス休暇中にゲームプログラミングを再開するつもりで、今では機能コードを書くことができるだけでなく、設計の初期段階で構造の提案も行うことができます。

ロッズ：デミス、あなたは今年の5月に私たちのインタビューを受けたとき、AGIにはまだ5〜10年が必要で、いくつかの重大なブレークスルーが必要であると判断しました。Gemini 3はこのタイムラインを変えましたか？

ハサビス：全くありません。それは私たちが過去2年間に設定した軌道に完全に合致しています。実際、Geminiシリーズの開始以来、私たちの進歩の速さは業界で最も早いです。Gemini 3は驚くべきものでしたが、期待の範囲内です。

真の汎用人工知能までには、一貫性、推論の深さ、記憶メカニズム、そして物理世界のモデル化（私たちが進めているSIMAとGenieプロジェクトなど）において1～2回の重要な突破を達成する必要があります。今私たちが行っているのは「システム1思考」（速く、直感的）ですが、AGIを実現するためには「システム2思考」（遅く、深く考慮された、分析的）を解放する必要があります。

さらに、モデルは長期的で選択的な記憶メカニズムを備えている必要があり、数週間、数ヶ月前の特定のインタラクションの内容を思い出し、適用できることが求められます。それにより、5年から10年の判断は変わりません。

ニュートン：モデルの個性とユーザー関係について、業界では「AIパートナー」が熱く議論されています。ユーザーがGemini 3とのどのような関係を築くことを望んでいますか？

ウッドワード：これは非常に敏感で重要な問題です。私たちはそれを「スーパーツール」として位置付け、感情的な伴侶ではなく、核心的な価値はユーザーが日常のタスクを効率的に完了し、生産性を向上させることです。私たちは内部で新しい指標にもっと注目しています：今日は私たちがあなたがどれだけのタスクを完了するのを手助けしたか？これは初代Google検索の核心的な価値である「効率」により近いです。私たちは、モデルを感情的な伴侶として位置付けることには安全リスクがあり、Googleが情報とツールの提供者としての核心的な使命から逸脱していると考えています。

ロッズ：あなたたちは「エロティックパートナー」というウイルス的な成長の機会を放棄しましたが、それは重大な戦略的ミスですか？

ウッドワード：お答えできません。私たちのセキュリティチームは、これに対して厳格な規範とガイドラインを設けています。

ロズ：過去数週間、競争相手は明らかに緊張しています。あなたは現在、GoogleがAI競争においてリードしていると思いますか？

ハサビス：現在の環境は史上最も激しい競争です。唯一本当に重要なのは進歩の速度であり、私たちはこれに非常に満足しています。私たちは研究の先頭を失ったことはなく、今や製品の実用化がようやく追いつきました。競合他社は研究において優れていますが、スケールの拡大と垂直統合において、彼らは私たちの優位性をコピーすることができません。

私たちは、GeminiをMaps、YouTube、Android、検索、Workspaceなどの何十億ものユーザー製品に注入しています。この配信ネットワークとエンドデータフィードバックループは、越えられない堀です。さらに、カスタマイズされたTPUチップのフルスタックの利点により、私たちのトレーニングコストと効率は、外部のGPUリソースに依存している競合他社をはるかに上回っています。

ニュートン：スケールの法則と収益逓減についての議論、あなたはどう思いますか？モデルのスケールが大きくなるほど、性能向上の限界利益は低くなると考える人もいます。

ハサビス：これは継続的な議論です。私たちはGemini 3が2.5に比べて大幅に向上したことに非常に満足しており、期待通りです。リターンは初期のように指数関数的な爆発的成長を示してはいませんが、実用性の向上と信頼性の向上は依然として私たちの限界コストを大きく上回り、全力で投資する価値があります。AGIに到達するために必要な1から2回の研究のブレークスルーが訪れる前に、最大規模の基盤モデルを通じてパフォーマンスを継続的に向上させることが、現在最も効果的な戦略であると考えています。私たちは、スケールの法則が依然として有効であると信じています。

ロッズ：私たちはAIバブルの中にいるのでしょうか？

ハサビス：これはあまりにも二元的な問題です。ある分野（例えば、数十億ドルのシードラウンドで実際の製品がなく、概念のみを話す会社）には確かにバブルが存在し、評価額と実際の収入が不釣り合いです。しかし、Googleは短期的な収益化（検索、Workspace、クラウドTPU）と長期的な兆円規模の新しい市場（ロボット、ゲーム、医薬品発見、材料科学など）を同時に持っています。

例えば、私たちのAlphaFoldなどの専門モデルは、医薬品発見の分野で実際の価値を生み出しており、これは消費者AIの評価とは無関係な1兆ドル規模の市場です。短期的なバブルの有無にかかわらず、私たちは勝利します：繁栄の時にチャンスを掴み、収縮の時には全スタックの優位性と豊富なキャッシュフローでより弾力性を持ちます。

ニュートン：もし今が感謝祭の集まりで、誰かが政治の話題を変えたいと思ったら、あなたは彼らにGemini 3のどの機能を使って場を驚かせることを勧めますか？

ウッドワード：それが感謝祭を救えるかどうかわからないが、笑いをもたらすことはできる。携帯電話でセルフィーを撮影し、Gemini 3で写真を大胆に編集しよう。

私たちのGeminiの画像モデルは、世界中で依然として最強です。あなたは瞬時に家族の写真をあらゆるコミカルなシーン、スタイル、または時代背景に変えることができます。絶対に全場を笑わせることができます。その後、あなたがそれを使って適切な辞職届を書く手助けをしたり、カスタマイズされたホリデーレシピ計算機を生成する方法を示すと、彼らは自然と他の新しい機能を探求するでしょう。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。