¿Quién será eliminado cuando el navegador se convierta en el próximo campo de batalla de la IA?

El futuro de la IA está en los agentes que puedan navegar por las páginas web de forma autónoma. Las empresas tecnológicas están invirtiendo en el desarrollo de proxies de navegador para automatizar las tareas web y aumentar la productividad. Este artículo explora sus casos de uso, los desafíos actuales y las oportunidades que presentan los escenarios nativos de Web3. Este artículo fue escrito por Mario Chow y Figo, @IOSG, y fue compilado, compilado y contribuido por BlockBeats. OpenAI Sam Altman: ¡Estoy interesado en adquirir Google Chrome!) La batalla de navegadores más grande en los mercados participantes) (Antecedentes: Perpleity ofrece $ 34.5 mil millones para adquirir el navegador Chrome, los secuaces del motor de búsqueda de IA luchan contra gigantes) En los últimos 12 meses, la relación entre los navegadores web y la automatización ha cambiado drásticamente. Casi todas las grandes empresas tecnológicas se están esforzando por crear su propio (browser agent) de proxy de navegador. Desde finales de 2024, esta tendencia se está volviendo más pronunciada: OpenAI lanzó el modo Agente en enero, Anthropic lanzó el "uso de computadoras" para el modelo Claude, Google DeepMind lanzó Project Mariner, Opera anunció el navegador proxy Neon y Perplexity AI lanzó el navegador Comet. La señal es clara: el futuro de la IA está en los agentes que puedan navegar por las páginas web de forma autónoma. Esta tendencia no se trata solo de agregar chatbots más inteligentes a los navegadores, sino que es un cambio fundamental en la forma en que las máquinas interactúan con el entorno digital. Los agentes del navegador son sistemas de IA que "ven" las páginas web y actúan: hacen clic en enlaces, rellenan formularios, se desplazan por las páginas, introducen texto: al igual que los usuarios humanos. Este modelo promete desbloquear una enorme productividad y valor económico al automatizar tareas que aún son manuales o demasiado complejas para el scripting tradicional. ▲ Demostración de GIF: agente de navegador AI en acción: siga las instrucciones, navegue hasta la página del conjunto de datos de destino, tome capturas de pantalla automáticamente y extraiga los datos requeridos. ¿Quién ganará la guerra de los navegadores de IA? Casi todas las grandes empresas tecnológicas ( así como algunas startups ) están desarrollando sus propios agentes de IA para navegadores. Estos son algunos de los proyectos más representativos: OpenAI – Modo Agente El modo Agente de OpenAI ( anteriormente conocido como Operador, lanzado en enero de 2025 ) es un agente de IA con su propio navegador. Los operadores pueden manejar una variedad de tareas repetitivas en línea: completar formularios web, pedir comestibles, programar reuniones: todo a través de una interfaz web estándar comúnmente utilizada por los humanos. ▲ Los agentes de IA programan reuniones como asistentes profesionales: consulta calendarios, encuentra franjas horarias disponibles, crea eventos, envía confirmaciones y genera documentos .ics por ti. Anthropic – El "uso de la computadora" de Claude A finales de 2024, Anthropic presentó una nueva función de "Uso de la computadora ( la computadora )Use" para Claude 3.5, que le da la capacidad de operar computadoras y navegadores como un humano. Claude puede mirar la pantalla, mover el cursor, hacer clic en botones e introducir texto. Esta es la primera herramienta de proxy de modelo grande de su tipo que ingresa a la versión beta pública, lo que permite a los desarrolladores permitir que Claude navegue por sitios web y aplicaciones automáticamente. Anthropic lo posiciona como una característica experimental con el objetivo principal de automatizar los flujos de trabajo de varios pasos en las páginas web. Perplexity - La startup de IA de Comet, Perplexity, ( mejor conocida por su motor de preguntas y respuestas ) lanzó el navegador Comet a mediados de 2025 como una alternativa impulsada por IA a Chrome. En esencia, Comet es un motor de búsqueda de IA conversacional integrado en la barra de URL (omnibox) que proporciona preguntas y respuestas instantáneas y resúmenes en lugar de enlaces de búsqueda tradicionales. Además, Comet tiene incorporado Comet Assistant, un agente residente en la barra lateral que automatiza las tareas rutinarias en todos los sitios. Por ejemplo, puede resumir los mensajes que abre, programar una reunión, administrar la paginación del navegador o examinar y rastrear información web en su nombre. Al permitir que los agentes estén al tanto del contenido web actual a través de una interfaz de barra lateral, Comet tiene como objetivo combinar a la perfección la navegación con los asistentes de IA. Escenarios de aplicación del mundo real de proxies de navegador En el artículo anterior, hemos revisado cómo ( importantes empresas de tecnología como )OpenAI, Anthropic, Perplexity, etc. han (browser proxies de navegador a través de diferentes formas de productos agents) Inyectar funcionalidad. Para comprender su valor de manera más intuitiva, podemos echar un vistazo más de cerca a cómo estas capacidades se pueden aplicar a la vida cotidiana y a los flujos de trabajo corporativos en escenarios del mundo real. Automatización Web Diaria # E-commerce & Personal Shopping Un escenario muy práctico es delegar las tareas de compra y reserva a un agente. Los agentes pueden completar automáticamente su carrito de compras en línea y realizar pedidos en función de listas fijas, o pueden encontrar los precios más bajos en varios minoristas y completar el proceso de pago en su nombre. Para viajar, puedes pedirle a la IA que realice tareas como: "Resérvame un vuelo a Tokio el próximo mes ( tarifa inferior a 800 ) dólares y reserva un hotel con Wi-Fi gratuito". El agente se encarga de todo el proceso: búsqueda de vuelos, comparación de opciones, rellenar la información de los pasajeros, completar las reservas de hotel, todo ello a través de los sitios web de las aerolíneas y los hoteles. Este nivel de automatización va mucho más allá de los robots de viaje existentes: no se trata solo de recomendar, sino de ejecutar compras directamente. # Mejorar la eficiencia de la oficina Los proxies son capaces de automatizar muchas de las acciones comerciales repetitivas que las personas realizan en sus navegadores. Por ejemplo, organice los correos electrónicos y extraiga las listas de tareas pendientes, o compruebe si hay huecos en varios calendarios y programe reuniones automáticamente. El asistente Comet de Perplexity ya puede resumir el contenido de su bandeja de entrada o agregar una agenda para usted a través de la interfaz web. Los agentes también pueden iniciar sesión en la herramienta SaaS para generar informes periódicos, actualizar hojas de cálculo o enviar formularios una vez que usted lo autorice. Imagine un agente de recursos humanos que puede iniciar sesión automáticamente en diferentes bolsas de trabajo para publicar trabajos; O un agente de ventas que pueda actualizar el perfil del cliente potencial para el sistema CRM. Estas tareas mundanas habrían consumido mucho tiempo de los empleados, pero la IA puede hacerlo automatizando los formularios web y las acciones de la página. Además de una sola tarea, los agentes pueden conectar flujos de trabajo completos a través de múltiples sistemas de red. Todos estos pasos deben realizarse en diferentes interfaces web, que es el punto fuerte del agente del navegador. Los agentes pueden iniciar sesión en varios paneles para solucionar problemas e incluso orquestar procesos como la incorporación de nuevos empleados ( la creación de ) de cuentas en varios sitios SaaS. Esencialmente, cualquier operación de varios pasos que actualmente requiera hacer clic en varios sitios puede ser realizada por un agente. Desafíos y limitaciones de hoy En día A pesar del potencial, los proxies de navegador actuales aún están lejos de ser perfectos. Las implementaciones actuales revelan algunos desafíos técnicos y de infraestructura de larga data: La arquitectura no coincide con la arquitectura moderna...

AGENT-5.32%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)